一體化醫學語言系統

医学信息学工具

一體化醫學語言系統英語Unified Medical Language SystemUMLS),又稱為統一醫學語言系統,是對生物醫學科學領域內許多受控詞表的一部綱目式彙編。UMLS提供的是一種位於這些詞表之間的映射結構,使這些不同的術語系統之間能夠彼此轉換;同時,UMLS也被看作是生物醫學概念所構成的一部廣泛全面的敘詞表本體。UMLS還進一步提供有若干適用於自然語言處理的工具。UMLS主要旨在供醫學信息學領域的信息系統開發人員使用。[1]

UMLS由下列組件構成:

美國國立醫學圖書館(英文:National Library of Medicine,NLM)設計了並負責維護著UMLS。UMLS每季度更新一次,且可以免費使用。該項目最初是由Donald Lindberg醫學士於1986年發起的(Donald Lindberg後來擔任了國立醫學圖書館館長)。[2]

目的和應用

目前,研究人員所能獲得和使用的生物醫學資源數量龐大。當對醫學文獻進行搜索的時候,檢索到的文檔數量巨大於是就成了一個問題。UMLS旨在通過促進那些能夠理解生物醫學語言的計算機系統的開發工作,來加強對於這些文獻的獲得和使用。這一目標是通過攻克兩大障礙來實現的:「不同機讀型來源和不同人員表達相同概念時所採用的形形色色的方式」與「有益的信息在許多互不相同的資料庫和系統之間的分發和傳播」。

UMLS可用於設計信息檢索病歷系統,促進不同系統之間的通訊交流,或者用於開發能夠解析生物醫學文獻的系統。對於許多此類應用而言,將不得不以某種自定義形式來使用UMLS;比如,排除某些與當前應用並不相關的源詞表國立醫學圖書館本身則正在將UMLS用於自己的PubMedClinicalTrials.gov臨床試驗系統。

UMLS用戶必須簽署「UMLS協議」並且就自己的使用情況填報簡要的年度報告。學術用戶可以將UMLS免費用於科學研究工作。就其中所收錄的某些源詞表而言,商業或生產方面的用途則要求籤署版權協議

超級敘詞表

超級敘詞表 Metathesaurus 構成的是UMLS的基礎。Metathesaurus 之中收錄有100多萬個生物醫學概念和500多萬個概念名稱,而所有這些都源自UMLS所收錄的100多部受控詞表和分類系統,如ICD-9-CMICD-10MeSHSNOMED CTLOINC世界衛生組織藥物不良反應術語集(WHO Adverse Drug Reaction Terminology,WHO-ART)、英國臨床術語(UK Clinical Terms,又稱為Read Codes)、RxNORM基因本體(英文:Gene Ontology,GO)和OMIM(參見完整的源詞表列表頁面存檔備份,存於網際網路檔案館))。

Metathesaurus是按照概念來組織編排的。每個概念分別都擁有若干用來定義其含義的具體屬性,並且分別與各個源詞表之中相應的概念名稱相連結。而且,不同概念之間還表達有眾多的關係;比如,「is a」(是一種...)之類用於表示子類關係層級結構關係、用於表示亞單位關係的「is part of」(是...的組成部分)以及「is caused by」(由...引起)之類的關聯關係或「in the literature often occurs close to」(在文獻之中常常出現在...附近)(後者源自Medline)。

源詞表的適用範圍決定著Metathesaurus的適用範圍。不同的詞表對於同一概念採用的是不同的名稱,或者它們對於不同的概念採用的是相同的名稱,這些情況都會忠實地體現在Metathesaurus之中。Metathesaurus之中保留了所有來自源詞表的層級結構信息。Metathesaurus概念尚可連結到該資料庫之外的資源,如基因序列資料庫

Metathesaurus本身是通過自動化處理源詞表的機讀型版本,並隨後在編輯和審核方面進行人工干預而產生的。Metathesaurus的分發形式為一種SQL關係資料庫,且可以通過一種Java物件導向應用編程接口(API)來加以訪問。

語義網絡

Metathesaurus之中的每個概念都指定有至少一種「語義類型(Semantic type)」(即一種類別)。某些「語義關係」可以存在於多種語義類型的成員之間。語義網絡正是這些語義類型和語義關系所構成的一種網絡式目錄。這是一種相當寬泛的分類;目前,其中共計有135種語義類型和54種語義關係。

主要的語義類型包括生物解剖學結構生物學功能化學物質事件有形對象(物理對象;英文:physical objects)以及概念

語義類型之間的連結為語義網絡提供的是結構,顯示了分組與概念之間的重要關係。語義類型之間的基本連結是「isa」連結,又可稱為類屬關係。依靠這種關係建立起來的是一種由類型構成的層級結構,使我們能夠找出最為特殊的語義類型,從而將其賦予某個Metathesaurus概念。語義網絡同時還備有5種主要類型的非層級結構關係,或者稱為關聯關係;它們分別是「physically related to」(物理上與...相關)、「spatially related to」(空間上與...相關)、「temporally related to」(時間上與...相關)、「functionally related to」(功能上與...相關)以及「conceptually related to」(概念上與...相關)。

語義類型的有關信息包括標識符定義、示例、關於上級語義類型的層級結構信息以及關聯關係。語義網絡之中關聯關係的強度非常弱。它們所採集的頂多是某些-某些型關係(some-some relationships);也就是說,此類關係記錄的事實就是,前一類型的某些實例可能與後一類型的某些實例之間具有顯著的這種關係。換句話說,它們所記錄的事實就是,相應的關係斷言具有實際意義(儘管對於所有情況來說,這種斷言並不一定都成立)。

專家辭典

專家辭典 SPECIALIST Lexicon 之中收錄的是關於常見英語單詞、生物醫學術語以及存在於MEDLINE以及UMLS Metathesaurus之中的術語的信息。其中,每個條目分別含有句法(如何將若干詞語組合起來,創建出某種含義)、構詞法(形式和結構)以及正字法(拼寫)方面的信息。一套Java程序利用該專家辭典,通過詞類(英文:parts of speech)把單詞關聯起來,來分析生物醫學文本之中的詞彙變體。這將有助於網絡搜索或者對於電子病歷的搜索。

專家辭典條目可以是單個單詞型或多個單詞型的術語。相應的記錄包括四個組成部分:基本形式(比如,「run」是「running」的基本形式)、詞類(比如,eleven就是專家辭典所認識的詞類之一)、唯一性標識符以及任何現成可用的拼寫形式。例如,在專家辭典之中查詢「anesthetic」一詞,它就會返回下列信息:

{base=anaesthetic
spelling_variant=anesthetic
entry=E0008769
cat=noun
variants=reg}
{base=anaesthetic
spelling_variant=anesthetic
entry=E0008770
cat=adj
variants=inv
position=attrib(3)}

(Browne et al., 2000)專家辭典備有兩種格式。如上所示即為「單元記錄」(unit record)格式,由slots(槽/存儲槽)和fillers(填充信息)組成。屬於數據元(即"基本形式=" or "拼寫形式="),而填充信息則是指屬於當前條目存儲槽的那些取值。「關係表」格式則尚未實現規範化,其中存在大量的數據重複現象。

支持性軟體工具

  • MetamorphoSys 是一個可以用來為特定的應用自定義/定製Metathesaurus的程序,如排除某些源詞表。
  • lvg 是一個利用SPECIALIST lexicon為特定術語生成詞彙變體以及支持自然語言文本解析的程序。
  • MetaMap 是一個在線工具。當為其提供任意一段文字的時候,它將查找並返回與此相關的Metathesaurus概念。MetaMap Transfer (MMTx) 是一個Java程序,提供的是與前者相同的功能。

參考文獻

  1. ^ Unified Medical Language System, 1996 [2020-03-04], (原始內容存檔於2021-02-14) 
  2. ^ Ellison D, Humphreys BL, Mitchell J. Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient. Journal of the American Medical Informatics Association. July 2010, 17 (4): 481–5. PMC 2995660 . PMID 20595319. doi:10.1136/jamia.2010.005728. 

延伸閲讀

參見

外部連結