一体化医学语言系统

医学信息学工具

一体化医学语言系统英语Unified Medical Language SystemUMLS),又称为统一医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换;同时,UMLS也被看作是生物医学概念所构成的一部广泛全面的叙词表本体。UMLS还进一步提供有若干适用于自然语言处理的工具。UMLS主要旨在供医学信息学领域的信息系统开发人员使用。[1]

UMLS由下列组件构成:

美国国立医学图书馆(英文:National Library of Medicine,NLM)设计了并负责维护着UMLS。UMLS每季度更新一次,且可以免费使用。该项目最初是由Donald Lindberg医学士于1986年发起的(Donald Lindberg后来担任了国立医学图书馆馆长)。[2]

目的和应用

目前,研究人员所能获得和使用的生物医学资源数量庞大。当对医学文献进行搜索的时候,检索到的文档数量巨大于是就成了一个问题。UMLS旨在通过促进那些能够理解生物医学语言的计算机系统的开发工作,来加强对于这些文献的获得和使用。这一目标是通过攻克两大障碍来实现的:“不同机读型来源和不同人员表达相同概念时所采用的形形色色的方式”与“有益的信息在许多互不相同的数据库和系统之间的分发和传播”。

UMLS可用于设计信息检索病历系统,促进不同系统之间的通讯交流,或者用于开发能够解析生物医学文献的系统。对于许多此类应用而言,将不得不以某种自定义形式来使用UMLS;比如,排除某些与当前应用并不相关的源词表国立医学图书馆本身则正在将UMLS用于自己的PubMedClinicalTrials.gov临床试验系统。

UMLS用户必须签署“UMLS协议”并且就自己的使用情况填报简要的年度报告。学术用户可以将UMLS免费用于科学研究工作。就其中所收录的某些源词表而言,商业或生产方面的用途则要求签署版权协议

超级叙词表

超级叙词表 Metathesaurus 构成的是UMLS的基础。Metathesaurus 之中收录有100多万个生物医学概念和500多万个概念名称,而所有这些都源自UMLS所收录的100多部受控词表和分类系统,如ICD-9-CMICD-10MeSHSNOMED CTLOINC世界卫生组织药物不良反应术语集(WHO Adverse Drug Reaction Terminology,WHO-ART)、英国临床术语(UK Clinical Terms,又称为Read Codes)、RxNORM基因本体(英文:Gene Ontology,GO)和OMIM(参见完整的源词表列表页面存档备份,存于互联网档案馆))。

Metathesaurus是按照概念来组织编排的。每个概念分别都拥有若干用来定义其含义的具体属性,并且分别与各个源词表之中相应的概念名称相链接。而且,不同概念之间还表达有众多的关系;比如,“is a”(是一种...)之类用于表示子类关系层级结构关系、用于表示亚单位关系的“is part of”(是...的组成部分)以及“is caused by”(由...引起)之类的关联关系或“in the literature often occurs close to”(在文献之中常常出现在...附近)(后者源自Medline)。

源词表的适用范围决定着Metathesaurus的适用范围。不同的词表对于同一概念采用的是不同的名称,或者它们对于不同的概念采用的是相同的名称,这些情况都会忠实地体现在Metathesaurus之中。Metathesaurus之中保留了所有来自源词表的层级结构信息。Metathesaurus概念尚可链接到该数据库之外的资源,如基因序列数据库

Metathesaurus本身是通过自动化处理源词表的机读型版本,并随后在编辑和审核方面进行人工干预而产生的。Metathesaurus的分发形式为一种SQL关系数据库,且可以通过一种Java面向对象应用编程接口(API)来加以访问。

语义网络

Metathesaurus之中的每个概念都指定有至少一种“语义类型(Semantic type)”(即一种类别)。某些“语义关系”可以存在于多种语义类型的成员之间。语义网络正是这些语义类型和语义关系所构成的一种网络式目录。这是一种相当宽泛的分类;目前,其中共计有135种语义类型和54种语义关系。

主要的语义类型包括生物解剖学结构生物学功能化学物质事件有形对象(物理对象;英文:physical objects)以及概念

语义类型之间的链接为语义网络提供的是结构,显示了分组与概念之间的重要关系。语义类型之间的基本链接是“isa”链接,又可称为类属关系。依靠这种关系建立起来的是一种由类型构成的层级结构,使我们能够找出最为特殊的语义类型,从而将其赋予某个Metathesaurus概念。语义网络同时还备有5种主要类型的非层级结构关系,或者称为关联关系;它们分别是“physically related to”(物理上与...相关)、“spatially related to”(空间上与...相关)、“temporally related to”(时间上与...相关)、“functionally related to”(功能上与...相关)以及“conceptually related to”(概念上与...相关)。

语义类型的有关信息包括标识符定义、示例、关于上级语义类型的层级结构信息以及关联关系。语义网络之中关联关系的强度非常弱。它们所采集的顶多是某些-某些型关系(some-some relationships);也就是说,此类关系记录的事实就是,前一类型的某些实例可能与后一类型的某些实例之间具有显著的这种关系。换句话说,它们所记录的事实就是,相应的关系断言具有实际意义(尽管对于所有情况来说,这种断言并不一定都成立)。

专家辞典

专家辞典 SPECIALIST Lexicon 之中收录的是关于常见英语单词、生物医学术语以及存在于MEDLINE以及UMLS Metathesaurus之中的术语的信息。其中,每个条目分别含有句法(如何将若干词语组合起来,创建出某种含义)、构词法(形式和结构)以及正字法(拼写)方面的信息。一套Java程序利用该专家辞典,通过词类(英文:parts of speech)把单词关联起来,来分析生物医学文本之中的词汇变体。这将有助于网络搜索或者对于电子病历的搜索。

专家辞典条目可以是单个单词型或多个单词型的术语。相应的记录包括四个组成部分:基本形式(比如,“run”是“running”的基本形式)、词类(比如,eleven就是专家辞典所认识的词类之一)、唯一性标识符以及任何现成可用的拼写形式。例如,在专家辞典之中查询“anesthetic”一词,它就会返回下列信息:

{base=anaesthetic
spelling_variant=anesthetic
entry=E0008769
cat=noun
variants=reg}
{base=anaesthetic
spelling_variant=anesthetic
entry=E0008770
cat=adj
variants=inv
position=attrib(3)}

(Browne et al., 2000)专家辞典备有两种格式。如上所示即为“单元记录”(unit record)格式,由slots(槽/存储槽)和fillers(填充信息)组成。属于数据元(即"基本形式=" or "拼写形式="),而填充信息则是指属于当前条目存储槽的那些取值。“关系表”格式则尚未实现规范化,其中存在大量的数据重复现象。

支持性软件工具

  • MetamorphoSys 是一个可以用来为特定的应用自定义/定制Metathesaurus的程序,如排除某些源词表。
  • lvg 是一个利用SPECIALIST lexicon为特定术语生成词汇变体以及支持自然语言文本解析的程序。
  • MetaMap 是一个在线工具。当为其提供任意一段文字的时候,它将查找并返回与此相关的Metathesaurus概念。MetaMap Transfer (MMTx) 是一个Java程序,提供的是与前者相同的功能。

参考文献

  1. ^ Unified Medical Language System, 1996 [2020-03-04], (原始内容存档于2021-02-14) 
  2. ^ Ellison D, Humphreys BL, Mitchell J. Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient. Journal of the American Medical Informatics Association. July 2010, 17 (4): 481–5. PMC 2995660 . PMID 20595319. doi:10.1136/jamia.2010.005728. 

延伸閲讀

参见

外部链接