本体 (信息科学)

表達概念之間關係的模型
(重定向自本体论 (信息科学)

计算机科学信息科学中,本体是指对概念、数据和实体之间的类别、属性和关系的表示、命名和定义,这些概念、数据和实体构成了一个、大量或所有的论域[1]。本体提供的是特定领域之中那些存在着的对象类型或概念及其属性和相互关系[2];或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是「对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)」。本体是人们以自己兴趣领域知识为素材,运用信息科学的本体论原理而编写出来的作品英语Artifact (software development)。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将本体称为本体论

简单的本体示例:关于动物概念及其相互关系所构成的语义网络

作为一种关于现实世界或其中某个组成部分的知识表达形式,本体目前的应用领域包括(但不仅限于):人工智能语义网软件工程生物医学信息学图书馆学以及信息架构

概述

英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者说)、属性以及关系类型所构成的世界。尽管不同的本体对于这些构成成分的确切称谓有所不同,但它们却都是一部本体不可或缺的基本要素。一般来说,人们所普遍期望的一点就是,本体之中模型的那些特征应当非常类似于相应的现实世界[3]

就计算机科学与哲学来说,二者所说的本体之间的共同之处就在于,它们都是依据某种类别体系,来表达实体概念、事件及其属性和相互关系。在这两个领域当中,存在针对本体相对性(ontological relativity)的种种问题(比如,哲学领域的奎因克里普克,计算机科学领域的索瓦英语John F. Sowa高利诺英语Nicola Guarino),人们已经和正在开展相当大量的工作[4];而且,人们也在讨论关于规范化本体是否具有生命活力(比如,哲学领域之中针对基础主义(foundationalism)的讨论,人工智能领域之中针对Cyc项目的讨论)。二者之间的那些差别在很大程度上只是侧重点的问题。与计算机科学领域的研究人员相比,哲学家们则较少关心建立固定不变的受控词表。然而,计算机科学家们则较少参与有关首要原则的讨论(比如,关于是否存在诸如不变本质fixed essences)之类事物的讨论,或者关于实体在本体论上必定比过程更为基本的讨论)。

历史

 
奥格登理查兹英语I. A. Richards语义三角[5]
 
语义三角事物概念符号之间的关系

从历史上来看,本体源自哲学之中称为“形而上学”的分支。形而上学所关注的是现实本质,也就是存在的本质。作为哲学的一个基本分支,形而上学关注的是分析存在的各种类型或模式,且往往尤其关注共相殊相之间的关系、本征性质与非本征性质英语Intrinsic and extrinsic properties之间的关系以及本质存在之间的关系。本体论探索活动的传统目标尤其是,为了揭示那些基本的类别或者说种类,而在关键之处将现实世界划分为对象的自然类别[6]

二十世纪下半叶,哲学家们就如何构建本体的可行方法或途径展开过广泛的讨论,但实际上他们自己却并没有真正“构建”出任何非常精细详尽的本体。与此相比,计算机科学家们当时则正在构建着一些大型而又稳健的本体(如WordNetCyc),但相对来说却很少针对“如何”构建本体而进行辩论。

自二十世纪70年代中期以来,人工智能(简称AI)领域的研究人员认识到,知识的获取乃是构建强大AI系统的关键所在。AI研究人员认为,他们可以把新的本体创建成为计算模型,从而成就特定类型的自动推理。二十世纪80年代,AI领域就开始采用术语ontology来同时指称关于模型化世界的一种理论以及知识系统的一种组件。借助于来自哲学本体论的灵感,一些研究人员继而把计算机本体论视为一种应用哲学[7]

二十世纪90年代初期,汤姆·格鲁伯英语Tom Gruber发表了一篇后来得到广泛引用的网页和论文迈向知识共享型本体的设计原则[8]。之所以该论文获得人们如此的青睐,那要归功于其中格鲁伯对于计算机科学术语ontology”的审慎定义。格鲁伯采用这条术语来指一种对于某一概念体系概念表达概念化过程)(conceptualization)的详细说明specification,明确表述)。也就是说,就像关于特定程序的形式化规格说明(形式化规约)那样,本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。这项定义与“ontology”作为“概念定义之集合”的用法是一致的,但相对来说要显得更为通用。不过,这个单词在此的含义却有别于哲学领域对它的用法

本体往往等同于那些由各种类、类之定义以及归类关系(subsumption relation)所构成的分类法层次结构,但本体并不一定仅限于此类形式。同时,本体也并不局限于保守型的定义(也就是传统逻辑学意义上的那些定义,它们所引入和采用的仅仅是术语,而没有添加任何有关现实世界的知识)[9]。要明确而又详细地说明所要表达的某个概念之时,我们需要声明若干的公理,从而对所定义术语的那些可能解释加以约束和限制[10]

在二十一世纪伊始的头几年,认知科学跨学科项目一直在将这两个领域的学者群体拉得更近[來源請求]。例如,有人谈到“哲学领域当中的计算机化转变”。在这种转变当中,包括哲学家们分析计算机科学领域所编制的形式化本体(有时甚至还在工作中直接运用计算机软件),而与此同时,计算机科学领域的研究人员也在越来越多地引用那些致力于本体论的哲学家们的研究工作(有时甚至还是后者方法的直接结果)。不过,在这两个领域当中,依然有许多学者并未顺从认知科学的这种发展趋势,并且仍继续相互独立地开展着自己的工作,分别从事着各自的所关心的事情。

本体构成要素

 
软件工程领域之中所常见的实体关系模型
 
交通工具本体的局部:“Car”(汽车)这个类拥有两个子类“2-Wheel Drive Car”(两轮驱动型汽车)和“4-Wheel Drive Car”(四轮驱动型汽车)
 
关系:“Ford Explorer”(福特探索者)是一种“4-Wheel Drive Car”(四轮驱动型汽车),而后者则是一种“Car”(汽车)

就现有的各种本体而言,无论其在表达上采用的究竟是何种语言,在结构上都具有许多的相似性。如前所述,大多数本体描述的都是个体(实例)、类(概念)、属性以及关系。在这一节当中,我们将分别依次论述本体的这些构成要素。

常见的本体构成要素包括:

  • 个体(实例):基础的或者说“底层的”对象。
  • 类:集合sets)、概念、对象类型或者说事物的种类[注释 1]
  • 属性:对象(和类)所可能具有的属性、特征、特性、特点和参数。
  • 关系:类与个体之间的彼此关联所可能具有的方式。
  • 函式术语:在声明语句当中,可用来代替具体术语的特定关系所构成的复杂结构。
  • 约束(限制):采取形式化方式所声明的,关于接受某项断言作为输入而必须成立的情况的描述。。
  • 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的,if-then(前因-后果)式语句形式的声明。
  • 公理:采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言,“公理”之中还包括依据公理型声明所推导得出的理论。
  • 事件 (哲学):属性或关系的变化。

领域本体与上层本体

 
通用形式化本体英语General Formal OntologyGeneral Formal Ontology,GFO)的基本分类树

领域本体domain ontology或者说domain-specific ontology,即领域特异性本体)所建模的是某个特定领域,或者现实世界的一部分。领域本体所表达的是那些适合于该领域的那些术语的特殊含义。例如,就拿具有许多种含义的英文单词card”来说。关于扑克领域的本体可能会赋予该词以“打扑克”的意思,而关于计算机硬件领域的本体则可能会赋予其“穿孔卡片”和“视频卡”的意思。

上层本体英语Upper ontology (computer science)upper ontology或者说foundation ontology,即基础本体)是指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表英语Core glossary,可以用来描述一套领域当中的对象。目前,存在着几部现成可用的标准化上层本体,包括都柏林核心通用形式化本体英语General Formal OntologyGeneral Formal Ontology,GFO)、OpenCyc/Cyc推荐上层合并本体英语Suggested Upper Merged OntologySuggested Upper Merged Ontology,SUMO)以及DOLCE页面存档备份,存于互联网档案馆)。另外,有些人认为WordNet属于上层本体,但实际上它并不是一部本体:WordNet只是由一部分类法taxonomy)与一部受控词表所形成的独特组合(参见上述关于“属性”方面的内容)。

Gellish英语Gellish本体则是一个关于上层本体与领域本体彼此组合的例子。

领域本体在表达概念时采用的是非常特殊而又往往具有选择性的方式,因而它们常常缺乏兼容性。随着那些依赖于领域本体的系统的扩展,它们往往需要将不同的领域本体合并成一部更为通用的表达形式。对于本体设计者来说,这就提出了一项富有挑战性的难题。在同一领域内,由于文化背景、受教育程度以及意识形态的不同所造成的,对于该领域感知perceptions)情况的不同,或者因为所采用的表达语言的不同,还可能出现不同的本体。

当前,对于那些并非依据同一部基础本体所编制的本体的合并工作,在很大程度上还是一种手工过程,因而既耗费时间又成本高昂。那些利用同一部基础本体所提供的一套基本元素来规定领域本体元素之含义的领域本体,则可以实现自动化的合并。目前,存在着多项针对本体合并方面的通用技术方法的研究工作,但这个方面的研究在很大程度上依然还处于理论层面。

本体工程

本体工程,又称为本体构建本体编制本体开发,是一个旨在研究有关构建本体的方法和方法学的领域。本体工程研究的内容包括本体开发过程、本体生命周期、本体构建方法及方法学,以及为这些方面提供支持的工具包和语言[11][12]

本体工程旨在让软件应用程序、企事业单位、组织机构以及特定领域业务操作过程之中所包含的那些知识变得明确清晰。本体工程为解决语义障碍所造成的互操作性问题指出了一个方向。比如,那些与业务术语和软件类的定义相关的障碍。本体工程实际上就是一套与特定领域之中的本体开发与编制工作相关的任务[13]

本体语言

 
英国牛津大学计算机科学教授伊恩·霍洛克斯英语Ian Horrocks

本体一般都是采用本体语言来编制的。本体语言,又称为“本体论语言”,是一种用于编制本体的形式化语言。目前,存在着许许多多此类的本体语言,既包括专有的,也包括基于标准的:

已公开发布的本体的例子

 
可视化方式展现的本体示例:Mason本体。
 
关于地球表面的及其模式的概念图

本体库

[[0101031 SemanticMediaWiki Logo.png|thumb|300px|MediaWiki的扩展:可在Wiki网页之中标注语义数据Semantic MediaWiki(SMW)。]] 为互联网开发各种本体的工作,已经孕育出那些具有搜索功能的,提供本体目录directories)或列表的服务。此类目录就称为“本体库”。

如下是一些采用人工方式选择出来的本体所构成静态

  • CO-ODE项目本体库[43]:提供的是一些与CO-ODE项目相关的本体示例和本体资源链接。
  • DAML本体库(DAML Ontology Library)[44]之中保存的是那些采用DAML格式的历史遗留本体。
  • Protege本体库(Protege Ontology Library)[45]之中收录的是一套采用OWL格式、基于框架的格式以及其他格式的本体。
  • SchemaWeb[46]则是一个由采用RDFS、OWL以及DAML+OIL格式所表达的RDF模式(RDF schemata)而构成的目录。

下列这些即是目录,同时又是搜索引擎。其中,包括用于在互联网上搜索良构性本体的搜寻器

  • OBO Foundry / Bioportal[47]生物学生物医学biomedicine)领域的一套具备互操作性的参考本体。
  • OntoSelect Ontology Library(OntoSelect本体库)[48]提供的是多种类似的,适用于RDF/S、DAML以及OWL本体的服务。
  • Ontaria[49]是“一个可以搜索和浏览的语义网数据目录,且侧重于RDF词表以及OWL本体”。
  • Swoogle是一个目录和搜索引擎,适用于互联网上现成可用的所有RDF资源,包括各种本体。

常用本体工具

 
Protégé本体编辑器之中所显示的OWL格式比萨饼本体的层级结构: “素比萨饼”

本体服务器

本体编辑器

用于编纂本体的软件编辑器称为“本体编辑器ontology editor)”,有时又称为“本体论编辑器”。

参见

相关哲学概念

参考文献

  1. ^ (英文) Tom Gruber (1993). "A translation approach to portable ontology specifications"页面存档备份,存于互联网档案馆). In: Knowledge Acquisition. 5: 199-199.
  2. ^ (英文)Fredrik Arvidsson and Annika Flycht-Eriksson. Ontologies I页面存档备份,存于互联网档案馆). Retrieved 26 Nov 2008.
  3. ^ (英文)Lars Marius Garshol (2004). Metadata? Thesauri? Taxonomies? Topic Maps! Making sense of it all 互联网档案馆存檔,存档日期2008-10-17. on www.ontopia.net. Retrieved 13 October 2008.
  4. ^ (英文)(Top-level ontological categories. By: Sowa, John F. In International Journal of Human-Computer Studies, v. 43 (November/December 1995) p. 669-85.),
  5. ^ (英文)C. K. Ogden and I. A. Richards (1923) The Meaning of Meaning英语The Meaning of Meaning
  6. ^ 6.0 6.1 (英文) Perakath C. Benjamin et al. (1994). IDEF5 Method Report页面存档备份,存于互联网档案馆). Knowledge Based Systems, Inc.
  7. ^ (英文) Tom Gruber (2008). "Ontology"页面存档备份,存于互联网档案馆). To appear in the Encyclopedia of Database Systems, Ling Liu and M. Tamer Özsu (Eds.), Springer-Verlag, 2008.
  8. ^ (英文)Gruber, T. R., "Toward Principles for the Design of Ontologies Used for Knowledge Sharing". In: International Journal Human-Computer Studies, 43(5-6):907-928, 1995
  9. ^ (英文)Enderton, H. B. (1972). A Mathematical Introduction to Logic. San Diego, CA: Academic Press.
  10. ^ (英文) Gruber, T. R. (1993). "A translation approach to portable ontologies". In: Knowledge Acquisition. 5(2):199-220, 1993.
  11. ^ (英文) Asunción Gómez-Pérez, Mariano Fernández-López, Oscar Corcho (2004). Ontological Engineering: With Examples from the Areas of Knowledge Management, E-commerce and the Semantic Web. Springer, 2004.
  12. ^ (英文) A. De Nicola, M. Missikoff, R. Navigli (2009). "A Software Engineering Approach to Ontology Building"页面存档备份,存于互联网档案馆). Information Systems, 34(2), Elsevier, 2009, pp. 258-275.
  13. ^ (英文) Line Pouchard, Nenad Ivezic and Craig Schlenoff (2000). "Ontology Engineering for Distributed Collaboration in Manufacturing"页面存档备份,存于互联网档案馆), In Proceedings of the AIS2000 conference, March 2000.
  14. ^ Common Logic Working Group Documents. [2009-03-08]. (原始内容存档于2009年3月1日) (英语). 
  15. ^ OpenCyc FAQ. [2009-03-08]. (原始内容存档于2009-03-14) (英语). 
  16. ^ SourceForge.net: Gellish - A Product Modeling Language. [2009-03-08]. (原始内容存档于2007-03-11) (英语). 
  17. ^ Knowledge Interchange Format. [2009-03-08]. (原始内容存档于2009-02-27) (英语). 
  18. ^ Rule Interchange Format (RIF) Working Group - RIF. [2009-03-08]. (原始内容存档于2008-10-12) (英语). 
  19. ^ OWL Web Ontology Language Overview. [2009-03-08]. (原始内容存档于2009-03-13) (英语). 
  20. ^ Amino Acid Ontology. [2009-03-07]. (原始内容存档于2008-07-05) (英语). 
  21. ^ Basic Formal Ontology (BFO). [2009-03-05]. (原始内容存档于2009-02-25) (英语). 
  22. ^ BioPAX. [2009-03-05]. (原始内容存档于2011-06-25) (英语). 
  23. ^ CCO. [2009-03-05]. (原始内容存档于2019-02-15) (英语). 
  24. ^ CContology. [2009-03-05]. (原始内容存档于2009-03-16) (英语). 
  25. ^ CIDOC Conceptual Reference Model. [2009-03-05]. (原始内容存档于2010-01-05) (英语). 
  26. ^ COSMO. [2009-03-05]. (原始内容存档于2009-02-17) (英语). 
  27. ^ Disease Ontology. [2009-03-05]. (原始内容存档于2008-12-28) (英语). 
  28. ^ DOLCE. [2009-03-05]. (原始内容存档于2009-04-16) (英语). 
  29. ^ Foundational, Core and Linguistic Ontologies. [2009-03-05]. (原始内容存档于2009-05-09) (英语). 
  30. ^ Foundational Model of Anatomy. [2009-03-05]. (原始内容存档于2002-10-22) (英语). 
  31. ^ CO-ODE: Galen in OWL. [2009-03-07]. (原始内容存档于2008-07-05) (英语). 
  32. ^ (英文) A. Rector and J. Rogers. Ontological Issues in using a Description Logic to Represent Medical Concepts: Experience from GALEN页面存档备份,存于互联网档案馆). In IMIA WG6 Workshop, 1999.
  33. ^ Generalized Upper Model. [2009-03-05]. (原始内容存档于2009-02-23) (英语). 
  34. ^ Gellish. [2009-03-05]. (原始内容存档于2012-12-20) (英语). 
  35. ^ GOLD. [2009-03-05]. (原始内容存档于2009-04-06) (英语). 
  36. ^ The IDEAS Group Website. [2009-03-05]. (原始内容存档于2018-12-16) (英语). 
  37. ^ Linkbase. [2009-03-05]. (原始内容存档于2008-09-18) (英语). 
  38. ^ Plant Ontology. [2009-03-05]. (原始内容存档于2009-02-26) (英语). 
  39. ^ PRO. [2009-03-05]. (原始内容存档于2011-03-10) (英语). 
  40. ^ Program abstraction taxonomy (PDF). [2009-03-05]. (原始内容 (PDF)存档于2009-01-24) (英语). 
  41. ^ Protein Ontology. [2009-03-05]. (原始内容存档于2009-01-06) (英语). 
  42. ^ SWEET. [2009-03-05]. (原始内容存档于2011-04-11) (英语). 
  43. ^ CO-ODE > Ontologies. [2009-03-07]. (原始内容存档于2009-03-02) (英语). 
  44. ^ DAML Ontology Library. [2009-03-05]. (原始内容存档于2009-02-25) (英语). 
  45. ^ Protege Ontology Library. [2009-03-05]. (原始内容存档于2009-02-28) (英语). 
  46. ^ SchemaWeb. [2009-03-05]. (原始内容存档于2011-08-10) (英语). 
  47. ^ OBO Foundry / Bioportal. [2009-03-05]. (原始内容存档于2009-02-28) (英语). 
  48. ^ OntoSelect. [2009-03-05]. (原始内容存档于2010-11-11) (英语). 
  49. ^ Ontaria - Easy Access to the Semantic Web. [2009-03-05]. (原始内容存档于2009-02-22) (英语). 

注释

  1. ^ 请参见类 (集合论), 类 (计算机科学)以及类 (哲学);三者均与当前所说的概念“类”相关,但却并不完全相同。
  2. ^ 如前所述,关于WordNet是否属于本体,人们尚未完全达成一致意见。

延伸阅读

外部链接