文字蕴涵
此条目需要精通或熟悉计算机科学的编者参与及协助编辑。 (2012年2月18日) |
文字蕴涵(Textual entailment,TE)在自然语言处理是一个文字片段之间的定向关系。拥有一个文字片段的含意时,可以从另一个文字如下关系。TE的框架中,将会导致必须需要的文本被称为文本(T)和假设(H)作为分别。文字蕴涵是不一样的纯逻辑蕴涵,它有一个更宽松的定义:"T推导到H"(T⇒H),通常情况下,如果一个人阅读T将推断为H是最有可能的正确的关系[1]。文字蕴含关系是有方向性的,如正向的"T推导到H"或反向的"H推导到T"[2][3]。
自然语言的歧义
自然语言的一个特点是,有许多不同的方式说出你想说什么:可以通过不同的文字表达相同的含义,可以包含在一个单一的文字和几个含义。这种语义表达的变化可以看出,作为双语言歧义的问题。他们一起导致在许多一对多的语言表达和意义之间的映射。正确解释文本,就需要在理论上深入到了它的含义的逻辑代表性的语义解释。自然语言处理是确实可行的解决办法,并在更简易的方式使用文字蕴涵。
识别文字蕴涵
许多自然语言处理的应用程序一样,问答(QA)的信息抽取(IE)的(多文档)汇总和机器翻译(MT)的评价,需要这种可变性现象的一个模型,为了一个特殊目标意思可以从不同的文本变形被推断。2004年识别文字蕴含(TER)提议作为横跨许多自然语言处理应用[2]的主要语义推断需要的一项普通任务。建立文本蕴涵的数学解决方案可以根据这种关系的方向性,然关系的方向所涉及的文字之间的一些相似的比较。
目前RTE在国际间被关注研究应用在不同语言中,如2011年日本NTCIR-9[4]大会就将简体中文、繁体中文、日文的RTE列为比赛项目。
范例
正向蕴涵
文本T:日本时间2011年3月11日,日本宫城县发生里氏震级9.0强震,造死伤失踪约3万多人。
假设H:日本时间2011年3月11日,日本宫城县发生里氏震级9.0强震。
矛盾蕴涵
文本T:张学友在1961年7月10日,生于香港,祖籍天津。
假设H:张学友生于1960年。
独立蕴涵
文本T:黎姿与"残障富豪"马廷强结婚。
假设H:马廷强为香港"东方报业集团"创办人之一马惜如之子。
参考资料
- ^ Ido Dagan, Oren Glickman and Bernardo Magnini. The PASCAL Recognising Textual Entailment Challenge, p. 2 (页面存档备份,存于互联网档案馆) in: Quiñonero-Candela, J.; Dagan, I.; Magnini, B.; d'Alché-Buc, F.(Eds.)Machine Learning Challenges. Lecture Notes in Computer Science , Vol. 3944, pp. 177-190, Springer, 2006.
- ^ 2.0 2.1 Dagan, I. and O. Glickman. 'Probabilistic textual entailment: Generic applied modeling of language variability' (页面存档备份,存于互联网档案馆) in: PASCAL Workshop on Learning Methods for Text Understanding and Mining(2004)Grenoble.
- ^ Tătar, D. e.a. Textual Entailment as a Directional Relation (PDF). [2012-02-14]. (原始内容存档 (PDF)于2011-08-11).
- ^ NTCIR-9 RITE. [2012-02-16]. (原始内容存档于2011-11-17).