跨语检索

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》[1]。跨语检索意指使用者使用某种自然语言检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

起源与发展

1969年,Salton,G.发表《Automatic processing of foreign language documents》[2]文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引分类搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC[3]),一开始是附属于 TIPSTER Text program[4]底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》[5]找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)[6]。NTCIR会议主要是由日本学术振兴会(JSPS[7])、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF[8]) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

特征

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》[9]这篇文章指出,共具有六项特征,将内容统整如下:

  1. 检索词汇的歧义性(ambiguity):翻译检索词汇的过程,不只会遇到检索词汇一词多义的情形,翻译后的目标检索词汇(target query)的多义性(polysemy)也是需要解决的问题之一。
  2. 检索词汇(query)和文件(document)分属不同语言:其为跨语检索最主要的特征。检索词汇和文件间必须要有特定的对应关系,翻译技术是建立其关系的重要运算之一。
  3. 检索词太短:跨语检索者所输入的检索词汇往往太简短,因而造成翻译和歧义性的困难度。
  4. 语言识别(language identification)困难:如果跨语检索系统无法辨识该检索词汇是何种语言,如中文英文拉丁文俄文等,就无法检索出使用者所需要的资料。
  5. 断词和书写符号的问题:因为中文的词与词之间没有明显的分隔符号,因此会有断词(segmentation)的问题。而俄文、西班牙文等语文,电脑没有自动产生文字的功能,如当使用者欲于搜索引擎或文件中,输入俄文,必须利用其他的应用软件,才能产生俄文,而不像英文或中文可直接从输入法中选择。
  6. 输出结果的呈现(visualization):包含检索结果得到的多语言文件要如何合并,界面该如何呈现,才能使检索者一目了然等问题。

使用技术

根据陈信希陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

  • 翻译检索词汇:此法视处理检索词汇的方式,又区分成两种方法,一种是控制词汇,另一种是自由词汇
  • 控制词汇:使用控制词汇进行检索时,由于为系统内定的词汇,所以,虽然使得检索的过程比较顺利,可是能找到的资料有限。
  • 自由词汇:可分成三种策略,分别是知识库策略、语料库策略和混合式策略。
  • 知识库策略:一种是采用辞典的方法,另一种则是采用索引典策略的知识架构。
  • 语料库策略:此法比较复杂,包含了四种方法,分别是“词汇对列方式”、“文句对列方式”、“文件对列”和“不采用对列方式”。
  • 翻译文件:此法可分成两种,一种为文本的翻译,另一种为特征向量的翻译。
  • 不翻译。

参见

参考文献

引用

  1. ^ 存档副本. [2007-06-18]. (原始内容存档于2005-03-18). 
  2. ^ http://portal.acm.org/citation.cfm?id=990403.990407
  3. ^ 存档副本. [2007-06-19]. (原始内容存档于2007-06-24). 
  4. ^ 存档副本. [2007-06-19]. (原始内容存档于2007-03-22). 
  5. ^ http://portal.acm.org/citation.cfm?id=243199&dl=portal&dl=ACM&type=proceeding&idx=SERIES278&part=Proceedings&WantType=Proceedings&title=Annual%20ACM%20Conference%20on%20Research%20and%20Development%20in%20Information%20Retrieval
  6. ^ 存档副本. [2007-06-19]. (原始内容存档于2007-07-01). 
  7. ^ 存档副本. [2007-06-19]. (原始内容存档于2008-10-11). 
  8. ^ 存档副本. [2007-06-19]. (原始内容存档于2007-06-23). 
  9. ^ http://nlg3.csie.ntu.edu.tw/journal_papers/jlis2002.pdf[永久失效链接]

来源