信息检索

活动

信息检索(英语:Information Retrieval)是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。

自动信息检索系统用于减少所谓的“信息过载”。许多大学公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最常见的IR应用程序。

概述

当用户向系统输入查询时,信息检索过程开始。查询是信息需求的正式声明,例如在Web搜索引擎中的搜索字符串。在信息检索中,查询不会唯一地标识集合中的单个对象。相反可以有不止一个对象匹配查询,它们可能具有不同程度的相关性。

对象是由内容集合或数据库中的信息表示的实体。用户查询要与数据库信息进行匹配。然而,与数据库的经典SQL查询相反,在信息检索中,返回的结果可能匹配或不匹配查询,因此结果通常被排名。这种结果排名是信息检索搜索与数据库搜索相比的关键区别。[1]

根据应用,数据对象可以是文本文档、图像[2]、音频[3]思维导图[4]或视频等。通常文档本身不保存或直接存储在IR系统中,而是以文献替代或元数据在系统中表示。

大多数IR系统对数据库中的每个对象与查询匹配的程度计算数值分数,并根据此值对对象进行排名。然后向用户显示排名靠前的对象。如果用户希望细化查询,则可以重复该过程。[5]

信息检索的类型

按照检索手段,可分为:

  • 传统信息检索(手工检索)和
  • 现代信息检索(计算机检索);

按照检索内容,分为:

信息检索的主要技术指标

传统的指针:

  • 齐全率
  • 准确率
  • 检索速度

常用的指针代号:

  •  :两个检索的交集
  •  :检索结果的数量
  •  积分
  •  求和
  •  对称差

检索系统

运用一定的方法从某种信息介质上(包括书、硬盘、光盘等) 的资料中查找所需要情报的系统。一般可区分为手工情报检索系统(检索卡)、机械情报检索系统(微缩卷)和计算机情报检索系统三大类。

ProQuest是目前最大及历史最悠久的情报检索服务供应商,从1938年起就开始为学校把期刊制成微缩胶卷来存储 [6]。这些胶卷在数字以后,继续以光盘阵及网上服务的形式为学校提供过期期刊内容的访问服务[7]

以下为市面上比较常见的情报系统:

参考文献

  1. ^ Jansen, B. J. and Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval页面存档备份,存于互联网档案馆). Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534.
  2. ^ Goodrum, Abby A. Image Information Retrieval: An Overview of Current Research. Informing Science. 2000, 3 (2). 
  3. ^ Foote, Jonathan. An overview of audio information retrieval. Multimedia Systems (Springer). 1999. 
  4. ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf. Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. 2009 [2016-12-16]. (原始内容存档于2011-05-13). 
  5. ^ Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. 1992 [2016-12-16]. ISBN 0-13-463837-9. (原始内容存档于2013-09-28). 
  6. ^ ProQuest Home Page. [2014-05-21]. (原始内容存档于2008-11-01) (英语). 
  7. ^ ProQuest Goes Global. Information Today. 2014 [2015-10-24]. (原始内容存档于2017-07-01). 

参见