信息檢索
資訊檢索(英語:Information Retrieval)是從信息資源集合獲得與信息需求相關的信息資源的活動。搜索可以基於全文或其他基於內容的索引。
自動信息檢索系統用於減少所謂的「資訊超載」。許多大學和公共圖書館使用IR系統提供圖書、期刊和其他文件的訪問。Web搜索引擎是最常見的IR應用程序。
概述
當用戶向系統輸入查詢時,信息檢索過程開始。查詢是信息需求的正式聲明,例如在Web搜索引擎中的搜索字符串。在信息檢索中,查詢不會唯一地標識集合中的單個對象。相反可以有不止一個對象匹配查詢,它們可能具有不同程度的相關性。
對象是由內容集合或數據庫中的信息表示的實體。用戶查詢要與數據庫信息進行匹配。然而,與數據庫的經典SQL查詢相反,在信息檢索中,返回的結果可能匹配或不匹配查詢,因此結果通常被排名。這種結果排名是信息檢索搜索與數據庫搜索相比的關鍵區別。[1]
根據應用,數據對象可以是文本文檔、圖像[2]、音頻[3]、思維導圖[4]或視頻等。通常文檔本身不保存或直接存儲在IR系統中,而是以文獻替代或元數據在系統中表示。
大多數IR系統對數據庫中的每個對象與查詢匹配的程度計算數值分數,並根據此值對對象進行排名。然後向用戶顯示排名靠前的對象。如果用戶希望細化查詢,則可以重複該過程。[5]
信息檢索的類型
按照檢索手段,可分為:
- 傳統信息檢索(手工檢索)和
- 現代信息檢索(計算機檢索);
按照檢索內容,分為:
- 書目檢索、
- 數據檢索、
- 事實檢索、
- 全文檢索、
- 圖像檢索:例如:Google images
- 多媒體檢索:例如:SoundHound(聲頻檢索)。
信息檢索的主要技術指標
傳統的指標:
- 齊全率
- 準確率
- 檢索速度
常用的指標代號:
檢索系統
運用一定的方法從某種資訊媒介上(包括書、硬碟、光碟等) 的資料中查找所需要情報的系統。一般可區分為手工情報檢索系統(檢索卡)、機械情報檢索系統(微縮卷)和計算機情報檢索系統三大類。
ProQuest是目前最大及歷史最悠久的情報檢索服務供應商,從1938年起就開始為學校把期刊製成微縮膠卷來儲存 [6]。這些膠卷在數碼以後,繼續以光碟陣及網上服務的形式為學校提供過期期刊內容的存取服務[7]。
以下為市面上比較常見的情報系統:
參考文獻
- ^ Jansen, B. J. and Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval (頁面存檔備份,存於網際網路檔案館). Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534.
- ^ Goodrum, Abby A. Image Information Retrieval: An Overview of Current Research. Informing Science. 2000, 3 (2).
- ^ Foote, Jonathan. An overview of audio information retrieval. Multimedia Systems (Springer). 1999.
- ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf. Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. 2009 [2016-12-16]. (原始內容存檔於2011-05-13).
- ^ Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. 1992 [2016-12-16]. ISBN 0-13-463837-9. (原始內容存檔於2013-09-28).
- ^ ProQuest Home Page. [2014-05-21]. (原始內容存檔於2008-11-01) (英語).
- ^ ProQuest Goes Global. Information Today. 2014 [2015-10-24]. (原始內容存檔於2017-07-01).