全文检索

从文本或数据库中,不限定资料字段,自由地萃取出消息的技术。

执行全文检索任务的程序,一般称作搜索引擎,它将用户随意输入的文字,试图从数据库中,找到符合的内容。

全文索引的相关议题

  • 语根处理 (stemming)
  • 符素解析器 (token parser) 1-gram, 2-gram , n-gram
  • 断词/分词 word segmentation
  • 倒排索引 inverted index

算法、搜索策略之模型

  • 布尔式 boolean
  • 统计模型 Probabilistic model
  • 向量空间模型 vector base model
  • 隐性语义模型 Latent semantic model

评量之准则

  • 查全率(recall rate),查准率(precision)

开放源代码之全文检索系统

和中文有关的议题

  • 断词
  • 语法解析
  • 古籍议题
  • 多语言混合

优化

  • 剔除字(Stopwords)
  • 词性标注
  • 规范文件(authority file)
  • 知识体系,本体论(ontology)
  • 超链接分析(page rank)技术

历史及未来之趋势

  • 自由语句搜索

参考