全文检索
从文本或数据库中,不限定资料字段,自由地萃取出消息的技术。
执行全文检索任务的程序,一般称作搜索引擎,它将用户随意输入的文字,试图从数据库中,找到符合的内容。
全文索引的相关议题
算法、搜索策略之模型
- 布尔式 boolean
- 统计模型 Probabilistic model
- 向量空间模型 vector base model
- 隐性语义模型 Latent semantic model
评量之准则
- 查全率(recall rate),查准率(precision)
开放源代码之全文检索系统
和中文有关的议题
- 断词
- 语法解析
- 古籍议题
- 多语言混合
优化
- 剔除字(Stopwords)
- 词性标注
- 规范文件(authority file)
- 知识体系,本体论(ontology)
- 超链接分析(page rank)技术
历史及未来之趋势
- 自由语句搜索