维基百科:搜索引擎测试

在维基百科,搜索引擎测试包括Google和其他任何搜索引擎。通过这个方法,部分种类的信息能够被准确地收集。但值得强调的是,所有的搜索引擎,都不能得到确凿的答案,而只是简单的初级启发或经验推导。

  • 不适合的标题。使用搜索引擎的关键词搜索和搜索结果计量可以很好地检测到一些维基收录的不适合的标题。这个方法可以适度地清除一些欺骗、伪造和个人的臆测和假定。它可以用于确认标题是否可以全面地完整地概括条目的内容,当然这种方法也依然存在偏见(见下)。请参见Wikipedia:不适合维基百科的文章以获得更全面的不准确标题的列表。
  • 带有著作权的作品。大量的由新用户或匿名用户突然提交给维基的文档,常常是来源于外部资源简单的复制粘贴。他们中的一部分违背了著作权。(见发现可能的侵权)通常,通过搜索摘录可以查到这些来自于网络资源的简单的复制粘贴。
  • 特殊用法。通常,一个单一的概念,尤其是区域性概念,在英语会有各种各样的解释。针对同一个姓名不同写法的一系列调查表明,其中的一部分与其中最通行的写法非常近似。为了对相关使用作一个快速的对比,可以使用搜索引擎判断,例如comparing deoxyribose nucleic acid and deoxyribonucleic acid。注意,有一些场合下,搜索引擎测试不能被使用,例如,当一些国际标准已经被认定,像
  • 相关的网站。对于一个高质量的文章(见典范条目),搜索引擎可以用于查询与此相关的网站,而且确认后可能被链接至维基。
  • 补充。当然,搜索引擎更利于找到更多补充材料资源。

技巧

网页搜索并不是搜索引擎的全部。进行某项搜索引擎测试的时候,试着搜索GroupsUsenet)。这是一个迥然不同的例子表示。

Alexa 测试

尽管维基不是一个网页目录,但是我们收集那些满足维基收录条件的关于网站的文章。

如果你有兴趣撰写一篇关于某个特定网站的维基文章,不如在Alexahttp://www.alexa.com),查一下这个网站是否足够重要。多数人认同维基应该收录前100名的网站,当然也可能是前1000名。但是对于甚至没有在前100000名的网站,一般认为我们将很难认证相关文章的准确性而不能收录在维基之中。但是,这个中间的灰色区域则很难达成一致意见。

对于有些在前1000名内的网站(如microsoft.com),有必要对其指向进行一些调整,如Microsoft。(目前仍略有争议)

我们也注意到,因为各种原因的影响,alexa排行也有很大的争议。例如,alexa软件仅对Microsoft Windows操作系统和微软Internet Explorer的用户有效。所以,例如专门针对Apple Macintosh的相关主题可能将无法进行能够精确反映其流量的排名。反之,有些网站管理者仅仅为了提升他们的网站排名便安装Alexa工具条,然后自己访问自己的网站。Alexa工具栏用户基数非常小,对于单个用户频繁不断的访问将对整个结果产生明显的影响。

参见这里以获得更多关于web comics的信息。

搜索引擎上的偏见

当使用搜索引擎来测试重要性或存在性的时候,请牢记偏见的可能,即这个工具倾向于偏向发达国家有互联网接入条件的人群的当代的标题,所以测试者必须有一定的判断能力。比如,一个美国当代流行乐坛的音乐组合也许需要几千个来自搜索引擎的点击才能够被大部分维基人认为值得包括,而另一个没有太多互联网接入的国家的相同重要的组合就需要少得多的点击数。而14世纪的大音乐家也许根本从搜索引擎上查询不到。

Q. 当我要测试一个条目时,我应该看多少个搜索结果?(3个?27个?81个?)

A.也许有上百个!这决定于以下因素:

  • 文章的观点:如果很狭隘,就不用那么多参考了。试着把观点分类,(不论是否是一个中立观点)比如:注意 本体论 (哲学)本体论 (信息科学)的不同。
  • 文章的标题:如果是关于一位历史人物,一两句来自可靠文献的话就够了;如果是关于一个互联网上的新词汇,可能加入了100个参考文献却依然不合符维基百科的标准。
  • 你找到网站的类型:注意网站的开放性。如 The Urban Dictionary,自由的接受所有人的观点。这在你怀疑一个作者正在自我推销或者宣传他自己个人的观点时尤为重要。一个用户可以把观点放到整个互联网上的公告牌和开放性网站上。

更长远的判断: 搜索引擎测试查到的是 流行度,而不是正确性。比如,一个不正确的搜索 en:Charles Windsor 得到了比正确的搜索en:Charles Mountbatten-Windsor多10倍的结果。

而且,有的话题可能不存在于互联网上,这可能是因为文化因素或者某些地区互联网的低普及率。

搜索引擎的限制

很多(也可能是大部分)公开的网页并未被索引。每个搜索引擎都会捕捉不同的部分。没有人可以准确说出哪一部分被捕捉。

万维网的大小估计至少有20亿个页面,但是更深(同时更广)的网页预计会超过5千亿,因为搜索引擎不会索引数据库中的内容。这些“动态的”页面当用户请求时由网络服务器生成,因而不会被传统的搜索引擎索引。美国专利及商标局网站就是一个例子;虽然搜索引擎可以找到它的主页,用户也只能通过输入请求以搜索个人专利的数据库。

参见