Talk:Tf-idf
Erimus Koo在话题“对log的底数的疑问”中的最新留言:9个月前
本条目页依照页面评级標準評為初级。 本条目页属于下列维基专题范畴: |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
本條目有内容譯自英語維基百科页面“Tf–idf”(原作者列于其历史记录页)。 |
Tf-idf曾於2007年5月19日通过新条目推荐投票,登上維基百科首頁的「你知道嗎?」欄位。 |
此條目已被學術論文引用。該论文為:
|
新條目推薦
- ~移動自Wikipedia:新条目推荐/候选~(最後修訂)
搜尋引擎常用哪種權重來計算網頁與用戶查詢之間的相關程度?(自薦,原作者User:Jasonzhuocn,由360 bytes擴充到4,018 bytes)—小峰 2007年5月17日 (四) 15:41 (UTC)- 搜尋引擎常用哪種權重作為計算網頁與用戶查詢之間的相關程度的基礎?—小峰 2007年5月18日 (五) 06:18 (UTC)
- (!)意見恐怕不是所有搜尋引擎都用这种算法吧?问题外延过宽。--蒙人 ->敖包相会 2007年5月17日 (四) 15:52 (UTC)
- (:)回應事實上,TF-IDF權重的各種變化形經常被搜尋引擎用作計算網頁與用戶查詢相關度的基礎,可參閱
- What's new on the web?: the evolution of the web from a search engine perspective一文中的Introduction部分有提到"Search engines typically use variations of TF.IDF distance metric to evaluate the relevance of a page to a query"。
- Google黑板报 - 数学之美 系列九 -- 如何确定网页和查询的相关性一文亦提到TF-IDF「在搜索、文献分类和其他相关领域有广泛的应用。」—小峰 2007年5月17日 (四) 16:36 (UTC)
- (:)回應事實上,TF-IDF權重的各種變化形經常被搜尋引擎用作計算網頁與用戶查詢相關度的基礎,可參閱
- (+)支持—bstlee☻talk 2007年5月17日 (四) 20:57 (UTC)
- (+)支持——顾心阳 2007年5月18日 (五) 14:26 (UTC)
- (+)支持 →現在不囉唆的阿佳 2007年5月19日 (六) 06:06 (UTC)
- (+)支持—Iflwlou [ M { 2007年5月19日 (六) 07:53 (UTC)
- (!)意見恐怕不是所有搜尋引擎都用这种算法吧?问题外延过宽。--蒙人 ->敖包相会 2007年5月17日 (四) 15:52 (UTC)
- ~移動完畢~—天上的雲彩 雲端對話 2007年5月19日 (六) 12:12 (UTC)
对log的底数的疑问
再將得到的商取以2为底的對數得到
,这里可能应该是以10为底,可以参考英文版。同时跟下方实例中lg(10,000,000/1,000)=4对应。
或者可以理解为这里的底数可以作为参数,根据实际需要来调整?--Erimus Koo(留言) 2024年2月5日 (一) 06:22 (UTC)