維基百科討論:統計/存檔3
本頁是以往討論的存檔。請勿編輯本頁。若您想發起新討論或重啟現有討論,請在當前討論頁進行。 |
hanteng會陸續將可以釋出原始或半成品統計資料
hanteng會陸續釋出原始或半成品的研究統計資料,目標主要是希望能以open data 開放第一手來源資料來鼓勵其他研究者來進行加工研究,也希望能因此加強資料的可依賴性及可信度。以下第一個是超級用戶的地理區域。
研究結果查證: 百度百科BB及維基百科CW的超級用戶的地理區域
關於本人研究製圖的2012資料 (見右圖), 其來源根據的半成品其實已放在Google Doc可供各位參考,並幫助查證並指出可能錯誤的地方: 注意,
- 百度百科BB的百科蝌蚪團成員列表是以該頁列表編程爬文的結果
- 維基百科CW的管理員列表則因為不只有一個來源, 而是以個人參考眾來源的推估的結果
若有對製圖結果比較有想法想要討論的,請至互助客棧先前討論區塊參考先前討論並留言。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:40 (UTC)
研究結果: 地理分佈
以下研究結果, 請撥時間讀後提供改進批評, 也歡迎發問, 謝謝。
以百度百科及維基百科條目內容所有外部連結, 按其geoIP位置分類後的前15名網站比較, 可以有以下觀察: (研究假設: 百科做為三級內容, 其內容走向可以由其外部引用連結做為內容傾向的分析)
- 百度百科有不少電子商務及infomercial網站(特別在中國和香港, 如香港第14名原為福建單位辦的行政劃區網,
先現為一夜情網站); - 維基百科並非百度相關人士指控的, 不夠「中國」或「中文」;
- 百度百科大量引用維基百科;
- 百度百科並無大量引用來自香港及台灣的網站內容, 同時對相關媒體及政府網站的引用相較為少。
--(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 02:55 (UTC)
- 「無名小站」是台灣網站。--LungZeno(talk) 2012年12月25日 (二) 18:07 (UTC)
* 我在台北用TPE-FREE查其ip得到:
Non-authoritative answer: Name: tw1-ycpi-uno.gycpi.b.yahoodns.net Addresses: 203.84.197.25 203.84.197.26 203.84.197.27 203.84.197.9 Aliases: www.wretch.cc geoycpi-uno.gycpi.b.yahoodns.net fo-tw1-ycpi-uno.gycpi.b.yahoodns.net
然後查其geoip得到的是香港,是不是因為雅虎伺服器在香港的關係啊?--Liao Zhongkai(留言) 2012年12月28日 (五) 12:02 (UTC)
2012年12月24日 (一) 12:00 (UTC) 以前
- 請不要用大圖洗版面,我已經修改了大小了。--馬呵說念誒多嘩鐸★愛生活愛蘿莉塔 2012年12月21日 (五) 03:23 (UTC)
- (:)回應以同一般頁框寬度為宜。(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
- 信息量很大--百無一用是書生 (☎) 2012年12月21日 (五) 09:49 (UTC)
- 百度最頂上那幾個明顯是被散發的廣告連結,可能(比如)那些網站上有的圖書就每個相應百科頁面加一個指向網站的連結。Liangent(留言) 2012年12月21日 (五) 12:19 (UTC)
- (+)同意SPAM的鐡證(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 13:02 (UTC)
- 百度最頂上那幾個明顯是被散發的廣告連結,可能(比如)那些網站上有的圖書就每個相應百科頁面加一個指向網站的連結。Liangent(留言) 2012年12月21日 (五) 12:19 (UTC)
- 信息量很大--百無一用是書生 (☎) 2012年12月21日 (五) 09:49 (UTC)
- 百度做為假的中國民族企業應當閉上那個臭嘴!!!ltdccba--Jason--Lin⇒ 2012年12月23日 (日) 14:54 (UTC)
- (:)回應以同一般頁框寬度為宜。(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
那圖片在違反授權條款
- 其實你明不明白維基百科計劃及其姊妹計劃?
- 你那圖片上傳去了 Commons ,你就不能「僅供維基人內部討論,請勿引用」,你最多只能表明,那僅是草稿,引用的話可能會出錯。
--LungZeno(talk) 2012年12月23日 (日) 20:20 (UTC)
- (:)回應:著佐權的概念我是知道的,這些圖片利用Commons釋出就不能禁止改作,但是否能被學術正式引用,hanteng 僅提醒著作人格權的部份,提醒著佐權釋出是有免責的部份,基本上意思是,我目前這樣釋出,符合Commons相關著佐權規範和保護,其保護包括這不是我正式的學術發表,免除我的學術引用的人格責任,請您明辨著佐權的概念及使用,在人格權和財產權的區分。謝謝您的指教, 若還是有可議可改進之處,請您繼續提供建言。(見您參考我不喜歡某人在其衍生著作中利用我的作品的方式,那麼我還能怎麼辦?.. 「意即,原作者可以依其作品內容受到不當變更而致其名譽受損的情形,來採取行動。當然,並非所有的原作者不喜歡的衍生著作都會被視為「不當變更」。」)--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 03:51 (UTC)
- Commons不是因為 共享創意 等授權條款而存在,反之,Commons是因為要達成它的使命和目的才採用 共享創意 等授權條款。
- 如果你真的想講 copyleft 的話,當中有不少人是反對「知識產權」的概念,認為這樣的類推並不正確,有嚴重謬誤。(TIPO=>Intellectual property)我是其中之一,但我們並不皆反對賺錢。
- --LungZeno(talk) 2012年12月24日 (一) 09:17 (UTC)
- (:)回應:我同意您說的Commons是因為要達成它的使命和目的才採用 共享創意 等授權條款, 所以您的意思是, 這些圖片(a)不適合上傳還是(b)要更改加註字眼? 請您提供您覺得適合的字眼好嗎? 我讀到的是"a media file repository making available public domain and freely-licensed educational media content (images, sound and video clips) to everyone, in their own language.", 我只是希望這個檔案先在中文維基內部先討論,然後隨着正式出版, 我可以更新, 若有幸出版到其他二手來源如專書或期刊, 更新的內容就可以用在百科全書等等的條目內容。我想您能體會我的需要, 我仍決定用CC授權, 只是想要提醒使用者, 這是work in progress, 不適合學術或正式引用。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 09:28 (UTC)
- 上面這樣的圖片建議還是以討論用途的名義暫時存在中文維基中,等正式的版本想釋放版權時再上傳Commons。因為記憶中上傳Commons的圖是禁止在圖片上加註限制版權或放上有個人簽名意味的標誌或字樣。--泅水大象™ 訐譙☎ 2012年12月24日 (一) 12:41 (UTC)
- 收到, 我會思考如何不讓人誤會版權有受額外限制(我沒有要限制版權的財產權的意思)我只是要確保人格權(我不能為還沒有確定稿的內容負學術責任), 若各位有什麼好的建議, 請告知, 因為我會覺得放在中文維基上仍有類似的問題。不然我還是用英文的好了: "Work in progress, do not cite"? 引用和使用在這情況是兩碼子事, 我再找找有沒有相關指引。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:15 (UTC)
- 上面這樣的圖片建議還是以討論用途的名義暫時存在中文維基中,等正式的版本想釋放版權時再上傳Commons。因為記憶中上傳Commons的圖是禁止在圖片上加註限制版權或放上有個人簽名意味的標誌或字樣。--泅水大象™ 訐譙☎ 2012年12月24日 (一) 12:41 (UTC)
- (?)疑問:我改加字眼「Work in progress. Use but do not cite.」好嗎? 根據en:Wikipedia:Wikipedia_is_a_work_in_progress及en:Wikipedia:Citing Wikipedia和還有Wikipedia: use but do not cite。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:23 (UTC)
- (※)注意更新:我先暫時用「Work in progress. Use but do not cite.」若各位還有關於(a)CC釋出或(b)存放Commons的疑問和建議, 還請不吝提出。--(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
- 你其實是想說「不適合引用」而不是想說「不准許引用」吧?
- 你不應該命令他人做或不做那些事,取而代之的可行做法是描述那著作特性、原因、後果。
- 你使用 copyleft 類授權條款就不能這樣加以限制別人,否則 copyleft 也就不是 copyleft ,或許講 copyleft 會模糊了焦點,我換句講法, copyleft 類授權條款屬於自由版權授權條款,你使用自由版權授權條款就不能這樣加以限制別人,否則自由版權授權條款也就不是自由版權授權條款。
- 就算現在 Commons 給你使用的授權條款真的允許你這樣做,但只要 Commons 的使命、目的或理念不變,Commons 人早晚也會修正授權條款或改用其他合適的授權條款,你那些東西早晚會被清除。
- 依我理解,澳洲國立大學那個網頁是在呼籲你不要引用,如果那個網頁是講他們的規則,那麼那是他們的規則,不是講 copyleft 、自由版權、 Commons 或維基百科。
- --LungZeno(talk) 2012年12月25日 (二) 11:21 (UTC)
- 補充。那個 WretchTIPO 的網誌文所說的是,在發生那種事時,你可行的做法,並不是說,未發生就先禁止。
- --LungZeno(talk) 2012年12月25日 (二) 12:35 (UTC)
- (※)注意更新:我先暫時用「Work in progress. Use but do not cite.」若各位還有關於(a)CC釋出或(b)存放Commons的疑問和建議, 還請不吝提出。--(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
- (:)回應或可參考Wikipedia:引用維基百科+Wikipedia:免責聲明+維基百科:風險聲明的用詞:「使用但不適合引用, 原作者不對內容的正確性承擔任何風險」但這樣有點長就是了。不知LungZeno有何建議?--Liao Zhongkai(留言) 2012年12月28日 (五) 12:12 (UTC)
- (:)回應LungZeno您覺得「使用但因仍是草稿不適合引用 (風險自負)」?--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:42 (UTC)
更新: 跨界分佈的問題請大家給具體意見
(※)注意更新:原圖的中文題名為自動搜尋結果, 有一些偏差, 現已手動更正以符合其對應的網域名詞。另為暫時解決LungZeno及泅水大象™ 關於CC釋出及存放Commons的問題, 已做更新。
(?)疑問: 部份網站, 由於其伺服器可能有跨界, 或採用Content Delivery Networks (CDN)的快取服務, 各別的geoIP資料會有跨界分散的現象, 如:
- sina.com* 的跨界分佈
Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770
- qq.com* 的跨界分佈
Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091
請問各位會如何處理? 會依原分散方式做比較還是回歸其企業主要公司或伺服器所在地? hanteng目前是把一些中國官方及主要媒體, 有直接及間接證據使用如China Cache的CDN服務集中回歸其主要組織或伺服器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都歸為CN來處理, 不過像qq.com及sina.com似乎在各地真的有營運, 而不是用組織外部的如China Cache的CDN服務, 所以不太能決定應該要怎麼處理, 會符何比較百度百科和中文維基百科外部連結地理分類比較的研究用意。請各位提供您的看法和意見。--(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:37 (UTC)
- (:)回應我猜你可以試着用像中國網站必需要有的ICP許可證有無的類似思考來決定,比如說若新浪在數地都有營運登記,就採分開,若只是使用Cache servers的服務來做內容加速下載,而無相關的營運登記,那麼就應該要回歸到原網站營運登記的地點。--Liao Zhongkai(留言) 2012年12月28日 (五) 12:18 (UTC)
- 謝謝你您的意見值得參考, 試試。-(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:30 (UTC)
問題: 電子商務網站的認定問題
hanteng 為處理兩百科外部連結的內容所處網站的性質比較, 將一些網站編碼為ecommerce電子商務網站, 如tushucheng.com yoostrip.com ilucking.com tushulian.com 51966.com agri.com.cn elong.com beijingtushucheng.com ysbooking.com zzfanwen.cn zhuhere.com hxcxgl.com kuliu.com axdfz.gov.cn 等, 發現中文維基百科各地前15完全沒有電子商務網站的連結, 但百度百科不但有, 這些網站的連結總數在所有其中國連結總數的17.39%, 在香港這數字是17.87%。
(?)疑問: 請問以上的電子商務網站認定是否合理, 有什麼要增減的嗎? --(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:48 (UTC)
- (:)回應: 百度百科有大量鱔稿,這問題你問百度百科資深使用者就知道。在維基百科,這類東西會因為可信性和中立性而被回退甚至刪掉。百度百科的做法則是相反的,他們叫這做「商業合作」(不記得是否這用詞),不但明暗兼具地招攬鱔稿,而且任何加入去不利那些鱔稿的資訊都會被移除。--LungZeno(talk) 2012年12月26日 (三) 08:15 (UTC)
- (?)疑問:請問有沒有不利那些鱔稿的資訊都會被移除的一個實例嗎? 是因為商業競爭的動機還是什麼動機呢? --Liao Zhongkai(留言) 2012年12月28日 (五) 11:44 (UTC)
- 謝謝你兩位的意見, 不過這似乎有點小離題(雖然有趣), 我這裏的問題是在電子商務網站的認定方面, 不過我已找到替代解釋方法了(請期待)。若回到您們談的鱔稿現像和動機, 國外有做維基抵制link spam的研究。LungZeno可否說一下, 鱔稿真的是百度百科資深使用者會用的詞嗎? 我能相信這現像是他們知悉的, 但是否那詞是他們會用的, 我想請您考量一下。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:39 (UTC)
- (:)回應:在中國境內的網站, 有區分經營性ICPvs非經營性ICP(指不以贏利為目的)的兩種ICP許可證, 我不知道要上哪裏找登記資料, 但應該有助於你對網站性質做出電子商務網站及非電子商務網站的區分。--Liao Zhongkai(留言) 2012年12月28日 (五) 11:44 (UTC)
- (:)回應:看來有些難度, 我現在的處理方式改成查詢其公司網頁, 看有沒有在該地有分公司或營運單位, 有的話就保留原geoip, 若無則算回其總部所在地。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:32 (UTC)
研究結果: 比較百度百科BB及維基百科CW的超級用戶的地理區域分佈
請問就您們的經驗, 以下根據百度百科及維基百科超級用戶的地理分佈(超級用戶: 百度蝌蚪 vs 維基管理員), 您們的印象和反應為何? 在全球, 2012資料:
拉近看東亞, 2012及2009資料:
請大家容忍我在此副標下依時序做次標分類和摺疊整理, 這樣子做比較好分別對您的提問一一做回應, 不這樣做我真的有點難對各式提問做出迅速及妥善回應。若您只要是抒發自己意見而看法, 而不需要我個人的回應的話, 請您下一個額外同級(兩個減號)的平行副標,請體貼我回應要花的閱讀和寫作的心力, 在此先謝過。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:14 (UTC)
- (~)補充:可和我製做的全球漢人分佈圖做參照。
請分享您們的看法, 以及可以改進的地方, 謝謝。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:17 (UTC)
- 漢族人口分佈的圖,白色部分是沒有數據,還是人口低於1,000?--O-ring(留言) 2012年12月23日 (日) 13:19 (UTC)
- 您好, 該資料來源為中華人民共和國境內用的是2010年人口普查數據, 而中華人民共和國境外則用的是中華民國的僑務機關的統計資料。所以如果您指的是中華人民共和國境內白色, 那麼是人口低於1,000, 因為普查沒有缺資料, 如果您指的是中華人民共和國境外資料, 那麼這圖展現的是中華民國的僑務機關的統計資料, 見漢族#漢族人口的世界分佈圖的內文, 謝謝。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 13:33 (UTC)
- 這個不錯........把數據都弄出來了............ltdccba--Jason--Lin⇒ 2012年12月23日 (日) 14:53 (UTC)
- 看完這個分析結果就知道,百度百科基本上只是一個小圈圈圍起來自己寫自己的網站,缺乏跨越族群的世界觀(雖然這個『小圈圈』裏面人口還蠻多的)。但也有個很有趣的現象是,參與維基百科編輯的大陸人大都聚集在主要都市,不似百度那般分散在大陸各地區。這兩個現象之中,前者幾乎可以說是必然的結果,對於港澳與台灣人來說只有簡體字的百度的存在與否根本無足輕重,但是我很好奇為何維基百科的大陸power user會只集中在少數幾個城市,是巧合還是有邏輯上或統計上的原因?--泅水大象™ 訐譙☎ 2012年12月24日 (一) 05:52 (UTC)
- (:)回應感謝您的發問:關於您的看法(百度僅簡體字排除港台用戶)也是hanteng考量的可能解釋假說之一,不過關於是否百度百科就是小圈圈而維基百科就不是,可能不同人會有不同看法。我比較有一點把握的假說是(見#研究結果: 歷史比較),東亞及中國網民在成長的歷史和地理份佈上,維基百科和百度百科的發展史,影響了其用戶的分佈,百度百科是在中國網民主體(early 及late majority),特別是在非沿海城市的大幅成長時,取得許多新興的用戶,(這也是維基百科不如百度百科在後期大量到各地推廣的差別)當然,其他用戶有不同的看法,您也可以參考比較一下。(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 06:03 (UTC)
- 看完這個分析結果就知道,百度百科基本上只是一個小圈圈圍起來自己寫自己的網站,缺乏跨越族群的世界觀(雖然這個『小圈圈』裏面人口還蠻多的)。但也有個很有趣的現象是,參與維基百科編輯的大陸人大都聚集在主要都市,不似百度那般分散在大陸各地區。這兩個現象之中,前者幾乎可以說是必然的結果,對於港澳與台灣人來說只有簡體字的百度的存在與否根本無足輕重,但是我很好奇為何維基百科的大陸power user會只集中在少數幾個城市,是巧合還是有邏輯上或統計上的原因?--泅水大象™ 訐譙☎ 2012年12月24日 (一) 05:52 (UTC)
- 如果是在研究中國大陸以外地區,維基百科這種非商業網站與同類型商業網站之間的比較,個人認為Yahoo!(奇摩)知識是個可以作為參考組的探討比較對象,因為這網站在港澳與台灣擁有不低的參與度。雖然其運作方式與維基百科不同,但參與的用戶與維基百科用戶之間有某種程度的同質性。--泅水大象™ 訐譙☎ 2012年12月24日 (一) 06:11 (UTC)
- (:)回應您說的現像在我搜集的SERPUser:Hanteng#研究結果: 視覺化網絡圖相符,基本上次級百科網站如互動、Yahoo!(奇摩)知識有明顯的地理語言特性,不過維基百科似乎還是比較跨多一點不同的地理語言,zh-tw,zh-hk,zh-cn。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:17 (UTC)
- 如果是在研究中國大陸以外地區,維基百科這種非商業網站與同類型商業網站之間的比較,個人認為Yahoo!(奇摩)知識是個可以作為參考組的探討比較對象,因為這網站在港澳與台灣擁有不低的參與度。雖然其運作方式與維基百科不同,但參與的用戶與維基百科用戶之間有某種程度的同質性。--泅水大象™ 訐譙☎ 2012年12月24日 (一) 06:11 (UTC)
- (:)回應:有趣的資料收集和製圖,辛苦了,不過在下有一問,百度蝌蚪 vs 維基管理員有可比性嗎?就我所知,維基百科一般成員的編輯權限其實不會少於百度蝌蚪的"特權"。這樣子比較有可比性嗎?--Liao Zhongkai(留言) 2012年12月28日 (五) 11:55 (UTC)
- (:)回應:您的質疑有道理, 但在我要處理的問題則變的不是那麼重要。您說編輯權限兩者不具可比性, 是再正確也不過的 (顯然您對兩百科都有瞭解), 然而我的地理分佈只是在比較, 兩個社群的特殊用戶的地理分部差異。說的好聽一點是比較兩者的精英編輯的地理份佈比較, 說的比較不好聽的是, 若要做所有用戶的地理分佈比較, 在資料的可靠性、能不能收集的到、怎麼處理都是難以克服的研究障礙。以上理由, 希望您能體諒。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:13 (UTC)
- (:)回應 再比較一下互動百科吧-- ──★── 2012年12月28日 (五) 13:51 (UTC)
- (:)回應:您的意思是也來看互動百科的power users的分佈嗎? 這是可以做的, 但已超出hanteng的研究範圍。不過若有任何人想做, 需要研究方法、工作、甚或至已收集到相關資料只是不清楚製圖的做法, hanteng都願抽空幫忙。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:07 (UTC)
- 這個百度百科蝌蚪團員的區域分佈是如何製作的?據我所知,蝌蚪團員中是有海外用戶的。昨天和一位蝌蚪團用戶談到這個,他也認為這張圖不準確。具他所知,江西省是有蝌蚪團的用戶的,但是您的圖中江西省為空白。觀光維基觀光團小F(留言) 2013年1月5日 (六) 00:30 (UTC)
- 本來就是不科學的東西你還問來有什麼用?他能夠獲取的只是公開數據,只要有一個江西人在上海讀書,然後稱自己在上海又不公佈自己的所屬省份,那數據就會出現嚴重偏差。外地工作的也是同理,而且工作地北上廣深圳輪流轉,但實際上根本不是本地人。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月5日 (六) 00:35 (UTC)
- (:)回應:您好,其實原始資料己放在Google Doc上, 也有不少維基人來信問過。歡迎您認識的蝌蚪團用戶來信指正。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:45 (UTC)
- (~)補充:可否問一下您認識的蝌蚪團用戶, 若我要去他們的貼吧尋求查證意見,要去哪一頁面最合適。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:48 (UTC)
- 本來就是不科學的東西你還問來有什麼用?他能夠獲取的只是公開數據,只要有一個江西人在上海讀書,然後稱自己在上海又不公佈自己的所屬省份,那數據就會出現嚴重偏差。外地工作的也是同理,而且工作地北上廣深圳輪流轉,但實際上根本不是本地人。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月5日 (六) 00:35 (UTC)
研究結果: 語言分佈(東亞與中文)
一言蔽之: 「百度百科絕大部份的東亞與中文的外部連結為全簡體中文內容,中文維基則較平衡」
接續前述結果, hanteng進一步做出東亞與中文語言分佈餅圖,在此貼上供參考討論。注意, 因為Unicode的內容可能是簡可能是繁也有可能是混雜,所以需要進一步分析區分。hanteng設計了一個程式,可以計算出一中文文件偏離全簡體版本的比例(等同於偏近全繁體版本的比例值), 並針對搜集的資料做出相關分佈圖後,選擇不會出錯(誤差控制)的cut off比率,來區分Unicode中文文件的實質簡體繁體傾向性。
上圖清楚呈現,「百度百科絕大部份的東亞與中文的外部連結為全簡體中文內容,中文維基則較平衡」。這也意外發現似乎採用Unicode標準的繁體中文網頁較採用Unicode標準的簡體中文網頁來的多。
若您有問題想要hanteng早一點或私下回應,請寄私信給hanteng本人(本人email見此網站所列)。--(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:45 (UTC)
研究結果: 地理分佈(選定區域)
一言蔽之: 「考量地域大小後,百度百科和中文維基外部連結差異不在中國和美國的差異,而是在香港、澳門及台灣。」
由於世界地圖顯示資料有其侷限,如面積小的地域的可能分析重要性被隱沒不見,因此為求考量各地區域的大小不同,hanteng將地理分佈的世界分佈結果進一步以考量區域大小的差距來進行百度百科及中文維基百科的外部連結的分佈比較。
這樣的比較,有利於驗證百度員工之前的宣稱,中文用戶不需要維基百科這樣的"外來"(或美國的)東西。研究外部來源的世界分佈,再考量到世界各地域的大小不同,可以分除相關的"大小值"。就有意義的大小值,hanteng取國際權威組織提供的GDP(經濟體大小), 網民人口(非常可能已使用網絡百科的人口), 及人口(潛在使用網絡百科的人口)數值來進行數據的常規化(normalization)比較。如此做就不會隱沒面積小的地域的可能分析重要性。
理論上可以比世界上所有國家/地域,但在比較有效性和全面性取得平衡,hanteng選擇20多個地區來做比較。選擇的標準是以多樣性為主,重要性為輔,所以包括許多發展不一文化不一大小不一的國家及地區,也包括中國美國日本和幾個主要以中文為主要語言的國家和地區。
比較的結果以下圖:第一段資料為尚未考量地域大小,第二段以下則是考量地域大小的結果。
以上結果,尚待進一步的分析和解讀。不過以上資料可清清楚楚的表明一件事,當考量地域大小時,百度百科和中文維基百科外部連結的差異,主要不是「美國和中國」的差異(如百度員工所稱維基百科為「外來」的東西...)。因為美國中國在客觀的經濟及網民人口都很大,直接和其他地域相比有其比較問題,但在除以相關大小數值後,發現百度百科和中文維基百科外部連結的差異,主要是「中國大陸地區和其他以中文為主地區」的差異。這也許對各位維基人來說是基本認識的東西,現在有了這客觀的資料佐證,並且也比較容易對不瞭解維基和百度百科內部運作的一般大眾,或許有增進對兩百科內容傾向性差異的客觀性瞭解。
若您有問題想要hanteng早一點或私下回應,請寄私信給hanteng本人(本人email見此網站所列)。--(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:02 (UTC)
研究結果: 語言分佈
一言蔽之: 「百度百科絕大部份的外部連結為中文內容(簡體為主),中文維基則較多元」
根據本人研究所收集的所有百度及中文維基百科條目內容頁所含的外部連結,hanteng利用character encoding的區分方法,做出語言分佈餅圖,在此貼上供參考討論。
注意,此研究結果並沒有使用可產生更細膩結果的語言偵測法(language detection),主要是因為以上結果可見不需要更細膩區分如英文和法文的差別,再者語言偵測法可能會產生不必要的誤判,所以用character encoding的區分方法即可以語言的書寫系統(writing system/langauge scripts)做出最主要並少誤差的區分。
接下來還有一張圖是對東亞和中文的簡繁來源做進一步的區分結果,因為Unicode的內容可能是簡可能是繁也有可能是混雜,所以需要進一步分析區分。
若您有問題想要hanteng早一點或私下回應,請寄私信給hanteng本人(本人email見此網站所列)。--(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:35 (UTC)
研究結果查證: 百度百科BB及維基百科CW的超級用戶的地理區域
關於本人研究製圖的2012資料 (見右圖), 其來源根據的半成品其實已放在Google Doc可供各位參考,並幫助查證並指出可能錯誤的地方: 注意,
- 百度百科BB的百科蝌蚪團成員列表是以該頁列表編程爬文的結果
- 維基百科CW的管理員列表則因為不只有一個來源, 而是以個人參考眾來源的推估的結果
若各位對該結果查證方面的問題有疑問的,請在此討論,若有對製圖結果比較有想法想要討論的,請回頭至先前討論區塊參考先前討論並留言。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:31 (UTC)
研究結果: 地理分佈(世界)
一言蔽之: 「儘管總數上比中文維基多,百度百科的外部連結的世界地理分佈,不如中文維基的多元:ccTLD和geoIP方法產生的地理分區的結果,在世界上幾乎所有的地域各別比較上,中文維基的外部連結數量比百度百科的來的多(差異比例最大地區為歐洲、中東和南美 ,並非中國和美國)。」
根據本人研究所收集的所有百度及中文維基百科條目內容頁所含的外部連結,hanteng利用ccTLD和geoIP兩種地理區分方法,做出一系列地理分佈(世界)圖,由於ccTLD和geoIP方法雖然性質不同,但放在世界地圖上的效果差不多,所以僅先貼上ccTLD圖供參考討論。
圖上所標的數值為多除少所得的倍數值再取log10的值。
注意,根據當時收集資料,百度百科有約2M條目,中文維基有近0.4M ,百度百科為中文維基的近6倍大。在外部連結數上,百度百科有約1.3M,中文維基有0.7M ,百度百科為中文維基的近2倍大。因此,雖然就總數上百度百科擁有比中文維基更多的外部連結數,但其分佈在許多世界上的區域來說,遠比中文維基少。
若您有問題想要hanteng早一點或私下回應,請寄私信給hanteng本人。--(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 00:41 (UTC)
研究結果: 地理分佈(中美港台)
一言蔽之: 在連往中國的網站中,中文維基並沒有「不夠」中國 ,不過的確是比不上百度百科來的「電子商務」。
一言蔽之: 在連往美國的網站中,百度百科最愛維基百科,而中文維基百科連往的美國網站有明顯地專業及資源集中偏好。
一言蔽之: 在連往香港的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站;百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威。
一言蔽之: 在連往台灣的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括台灣主要新聞、政府、金融及媒體的網站;百度百科連往台灣的網站在質和量上比香港還差/少。
謝謝LungZeno、Shizhao、Liangent等的留言和建議,hanteng 將先前地理分佈的研究結果做出更新。解決以下問題:
- 使用China Cache 及Akamai Technologies 的主要中國網站有不少連結geoIP值會判成位於境外的網站,所以把這些geoIP值再回歸到各別網站的主要營運地點,像使用Akamai Technologies的QQ及使用China Cache的中國官方媒體網站。
- 將一些網站的中文名稱做一點修改,以符合最新及資料中主要內容的網站名稱。
為了進一步分析並說明維基百科和百度百科在這四地的前15大連結網站的差異比較,以下就分別對中國、美國、香港、台灣這四地的資料做詳細分析,這些分析包含對各別主要網站中連結最多的內容做出分析,為之前未明說的分析內容。
中國
在連往中國的網站中,中文維基百科並沒有「不夠」中國 ,不過的確是比不上百度百科來的「電子商務」。
反差大的地方: 「電子商務」而非「中國官方」
兩百科連往中國最多的前15名網站中,呈現出一個極大的反差:有8個百度百科算是電子商務網站,而維基百科沒有一個是。
這8個百度百科連最多的電子商務網站,有4個是賣書的({1}tushucheng.com, {4}ilucking.com, {5}tushulian.com, {13}beijingtushucheng.com),有3個是旅遊或訂房的 ({3}yoostrip.com, {6}51966.com, and {12}elong.com), 有1個是賣種子或農產品的({9}agri.com.cn)。這8個電子商務網站的連結總量就佔所有百度百科連結的17%。 其他百度百科的前15多連結網站中,有4個是主要入門網站 ({2}sina.com.cn, {7}xinhuanet.com, {14}163.com, {15}qq.com), 其中只有新華網是中國官方所直接擁用。其他網站則是存有不同特殊性質資訊的網站,如{8}xzqh.org有行政區劃、{10}worldpersondictionary.com有世界名人字典、{11}gsdkj.net為礦物。由於網絡百科性質,連到入門網站(如新聞)或資訊網站(如名人字典)是可以想像的,然而這麼多(一半以上)關於書籍及旅遊的電子商務網站連結,是有點奇特。
- 反正天津軌道交通這個條目...用了天津某知名媒體的來源之後下場都很慘....反正隨便一寫...要怎樣才能令人信服阿....ltdccba--Jason--Lin⇒ 2013年1月14日 (一) 11:29 (UTC)
反差突顯中文維基百科過濾不當來源的效率?
特別值得注意的,百度百科在中國前15大的外連網站中的電子商務網站 ,幾乎沒有被中文維基百科給連結到。也因此,百度百科及中文維基百科的反差數據,也突顯出那4大入 口網站,見N(CW)標下的數字,百度百科及中文維基百科同時連結比較多的網站,正是該4大入門網站。 中文維基百科連往中國最多的前15名網站中,不但排除了電子商務網站,且包括了9個中國主要的入口及新聞網站: {2}xinhuanet.com, {3}sina.com.cn, {4}people.com.cn, {5}163.com, {6}qq.com, {7}cntv.cn, {9}chinanews.com.cn, {12}china.com.cn and {14}sohu.com。值得注意的是其中有5個是由官方媒體所經營管理的新聞網站({2}, {4}, {7}, {9}, {12}),其連結總數也大於其他非官方媒體。
其他中文維基百科連最多的網站包括3個是體育相關網站:{8}beijing2008.cn (北京奧運), {10}dfo.cn (德國足球) and {13}tom.com (美國籃球NBA);2個學術專門資料庫:(1}bioinfo.cn, {11}delta-intkey.com;還有1個政府網站{15}www.gov.cn。
以上結果兩相對照,直接挑戰的是中文維基「不夠」中國的說法 ,不過的確是比不上百度百科來的「電子商務」。的確,若從這些「電子商務」的連結來反向找到百度百科的相關條目內容,就可以發現許多偏向宣傳廣告(infomercial)的內容。中文維基百科的前15大中國網站則以入口及新網資訊網站為主,而有一半以上是官方媒體。中文維基百科因此沒有不夠中國或不願採用中國官方網站來源的問題。
簡言之,差異在有沒有排除電子商務來源,而不是有沒有排除中國或中國官方來源。 --(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 15:44 (UTC)
美國
在連往美國的網站中,百度百科最愛維基百科,而中文維基百科連往的美國網站有明顯地專業及資源集中偏好。
反差大的地方: 「維基百科」本身還有對「天文及太空」偏好
連往美國網站來說,最有趣的是百度百科連最多的正是維基百科網站。
我近一步檢視資料發現,連最多的是中文再來是英文維基百科,日文維基是差比較多的第三名。其他百度百科連往美國的網站對比於第一名的維基百科網站,在連結數量上大為減少,光是連往維基百科的數量就是第二名的五倍。
按照數量大小,其他百度百科連往美國的網站大致可分三類。第一類是百度百科和中文維基百科同時連很多的網站,這包括主要的籃球網站{4}nba.com和電影資料庫網站{10}imdb.com。第二類網站是百度百科連很多但中文維基百科很少連(小於20)的網站,我發現有10個網站,除中文維基百科本身之外,其餘9個為主要是中文內容的不同主題及功能的網站: {2}souezu.cn (搜尋?), {3}5d6d.com (免費論壇), {5}hao565.cn (年輕人入口), {6}chinaexpertsweb.net (人力資源), {7}asian-chinese-african.org (手工藝電子商務), {8}qdgqtv.cn (線上影片), {11}ey800.cn (醫藥), {12}world-culture-research.org(手工藝電子商務), {14}doudouditu.cn (地圖)。這些網站結果相當可能也是近似資訊宣傳廣告的連結。剩下的網站自成第三類都有兩個百科來源的連結: {9}xikao.com (中國傳統戲劇), {13}eb.com (大英百科) and {15}google.cn (谷歌中國)。總結來說,百度百科的美國連結主要連往維基百科外,還有其他以中文內容為主的網站,其中不少也有可能是資訊宣傳廣告用的連結。
再一次,中文維基百科的連結和百度百科的連結形成反差:中文維基前15大連結美國網站排除了資訊宣傳廣告及可能的電子商務網站,但包括了主要的教育及學術資訊網站,而其中有幾個知識領域特別突出。首先,前9個網站是意想的到的:{1}nih.gov (美國最主要的官方支助的醫療研究中心), {2}doi.org (主管數位物件註冊的非營利網站), {3}sil.org (掌握世界主要語言權威資料庫及資訊的非營利組織), {4}google.com (掌握大量世界網絡書籍及學術搜索的網站), {5}imdb.com (電影資料庫), {6}youtube.com (主要影片網站), {7}nasa.gov (美國太空總署), {8}harvard.edu and {9}caltech.edu (兩個美國主要大學)。
典藏或資料庫的威力: 中文維基人大量引用的美國網站特性
我進一步查看各別網站裏面的資料發現,這些網站之所以享有眾多連結是因為該網站有主要的數位典藏或資料庫。如{1}nih.gov被連最多的是National Center for Biotechnology Information (www.ncbi.nlm.nih.gov),佔所有連結數的75%;{4}google.com被連最多的是Google books,佔所有連結數的34%;{8}harvard.edu被連最多的是NASA Astrophysics Data System (adsabs.harvard.edu) ,佔所有連結數的74% ;{9}caltech.edu被連最多的是NASA/IPAC Extragalactic Database (ned.ipac.caltech.edu),佔所有連結數的92%。
中文維基百科連往美國的大量「天文」及「太空」偏好,更進一步在第10名的{10}seds.org獲到證實。
其他的中文維基百科比較多連的美國網站則含主要wiki網站 ({12}wikia.com) 主要部落格網站 ({14}blogspot.com) 一新聞網站 ({13}nytimes.com)及兩個體育入門網站({11}uefa.com and {15}skysports.com)。
總結來說,中文維基百科連往美國的網站主要集中在權威資訊(如天文及太空網站)或廣泛但集中的媒體來源(如電影、影片及書籍)。雖說就百科內容的性質來說,百度百科也應該連往這些位於美國的網站,但如表所述的數據見N(BB) ,除了{5}imdb.com之外,百度百科連往這些網站的連結數量相當稀少。 --(研究維基和百度百科的hanteng|留言) 2013年1月12日 (六) 15:44 (UTC)
香港
在連往香港的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站;百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威。
發散效應 : 數量和品質
連往香港網站的前15多網站兩組相比,百度百科在連結的數量上來說,相對少很多。
仔細看這些外部連結的品質,百度百科的要比中文維基的低。百度百科連往香港的前15中有不少是電子商務網站,其中{1}ysbooking.com, {3}zzfanwen.cn, {4}zhuhere.com, and {7}kuliu.com是旅行/訂房類,而{8}axdfz.gov.cn是茶。他們這些外部連結對百度百科的影響是否正向值得商確,因為反向搜查發現某些只是關於某地一家旅館的條目內容。維基百科似乎成功地過濾掉這些網站的外部連結,就連有少量連結的{8}axdfz.gov.cn現在2012年再搜尋中文維基似乎已無連結。
儘管如此,這5個電子商務網站的連結總數就佔百度連往香港的所有連結數的15%。第2類網站則為資訊宣傳網站: {2}meiweizhongguo.com (食), {5}gglsw.cn (法律), {6}hxcxgl.com (顧問), {10}fushantang.com (功夫和時尚), {12}442.cn (足球), {12}52pk.com (電玩), {13}fjqhdmw.com (現為一夜情網站), and {15}whyydp.com (旅遊資訊)。剩下的二個網站才是以香港為基地的主要媒體網站:{9}yahoo.com (網媒) and {14}tvb.com (電視),這兩者中文維基百科則都有相當數量(5.5k以上)的連結。
兩組資料相比,百度百科和中文維基百科在香港的外部連結的確有發散的效應(相同的交叉少)。
發散差別: 中文維基人引用香港網站較「百科」
發散的效應單就中文維基前15大也可以看到,除了同樣連的不少的{1}yahoo.com, {2}tvb.com分佔前2名,中文維基的前15大更包括了其他香港媒體,包括公共媒體香港電台{5}rthk.org.hk, 商業報紙 {6}atnext.com, {12}on.cc {13}nextmedia.com,及網絡媒體 online media {3}wretch.cc {10}sina.com.hk。除此之外,還有香港政府網站{4}info.gov.hk, {14}legco.gov.hk, {15}lcsd.gov.hk及非營利的香港足球{7}hkfa.com。這15大還包括香港交易所{9}hkex.com.hk及公共通輸({8}mtr.com.hk {11}681busterminal.com)的網站。
中文維基百科連往香港的前15大網站,和百度百科同樣的網站相比,就比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站。在連往香港連結中,百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威:兩者在連結的數量及品質上大不相同,有發散效應 。 --(研究維基和百度百科的hanteng|留言) 2013年1月14日 (一) 07:39 (UTC)
台灣
在連往台灣的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括台灣主要新聞、政府、金融及媒體的網站;百度百科連往台灣的網站在質和量上比香港還差/少。
發散效應 : 數量和品質
連往台灣網站的前15多網站兩組相比,就像前述香港組的資料類似,百度百科在連結的數量上來說,相對少很多。注意,台灣組的數據比香港還來的糟:百度百科連往香港的前15大,大致上都有250個以上的連結,然而在台灣組數據上只有前3大有250以上的連結。由於連結數量偏低,在此我只單就百度百科連結台灣的前5大做討論。
百度百科連結台灣的前2大分別為中研院{1}sinica.edu.tw和國立故宮博物院{2}npm.gov.tw ,裏面不少為研究及學術典藏或資料庫的資料。第3大為華文音樂網站的電子商務網站。第4大為入門網站{4}yahoo.com。第5大為付費百科網站,包括大英、中國、及台灣百科的付費入門網站。雖然這些網站是反映了百科內容所需的多樣來源特性,但數量之低,意謂著百度百科並沒有太多連往位於台灣的網站。
兩組資料相比,百度百科和中文維基百科在台灣的外部連結的確有發散的效應(相同的交叉少)。
發散差別: 中文維基人引用台灣網站較「百科」
相較之下,中文維基百科在納入連往台灣的外部連結來說,相對的在數量及多樣性上,較百度百科來的「百科」。中文維基百科在連往台灣的外部連結 ,不只包括了前述的中研究{1}sinica.edu.tw 及入門網站 {3}yahoo.com,更包括了台灣的主要報紙媒體,如自由時報 {2}libertytimes.com.tw, 聯合報系 {4}udn.com 及中時報系{5}chinatimes.com。
這15大也包括了其他台灣的主要媒體網站,如電視{15}tvbs.com.tw、網絡媒體media {6}yam.com, {10}nownews.com and {12}pixnet.net。台灣股票的官方權威網站{7}tse.com.tw也在其中。有3個主要大學網站,1個是台北市管轄的中小學網站集合。這15大只有1個是台灣政府的網站:立法院{13}ly.gov.tw。
比較台灣組的資料,中文維基百科的外部連結又一次被證明是更多元、更反映台灣的主要權威資訊來源:特別是包括主要新聞、教育、政府網站,而這些網站在百度百科內則鮮少出現。
唯一例外是百度百科在帳面上比中文維基百科有更多連往故宮博物館的連結,然而就實質上,中文維基百科引用故宮博物館的連結是更多的。這理由主要是因為在中文維基百科中,許多連往故宮的連結都被中繼的檔案命名空間」File:」所取代,因此這些連結在中文維基百科變成了內部連結,而在本研究方法上就算不到了。
(註:2012年12月寫作時,谷歌搜尋中文維基百科中連往故宮網站的數量為 873: 關鍵字「npm.gov.tw site:zh.wikipedia.org」。此數據高於在百度百科的417: 關鍵字「npm.gov.tw site:baike.baidu.com」 。而在中文維基百科的相關谷歌搜尋結果中,有不少正是以 「File:」 為命名空間的結果頁面。)
從台灣和香港的兩組資料可見,百度百科和中文維基百科的外部連結的發散性高,重疊率很低:不只百度百科在連往兩地的連結數量少很多,品質也相較之下因過多電子商務和資訊宣傳網站,而低落不少 ;中文維基百科,相較之下,則包納了香港及台灣的主要新聞及部份政府網站。
這次總算是做了點有意義的分析,感謝hanteng。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月12日 (六) 16:19 (UTC)
研究結果: 找出斷裂
根據前述#網絡計量學: 比較維基百科和百度百科在各地搜尋引擎的可見度,我們可以看出,對於選定的搜尋關鍵字來說,百科內容的網站享有的能見度是累積最高的,但對不同的中文搜尋引擎及不同的地方版本,會有不同的百科網站的能見度差異。
其實,對其他網站來說,這樣因中文搜尋引擎及地方版本的差異,而有能見度的差異,我們可以利用網絡關係圖來找出富有連結及少有連結的差異。總結這些差異,研究者可以找出網絡連結的斷裂之處,來看出在中文搜尋引擎的不同版本所產生的能見網站的共同之處(同時富有連結) ,和斷裂之處(只有對部份版本富有連結,而另版本則少有連結)。
區塊建模結果
利用能見度前100名的網站,按其能見度數值,以數學方法的二維網絡關係區塊建模(two-mode blockmodelling),則成功將原資料100x9(100網站x9搜尋可能)產出一個3x3分類(3類網站x3類搜尋可能)的分類結果:
其中三類區分出的搜尋可能為:
- Baidu_CN,Google_CN, Yahoo_CN 3者, 這3搜尋可能變異,只對能見度前100名的網站中61個網站(13+48)富有連結,而對其他39網站(包括中文維基百科等,見上圖左上角大區塊中多為白色底少有連結的網站列表)則有相對斷裂的效果。
- Yahoo_SG,Google_SG, Google_TW, Google_HK 4者, 這4搜尋可能變異,對能見度前100名的大多數網站富有連結,算是所有9個搜尋可能變異的中流,較無斷裂的效應。其對百度百科和維基百科的能見度貢獻,相較前後類來說,也算是較持平的。
- Yahoo_HK,Yahoo_TW 2者, 這2搜尋可能變異,只對能見度前100名的網站中52個網站(=39+13)富有連結,而對其他48網站(包括百I度百科等,見上圖右下角大區塊中多為白色底少有連結的網站列表)則有相對斷裂的效果。
同樣地,100個網站也因區塊建模分類,分成三類網站:
- 見上圖列出的前上半段39個網站,這些網站對Baidu_CN,Google_CN, Yahoo_CN 3者相對少有連結。
- 見上圖列出的中間段13個網站,這些網站對各種搜尋可能變異,一般來說沒有特別誇張的差異表現。
- 見上圖列出的後下半段48個網站,這些網站對Yahoo_HK,Yahoo_TW 2者相對少有連結。
換句話說,區塊建模分類算是一個劃出界線找出斷裂的工具之一:按連結關係(可見度高低)原資料選取的前100網站,可以分成3類,而原資料中9搜尋可能亦可分為3類。原來複雜的100x9網絡關係圖,就可以簡約化成3x3的網絡關係區塊圖,是以其交互關係來分類的成果。
視覺化結果
依區塊建模結果,將原資料中9搜尋可能亦可分為3類,放回能見度視覺化的網絡圖來看,就像是將9搜尋可能以2條紅線劃出3分類如下圖:
結果討論
- 搜尋可能呈現CN一類、Yahoo的TW及HK一類,而這兩類位於兩端,其實在中間的區分效果
- CN一類或許和中國大陸地區網絡特殊性相關?
- Yahoo的TW及HK一類應該是Yahoo在搜尋引擎的內定預設,為本地搜尋結果優先的原因,而兩者一類,或因Yahoo服務同樣是繁體用戶區的整合效果。
- 百度百科主要是對CN一類有很高的能見度,但也對Yahoo及Google的新加坡版本能見度也不低,或者是因為新加坡及中國大陸同樣用簡體字的整合效果?
- 注意Yahoo及Google的新加坡版本,雖然易看見百度百科,但也常看見中文維基百科。
- 注意CN一類的Baidu_CN,Google_CN, Yahoo_CN ,雖然易看見百度百科,但郤不常看見中文維基百科。
- 以上對比也映證了按能見度區塊建模分類的區分效果。
- 中文維基百科主要是對非CN一類有很高的能見度,但Google_CN對中文維基百科其實也不算低。
- 合理推論,在中國大陸,使用哪一種搜尋引擎會影響是否常見中文維基百科的概率。
結果總結
- 按各地中文搜尋結果及網站能見度,可大致找到斷裂之處,主要是中國大陸與非中國大陸之間有搜尋斷裂的差異。
- 中文維基百科對各地中文用戶的能見度整合效果(同時看到同樣內容),比百度百科相對高,但只限於使用Google_CN的中國大陸用戶。
- 百度百科僅對中國及新加坡簡體中文用戶有高度能見度整合效果(同時看到同樣內容)。
--(研究維基和百度百科的hanteng|留言) 2013年1月14日 (一) 17:16 (UTC)
法輪功主要網站和新華網及華夏經緯網被分在同一組?
(圖見#區塊建模結果) 就以上的研究結果可以挖出不少有趣的平常人看不到的觀察,如
- 華夏經緯網的big5版本,big5.huaxia.com很有趣的在百度並不可見,而是要到其他的地域才看的到。由於華夏經緯網是PRC中央國家機關特定新聞單位網站,這說明了中國官方媒體在間隔分區做的努力,對台的繁體字宣傳還是要做,但會和其他簡體字內容做出網站和使用者的區隔。
- 新華網的big5版本,big5.xinhuanet.com很有趣的在百度並不可見,而是要到其他的地域才看的到。由於新華網是PRC中央國家機關新聞單位網站,這說明了中國官方媒體在間隔分區做的努力,對台的繁體字宣傳還是要做,但會和其他簡體字內容做出網站和使用者的區隔。
- 法輪功主要網站epochtimes 也是和華夏經緯網big5、新華網big5、及維基百科被區塊建模分類在同一類的網站,就是在中國CN的搜尋引擎能見度都相對很低。如何能理解為什麼法輪功主要網站和華夏經緯網big5、新華網big5遭到相同命運呢?我的詮釋是因為在其他非中國的搜尋引擎能見度相對開放,所以能接納不管是法輪功和華夏經緯網big5、新華網big5等的關鍵字宣傳,然而中國CN的搜尋引擎(特別是Baidu )則明白的將這些網站給予很低的能見度。換句話說,中國官方的宣傳戰或可以說已/只決戰於境外,境內則連自己對外的(big5)宣傳可能都不是很清楚,華夏經緯網big5、新華網big5的特定能見度分佈像法輪功網站的原因可能在此。--(研究維基和百度百科的hanteng|留言) 2013年1月15日 (二) 16:43 (UTC)
中國境內搜索結果的偏好性:幾點觀察
(圖見#區塊建模結果)回頭看建模出的分類資料,可以利用引用來源(將搜索結果視為搜尋引擎引用他網站)的反向推測索引範圍,還有百度搜索結果在眾網站的偏好,以上結果有趣且清楚的是:
- 中國境內搜索結果不偏好中文維基百科 (Google China現在在香港版本例外)
- 中國境內搜索結果不偏好中國政府直接控制網站的big5版本(純繁體版本)
- 中國境內搜索結果不偏好法輪功網站 (Google China現在在香港版本例外)
- 中國境內搜索結果不偏好香港政府網站 (Google China現在在香港版本例外)
- 中國境內搜索結果不偏好台灣政府網站 (Google China現在在香港版本例外)
此處中國境內搜索結果指百度和雅虎。
此上結果也間接促使以上網站在#區塊建模結果中被數學方法歸為同一類,產生#法輪功主要網站和新華網及華夏經緯網被分在同一組?的有趣現象。 --(研究維基和百度百科的hanteng|留言) 2013年1月16日 (三) 01:51 (UTC)
- 這種基本常識還要拿來刷版?--Kuailong™ 2013年1月16日 (三) 03:26 (UTC)
- 驗證一下基本常識也是好的,只不過版面佔用太多了。—Snorri(留言) 2013年1月16日 (三) 03:34 (UTC)
- 嘛,不要跟對中國毫無認識的人說這種話了,人家是需要用到複雜的數學模型,才能推斷出中國人多數是黃種人這一事實。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月16日 (三) 03:37 (UTC)
- (:)回應不知道User:Edouardlicn為什麼可以離題到中國人多數是黃種人的所謂數學模型上,不過他提了,正可以來提提自然人類學等相關條目的常識問題,見#黃種人與常識。--(研究維基和百度百科的hanteng|留言) 2013年1月18日 (五) 00:50 (UTC)
- 嘛,不要跟對中國毫無認識的人說這種話了,人家是需要用到複雜的數學模型,才能推斷出中國人多數是黃種人這一事實。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月16日 (三) 03:37 (UTC)
- (:)回應您說的"常識"是以下的事嗎?
...所以我認為,用微不足道的維基百科跟百度百科來比較數據,就必須要將外部因素考慮進去,尤其是政府政策和壟斷企業的打壓。--馬呵說念誒多嘩鐸★愛生活愛蘿莉塔 2012年12月22日 (六) 07:33 (UTC)
若各位真認為常識就夠,而個人研究沒有價值,那麼就留給其他人做評判就好。絕大多數研究百科的內容結果都尚未放在此處供大家討論(包括真正接受中國政府用中國公民納稅人資助的研究成果),請各位也思考一下,那些研究結果應不應該來供大家討論並回應。--(研究維基和百度百科的hanteng|留言) 2013年1月16日 (三) 05:28 (UTC)
- 應該,但不應該貼在客棧影響他人討論進程。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月16日 (三) 13:33 (UTC)
- 這個研究也許會有價值,不過請先寫出一篇完整的文章(至少是draft)再發出來討論。--Gilgalad 2013年1月17日 (四) 01:33 (UTC)
- 他的目的就是為了灌水刷優越感,當然不可能寫出完整的文章了。讓人類平等地認知世界(留言) 2013年1月17日 (四) 06:57 (UTC)
- (:)回應學術文章將會在其他場合發表後再此提出討論,如前所述,hanteng只是對社群提出原始資料的初步分析,目的是要聽聽不同角度對這些資料的看法,若大家對hanteng的結論認為不符合資料或有偏差的可以儘量提出,但請以資料為出發,謝謝。至於User talk:Xiehechaotian灌水刷優越感的指控,我想我這樣做如何在客觀上維持他說的優越感, 還是要面對眾多不同(有時只是純干擾)的聲因,應該是很難的,我選擇想聽各位意見,就要面臨部分人的不切題討論、嘲諷、甚至人身攻擊,但對知識生產及社群發展的嚴肅需要,高於個人在維基受部份用戶的無端指控。只好選擇相信維基平台還有基本的歷史記錄和對相關統計資料討論的興趣,只求不冒犯維基社群多數人。--(研究維基和百度百科的hanteng|留言) 2013年1月18日 (五) 00:50 (UTC)
網絡計量學: 比較維基百科和百度百科在各地搜尋引擎的可見度
百科的使用者訪問量許多來自Google、Yahoo、百度等搜尋引擎透過台灣、香港、中國、新加坡等等地方界面而來, 維基百科和百度百科的可見度(visibility)為何呢? 根據數個產業報告, 我建構了一個可見度數量計算方法 (visibility scores), 我分別在2011年牛津及2012年香港及中國境內, 以不同的搜尋引擎和地方界面, 分別利用2500個及3000個關鍵字搜尋來比較維基百科和百度百科在各地搜尋引擎的可見度。
搜尋關鍵字選取
2500個搜尋關鍵字選取以代表多樣性選取為原則, 從劍橋中國大百科的所有條目名稱、歷年百度谷歌搜尋最多的關鍵字、知名人士、敏感詞、中日現代詞彙都有。 3000個搜尋關鍵字選取則是多加了財星五百大企業名稱 Fortune 500。 感謝維基百科的自動轉換系統,我可以輕易的把這些搜尋關鍵字轉換成對映的簡體及繁體字詞,以便我在不同地區界面使用對映的主流字詞。
研究結果: 視覺化網絡圖
有圖有真相, 果然百科網站表現最好, 而地域界面和搜尋引擎的選擇決定了是哪個百科比較容易出現: 視覺化網絡圖, 點愈大代表該網站愈有可見度, 箭頭愈大該搜尋引擎-地域界面的貢獻愈大
研究結果: 比比關鍵字對能見度的影響
不同類型的關鍵字, 果然最有能見度的網站排名就不一樣。想要知道哪一個非百科網站的能見度對哪一種類別的關鍵字最有效嗎? 見以下列表: (注意三個百科網站有加粗標出)
- 2011 OX
- 2012 HK (多了Fortune 500的搜尋關鍵字)
研究結果: 能見度的集中程度
網站累積的能見度總分數, 若以前幾名網站總和佔總分數的方式做圖, 則會發現極少數的網站擁有相當高的能見度數值。 而其中, 2012HK的數值似乎又比2011OX的數值更往前幾名網站分佈的走向, 似乎有富者愈富, 貧者愈富的能見度數值分佈傾向。
以上內容還請大家提問也提供您的批評指教。因為這蠻長的,若討論長,請容忍hanteng對此副標下的討論按時序做通用摺疊處理,以方便本人快速分批回覆。 --(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:24 (UTC)
2012年12月24日 (一) 12:00 以後
你在這裏發表,只吸引到小白,甚至沒有人回覆,說明你發錯地方,你這些研究應該在META或者年會上發表才是對維基有幫助。Angrykit(留言) 2012年12月25日 (二) 07:24 (UTC)
- 請注意你的用詞,謝謝。--馬呵說念誒多嘩鐸★愛生活愛蘿莉塔 2012年12月25日 (二) 07:34 (UTC)
回應: 謝謝Angrykit的意見, 個人覺在發表在這, 發表在Wikimania, 發表在Wikisyn, 發表在CIRC, 都有不同的場合不同的觀眾和用意,若一般的維基人沒能回覆, 這樣的沈默不代表什麼。我的相關研究的確是到過維基基金會總部(個人受英國維基基金會贊助)做報告過的, 今年也會去投Wikisym +Open Sym 2013, 也會想法子投專門的媒體研究或網絡計量學研究期刊。在此謝謝您的鼓勵和建議, 但在社群頁面分享成果是必要, 望您諒解。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:02 (UTC)
- 「使」用維基百科的名義做研究嗎?申請基金的好辦法。--下限魔法少年愛德華★愛生活愛圓神愛蘿莉塔 2013年1月5日 (六) 00:38 (UTC)
- (:)回應: 像目前維基基金會研究委員會及其研究通訊所努力的,正是在維基百科發展上以紥實的研究來找到發展的未來關鍵及現有盲點。為其他商業網站或政府網站做同樣或類似的研究,可以獲得更高額的薪水及名聲,因此請不要以您簡單一句話來勾消眾多研究維基百科發展的研究者的辛苦成果和動機。若您對我本人有什麼不滿,請您直接表述,不要用言語指涉到願意(通常無商業回報)投資研究的地方組織和群體。--(研究維基和百度百科的hanteng|留言) 2013年1月14日 (一) 08:08 (UTC)
- (!)意見--也許看的人有限、表達意見的人更不多,但是,卻讓經過的人都知道 有人在這麼從多面向研究維基百科,其他用戶以後真有什麼想法、意見,也知道可以來此分享、貢獻觀點,這是發揮社群的功能,我覺得對維基的發展是很好的。鼓勵您貼。互助客棧 本來就是可以交流,當然包括 學術交流。何況,這還牽涉到 維基的 長期發展。感謝維基百科的存在,自然也感謝您對 維基研究 的貢獻。Wetrace(留言) 2013年1月23日 (三) 10:19 (UTC)
研究結果: 語言發展(東亞與中文版本)
一言蔽之: 「百度百科只有簡體中文內容,中文維基則在維基跨言連結中和其他中文版本及中國境內特定語言版本有來往連結關係」,顯見語言政策的多元與否差異。
跨語連結:此圖呈現維基百科中文版(zh)和其他語言的主要連出連入關係在所有跨語連結網的關係,注意其他百度百科只有一種中文語言版本,而維基百科則有其他中文言語版本及文言文版本。圖中顯示
此圖另外版本另發表於
Petzold, T, Liao, H, Hartley, J & J Potts (2012). A world map of knowledge in the making: Wikipedia's inter-language linkage as a dependency explorer of global knowledge accumulation. Leonardo: Art, Science and Technology;45(3).
Petzold, T, Liao, H, Hartley, J & J Potts (2012) A World Map of Knowledge in the Making: Wikipedia’s Inter-language linking as a dependency explorer of global knowledge accumulation, In Schich, M, Malina, R, I Meirelles (Eds) Arts, Humanities and Complex Networks, MIT Press. Links to E-Book and Web Companion.
以下則分享俄文版(ru)、阿拉伯文版(ar)及土耳其文版內容。
- 瑞典語的情況不太對? 在如此靠邊的位置? Bluedeck 2013年2月1日 (五) 16:30 (UTC)
- (:)回應:網絡圖的視覺化有多種演算法,而2D和3D也有差別,若您對瑞典語有興趣,最好是拿原始檔再多跑一次來看其位置,這個圖主要是以中文為主的視角,所以其他的或有偏差。我用的視覺演算法是重力相關的,沒關係或闗係少就互斥,有關係或關係強就互吸,然而這關係圖中心及邊陲的效應太強,所以各種視覺化效果難像其他網絡易於收歛,但不減其看特定語言在整體網絡互連的連入/出的關係。--(研究維基和百度百科的hanteng|留言) 2013年2月1日 (五) 17:10 (UTC)
中文維基百科瀏覽量前1000名的頁面(2012年12月)
[1],雖然不知道準確性如何,但可以參考看看,2013年1月的數據還沒出來。--Alexchris(留言) 2013年2月6日 (三) 02:08 (UTC)
- 有幾個Undefined和類似編碼的是什麼?——Sakamotosan 2013年2月6日 (三) 02:55 (UTC)
- 不知道是甚麼...--Alexchris(留言) 2013年2月6日 (三) 03:19 (UTC)
- Undefined是怎麼回事就不知道了,但那些「Wikipedia:\xE9\xA6\x96\xE9\xA1\xB5」的,把「\x」換成「%」,然後訪問一下,你就知道是什麼了。--不是機械人的小貓咪(留言) 2013年2月6日 (三) 15:26 (UTC)
- 不知道是甚麼...--Alexchris(留言) 2013年2月6日 (三) 03:19 (UTC)
- 囧rz...,有60萬人來維基找百度。烏拉跨氪 2013年2月6日 (三) 08:28 (UTC)
- 這正說明維基的沒落,百度的逆襲即將開始。百度那幫
屌絲看來有顛覆WP的舉動。慢慢等吧,中文維基在中國大陸的完全開放看來要再等等咯……Super Wang 2013年2月6日 (三) 11:40 (UTC)- 現在在中國大陸用https就是完全開放吧。--維基小霸王(留言) 2013年2月6日 (三) 11:45 (UTC)
- 囧rz...那麼手機黨就悲催了。Super Wang 2013年2月11日 (一) 01:59 (UTC)
- 現在在中國大陸用https就是完全開放吧。--維基小霸王(留言) 2013年2月6日 (三) 11:45 (UTC)
- 百度是要逆襲啥啊?在中國大陸百度百科的使用量本來就大勝中文維基,要說「逆襲」也是維基才可能。ffaarr (talk) 2013年2月6日 (三) 12:31 (UTC)
- 百度指數, Google Trend, Alexa 比較
- 各位要比較流量的話,最好是找大網站收集的資料,比小心關鍵字的選擇
- 百度指數比較 vs. Google Trend
- 再來就是Alexa的資料,
- 點traffic能得到subdomain 的比較,沒有subdomain 比較就無法比baike.baidu.com vs zh.wikipedia.org
- baike.baidu.com佔baidu.com 的17.96% vs. zh.wikipedia.org佔wikipedia.org 的 2.05%
- 所以Alexa的看法是Reach%:
- baike.baidu.com (1 month reach) 12.52%*17.96% vs. zh.wikipedia.org (1 month reach) 13.253%*2.05%
- 是Pageviews/User:
- baike.baidu.com (1 month) 15.01*17.96% vs. :# zh.wikipedia.org (1 month) 3.93*2.05%
- 以此類推,
- 至於搜尋量為什麼 維基百科 大於 百度百科 而訪問量則相反?我不知道。--(研究維基v百度百科的hanteng✉) 2013年2月6日 (三) 14:50 (UTC)
- 之前google adplanner有精確的可以比較子網域以及各地區的數據,比alexa更好用。可惜現在沒了,我2012年5月時用該站比較的時候,百度百科總使用頁數是中文維基8倍。只算中國大陸的話是32倍。(另註,在2010年6月時,兩個差距只是4倍和21倍,可見雙方差距是愈來愈大)、搜尋量應該是指百度vs維基百科這樣的關鍵字被搜的次數,但進百度百科的人不代表會用百度當關鍵字搜,而大多是用條目名來搜的。ffaarr (talk) 2013年2月7日 (四) 12:44 (UTC)
- (:)回應:的確,進百科網站的人未必是本來就要找百科的,但找百科的關鍵搜查字,仍可做為已知品牌的使用者做的選擇,至於其他搜尋字到底是百度百科還是維基百科出線,地域和搜尋引擎的選擇似乎已決定不少。[4]--(研究維基v百度百科的hanteng✉) 2013年2月10日 (日) 03:59 (UTC)
- 這正說明維基的沒落,百度的逆襲即將開始。百度那幫
- 贊成搜尋引擎應該是影響最大的。在大陸百度搜索的排序影響最大,條目數和百度差不多的互動百科,在中國大陸的使用量大概只有百度百科的1/20不到。ffaarr (talk) 2013年2月10日 (日) 11:00 (UTC)
- 百度嚴重地壟斷了中國大陸的搜尋引擎市場,就連搜狐和新浪的搜索技術提供者都是百度。不過話說這「全球最大」還真不是吹的。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- 還是性別不平衡
和以前一樣,從關鍵字愛好來看還是性別不平衡,不知道是編者還是讀者的問題。--(研究維基v百度百科的hanteng✉) 2013年2月6日 (三) 14:27 (UTC) (~)補充: m:WikiWomen's_Collaborative --(研究維基v百度百科的hanteng✉) 2013年2月7日 (四) 01:58 (UTC)
- Undefined name space
2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 \xE5\xAE\x89\xE5\x8A\xA0\xE7\x88\xBE [创建=仅管理员](无限期) (多次重复创建) (历史) 2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 Wikipedia:\xE9\xA6\x96\xE9\xA1\xB5 [创建=仅管理员](无限期) (多次重复创建) (历史) 2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 Undefined [创建=仅管理员](无限期) (多次重复创建) (历史)
--Makecat 2013年2月7日 (四) 02:56 (UTC)
- 囧rz...你咋不早說……但有點陽光就燦爛啊,百度估計是打算一直這樣下去。為什麼不加入一個baidu:的NAMESPACE,只用谷歌還是不中立。Super Wang 2013年2月7日 (四) 05:33 (UTC)
- 你說跨維基連結?要加baidu,請先把yahoo加進去。-HW論 獻 2013年2月9日 (六) 15:11 (UTC)
- 難道雅虎的中文用戶多過百度?特殊頁面不能直接編輯,怎麼加進去也是個難題。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- m:Talk:Interwiki_map,是否批準是另一個問題。-HW論 獻 2013年2月11日 (一) 02:19 (UTC)
- 難道雅虎的中文用戶多過百度?特殊頁面不能直接編輯,怎麼加進去也是個難題。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- 你說跨維基連結?要加baidu,請先把yahoo加進去。-HW論 獻 2013年2月9日 (六) 15:11 (UTC)
- 囧rz...你咋不早說……但有點陽光就燦爛啊,百度估計是打算一直這樣下去。為什麼不加入一個baidu:的NAMESPACE,只用谷歌還是不中立。Super Wang 2013年2月7日 (四) 05:33 (UTC)
2013 年 1 月維基百科手機頁面瀏覽量
2013 年 1 月,維基媒體基金會宣佈維基百科移動頁面瀏覽量突破 30 億次,佔到總頁面瀏覽量的 14.5%,比上年同時期增長 4.6 個百分點。同時,基金會移動合作業務部門高級經理阿米特·卡普爾(Amit Kapoor)還在 Blog 聲稱,目標是到今年 6 月,移動頁面瀏覽量達到 40 億次。
-- ──★── 2013年2月16日 (六) 09:05 (UTC)
- 微博已經看見很多人轉發了——Sakamotosan 2013年2月16日 (六) 12:33 (UTC)
- 好事。-HW論 獻 2013年2月16日 (六) 12:35 (UTC)
- 對我們(中文區)有意義嗎?——Sakamotosan 2013年2月16日 (六) 12:39 (UTC)
- 好事。-HW論 獻 2013年2月16日 (六) 12:35 (UTC)
- 話說中國大陸的用戶想用手機直接訪問維基百科不是那麼容易。Super Wang 2013年2月16日 (六) 13:03 (UTC)
- 手機似乎干擾更加嚴重。--Makecat 2013年2月17日 (日) 09:15 (UTC)
- 別擔心,我們有 HTTPS。Wikipedia:HTTPS-- ──★── 2013年2月22日 (五) 01:49 (UTC)
- 手機似乎干擾更加嚴重。--Makecat 2013年2月17日 (日) 09:15 (UTC)
- 舊事重提,移動裝置的上傳相片APP何時才開發成功,手機有一堆相片等著上傳。某生(留言) 2013年2月17日 (日) 16:03 (UTC)
- 這個APP目前有誰開發麼?如果目前沒人的話,也許可以聯繫團隊開發?——燃玉 留言 勇踏前人未至之境! 2013年2月17日 (日) 16:13 (UTC)
- 開發了也夠戧上得去。中國大陸版Android已經被光榮地閹割了……Super Wang 2013年2月18日 (一) 02:10 (UTC)
- mw:Apps/Commons--HW論 獻 2013年2月18日 (一) 02:17 (UTC)
- 移動網頁版支持上傳圖片(開測試模式),如果移動網頁版的技術能移植到客戶端版就完美了,還有,google市場可以上play市場重新下回來吧——Sakamotosan 2013年2月18日 (一) 02:21 (UTC)
- 那是什麼時候的事?現在還可以用的說~ ——燃玉 留言 勇踏前人未至之境! 2013年2月18日 (一) 12:35 (UTC)
- Android版維基共享資源應用程式前數天發佈了。-HW論 獻 2013年2月28日 (四) 14:00 (UTC)
- 開發了也夠戧上得去。中國大陸版Android已經被光榮地閹割了……Super Wang 2013年2月18日 (一) 02:10 (UTC)
為什麼非洲有這麼多中文維基百科訪問量?
如題--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月18日 (一) 09:09 (UTC)
- 我也一直不得其解...可能經濟變好了!?♠奇犽♥·★揍敵客★ 2013年11月19日 (二) 11:58 (UTC)
- 顏色最深的查德跟中非的經濟一點都不好……難道那邊有人在學習中文?--全無尊嚴先生(留言) 2013年11月19日 (二) 12:22 (UTC)
- 我也不知道~.~,我也懷疑很久了QAQ♠奇犽♥·★揍敵客★ 2013年11月19日 (二) 12:26 (UTC)
- 顏色最深的查德跟中非的經濟一點都不好……難道那邊有人在學習中文?--全無尊嚴先生(留言) 2013年11月19日 (二) 12:22 (UTC)
- 這個圖表中的百分比在計算時,分母與分子的確實定義到底是什麼?--泅水大象™ 訐譙☎ 2013年11月20日 (三) 11:10 (UTC)
- 按圖片說明:「2012年3月至2013年2月中文維基百科在各國瀏覽量所佔比例」。--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月21日 (四) 12:32 (UTC)
- 再看Wikipedia:統計#用戶來源分佈對比,意思應該是這個國家中文維基百科瀏覽量在這個國家各語言維基百科瀏覽總量(而不是中文維基百科瀏覽總量)中的比例。這個是可能有一點隨機性。--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月21日 (四) 12:54 (UTC)
- 按圖片說明:「2012年3月至2013年2月中文維基百科在各國瀏覽量所佔比例」。--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月21日 (四) 12:32 (UTC)
- 這個圖表中的百分比在計算時,分母與分子的確實定義到底是什麼?--泅水大象™ 訐譙☎ 2013年11月20日 (三) 11:10 (UTC)
- 只要3%就要染最深的顏色。 --達師 - 270 - 456 2013年11月23日 (六) 11:27 (UTC)
- 或許是因為這些國家本來就沒幾個人能上網,於是分母太小,移民過去的中國人隨便點兩下就上去了。。前段時間看到維基英文版決定啟動給非洲一些國家以短訊形式發送條目,因此地多不通網絡或上網條件太高。--淺藍雪❉ 2013年11月25日 (一) 17:47 (UTC)
- 我當初會問分子與分母的確切定義,就是因為懷疑這是統計的盲點:如同淺藍雪君所言,如果分母太小,那麼只要有少數幾個人瀏覽就會讓佔比大幅增加而導致閱覽率比例很高的假象。之前在閱讀一份跟網絡通訊技術有關的全球統計時也有看過類似的狀況,文中提到在非洲國家無線網絡的使用率非常高甚至超越歐美國家,原本覺得很不可思議,之後發現原來那統計是在討論無線網絡的使用量佔全部網絡使用量的比例,所以非洲國家比例高不是因為無線網絡真的普及,而是因為基礎設施太差幾乎沒人在用固接網絡,所以無線網絡的佔比當然會接近100%!--泅水大象™ 訐譙☎ 2013年11月25日 (一) 22:24 (UTC)
- 這圖上北美澳洲跟英國都深得不忍直視,想必已經說明問題,根本是在講世界各地哪裏華人多。Scrummble(留言) 2013年11月27日 (三) 02:02 (UTC)
- 北美、澳洲、新西蘭、英國、東南亞等地區的顏色深應該是因為當地的確有不少華人人口之故,但我仍認為一些非洲國家、南美的蘇里南、中亞的喬治亞與好幾個大洋洲島國的顏色深,是分母太小導致的假象。--泅水大象™ 訐譙☎ 2013年11月27日 (三) 06:36 (UTC)
- 或者有人拿那裏的伺服器刷瀏覽量搞ddos。--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月27日 (三) 08:50 (UTC)
- 我當初會問分子與分母的確切定義,就是因為懷疑這是統計的盲點:如同淺藍雪君所言,如果分母太小,那麼只要有少數幾個人瀏覽就會讓佔比大幅增加而導致閱覽率比例很高的假象。之前在閱讀一份跟網絡通訊技術有關的全球統計時也有看過類似的狀況,文中提到在非洲國家無線網絡的使用率非常高甚至超越歐美國家,原本覺得很不可思議,之後發現原來那統計是在討論無線網絡的使用量佔全部網絡使用量的比例,所以非洲國家比例高不是因為無線網絡真的普及,而是因為基礎設施太差幾乎沒人在用固接網絡,所以無線網絡的佔比當然會接近100%!--泅水大象™ 訐譙☎ 2013年11月25日 (一) 22:24 (UTC)
- 或許是因為這些國家本來就沒幾個人能上網,於是分母太小,移民過去的中國人隨便點兩下就上去了。。前段時間看到維基英文版決定啟動給非洲一些國家以短訊形式發送條目,因此地多不通網絡或上網條件太高。--淺藍雪❉ 2013年11月25日 (一) 17:47 (UTC)
關於統計,不管是Page Views還是Page Edits
- Country X's share of global total (該國於全球所佔總量比例,簡稱該國佔全比)= 該國/全部
- Language Y's share of Per Country (該語言版本於當地所佔總量比例,簡稱該語佔該國比)= 該國該語/該國
- Language Y in Country X's share of global total (佔全球總量比例,簡稱佔全總比)= 該國該語/全部
(全部指維基基金會訪問報表中的千分之一隨機樣本,小量數據會有抽樣的問題見附件於此)
目前User:Alexchris做的圖應該是第2項,所以相當程度如 泅水大象 所言,若該國的資訊素養或普及量不夠的話(按個人以創新擴散理論及東亞數據來說,臨界值在12%至13%之間),那麼該國的資訊實際使用將會反映身處當地的精英使用者,包括跨國企業、個人、甚或是新殖民主義的社會現象的反映。
其他人也可以去試着第3項的數字,該數字可以用第1項乘上第2項而得。
先不談這圖的潛在問題(可以留言給User:Alexchris問),我們可以簡單以查德Chad為例,看第2項目前最近的資料:該國於全球所佔總量比例只有0.0002% share of global total,而在這些數據裏:
- French Wp 188 54.2%
- English Wp 63 18.2%
- Portal 52 15.0%
- Arabic Wp 32 9.2%
- Chinese Wp 6 1.7%
- Norwegian Wp 1 0.3%
單看這些數字,注意到查德的國家語言為法文及阿拉伯文言,我們可以大致推論出法文及阿拉拍語的重要性的確是有反映到當地的資訊素養(資訊素養可以視為更高端的語言識讀素養)。英文的量有可能僅反映英文維基的全球或中介各語版的影響力,或甚至是英文資訊在全球資訊的霸權地位。
至於中文的數字,是遠比不上這些相對優勢語言,但也遠大於其後的挪威語等等。
怎麼詮釋這單國的數據呢?單就這樣的數字,沒有任何實質的訪問、訪談、或至少user agent的資料,很難去做任何以下可能的假說的支持或反證
- 中文成為當地的新興語言?要支持或反證此假設需要有顯著的當地訪問中文維基用用戶並非以中文為母語
- 反映中華人民共和國大陸地區移民的使用?要支持或反證此假設需要有顯著的當地訪問中文維基用用戶確為PRC國民,排除香港、台灣、海外等華人。
要是本人做此基本的跨國統計及視覺化研究,我會先移除全域的英文及portal的訪問量,如此就可以大量刪除我們已知英文維基的全球影響力,而單就剩下的語言的全球使用比較,若真的要做更細膩的比較,我會更進一步分類,按各國的官方語言和非官方語言做分類,這樣的官方語言v非官方語言的訪問量比較就具社會科學意義,而官方語言類別中互比,非官方語言類別中再互比,如此就可以更具社會科學意義來系統性分析。
在這系統性分析下,我們可以問的就會是,在各地非官方語言的維基語種訪問量中,中文維基的比例各為多少,在各國的其他競爭非官方語又為何。在此基礎上, 泅水大象 一直提醒的分母問題暫時可以有一個解決方式(並非唯一),而 達師 所說的「只要3%就要染最深的顏色」的潛在性製圖着色問題,也可以解決。
GIS製圖數量着色,是一門科學也是一門藝術,除了要考量資料的統計分佈特性,還要考量人類眼睛的視覺性偏差,很難有完美,但有系統性的最佳化,在此除了個人以上的資料整理/處理/按摩(data massage)建議,也建議若各位在數量製圖時可以考量關於en:Jenks_natural_breaks_optimization的相關文獻及討論,或能避免或正面處理潛在的系統性偏差。 --
- 資料但書
Countries are only included if the number of requests in the period exceeds 10000(10 matching records in 1:1000 sampled log)Wikipedia's are only listed for some country if the share of visitors for that particular country exceeds 0.1%.
The second column displays the actual numbers of records found in the 1:1000 sampled log on which the percentage is based. Multiply by 1000 for actual page views over the whole period of 12 months. If the number of records in the sampled log does not reach the (arbitrary) number of 5 per sampled month, the percentage is flagged dark red to extra emphasize high inaccuracy.
附上以說明資料取得、納入及排除的性質。--❦‽維基vs百度‽hanteng✉ 2013年11月29日 (五) 02:51 (UTC)
首先還是感謝各位關注語言與國家間交叉分析的議題,當然,就維基基金會所提供的數據確實會有其侷限,不過就維基百科在網絡上的影響力,其數據仍有一定分析意義(當然,最好當然是可以拿到所有ISP的數據,不過現實上不可能),就查德與中非此類數值基數非常小的國家,相對而言就會非常不準確,以查德為例,一年中瀏覽中文維基百科的次數僅6K(平均一天不到20次),因而容易受到影響。
而在我所繪製的圖片中,以中文維基百科對應於該國所有維基百科瀏覽量繪製,的確會有中文在非洲地區有相當高滲透率的錯覺,而究為何以超過3%比率即着色最深色,主要是以傳統上認為中文在該地並非主要語言或官方語言,但有相當影響力的國家為基準(是以馬來西亞及新加坡來判別,兩者在最新數據中的中文比中分別為9.0%及5.0%,而給予最深顏色級別,不過如此僅是個人主觀的着色級距,必然有欠堅實的依據),由於數據收集、客層分析上的不足,也難以呈現精確的統計結果,尤其在識字率較低的地區,網絡使用者勢必會囿於特定的群體,更難反映出實際上的情況。--Alexchris(留言) 2013年11月29日 (五) 15:48 (UTC)
- 其他語言維基有沒有這種在非洲地區訪問量比較高(至少看起來比較亮)的現象?--愛管閒事且對地圖炮具有100%抗性的朝鮮的輪子(留言) 2013年11月30日 (六) 13:06 (UTC)
- ,就日語為對照(同樣是東亞語言),也可看出其在非洲也有一定的滲透率,但沒有像中文那麼高。--Alexchris(留言) 2013年11月30日 (六) 15:22 (UTC)
- 抽樣問題,根據統計學而言,非洲人口稀少,經濟不發達,抽樣調查難以全面,所以調查數據偏頗很大。--脳內補完。◕‿◕。讨论 2013年12月2日 (一) 04:01 (UTC)
- ,就日語為對照(同樣是東亞語言),也可看出其在非洲也有一定的滲透率,但沒有像中文那麼高。--Alexchris(留言) 2013年11月30日 (六) 15:22 (UTC)
維基百科在中國的Alexa排名已經下跌到第163位了!
記得去年這個時候,維基百科在中國的Alexa排名還在70-90左右,短短一年時間,就下跌到了第163位。我們要是再不趕快向中國大陸網民推廣、宣傳維基百科,恐怕再過幾年就要跌到500以下了。--Symplectopedia(留言) 2013年12月5日 (四) 14:58 (UTC)
- 陛下想法很好,但恐怕與某些地方的維基人想法背道而馳。—Snorri(留言) 2013年12月5日 (四) 15:06 (UTC)
- 不知道Alexa是怎麼統計的。翻牆的訪問量應該算不到CN的頭上,如果是這樣,那麼實際情況可能就差很遠。烏拉跨氪 2013年12月5日 (四) 15:56 (UTC)
- 呵呵,S皇,在過去的幾年中,當你處心積慮地打壓排擠異己時,當你用盡各種手段,將一個個優秀的生物、化學、歷史學的編輯們逼走維基,你當時對維基百科,是否閃過哪怕是一絲的良心麼?--Walter Grassroot (♬) 2013年12月5日 (四) 16:17 (UTC)
- 什麼情況?——蘇州宇文宙武的主頁 ♨留言 ☎交友 ★貢獻 2013年12月6日 (五) 02:41 (UTC)
- 維基百科的現狀令人堪憂。我還記得今年上半年的時候中文維基百科活躍用戶數量一直在7400-7600的範圍內徘徊,但到了11月,活躍用戶竟下跌至6600多個!6600,這是什麼數字啊?--To be №.N 2013年12月6日 (五) 00:23 (UTC)
- 大陸維基人應該好好想想如何吸引新用戶和留住活躍用戶。—Snorri(留言) 2013年12月6日 (五) 01:25 (UTC)
- 我最近也聽到聲音認為維基百科的自然科學相關內容「有些很簡略」,這種情況不應該持續下去,應該設法吸引熟悉專業知識的網友們參與貢獻。-- ──★── 2013年12月6日 (五) 11:44 (UTC)
- 還有,不要因為某些地方的維基人有異議就因噎廢食。-- ──★── 2013年12月6日 (五) 11:53 (UTC)
- 某些維基人的行為和做事方法讓大陸網民很難加入到中文維基編輯中來。—Snorri(留言) 2013年12月6日 (五) 13:41 (UTC)
- 哦,究竟怎麼回事?-- ──★── 2013年12月6日 (五) 16:09 (UTC)
- 某些維基人的行為和做事方法讓大陸網民很難加入到中文維基編輯中來。—Snorri(留言) 2013年12月6日 (五) 13:41 (UTC)
- 還有,不要因為某些地方的維基人有異議就因噎廢食。-- ──★── 2013年12月6日 (五) 11:53 (UTC)
- 看這裏,中文維基百科的月瀏覽量從2013年10月的6億降到2013年11月的5.6億,比8月的瀏覽量(5.8億)還低啊!!!嗚呼哀哉!--To be №.N 2013年12月6日 (五) 13:55 (UTC)
- 其實下降沒那麼厲害,11月比10月少一天,相比8月幾乎持平。不過相比去年中文維基的流量翻了一倍,數據不升反降,有點奇怪。--Aoke1989(留言) 2013年12月7日 (六) 12:08 (UTC)
- 中文維基百科已經是死路一條了。—以上未簽名的留言由140.255.119.185(對話|貢獻)於2013年12月11日 (三) 10:56 (UTC)加入。
- 中文維基百科已經是財路多條[5]、暗路未明[6]了,見路不平而起的時候到了☭。--上海蘇州化學行走☭頭幫 2013年12月11日 (三) 15:53 (UTC)
- (&)建議大家不用擔心,再利用關注度多刪個幾百幾千條條目,質量數量就能提升了,人氣就會上來了。看這些大陸宅男論壇對維基百科的討論:[7]、[8],再努力一下把這些死宅男全部逼走,專業人士就會來了,中文維基百科就有救了。-- 一個死宅@ 2014年1月10日 (五) 22:58 (UTC)
中國大陸地區訪問維基站台的統計
看到另一個討論串在討論維基站在Alexa的中國大陸地區排名下降的反應,我想分享一下看法:
- Alexa的資料有比較細的,排名上下有時不準,因為排名會受到其他網站上上下下或整併的影響
- Alexa的點擊資料多數情況要花錢買,或等人在網站上分享,除了排名以外的資料或許更有可比性
- Alexa的資料有系統性偏差,資料是從瀏覽器有裝特定toolbar的使用者取得的,所以要注意其特性,像之前就有研究顯示Alexa的資料過份偏向中國大陸用戶,使中國的網站在Alexa排名較其他挑名來的高
- comScore的資料,是維基基金會的WMFLABS 用的另外一個業界常用的資料來源,如此圖[9],此資料的來源和Alexa的搞法大同小異,不過結果很不一樣,感覺起來今年沒有比去年差,但是去年三四月開始一路往下掉,掉到今年二月才反彈。
想問大家有沒有好的解釋和想法,為什麼comScore訪問維基站台的的資料,其中國大陸區的訪問量2012年3/4月一路下掉至2013年2月才反彈? --❦‽維基vs百度‽hanteng✉ 2013年12月13日 (五) 08:09 (UTC)
目前的Wikipedia:統計 /與鄰近語言版本比較會不會太無聊了?
如題,一直是 葡萄牙語-中文-烏克蘭語,(順便慶祝一下與葡萄牙語的差值縮小到6萬以內)估計2015年以後才會有變化,在下和User:Huasha討論了一下整改方案
列在這裏供大家參考,也歡迎大家提出新的方案
維持原樣(葡萄牙語-中文-烏克蘭語)
優點:簡潔明了(不會佔用太大頁面空間)
缺點:一成不變(至少短期內如此)
投票與討論:
越南語-葡萄牙語-中文-烏克蘭語-加泰羅尼亞語
優點:中文位於列表正中間,與兩邊比較,符合習慣
缺點:與加泰羅尼亞語差距太大,缺乏可比性
投票與討論:
宿霧語-越南語-葡萄牙語-中文-烏克蘭語
優點:前3後1,認清差距。且宿霧語目前增長遲滯,給人不斷縮小差距的快感
缺點:宿霧語目前增長遲滯,且有大量機械人條目,缺乏可比性
投票與討論:
日語-越南語-葡萄牙語-中文-烏克蘭語
優點:前3後1,認清差距。且跳過宿霧語,日語、越南語都是東亞語言,具有一定的可比性
缺點:跳過了宿霧語,此例一開,今後……
投票與討論:
- (+)支持:這方案較有可看性,宿霧語我有瀏覽過,條目多但大多短小,不值得比較。日語尤其可視為突破的目標,我們怎可輸給倭寇他們呢?14億人敵不過1億多人?仇還未報咧。__源※請留言 2014年5月18日 (日) 09:35 (UTC)
- 等等,我剛剛看了一下越南語的首頁[10](可用谷歌翻譯)竟然列出其他語言的條目數,加上最近又發生一些事,他們到底是多想幹掉我們?__源※請留言 2014年5月18日 (日) 09:54 (UTC)
--向端粒,向酶解,投上冷冷的一眼,騎士呵,向前! 2014年5月8日 (四) 05:41 (UTC)
補充說明
如果最後大家選擇後三個方案,在下會去修改模板statIW及其子模板,並會留一段時間兩個模板共存的緩衝期。--向端粒,向酶解,投上冷冷的一眼,騎士呵,向前! 2014年5月8日 (四) 07:52 (UTC)
- 我是支持「日語-越南語-葡萄牙語-中文-烏克蘭語」的方案,在4年前我們就在努力和日語做對比,至今也如此,日語仍然是我們學習和追趕的對象之一。越南語曾經和我們有過條目競賽,我還是希望能夠有機會繼續對抗。葡萄牙語、烏克蘭語這個就是一前一後,肯定不用說了。如果有朋友願意更新方案,就是辛苦一些,但對維基編輯而言還是很有幫助和指導意義。謝謝了。--Walter Grassroot (♬) 2014年5月9日 (五) 14:46 (UTC)
純討論區
- 有人願意統計就統計唄,至少可以作為歷史發展記錄。我偏向為保持原樣,因為這樣可以得知我們在全部語言的差距發展情況,除非做更新的嫌麻煩不打算繼續更新了。——路過圍觀的Sakamotosan 2014年5月8日 (四) 05:51 (UTC)
- 宿霧語只是菲律賓的一種方言,使用者不多。它可以有如此增長速度,全因為它是使用拉丁字母系統的語言,而且有機械人進行大量翻譯工作。個人認為它排行第幾,對中文維基用戶而言,缺乏實際的重要性。--Qui cherche trouve 2014年5月8日 (四) 07:43 (UTC)
- 前2後1呢? 短期內不用考慮宿霧語什麼的了. 實際上開先例跳過宿霧語我覺得正常人也不會去糾結的. Bluedeck 2014年5月10日 (六) 08:13 (UTC)
- (:)回應前3後1是為了將來前2後2做準備,而且頁面的寬度也夠放的下4種與中文的比較,見沙盒。--向端粒,向酶解,投上冷冷的一眼,騎士呵,向前! 2014年5月10日 (六) 08:24 (UTC)
討論應否加快條目創建速度
顯然有(?)異議,且(-)反對用戶較多,故應沒有繼續討論的用意。--Z7504非常建議必要時多關注評選(留言) 2020年8月31日 (一) 15:33 (UTC)
- 下列討論已經關閉,請勿修改。如有任何意見,請至合適的討論頁進行,並不要再次編輯本討論。
現時小弟看見英維條目過600萬,當中:
- 每191篇條目有一篇GA
- 每1050篇條目有一篇FA
- 每1680篇條目有一篇FL
上述三項數據(截至2020-08-02)均比中維高出甚多。
本人(&)建議各維基人是時候要動手,透過翻譯形式儘快譯畢(至少3萬條)英維條目,好讓在提升條目質量、大幅增加條目數之餘,亦能為這裏帶來更多GA/FA/FL?(尤其是透過翻譯英維對應層級條目再於這裏申報)
看似無聊,但本人目標非常明確:
- 2020年底:至少達150萬;
- 2021年Q2:至少達200萬。
(縱使我們未必能夠完整超越英維,但盡力吧⋯)
歡迎討論。(也順道可以討論一下條目數每突破50萬的慶祝方式) --小文人(閱人生經歷 ‧ 談你想說的) 2020年8月2日 (日) 15:25 (UTC)
- 用戶Trymybestwikipedia可以推一把力加快速度阿[開玩笑的]--Z7504非常建議必要時多關注評選(留言) 2020年8月3日 (一) 09:57 (UTC)
- 揠苗助長。->>Vocal&Guitar->>留言 2020年8月4日 (二) 23:08 (UTC)
- 謹防過猶不及。--Easterlies 2020年8月6日 (四) 05:56 (UTC)
- 維基人不是全職寫維基百科的員工呀。--英秀一心(留言) 2020年8月6日 (四) 11:13 (UTC)
- 我支持你,至少我們不能被其他維基超過。Lab06 N(留言) 2020年8月6日 (四) 11:37 (UTC)
- (▲)同上—Rowingbohe♫ 歡迎參與浙江專題 台州專題 2020年8月7日 (五) 14:03 (UTC)
- 如果希望提高「每XX篇條目就有一篇GA/FA/FL」的數字,另一個有效的方法大量刪除現有條目,並阻止新條目的創建。(純屬幽默,請勿認真)--英秀一心(留言) 2020年8月6日 (四) 15:12 (UTC)
- 條目要是有那麼好寫我DYK早就破百,GA/FA/FL拿了個大滿貫...,而且找來源是一件很麻煩的事情,最近要寫某個條目需要資料結果我找遍半個城市的圖書館都沒有,害我得花錢買,
好險才台幣300--無心*插柳*柳橙汁 2020年8月6日 (四) 15:25 (UTC) - (!)意見,enwiki來源千奇百怪,部分無法查實。盲目大量翻譯,會造成錯誤。近期enwiki還在討論百度百科是否為可靠來源。嚇我一跳。——Hikaruangeel(留言) 2020年8月8日 (六) 10:23 (UTC)
- WP:CHOICE,想寫即可寫,不想寫即可不寫。--Super Wang※DC不是貪食蛇,請勿盲目刷分 2020年8月9日 (日) 10:13 (UTC)
- (-)反對。已經蘿蔔快了不洗泥了,不要繼續搞大躍進。 --ᡠᠵᡠᡳUjui ᡠᠵᡠUju ᠮᠠᠨᡩ᠋ᠠᠨMandan 2020年8月11日 (二) 05:21 (UTC)
- 不懂這個提案能有多大的成效-- Sunny00217 2020年8月19日 (三) 13:39 (UTC)
- 沒什麼意思,而且創建條目多並不代表質量高。當然如果是翻譯FA/GA/FL我沒有意見。另:Trymybestwikipedia真的可以加油![開玩笑的]--三萬光年珠海魅族OTA科技有限公司 Talk 2020年8月22日 (六) 11:01 (UTC)
- (-)反對:光說人家600萬詞條,咱們100萬,你倒是看看enwiki與zhwiki各有多少活躍user?人家13萬,咱們8千。User總數的比例也差不多,人家4千萬,咱們3百萬。--Cswquz(留言) 2020年8月24日 (一) 08:09 (UTC)
- (-)反對:揠苗助長,並且英文維基百科的來源奇奇怪怪的,而且我們是人,不像機械人般能夠廿四小時工作--Cyril Yoshi (留言信箱) 前來簽名吧! 入維半週年紀念 2020年8月26日 (三) 09:52 (UTC)
- 中維的社群大小與參與人數遠少於英維,發展速度慢是很正常的事情,揠苗助長不可取。 BlackShadowG(留言) 2020年8月28日 (五) 06:09 (UTC)
- 本討論已經關閉,請勿修改。如有任何意見,請至合適的討論頁進行,並不要再次編輯本討論。