维基百科讨论:统计/存档3

Jimmy-bot在话题“討論應否加快條目創建速度”中的最新留言:4年前

hanteng會陸續將可以釋出原始或半成品統計資料

hanteng會陸續釋出原始或半成品的研究統計資料,目標主要是希望能以open data 開放第一手來源資料來鼓勵其他研究者來進行加工研究,也希望能因此加強資料的可依賴性及可信度。以下第一個是超級用戶的地理區域。

研究結果查證: 百度百科BB及維基百科CW的超級用戶的地理區域

 
2012全球

關於本人研究製圖的2012資料 (見右圖), 其來源根據的半成品其實已放在Google Doc可供各位參考,並幫助查證並指出可能錯誤的地方: 注意,

  1. 百度百科BB的百科蝌蚪团成员列表是以該頁列表編程爬文的結果
  2. 維基百科CW的管理员列表則因為不只有一個來源, 而是以個人參考眾來源的推估的結果

若有對製圖結果比較有想法想要討論的,請至互助客栈先前討論區塊參考先前討論並留言。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:40 (UTC)

研究結果: 地理分佈

以下研究結果, 請撥時間讀後提供改進批評, 也歡迎發問, 謝謝。

以百度百科及維基百科條目內容所有外部連結, 按其geoIP位置分類後的前15名網站比較, 可以有以下觀察: (研究假設: 百科做為三級內容, 其內容走向可以由其外部引用連結做為內容傾向的分析)

  1. 百度百科有不少電子商務及infomercial網站(特別在中國和香港, 如香港第14名原為福建單位辦的行政劃區網, 現為一夜情網站);
  2. 維基百科並非百度相關人士指控的, 不夠「中國」或「中文」;
  3. 百度百科大量引用維基百科;
  4. 百度百科並無大量引用來自香港及台灣的網站內容, 同時對相關媒體及政府網站的引用相較為少。

 

--(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 02:55 (UTC)

* 我在台北用TPE-FREE查其ip得到:

Non-authoritative answer:
Name:    tw1-ycpi-uno.gycpi.b.yahoodns.net
Addresses:  203.84.197.25
          203.84.197.26
          203.84.197.27
          203.84.197.9
Aliases:  www.wretch.cc
          geoycpi-uno.gycpi.b.yahoodns.net
          fo-tw1-ycpi-uno.gycpi.b.yahoodns.net

然後查其geoip得到的是香港,是不是因為雅虎伺服器在香港的關係啊?--Liao Zhongkai留言2012年12月28日 (五) 12:02 (UTC)

2012年12月24日 (一) 12:00 (UTC) 以前

请不要用大图洗版面,我已经修改了大小了。--马呵说念诶多哗铎★爱生活萝莉塔 2012年12月21日 (五) 03:23 (UTC)
(:)回應以同一般頁框寬度為宜。(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
信息量很大--百無一用是書生 () 2012年12月21日 (五) 09:49 (UTC)
百度最顶上那几个明显是被散发的广告链接,可能(比如)那些网站上有的图书就每个相应百科页面加一个指向网站的链接。Liangent留言 2012年12月21日 (五) 12:19 (UTC)
(+)同意SPAM的鐡證(研究維基和百度百科的hanteng|留言) 2012年12月21日 (五) 13:02 (UTC)
百度做為假的中國民族企業應當閉上那個臭嘴!!!ltdccba--Jason--Lin2012年12月23日 (日) 14:54 (UTC)

那圖片在違反授權條款

  1. 其實你明不明白維基百科計劃及其姊妹計劃?
  2. 你那圖片上傳去了 Commons ,你就不能「僅供維基人內部討論,請勿引用」,你最多只能表明,那僅是草稿,引用的話可能會出錯。

--LungZeno(talk) 2012年12月23日 (日) 20:20 (UTC)

(:)回應:著佐權的概念我是知道的,這些圖片利用Commons釋出就不能禁止改作,但是否能被學術正式引用,hanteng 僅提醒著作人格權的部份,提醒著佐權釋出是有免責的部份,基本上意思是,我目前這樣釋出,符合Commons相關著佐權規範和保護,其保護包括這不是我正式的學術發表,免除我的學術引用的人格責任,請您明辨著佐權的概念及使用,在人格權和財產權的區分。謝謝您的指教, 若還是有可議可改進之處,請您繼續提供建言。(見您參考我不喜歡某人在其衍生著作中利用我的作品的方式,那麼我還能怎麼辦?.. 「意即,原作者可以依其作品內容受到不當變更而致其名譽受損的情形,來採取行動。當然,並非所有的原作者不喜歡的衍生著作都會被視為「不當變更」。」)--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 03:51 (UTC)
Commons不是因為 創用CC 等授權條款而存在,反之,Commons是因為要達成它的使命和目的才採用 創用CC 等授權條款。
如果你真的想講 copyleft 的話,當中有不少人是反對「智慧財產權」的概念,認為這樣的類推並不正確,有嚴重謬誤。(TIPO=>Intellectual property)我是其中之一,但我們並不皆反對賺錢。
--LungZeno(talk) 2012年12月24日 (一) 09:17 (UTC)
(:)回應:我同意您說的Commons是因為要達成它的使命和目的才採用 創用CC 等授權條款, 所以您的意思是, 這些圖片(a)不適合上傳還是(b)要更改加註字眼? 請您提供您覺得適合的字眼好嗎? 我讀到的是"a media file repository making available public domain and freely-licensed educational media content (images, sound and video clips) to everyone, in their own language.", 我只是希望這個檔案先在中文維基內部先討論,然後隨著正式出版, 我可以更新, 若有幸出版到其他二手來源如專書或期刊, 更新的內容就可以用在百科全書等等的條目內容。我想您能體會我的需要, 我仍決定用CC授權, 只是想要提醒使用者, 這是work in progress, 不適合學術或正式引用。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 09:28 (UTC)
上面這樣的圖片建議還是以討論用途的名義暫時存在中文維基中,等正式的版本想釋放版權時再上傳Commons。因為記憶中上傳Commons的圖是禁止在圖片上加註限制版權或放上有個人簽名意味的標誌或字樣。--泅水大象訐譙☎ 2012年12月24日 (一) 12:41 (UTC)
收到, 我會思考如何不讓人誤會版權有受額外限制(我沒有要限制版權的財產權的意思)我只是要確保人格權(我不能為還沒有確定稿的內容負學術責任), 若各位有什麼好的建議, 請告知, 因為我會覺得放在中文維基上仍有類似的問題。不然我還是用英文的好了: "Work in progress, do not cite"? 引用和使用在這情況是兩碼子事, 我再找找有沒有相關指引。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:15 (UTC)
(?)疑問:我改加字眼「Work in progress. Use but do not cite.」好嗎? 根據en:Wikipedia:Wikipedia_is_a_work_in_progressen:Wikipedia:Citing Wikipedia和還有Wikipedia: use but do not cite。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:23 (UTC)
(※)注意更新:我先暫時用「Work in progress. Use but do not cite.」若各位還有關於(a)CC釋出或(b)存放Commons的疑問和建議, 還請不吝提出。--(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
你其實是想說「不適合引用」而不是想說「不准許引用」吧?
不應該命令他人做或不做那些事,取而代之的可行做法是描述那著作特性、原因、後果。
你使用 copyleft 類授權條款就不能這樣加以限制別人,否則 copyleft 也就不是 copyleft ,或許講 copyleft 會模糊了焦點,我換句講法, copyleft 類授權條款屬於自由版權授權條款,你使用自由版權授權條款就不能這樣加以限制別人,否則自由版權授權條款也就不是自由版權授權條款。
就算現在 Commons 給你使用的授權條款真的允許你這樣做,但只要 Commons 的使命、目的或理念不變,Commons 人早晚也會修正授權條款或改用其他合適的授權條款,你那些東西早晚會被清除。
依我理解,澳洲國立大學那個網頁是在呼籲你不要引用,如果那個網頁是講他們的規則,那麼那是他們的規則,不是講 copyleft 、自由版權、 Commons 或維基百科。
--LungZeno(talk) 2012年12月25日 (二) 11:21 (UTC)
補充。那個 WretchTIPO 的網誌文所說的是,在發生那種事時,你可行的做法,並不是說,未發生就先禁止。
--LungZeno(talk) 2012年12月25日 (二) 12:35 (UTC)
(:)回應或可參考Wikipedia:引用維基百科Wikipedia:免責聲明维基百科:风险声明的用詞:「使用但不適合引用, 原作者不對內容的正確性承担任何风险」但這樣有點長就是了。不知LungZeno有何建議?--Liao Zhongkai留言2012年12月28日 (五) 12:12 (UTC)
(:)回應LungZeno您覺得「使用但因仍是草稿不適合引用 (风险自負)」?--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:42 (UTC)

更新: 跨界分佈的問題請大家給具體意見

(※)注意更新:原圖的中文題名為自動搜尋結果, 有一些偏差, 現已手動更正以符合其對應的網域名詞。另為暫時解決LungZeno泅水大象™ 關於CC釋出及存放Commons的問題, 已做更新。

(?)疑問: 部份網站, 由於其伺服器可能有跨界, 或採用Content Delivery Networks (CDN)的快取服務, 各別的geoIP資料會有跨界分散的現象, 如:

  • sina.com* 的跨界分佈

Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770

  • qq.com* 的跨界分佈

Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091

請問各位會如何處理? 會依原分散方式做比較還是回歸其企業主要公司或伺服器所在地? hanteng目前是把一些中國官方及主要媒體, 有直接及間接證據使用如China Cache的CDN服務集中回歸其主要組織或伺服器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都歸為CN來處理, 不過像qq.com及sina.com似乎在各地真的有營運, 而不是用組織外部的如China Cache的CDN服務, 所以不太能決定應該要怎麼處理, 會符何比較百度百科和中文維基百科外部連結地理分類比較的研究用意。請各位提供您的看法和意見。--(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:37 (UTC)

(:)回應我猜你可以試著用像中國網站必需要有的ICP许可证有無的類似思考來決定,比如說若新浪在數地都有營運登記,就採分開,若只是使用Cache servers的服務來做內容加速下載,而無相關的營運登記,那麼就應該要回歸到原網站營運登記的地點。--Liao Zhongkai留言2012年12月28日 (五) 12:18 (UTC)
 謝謝你您的意見值得參考, 試試。-(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:30 (UTC)

問題: 電子商務網站的認定問題

hanteng 為處理兩百科外部連結的內容所處網站的性質比較, 將一些網站編碼為ecommerce電子商務網站, 如tushucheng.com yoostrip.com ilucking.com tushulian.com 51966.com agri.com.cn elong.com beijingtushucheng.com ysbooking.com zzfanwen.cn zhuhere.com hxcxgl.com kuliu.com axdfz.gov.cn 等, 發現中文維基百科各地前15完全沒有電子商務網站的連結, 但百度百科不但有, 這些網站的連結總數在所有其中國連結總數的17.39%, 在香港這數字是17.87%。

(?)疑問: 請問以上的電子商務網站認定是否合理, 有什麼要增減的嗎? --(研究維基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:48 (UTC)

(:)回應: 百度百科有大量鱔稿,這問題你問百度百科資深使用者就知道。在維基百科,這類東西會因為可信性和中立性而被回退甚至刪掉。百度百科的做法則是相反的,他們叫這做「商業合作」(不記得是否這用詞),不但明暗兼具地招攬鱔稿,而且任何加入去不利那些鱔稿的資訊都會被移除。--LungZeno(talk) 2012年12月26日 (三) 08:15 (UTC)
(?)疑問:請問有沒有不利那些鱔稿的資訊都會被移除的一個實例嗎? 是因為商業競爭的動機還是什麼動機呢? --Liao Zhongkai留言2012年12月28日 (五) 11:44 (UTC)
 謝謝你兩位的意見, 不過這似乎有點小離題(雖然有趣), 我這裡的問題是在電子商務網站的認定方面, 不過我已找到替代解釋方法了(請期待)。若回到您們談的鱔稿現像和動機, 國外有做維基抵制link spam的研究。LungZeno可否說一下, 鱔稿真的是百度百科資深使用者會用的詞嗎? 我能相信這現像是他們知悉的, 但是否那詞是他們會用的, 我想請您考量一下。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:39 (UTC)
(:)回應:在中國境內的網站, 有區分经营性ICPvs非经营性ICP(指不以赢利为目的)的兩種ICP许可证, 我不知道要上哪裡找登記資料, 但應該有助於你對網站性質做出電子商務網站及非電子商務網站的區分。--Liao Zhongkai留言2012年12月28日 (五) 11:44 (UTC)
(:)回應:看來有些難度, 我現在的處理方式改成查詢其公司網頁, 看有沒有在該地有分公司或營運單位, 有的話就保留原geoip, 若無則算回其總部所在地。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:32 (UTC)

研究結果: 比較百度百科BB及維基百科CW的超級用戶的地理區域分佈

請問就您們的經驗, 以下根據百度百科及維基百科超級用戶的地理分佈(超級用戶: 百度蝌蚪 vs 維基管理員), 您們的印象和反應為何? 在全球, 2012資料:

拉近看東亞, 2012及2009資料:

請大家容忍我在此副標下依時序做次標分類和折叠整理, 這樣子做比較好分別對您的提問一一做回應, 不這樣做我真的有點難對各式提問做出迅速及妥善回應。若您只要是抒發自己意見而看法, 而不需要我個人的回應的話, 請您下一個額外同級(兩個減號)的平行副標,請體貼我回應要花的閱讀和寫作的心力, 在此先謝過。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:14 (UTC)

(~)補充:可和我製做的全球漢人分佈圖做參照。

請分享您們的看法, 以及可以改進的地方, 謝謝。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:17 (UTC)

漢族人口分佈的圖,白色部分是沒有數據,還是人口低於1,000?--O-ring留言2012年12月23日 (日) 13:19 (UTC)
您好, 該資料來源為中華人民共和國境內用的是2010年人口普查數據, 而中華人民共和國境外則用的是中華民國的僑務機關的統計資料。所以如果您指的是中華人民共和國境內白色, 那麼是人口低於1,000, 因為普查沒有缺資料, 如果您指的是中華人民共和國境外資料, 那麼這圖展現的是中華民國的僑務機關的統計資料, 見漢族#漢族人口的世界分佈圖的內文, 謝謝。--(研究維基和百度百科的hanteng|留言) 2012年12月23日 (日) 13:33 (UTC)
這個不錯........把數據都弄出來了............ltdccba--Jason--Lin2012年12月23日 (日) 14:53 (UTC)
看完這個分析結果就知道,百度百科基本上只是一個小圈圈圍起來自己寫自己的網站,缺乏跨越族群的世界觀(雖然這個『小圈圈』裡面人口還蠻多的)。但也有個很有趣的現象是,參與維基百科編輯的大陸人大都聚集在主要都市,不似百度那般分散在大陸各地區。這兩個現象之中,前者幾乎可以說是必然的結果,對於港澳與台灣人來說只有簡體字的百度的存在與否根本無足輕重,但是我很好奇為何維基百科的大陸power user會只集中在少數幾個城市,是巧合還是有邏輯上或統計上的原因?--泅水大象訐譙☎ 2012年12月24日 (一) 05:52 (UTC)
(:)回應感謝您的發問:關於您的看法(百度僅簡體字排除港台用戶)也是hanteng考量的可能解釋假說之一,不過關於是否百度百科就是小圈圈而維基百科就不是,可能不同人會有不同看法。我比較有一點把握的假說是(見#研究結果: 歷史比較),東亞及中國網民在成長的歷史和地理份佈上,維基百科和百度百科的發展史,影響了其用戶的分佈,百度百科是在中國網民主體(early 及late majority),特別是在非沿海城市的大幅成長時,取得許多新興的用戶,(這也是維基百科不如百度百科在後期大量到各地推廣的差別)當然,其他用戶有不同的看法,您也可以參考比較一下。(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 06:03 (UTC)
如果是在研究中國大陸以外地區,維基百科這種非商業網站與同類型商業網站之間的比較,個人認為Yahoo!(奇摩)知識是個可以作為參考組的探討比較對象,因為這網站在港澳與台灣擁有不低的參與度。雖然其運作方式與維基百科不同,但參與的用戶與維基百科用戶之間有某種程度的同質性。--泅水大象訐譙☎ 2012年12月24日 (一) 06:11 (UTC)
(:)回應您說的現像在我搜集的SERPUser:Hanteng#研究結果: 視覺化網路圖相符,基本上次級百科網站如互動、Yahoo!(奇摩)知識有明顯的地理語言特性,不過維基百科似乎還是比較跨多一點不同的地理語言,zh-tw,zh-hk,zh-cn。--(研究維基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:17 (UTC)
(:)回應:有趣的資料收集和製圖,辛苦了,不過在下有一問,百度蝌蚪 vs 維基管理員有可比性嗎?就我所知,維基百科一般成員的編輯權限其實不會少於百度蝌蚪的"特權"。這樣子比較有可比性嗎?--Liao Zhongkai留言2012年12月28日 (五) 11:55 (UTC)
(:)回應:您的質疑有道理, 但在我要處理的問題則變的不是那麼重要。您說編輯權限兩者不具可比性, 是再正確也不過的 (顯然您對兩百科都有瞭解), 然而我的地理分佈只是在比較, 兩個社群的特殊用戶的地理分部差異。說的好聽一點是比較兩者的精英編輯的地理份佈比較, 說的比較不好聽的是, 若要做所有用戶的地理分佈比較, 在資料的可靠性、能不能收集的到、怎麼處理都是難以克服的研究障礙。以上理由, 希望您能體諒。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:13 (UTC)
(:)回應 再比较一下互动百科吧-- ──★──  2012年12月28日 (五) 13:51 (UTC)
(:)回應:您的意思是也來看互動百科的power users的分佈嗎? 這是可以做的, 但已超出hanteng的研究範圍。不過若有任何人想做, 需要研究方法、工作、甚或至已收集到相關資料只是不清楚製圖的做法, hanteng都願抽空幫忙。--(研究維基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:07 (UTC)
这个百度百科蝌蚪团员的区域分布是如何制作的?据我所知,蝌蚪团员中是有海外用户的。昨天和一位蝌蚪团用户谈到这个,他也认为这张图不准确。具他所知,江西省是有蝌蚪团的用户的,但是您的图中江西省为空白。观光维基观光团小F(留言) 2013年1月5日 (六) 00:30 (UTC)
本来就是不科学的东西你还问来有什么用?他能够获取的只是公开数据,只要有一个江西人在上海读书,然后称自己在上海又不公布自己的所属省份,那数据就会出现严重偏差。外地工作的也是同理,而且工作地北上广深圳轮流转,但实际上根本不是本地人。--下限魔法少年爱德华★爱生活圆神萝莉塔 2013年1月5日 (六) 00:35 (UTC)
(:)回應:您好,其實原始資料己放在Google Doc上, 也有不少維基人來信問過。歡迎您認識的蝌蚪团用户來信指正。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:45 (UTC)
(~)補充:可否問一下您認識的蝌蚪团用户, 若我要去他們的貼吧尋求查證意見,要去哪一頁面最合適。--(研究維基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:48 (UTC)

研究結果: 語言分佈(東亞與中文)

一言蔽之: 「百度百科絕大部份的東亞與中文的外部連結為全簡體中文內容,中文維基則較平衡

返回到项目页面“统计/存档3”。