網站時光機

網際網絡檔案儲存網站

網站時光機(英語:Wayback Machine)是萬維網數碼檔案館,由位於美國加利福尼亞州三藩市非營利組織互聯網檔案館建立,亦為該組織最重要的服務之一。它允許用戶「回到過去」,檢視過去的網站的樣子。其創始人布魯斯特·卡利Bruce Gilliat英語Bruce Gilliat開發了網站時光機,旨在通過儲存已失效網頁的存檔副本,以「普及所有知識」(universal access to all knowledge)。自2001年推出以來,截至2024年1月3日,網站時光機已存檔超過 8600 億個網頁和超過 99 PB 的數據。[4][5]

網站時光機
Wayback Machine
截圖
2021年10月的網站時光機首頁
網站類型
存檔
成立1996年5月10日,​28年前​(1996-05-10
持有者互聯網檔案館
網址web.archive.org 編輯維基數據連結
註冊可選
推出時間2001年10月24日,​23年前​(2001-10-24[1][2]
現狀活躍
程式語言JavaPython

歷史

網站時光機由互聯網檔案館的創始人布魯斯特·卡利和Bruce Gilliat英語Bruce Gilliat於2001年公開推出,以解決網站在維護或關閉時無法檢視內容的問題[6],此外還能檢視網頁的歷史存檔版本,創始人Kahle和Gilliat希望以此能為整個互聯網「普及所有知識」(universal access to all knowledge)[7]

Wayback Machine這個名稱源於動畫片The Rocky and Bullwinkle Show英語The Rocky and Bullwinkle Show中的「WABAC機器英語WABAC machine」(發音為Way-back),這是一個時間旅行裝置[8][9]。在動畫片的皮博迪的不可能的歷史一集中,角色使用這一機器來見證、參與甚至改變歷史上的著名事件[10]

網站時光機於1996年開始存檔快取網頁,目標是在五年後將服務公之於眾[11]。從1996年到2001年,這些資訊儲存在數碼磁帶上,Kahle偶爾允許研究人員和科學家使用資料庫[12]。2001年,互聯網檔案館成立五周年時,加州大學伯克利分校舉行了網站時光機的公佈儀式[13]。當網站時光機推出時,它已經存檔了超過100億個頁面[14]

如今,數據儲存在互聯網檔案館的大型Linux節點群集上[7]。有時會重新訪問並存檔網站的新版本(參見下文技術細節)[15]。如果網站允許網絡時光機「爬蟲索引」網站並儲存數據,則也可以通過在搜尋方塊中輸入網站的URL手動擷取網站[11]

技術細節

網絡時光機已經開發了軟件用於「爬蟲索引」並下載所有可公開訪問的萬維網頁面、Gopher階層、Usenet公告板系統和可下載軟件[16]。這些「爬蟲」收集的資訊並不能包括互聯網上所有可用的資訊,因為許多數據受發佈者限制或儲存在不可訪問的資料庫中。為了克服部分快取網站的不一致性,2005年,互聯網檔案館開發了Archive-It.org,使得機構和內容創作者可以自願收集和儲存數碼內容,並建立數碼檔案館[17]

爬蟲索引來自各種來源,其中一些是從第三方匯入的,而另一些是由存檔內部生成的[15]。自2010年以來,「Worldwide Web Crawls」一直在執行,並擷取全球網站[15][18]

快照擷取的頻率因網站而異[15]。「Worldwide Web Crawls」中的網站包含在「爬網列表」(crawl list)中,每次爬網都會將網站存檔一次[15]。爬網可能需要數月甚至數年才能完成,具體取決於其大小[15]。例如,"Wide Crawl Number 13"從2015年1月9日開始,於2016年7月11日完成[19]。但是,一次可能有多個爬網正在進行,並且一個站點可能包含在多個爬網列表中,因此,對站點進行爬網的頻率有很大的不同。[15]

儲存容量的增加

隨着多年來技術的發展,網站時光機的儲存容量不斷增加。2003年,僅經過兩年的公開訪問,網站時光機便以每月12兆位元組(TB)的速度增長。數據儲存在由互聯網檔案館的工作人員客製化設計的PetaBox英語PetaBox機架系統上。第一個100兆位元組(TB)的機架於2004年6月全面投入使用,不過很快就發現,這些儲存空間遠遠不夠[20][21]

互聯網檔案館在2009年其客製化的儲存體系結構遷移到Sun開放式儲存英語Sun Open Storage,並在Sun系統加利福尼亞園區的Sun模組化數據中心英語Sun Modular Datacenter中寄存了一個新的數據中心[22]。截至2009年 (2009-Missing required parameter 1=month!),網站時光機包含大約3拍位元組(PB)的數據,並以每月100兆位元組(TB)的速度增長[23]

2013年1月,該公司宣佈了2400億個URL的突破性里程碑[24]。2013年10月,該公司宣佈了「儲存頁面」(Save a Page)功能[25],允許任何互聯網用戶存檔URL的內容。這成為了寄存惡意二進制檔案的服務濫用威脅[26][27]

截至2014年12月 (2014-12),網站時光機存有4350億個網頁,將近9拍位元組(PB)的數據,並且每周增長約20兆位元組(TB)[14][28][29]

據報道,截至2016年7月 (2016-07),網站時光機存有約15拍位元組(PB)的數據[30]

截至2018年9月 (2018-09),網站時光機存有超過25拍位元組(PB)的數據[31][32]

成長

2013年10月至2015年3月,該網站的全球Alexa排名從163[33]變為208[34]。2019年3月,該排名為244[35].

網站時光機的成長 [36] [37]
年份 已存檔的頁面數(單位:億)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520
2016
4,590
2017
2,790
2018
3,100
2019
3,450
2020
4,050
2021
5,140
2022
6,400
2024
8,660

網站排除方針

歷年來,網站時光機一直尊重機械人排除標準(robots.txt)以決定一個網站是否會受爬網;或者如果已經爬網了,它的存檔是否可以公開檢視。通過使用robots.txt,網站所有者可以選擇退出網站時光機。如果站點阻止了網頁存檔,則域中以前存檔的任何頁面也將立即顯示為不可用。此外,互聯網檔案館表示,「有時網站所有者會直接聯絡我們,要求我們停止對網站進行爬網或存檔。我們會遵守這些請求。」[38][39]

2017年4月17日,有報道稱,一些網站已經倒閉,成為暫停的域英語Domain parking(Domain parking)。它們通過使用robots.txt把自己排除在搜尋引擎之外,這使得時光機無意中排除了這些網站[40]

網站時光機的網站排除方針(Website exclusion policy)部分基於2002年加利福尼亞大學伯克利分校資訊管理和系統學院發佈的《管理刪除請求和維護檔案完整性的建議》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建議賦予網站所有者阻止訪問網站存檔的權利[41]。網站時光機遵守了這一政策,以避免昂貴的訴訟[42]

網站排除方針於2017年開始放寬,當時它停止遵循robots.txt,並對美國政府和軍方的網站進行爬網和顯示網頁。截至2017年4月,網站時光機更廣泛地忽略了robots.txt,而不僅對於美國政府網站[43][44][45][46]

用途

自2001年網站時光機公開發布以來,學者們一直在研究它的儲存和收集數據的方式,以及其存檔中實際包含的頁面。截至2013年,學者們已經在網站時光機上撰寫了大約350篇文章,其中大部分來自資訊科技圖書館學社會科學領域。社會科學學者們使用網站時光機分析了從90年代中期至今網站的發展對公司的成長的影響[14]

當網站時光機存檔一個頁面時,它通常會包含大多數超連結,以使這些連結遭互聯網的不穩定性輕易破壞時,能夠仍然保持活動狀態。印度的研究人員研究了網站時光機儲存線上學術出版物中的超連結的能力的有效性,發現它儲存了略多於一半的超連結。[47]

有記者使用網站時光機檢視失效的網站、過時的新聞報道以及被更改的網站內容。其內容已用於追究政治家的責任,揭穿爭論場合上的謊言[48]。2014年,烏克蘭東部分裂地區叛軍頓涅茨克人民軍領導人伊戈爾·斯特列爾科夫的社交媒體的存檔頁面顯示,他吹噓自己的部隊擊落了一架疑似烏克蘭軍用飛機,後來才知道這架飛機實際上是一架馬航民航客機(馬來西亞航空17號班機),之後,他刪除了發佈的這篇文章,並指責烏克蘭軍方擊落了這架飛機[48][49]。2017年,在社交網站Reddit的討論中,有人表示訪問過archive.org 並發現白宮網站刪除了所有提及氣候變化的內容,對此,一位用戶評論道:「科學家有必要在華盛頓舉行一次遊行」,此事成為了為科學遊行(March for Science)舉行的原因[50][51][52]

存在局限

2014年,從抓取網站到它可以在網站時光機上檢視之間存在6個月的延遲時間[53]。目前,該延遲時間為3-10小時[54]。網站時光機僅提供有限的搜尋功能,它的「站點搜尋」(Site Search)功能允許用戶根據描述站點的詞彙來尋找站點,而非網頁本身的詞彙[55]

由於網絡爬蟲的限制,網站時光機無法完全存檔互動式網頁,例如Flash平台和使用JavaScript漸進式網絡應用程式編寫的表單,因為這些功能需要與宿主網站互動。網站時光機的網絡爬蟲很難提取任何未使用HTML或其變形編碼的內容,這通常會導致超連結損壞和圖像遺失。因此,網絡爬蟲無法存檔不包含指向其他頁面的連結的「孤立頁面」(Orphan page)[55][54]。由於其爬蟲程式僅能根據其預設的深度限制追蹤有限數量的超連結,因此它無法存檔每個頁面中的每個超連結[18]

法律證據

民事訴訟

Netbula LLC v. Chordiant Software Inc.

在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出動議,要求Netbula禁用其網站上的robots.txt檔案,因為該檔案導致網站時光機追溯性地復原了對Netbula網站先前版本的存檔的訪問權限,Chordiant相信這些頁面中存在有利於訴訟的材料[56]

Netbula反對該動議,理由是被告要求更改Netbula的網站,他們應該直接為這些頁面直接傳喚互聯網檔案館[57]。然而,互聯網檔案館的一名僱員發表了宣誓聲明,支援Chordiant的動議,表示在「不對其運營造成大量負擔,費用和干擾」的情況下,無法通過任何其他方式訪問網頁[56]

美國加利福尼亞北區聯邦地區法院聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)駁回了Netbula的論點,並命令他們暫時禁用robots.txt阻止程式,以使Chordiant可以檢索他們想要的存檔頁面[56]

波蘭電視台

在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名訴訟當事人試圖使用網站時光機的檔案作為有效證據的來源,此舉可能屬於首次。波蘭電視台是TVP Polonia英語TVP Polonia的供應商,EchoStar英語EchoStar運營Dish Network。在審判程序之前,EchoStar表示,它打算提供網站時光機快照,作為波蘭電視台網站過去內容的證據。

參閲

外部連結

鏡像網站

實用程式

參考文獻

  1. ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始內容存檔於2020-05-14). 
  2. ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始內容存檔於2020-05-12). 
  3. ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (原始內容存檔於2020-05-18). 
  4. ^ Internet Archive: Wayback Machine. web.archive.org. (原始內容存檔於2023-03-13).  The current number of archived pages can be seen at the archive's home page.
  5. ^ Kahle, Brewster. A Message from Internet Archive Founder, Brewster Kahle. Internet Archive. [10 January 2024]. 
  6. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  7. ^ 7.0 7.1 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [2018-10-15]. (原始內容存檔於2018-10-20) (美國英語). 
  8. ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (原始內容存檔於2011-12-20). 
  9. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始內容存檔於2011-02-20). 
  10. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (原始內容存檔於2015-01-25). 
  11. ^ 11.0 11.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (原始內容存檔於2014-01-03) (英語). 
  12. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始內容存檔於2014-08-12). 
  13. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始內容存檔於2017-10-16). 
  14. ^ 14.0 14.1 14.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (英語). 
  15. ^ 15.0 15.1 15.2 15.3 15.4 15.5 15.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. 2016-01-28 [2017-10-16]. (原始內容存檔於2017-10-16). 
  16. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始內容存檔於2012-08-03) (英語). 
  17. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (原始內容存檔於2017-10-12) (英語). 
  18. ^ 18.0 18.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (原始內容存檔於2017-10-19). 
  19. ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (原始內容存檔於2017-10-19) (英語). 
  20. ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (原始內容存檔於2020-06-03) (英語). 
  21. ^ Kanellos, Michael. Big storage on the cheap. CNET News.com. 2005-07-29 [2020-06-07]. (原始內容存檔於2007-04-03). 
  22. ^ Internet Archive and Sun Microsystems Create Living History of the Internet [互聯網檔案館和Sun系統創造了互聯網的鮮活歷史]. Sun Microsystems. 2009-03-25 [2020-06-07]. (原始內容存檔於2009-03-26) (英語). 
  23. ^ Mearian, Lucas. Internet Archive to unveil massive Wayback Machine data center [互聯網檔案館推出大規模網站時光機數據中心]. Computerworld.com. 2009-03-19 [2020-09-07]. (原始內容存檔於2009-03-23) (英語). 
  24. ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [網站時光機:現有240,000,000,000個URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始內容存檔於2014-04-14) (英語). 
  25. ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. 2013-10-25 [2020-06-11]. (原始內容存檔於2014-11-07). We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  26. ^ The VirusTotal Team. 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (原始內容存檔於2014-07-14). 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  27. ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (原始內容存檔於2015-04-06). 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  28. ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (原始內容存檔於2009-02-21). 
  29. ^ Internet Archive Frequently Asked Questions. 2014-12-18 [2020-06-11]. (原始內容存檔於2014年12月18日). 
  30. ^ Can the manipulation of big data change the way the world thinks? [操縱大數據能改變世界的思維方式嗎?]. The National. 2017-01-05 [2020-06-07]. (原始內容存檔於2017-01-12) (英語). 
  31. ^ Crockett, Zachary. Inside Wayback Machine, the internet's time capsule. The Hustle. 2018-09-28 [2020-06-07]. (原始內容存檔於2018-10-02) (英語). 
  32. ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [2018-10-26]. (原始內容存檔於2018-09-25) (英語). 
  33. ^ Archive.org Site Info. Alexa Internet. [2020-06-11]. (原始內容存檔於2013年10月28日). 
  34. ^ Archive.org Site Overview. Alexa Internet. [2020-06-11]. (原始內容存檔於2015-04-09). 
  35. ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (原始內容存檔於2019-03-23). 
  36. ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. 2014-05-09 [2020-06-11]. (原始內容存檔於2014-08-26). 
  37. ^ Internet Archive Wayback Machine. 互聯網檔案館. [2020-06-01]. (原始內容存檔於2015-02-13). 
  38. ^ Some sites are not available because of Robots.txt or other exclusions. What does that mean?. 網站時光機. [2020-06-13]. (原始內容存檔於2011-04-15) (英語). ......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests. 
  39. ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (原始內容存檔於2018年5月22日). 
  40. ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (原始內容存檔於2018-12-04) (英語). 
  41. ^ Recommendations for Managing Removal Requests And Preserving Archival Integrity. 加利福尼亞大學. 2002-12-14 [2020-06-13]. (原始內容存檔於2017-09-18) (英語). 
  42. ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 互聯網檔案館. 2014-07-07 [2020-06-13]. (原始內容存檔於2017年10月10日) (英語). 
  43. ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [用於搜尋引擎的robots.txt不適用於網絡存檔]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始內容存檔於2017-04-17) (英語). 
  44. ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [互聯網檔案館:互聯網存檔館將忽略robots.txt檔案]. heise online. [2020-06-18]. (原始內容存檔於2017-04-27) (德語). 
  45. ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (原始內容存檔於2017-06-19) (德語). 
  46. ^ Internet Archive will ignore robots.txt files to keep historical record accurate [互聯網檔案館將忽略robots.txt檔案以保持歷史檔案的準確性]. Digital Trends. 2017-04-24 [2020-06-18]. (原始內容存檔於2017-05-16) (英語). 
  47. ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 (英語). 
  48. ^ 48.0 48.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (原始內容存檔於2017-01-06). The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies. 
  49. ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (原始內容存檔於2015-01-25). 
  50. ^ The March for Science began with this person's 'throwaway line' on Reddit [為科學遊行始於此人在Reddit上「一帶而過的話」]. Washington Post. [2017-04-23]. (原始內容存檔於2017-04-23) (英語). 
  51. ^ Are scientists going to march on Washington? [科學家要去華盛頓遊行嗎?]. The Washington Post. 2017-01-24 [2020-06-20]. (原始內容存檔於2017-01-31) (英語). 
  52. ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (原始內容存檔於2017-04-24) (英語). 
  53. ^ Internet Archive Frequently Asked Questions. 互聯網檔案館. 2014-04-02 [2020-06-25]. (原始內容存檔於2014-04-02). 
  54. ^ 54.0 54.1 Using The Wayback Machine. help.archive.org. 互聯網檔案館. [2020-06-25]. (原始內容存檔於2020-07-06). 
  55. ^ 55.0 55.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –透過EBSCOhost. 
  56. ^ 56.0 56.1 56.2 Lloyd, Howard. Order to Disable Robots.txt (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (原始內容 (PDF)存檔於2019-08-08). 
  57. ^ Cortes, Antonio L. Motion Opposing Removal of Robots.txt. American-Justice.org. 2009-09-29 [2020-06-26]. (原始內容存檔於2011-05-13).