网站时光机

網際網絡檔案儲存網站

网站时光机(英语:Wayback Machine)是万维网数字档案馆,由位于美国加利福尼亚州旧金山非营利组织互联网档案馆创建,亦为该组织最重要的服务之一。它允许用户“回到过去”,查看过去的网站的样子。其创始人布鲁斯特·卡利Bruce Gilliat英语Bruce Gilliat开发了网站时光机,旨在通过保存已失效网页的存档副本,以“普及所有知识”(universal access to all knowledge)。自2001年推出以来,截至2024年1月3日,网站时光机已存档超过 8600 亿个网页和超过 99 PB 的数据。[4][5]

网站时光机
Wayback Machine
截图
2021年10月的网站时光机首页
网站类型
存档
成立1996年5月10日,​28年前​(1996-05-10
持有者互联网档案馆
网址web.archive.org 编辑维基数据链接
注册可选
推出时间2001年10月24日,​23年前​(2001-10-24[1][2]
现状活跃
编程语言JavaPython

历史

网站时光机由互联网档案馆的创始人布鲁斯特·卡利和Bruce Gilliat英语Bruce Gilliat于2001年公开推出,以解决网站在维护或关闭时无法查看内容的问题[6],此外还能查看网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个互联网“普及所有知识”(universal access to all knowledge)[7]

Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show中的“WABAC机器英语WABAC machine”(发音为Way-back),这是一个时间旅行设备[8][9]。在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件[10]

网站时光机于1996年开始存档缓存网页,目标是在五年后将服务公之于众[11]。从1996年到2001年,这些信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家使用数据库[12]。2001年,互联网档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式[13]。当网站时光机推出时,它已经存档了超过100亿个页面[14]

如今,数据存储在互联网档案馆的大型Linux节点聚类上[7]。有时会重新访问并存档网站的新版本(参见下文技术细节)[15]。如果网站允许网络时光机“爬虫索引”网站并保存数据,则也可以通过在搜索框中输入网站的URL手动捕获网站[11]

2024年9月至10月间,时光机遭到攻击,资料外泄。[16][17] 2024年10月9日,时光机遭到拒绝服务攻击[18] 2024年10月14日,时光机恢复运作,但存档功能(英语:Save Page Now)停摆至11月6日[19]

技术细节

网络时光机已经开发了软件用于“爬虫索引”并下载所有可公开访问的万维网页面、Gopher层次结构、Usenet公告板系统和可下载软件[20]。这些“爬虫”收集的信息并不能包括互联网上所有可用的信息,因为许多数据受发布者限制或存储在不可访问的数据库中。为了克服部分缓存网站的不一致性,2005年,互联网档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和保存数字内容,并创建数字档案馆[21]

爬虫索引来自各种来源,其中一些是从第三方导入的,而另一些是由存档内部生成的[15]。自2010年以来,“Worldwide Web Crawls”一直在运行,并捕获全球网站[15][22]

快照捕获的频率因网站而异[15]。“Worldwide Web Crawls”中的网站包含在“爬网列表”(crawl list)中,每次爬网都会将网站存档一次[15]。爬网可能需要数月甚至数年才能完成,具体取决于其大小[15]。例如,"Wide Crawl Number 13"从2015年1月9日开始,于2016年7月11日完成[23]。但是,一次可能有多个爬网正在进行,并且一个站点可能包含在多个爬网列表中,因此,对站点进行爬网的频率有很大的不同。[15]

存储容量的增加

随着多年来技术的发展,网站时光机的存储容量不断增加。2003年,仅经过两年的公开访问,网站时光机便以每月12太字节(TB)的速度增长。数据存储在由互联网档案馆的工作人员定制设计的PetaBox英语PetaBox机架系统上。第一个100太字节(TB)的机架于2004年6月全面投入使用,不过很快就发现,这些存储空间远远不够[24][25]

互联网档案馆在2009年其定制的存储体系结构迁移到Sun开放式储存英语Sun Open Storage,并在Sun系统加利福尼亚园区的Sun模块化数据中心英语Sun Modular Datacenter中托管了一个新的数据中心[26]。截至2009年 (2009-Missing required parameter 1=month!),网站时光机包含大约3拍字节(PB)的数据,并以每月100太字节(TB)的速度增长[27]

2013年1月,该公司宣布了2400亿个URL的突破性里程碑[28]。2013年10月,该公司宣布了“保存页面”(Save a Page)功能[29],允许任何互联网用户存档URL的内容。这成为了托管恶意二进制文件的服务滥用威胁[30][31]

截至2014年12月 (2014-12),网站时光机存有4350亿个网页,将近9拍字节(PB)的数据,并且每周增长约20太字节(TB)[14][32][33]

据报道,截至2016年7月 (2016-07),网站时光机存有约15拍字节(PB)的数据[34]

截至2018年9月 (2018-09),网站时光机存有超过25拍字节(PB)的数据[35][36]

成长

2013年10月至2015年3月,该网站的全球Alexa排名从163[37]变为208[38]。2019年3月,该排名为244[39].

网站时光机的成长 [40] [41]
年份 已存档的页面数(单位:亿)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520
2016
4,590
2017
2,790
2018
3,100
2019
3,450
2020
4,050
2021
5,140
2022
6,400
2024
8,660

网站排除方针

历年来,网站时光机一直尊重机器人排除标准(robots.txt)以决定一个网站是否会受爬网;或者如果已经爬网了,它的存档是否可以公开查看。通过使用robots.txt,网站所有者可以选择退出网站时光机。如果站点阻止了网页存档,则域中以前存档的任何页面也将立即显示为不可用。此外,互联网档案馆表示,“有时网站所有者会直接联系我们,要求我们停止对网站进行爬网或存档。我们会遵守这些请求。”[42][43]

2017年4月17日,有报道称,一些网站已经倒闭,成为暂停的域英语Domain parking(Domain parking)。它们通过使用robots.txt把自己排除在搜索引擎之外,这使得时光机无意中排除了这些网站[44]

网站时光机的网站排除方针(Website exclusion policy)部分基于2002年加利福尼亚大学伯克利分校信息管理和系统学院发布的《管理删除请求和维护档案完整性的建议》(英语:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建议赋予网站所有者阻止访问网站存档的权利[45]。网站时光机遵守了这一政策,以避免昂贵的诉讼[46]

网站排除方针于2017年开始放宽,当时它停止遵循robots.txt,并对美国政府和军方的网站进行爬网和显示网页。截至2017年4月,网站时光机更广泛地忽略了robots.txt,而不仅对于美国政府网站[47][48][49][50]

用途

自2001年网站时光机公开发布以来,学者们一直在研究它的存储和收集数据的方式,以及其存档中实际包含的页面。截至2013年,学者们已经在网站时光机上撰写了大约350篇文章,其中大部分来自信息技术图书馆学社会科学领域。社会科学学者们使用网站时光机分析了从90年代中期至今网站的发展对公司的成长的影响[14]

当网站时光机存档一个页面时,它通常会包含大多数超链接,以使这些链接遭互联网的不稳定性轻易破坏时,能够仍然保持活动状态。印度的研究人员研究了网站时光机保存在线学术出版物中的超链接的能力的有效性,发现它保存了略多于一半的超链接。[51]

有记者使用网站时光机查看失效的网站、过时的新闻报道以及被更改的网站内容。其内容已用于追究政治家的责任,揭穿争论场合上的谎言[52]。2014年,乌克兰东部分裂地区叛军顿涅茨克人民军领导人伊戈尔·斯特列尔科夫的社交媒体的存档页面显示,他吹嘘自己的部队击落了一架疑似乌克兰军用飞机,后来才知道这架飞机实际上是一架马航民航客机(马来西亚航空17号班机),之后,他删除了发布的这篇文章,并指责乌克兰军方击落了这架飞机[52][53]。2017年,在社交网站Reddit的讨论中,有人表示访问过archive.org 并发现白宫网站删除了所有提及气候变化的内容,对此,一位用户评论道:“科学家有必要在华盛顿举行一次游行”,此事成为了为科学游行(March for Science)举行的原因[54][55][56]

存在局限

2014年,从抓取网站到它可以在网站时光机上查看之间存在6个月的延迟时间[57]。目前,该延迟时间为3-10小时[58]。网站时光机仅提供有限的搜索功能,它的“站点搜索”(Site Search)功能允许用户根据描述站点的词汇来查找站点,而非网页本身的词汇[59]

由于网络爬虫的限制,网站时光机无法完全存档互动式网页,例如Flash平台和使用JavaScript渐进式网络应用程序编写的表单,因为这些功能需要与宿主网站交互。网站时光机的网络爬虫很难提取任何未使用HTML或其变形编码的内容,这通常会导致超链接损坏和图像丢失。因此,网络爬虫无法存档不包含指向其他页面的链接的“孤立页面”(Orphan page)[59][58]。由于其爬虫程序仅能根据其预设的深度限制追踪有限数量的超链接,因此它无法存档每个页面中的每个超链接[22]

法律证据

民事诉讼

Netbula LLC v. Chordiant Software Inc.

在2009年的“Netbula, LLC v. Chordiant Software Inc.”一案中,被告Chordiant提出动议,要求Netbula禁用其网站上的robots.txt文件,因为该文件导致网站时光机追溯性地撤销了对Netbula网站先前版本的存档的访问权限,Chordiant相信这些页面中存在有利于诉讼的材料[60]

Netbula反对该动议,理由是被告要求更改Netbula的网站,他们应该直接为这些页面直接传唤互联网档案馆[61]。然而,互联网档案馆的一名雇员发表了宣誓声明,支持Chordiant的动议,表示在“不对其运营造成大量负担,费用和干扰”的情况下,无法通过任何其他方式访问网页[60]

美国加利福尼亚北区联邦地区法院圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)驳回了Netbula的论点,并命令他们暂时禁用robots.txt阻止程序,以使Chordiant可以检索他们想要的存档页面[60]

波兰电视台

在2004年10月的“ Telewizja Polska USA, Inc. v. Echostar Satellite”No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名诉讼当事人试图使用网站时光机的档案作为有效证据的来源,此举可能属于首次。波兰电视台是TVP Polonia英语TVP Polonia的供应商,EchoStar英语EchoStar运营Dish Network。在审判程序之前,EchoStar表示,它打算提供网站时光机快照,作为波兰电视台网站过去内容的证据。

参阅

外部链接

镜像网站

实用程序

参考文献

  1. ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2020-05-14). 
  2. ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2020-05-12). 
  3. ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (原始内容存档于2020-05-18). 
  4. ^ Internet Archive: Wayback Machine. web.archive.org. (原始内容存档于2023-03-13).  The current number of archived pages can be seen at the archive's home page.
  5. ^ Kahle, Brewster. A Message from Internet Archive Founder, Brewster Kahle. Internet Archive. [10 January 2024]. 
  6. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  7. ^ 7.0 7.1 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [2018-10-15]. (原始内容存档于2018-10-20) (美国英语). 
  8. ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (原始内容存档于2011-12-20). 
  9. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始内容存档于2011-02-20). 
  10. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (原始内容存档于2015-01-25). 
  11. ^ 11.0 11.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (原始内容存档于2014-01-03) (英语). 
  12. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始内容存档于2014-08-12). 
  13. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始内容存档于2017-10-16). 
  14. ^ 14.0 14.1 14.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (英语). 
  15. ^ 15.0 15.1 15.2 15.3 15.4 15.5 15.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. 2016-01-28 [2017-10-16]. (原始内容存档于2017-10-16). 
  16. ^ Bowman, Emma. Hackers steal information from 31 million Internet Archive users. NPR. 2024-10-20 [2024-11-13]. (原始内容存档于2024-11-05). 
  17. ^ Paul. Internet Archive's Wayback Machine suffered data breach, 31 million user accounts exposed. AlternativeTo. 2024-10-10. 
  18. ^ Goodin, Dan. Archive.org, a repository of the history of the Internet, has a data breach. Ars Technica. 2024-10-10 [2024-11-13] (美国英语). 
  19. ^ Paul. The Internet Archive restores Save Page Now feature after DDoS cyberattack disruption. AlternativeTo. 2024-11-06. 
  20. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始内容存档于2012-08-03) (英语). 
  21. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (原始内容存档于2017-10-12) (英语). 
  22. ^ 22.0 22.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (原始内容存档于2017-10-19). 
  23. ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (原始内容存档于2017-10-19) (英语). 
  24. ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (原始内容存档于2020-06-03) (英语). 
  25. ^ Kanellos, Michael. Big storage on the cheap. CNET News.com. 2005-07-29 [2020-06-07]. (原始内容存档于2007-04-03). 
  26. ^ Internet Archive and Sun Microsystems Create Living History of the Internet [互联网档案馆和Sun系统创造了互联网的鲜活历史]. Sun Microsystems. 2009-03-25 [2020-06-07]. (原始内容存档于2009-03-26) (英语). 
  27. ^ Mearian, Lucas. Internet Archive to unveil massive Wayback Machine data center [互联网档案馆推出大规模网站时光机数据中心]. Computerworld.com. 2009-03-19 [2020-09-07]. (原始内容存档于2009-03-23) (英语). 
  28. ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [网站时光机:现有240,000,000,000个URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始内容存档于2014-04-14) (英语). 
  29. ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. 2013-10-25 [2020-06-11]. (原始内容存档于2014-11-07). We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  30. ^ The VirusTotal Team. 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (原始内容存档于2014-07-14). 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  31. ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (原始内容存档于2015-04-06). 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  32. ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (原始内容存档于2009-02-21). 
  33. ^ Internet Archive Frequently Asked Questions. 2014-12-18 [2020-06-11]. (原始内容存档于2014年12月18日). 
  34. ^ Can the manipulation of big data change the way the world thinks? [操纵大数据能改变世界的思维方式吗?]. The National. 2017-01-05 [2020-06-07]. (原始内容存档于2017-01-12) (英语). 
  35. ^ Crockett, Zachary. Inside Wayback Machine, the internet's time capsule. The Hustle. 2018-09-28 [2020-06-07]. (原始内容存档于2018-10-02) (英语). 
  36. ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [2018-10-26]. (原始内容存档于2018-09-25) (英语). 
  37. ^ Archive.org Site Info. Alexa Internet. [2020-06-11]. (原始内容存档于2013年10月28日). 
  38. ^ Archive.org Site Overview. Alexa Internet. [2020-06-11]. (原始内容存档于2015-04-09). 
  39. ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (原始内容存档于2019-03-23). 
  40. ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. 2014-05-09 [2020-06-11]. (原始内容存档于2014-08-26). 
  41. ^ Internet Archive Wayback Machine. 互联网档案馆. [2020-06-01]. (原始内容存档于2015-02-13). 
  42. ^ Some sites are not available because of Robots.txt or other exclusions. What does that mean?. 网站时光机. [2020-06-13]. (原始内容存档于2011-04-15) (英语). ......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests. 
  43. ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (原始内容存档于2018年5月22日). 
  44. ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (原始内容存档于2018-12-04) (英语). 
  45. ^ Recommendations for Managing Removal Requests And Preserving Archival Integrity. 加利福尼亚大学. 2002-12-14 [2020-06-13]. (原始内容存档于2017-09-18) (英语). 
  46. ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 互联网档案馆. 2014-07-07 [2020-06-13]. (原始内容存档于2017年10月10日) (英语). 
  47. ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [用于搜索引擎的robots.txt不适用于网络存档]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始内容存档于2017-04-17) (英语). 
  48. ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [互联网档案馆:互联网存档馆将忽略robots.txt文件]. heise online. [2020-06-18]. (原始内容存档于2017-04-27) (德语). 
  49. ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (原始内容存档于2017-06-19) (德语). 
  50. ^ Internet Archive will ignore robots.txt files to keep historical record accurate [互联网档案馆将忽略robots.txt文件以保持历史文件的准确性]. Digital Trends. 2017-04-24 [2020-06-18]. (原始内容存档于2017-05-16) (英语). 
  51. ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 (英语). 
  52. ^ 52.0 52.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (原始内容存档于2017-01-06). The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies. 
  53. ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (原始内容存档于2015-01-25). 
  54. ^ The March for Science began with this person's 'throwaway line' on Reddit [为科学游行始于此人在Reddit上“一带而过的话”]. Washington Post. [2017-04-23]. (原始内容存档于2017-04-23) (英语). 
  55. ^ Are scientists going to march on Washington? [科学家要去华盛顿游行吗?]. The Washington Post. 2017-01-24 [2020-06-20]. (原始内容存档于2017-01-31) (英语). 
  56. ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (原始内容存档于2017-04-24) (英语). 
  57. ^ Internet Archive Frequently Asked Questions. 互联网档案馆. 2014-04-02 [2020-06-25]. (原始内容存档于2014-04-02). 
  58. ^ 58.0 58.1 Using The Wayback Machine. help.archive.org. 互联网档案馆. [2020-06-25]. (原始内容存档于2020-07-06). 
  59. ^ 59.0 59.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –通过EBSCOhost. 
  60. ^ 60.0 60.1 60.2 Lloyd, Howard. Order to Disable Robots.txt (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (原始内容 (PDF)存档于2019-08-08). 
  61. ^ Cortes, Antonio L. Motion Opposing Removal of Robots.txt. American-Justice.org. 2009-09-29 [2020-06-26]. (原始内容存档于2011-05-13).