维基百科讨论:使用时光机

Jimmy-bot在话题“Internet Archive已暂停多日”中的最新留言:11天前


Wayback Machine存档后的页面消失

虽然不是维基百科的工具,但是想问问有没有遇到相同情况的朋友。因条目需要,参考Wikipedia:使用时光机,使用Wayback Machine存档该页面后,提示存档成功并生成了存档链接,一开始是可以正常查看的,但一段时间后页面转而提示“The Wayback Machine has not archived that URL.”,尝试了两次都是同样的情况。该站点似乎并没有robots.txt文件,并且也存在其他页面的正常存档。由于存档链接已经添加到条目中,在这种情况下是否应该先移除存档链接呢?--立日留言2021年6月23日 (三) 10:20 (UTC)回复

如果您说的是这笔存档,我刚刚到web.archive官网上去重新操作一次就成了,您可以在天主教厦门教区下方直接点击看看,不过纪录时间是刚刚的下午六点多,也没看到你先前的存档,可能有些技术问题吧。此外就算在官网存档,我也偶尔会遇到类似你说的状况,要过几个小时才找的到。如下次再遇到这种情况,我会建议先放着,过至少几小时到官网上确认有没有存到档,没有就重新存一次。--回廊彼端留言2021年6月23日 (三) 11:05 (UTC)回复
@迴廊彼端:谢谢,我刚刚可以打开您提供的这版本的存档,但现在似乎又再次失效了。--立日留言2021年6月23日 (三) 11:26 (UTC)回复
@回廊彼端:不好意思,似乎是间歇性失效,突然存档又出现了。感觉不是很稳定的样子。--立日留言2021年6月23日 (三) 11:31 (UTC)回复

Wayback Machine不能存档am730的网页,大家能推荐其它存档方法吗?

am730似乎只能从香港访问,内中报道如[1]在用Wayback Machine存档时出错。求推荐其它存档方法。谢谢!--Benevolen留言2022年1月9日 (日) 03:30 (UTC)回复

去Google搜一下然后看网页快照,比如你这个。快照--在下荷花请多指教欢迎签到2022年1月9日 (日) 10:26 (UTC)回复
@Benevolen--在下荷花请多指教欢迎签到2022年1月9日 (日) 10:26 (UTC)回复
感谢指点!还改为这个功能不复存在了--Benevolen留言2022年1月9日 (日) 20:54 (UTC)回复
看来需要程序员开发开源的网页存档器以供我们自建。--Txkk留言2022年1月9日 (日) 13:42 (UTC)回复
有了!ArchiveBox --Txkk留言2022年1月10日 (一) 11:57 (UTC)回复

谷歌网页快照能存档多久?

我找到一个光明日报来源,但是光明网上的页面已经被删除了,然而谷歌网页快照还存了档,我现在在该来源的存档URL里填的网页快照网址,这个会被谷歌删除吗?如何能把谷歌快照的内容备份进web archive?--有困扰的话,就让魔女用魔法帮你排忧吧! 2022年10月26日 (三) 14:49 (UTC)回复

会删,不确定保留多久,可能几周到几个月吧。archive.is支持存档和索引(检索)谷歌快照,但该网站最近似乎下线了。web archive我不确定能否存档快照,经测可以。以前是不行的,因为robots.txt以前不存、会删2017年4月开始忽略。--YFdyh000留言2022年10月26日 (三) 17:30 (UTC)回复
“但该网站最近似乎下线了”,并没有。根据en:archive.today#Cloudflare_DNS_availability所述,用了Cloudflare的DNS服务,可能会打不开这个网站。你用了什么翻墙软件?--Txkk留言2022年10月28日 (五) 10:01 (UTC)回复
感谢提示,困扰已久。可能软件配置和网站问题兼有,出问题时可能在调用OpenDNS。之前访问总是看到nginx的欢迎页面,https正常,所以我以为网站故障了。--YFdyh000留言2022年11月1日 (二) 10:20 (UTC)回复
但是我存了以后发现webarchive好像最后存的是光明网首页,你能试试看怎么在web archive存谷歌快照吗--有困扰的话,就让魔女用魔法帮你排忧吧! 2022年10月27日 (四) 03:42 (UTC)回复
见我那个“可以”的链接。快照页面会因JS自动跳转到光明网,必须想办法(比如禁用JS,或者改URL参数)打开纯文字版来存档。其实不存档也非不行,应该还有图书馆能查到,不过存档了更方便查证就是。--YFdyh000留言2022年10月27日 (四) 03:45 (UTC)回复
哦没事了,存好了--有困扰的话,就让魔女用魔法帮你排忧吧! 2022年10月27日 (四) 03:44 (UTC)回复
Google 页库存档一段时间后会删的。建议你用 https://web.archive.org/save 存档。 -- Shyangs留言2022年10月26日 (三) 17:38 (UTC)回复
网址不是必须的。--Kethyga留言2022年10月27日 (四) 05:10 (UTC)回复

标题文本

存不了的网站……

昨天晚上发现知乎zhihu.com似乎保存不了……存档结果是“您当前请求存在异常,暂时限制本次访问”

应该还有几个国内大网站不能保存。

  • 淘宝taobao.com
  • 新浪微博weibo.com
  • 网易云音乐music.163.com

--Zyksnowy留言2022年11月24日 (四) 04:42 (UTC)回复

顺路报告,近几个月,用archive.is查看或存档知乎页面,似乎无法成功,且会导致archive.is网站不再能正常访问(出现异常cookie)。不知道其他人是否能重现。--YFdyh000留言2022年11月24日 (四) 05:39 (UTC)回复
这四个网站都有单独的图片服务器,可以单独保存……可能容易丢失网址

提议对WP:WBM达成共识,对条目内链接尽量在未失效前进行网页存档

下列讨论已经关闭,请勿修改。如有任何意见,请在合适的讨论页提出,而非再次编辑本讨论。

因为WP:WBM只是论述,不属于方针或指引,为避免出现网页失效,提议将WP:WBM达成共识,规范使用网站时光机,对网页预防性进行保护,同时有方针指引可尽量避免发生不必要的编辑战。——航站区留言2024年9月18日 (三) 15:36 (UTC)回复

首先,这是操作指南;其次,从你的发言中可以看出你并不理解什么是“共识”。--自由雨日🌧️留言贡献 2024年9月18日 (三) 15:42 (UTC)回复
我对于共识的理解来源于WP:CON,另外我说的是把WP:WBM达成共识,规范使用网站时光机,以免没任何约束性,每个编者可以根据自己的习惯或者喜好,想加就加想删就删,避免编辑战的出现--航站区留言2024年9月18日 (三) 15:55 (UTC)回复
请解释约束性和为何能避免编辑战。--YFdyh000留言2024年9月18日 (三) 18:28 (UTC)回复
没有约束 你觉得加也是对的 他觉得减也是对的 就会出现编辑战,例如Special:Diff/84256834Special:Diff/84256939Special:Diff/84257817Special:Diff/84258012Special:Diff/84258178--航站区留言2024年9月18日 (三) 18:37 (UTC)回复
实际上任何来源添加到维基百科时,大部分来源会被Wayback Machine在一段时间内自动存档,况且维基还有机器人InternetArchiveBot,我的看法是不应强制用户使用IABotManagementConsole或手动添加存档网址,也不用特别鼓励或建议。反而是如果有用户在条目使用IABotManagementConsole或手动添加存档网址,应严禁其他用户复原或删除相关编辑。--HanTsî留言2024年9月18日 (三) 18:52 (UTC)+1 回复
你这个观点我认同,毕竟没有规矩不成方圆--航站区留言2024年9月18日 (三) 19:02 (UTC)回复
支持。--糯米花留言2024年9月18日 (三) 22:38 (UTC)回复
(+)支持,不强制添加,但添加后不应删除。--Uyi liu2 幸泉居士✍️ 2024年9月19日 (四) 01:24 (UTC)回复
“应严禁其他用户复原或删除相关编辑”,IABot出过好几次故障了,更何况严禁的话,是否有考虑任何不应严禁的特殊情况?--百無一用是書生 () 2024年9月19日 (四) 02:07 (UTC)回复
能够形成一个共识即可,以免公说公有理婆说婆有理--航站区留言2024年9月19日 (四) 02:21 (UTC)回复
故障的编辑直接视同为破坏处理就行了。--HanTsî留言2024年9月19日 (四) 04:34 (UTC)回复
这里我想邀请另一方当事者@Txkk君,请至此处讨论,谢谢。--薏仁将🍀 2024年9月19日 (四) 02:44 (UTC)回复
谢邀。各位(除了航站区)把我的意思都表达出来了,我就没什么可补充了的。--Txkk留言2024年9月20日 (五) 01:38 (UTC)回复
任何来源添加到维基百科时,大部分来源会被Wayback Machine在一段时间内自动存档,机器人InternetArchiveBot添加存档网址,可视情况进行删改。
不应强制用户使用IABotManagementConsole或手动添加存档网址。但如果有用户在条目使用IABotManagementConsole或手动添加存档网址,原则上严禁其他用户复原或删除相关编辑。

大家可以讨论一下,结合了我、User:ShizhaoUser:HanTsî的观点——航站区留言2024年9月19日 (四) 02:52 (UTC)回复

我认为相关说明应该放在Wikipedia:列明来源(或者Wikipedia:外部链接)上(并且对应Wikipedia:失效链接),而不是将一本说明书打上格式指引的标签。虽然明白提议者的想法。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 04:07 (UTC)回复
PS.其实Wikipedia:失效链接里面就说过,除了使用网页存档服务外,可以在引用模板摘录出引述条目语句的原文,这样也可以起到参考内容“存档”的作用。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 04:14 (UTC)回复
因为现阶段讨论的是,在有效期内提前存档问题,阁下提及的是失效补救问题,好像方向不一样啊--航站区留言2024年9月19日 (四) 04:12 (UTC)回复
道理一样,就是“插入外部链接来源作为参考资料时,应该建议同时做一次页面存档(然后手工加上存档页或者IABot添加)”,Wikipedia:失效链接看上去亡羊补牢,但同时也是防患未然。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 04:18 (UTC)回复
@Cwek那阁下觉得,其实是不是可以把这个提议和上面一个提议合并?--航站区留言2024年9月19日 (四) 04:19 (UTC)回复
嗯,其实大致就是上面的议题,添加上本操作手册来配合操作。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 04:24 (UTC)回复
不知道上面的提议者是否愿意合并?--航站区留言2024年9月19日 (四) 04:28 (UTC)回复
“大致就是上面的议题(提议对维基百科:列明来源的网页部分新增关于存档的要点),添加上本操作手册来配合操作”,我认为说得足够清晰了。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 04:45 (UTC)回复

( π )题外话:页面中的存档链接也有保护隐私的效用。部分用户在同时可以选择的情况下仍然会优先访问存档链接。——暁月凛奈 (留言) 2024年9月19日 (四) 04:51 (UTC)回复

这个有待商榷,比如机器人五年前的网页存档,但是这个网址到现在还能访问,并且该网页界面和五年前已经有很大变化了,这个时候访问网页存档就没有什么意义了。我希望机器人能不能每隔一段时间把网页存档的未过期的网页进行存档更新,这样不至于网页存档和网站随着时间的流逝,差别越来越大--航站区留言2024年9月19日 (四) 04:59 (UTC)回复
不认可。网站的内容可能会发生变化,以编者加入维基百科时的内容(当时的存档)为准最为稳妥。--糯米花留言2024年9月19日 (四) 05:27 (UTC)回复
那如果“外部链接”呢?比如一些作品的官网,比如五年前加入的网页存档和现在界面出现了很大差异,我觉得“外部链接”放置作品官网地方应该以截止他失效前最新状态为主--航站区留言2024年9月19日 (四) 08:27 (UTC)回复
我觉得外部链接通常不该加存档链接,只是机器人经常加。--YFdyh000留言2024年9月19日 (四) 10:33 (UTC)回复
IABot的管理界面支持URL的存档状态更新的。但看情况是否需要更新存档页面的数据,不强制为规范性条文。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 05:46 (UTC)回复
机器人有个不智能的地方就是,一个条目存档过了的链接,下次就不会再重新存档了,我希望能设计成每隔一段时间机器人自动探测,把网页存档的未过期的网页进行存档更新,这样不至于网页存档和网站随着时间的流逝,差别越来越大--航站区留言2024年9月19日 (四) 08:30 (UTC)回复
这应该是IAbot的问题,请跟IAbot的维护者反馈。——Sakamotosan路过围观 | 避免做作,免敬 2024年9月19日 (四) 11:30 (UTC)回复
就事论事,鼓励网页存档本就没啥问题,也是落实本站可供查证的基本原则,我看不出来有什么争议可言?—— Eric Liu 創造は生命(留言留名学生会 2024年9月19日 (四) 06:23 (UTC)+1 回复

本讨论已关闭,请勿修改。如有任何意见,请在合适的讨论页提出,而非再次编辑本讨论。

提醒:互联网档案馆暂时无法使用

已通过
已有其他较详细讨论,故关闭此议题。—— Eric Liu 創造は生命(留言留名学生会 2024年10月26日 (六) 21:51 (UTC)回复
下列讨论已经关闭,请勿修改。如有任何意见,请在合适的讨论页提出,而非再次编辑本讨论。

archive.org目前显示“Temporarily Offline”,从昨天的新闻[3]来看可能是遭骇客攻击。--EzrealChen留言2024年10月11日 (五) 08:54 (UTC)回复

最近数日也显示当机无法进行新存档。不过对于一个喜欢快速删除十余年以前的文章、塑造民众记忆的审查机制来说,WebArchive就是他们最大的敌人吧。--Allervousシカ部・ざ・ろっく! 2024年10月19日 (六) 00:13 (UTC)回复
(~)补充:可以跟下面那一段讨论Wikipedia:互助客栈/其他#Internet_Archive已暂停多日合并。--Allervousシカ部・ざ・ろっく! 2024年10月19日 (六) 00:14 (UTC)回复

本讨论已关闭,请勿修改。如有任何意见,请在合适的讨论页提出,而非再次编辑本讨论。

Internet Archive已暂停多日

Internet Archive已暂停多日,有点担心线上来源的备份。大家有没有听说什么消息?--Factrecordor留言2024年10月13日 (日) 05:10 (UTC)回复

见上面#提醒:互联网档案馆暂时无法使用。简言而之,被DDoS了,没攻成后用其他攻击手段掘到了用户数据,之后漏了出去[4]。这情形一般都是要关掉外部连接以免进一步受攻击,之后再在内部修复漏洞,修完后才会放出来。至于被攻击的原因呢,承认是次攻击责任的组织表示是出于以巴战争当中美国政府的立场[5]--S叔 2024年10月13日 (日) 05:52 (UTC)回复
见到时光机刚刚再次上线[6]。--Uranus1781留言2024年10月14日 (一) 08:11 (UTC)回复
他们的推特有在更新进展:https://twitter.com/internetarchive/ ,目前为只读状态,无法添加新存档。--Tim Wu留言2024年10月14日 (一) 08:13 (UTC)回复
养成了同时在archive.today和Internet Archive存档的习惯……希望IA能挺过去。--Tim Wu留言2024年10月14日 (一) 08:18 (UTC)回复
其实需要小工具支援更多存档网站(甚至同时存档功能)为是。—— Eric Liu 創造は生命(留言留名学生会 2024年10月14日 (一) 09:02 (UTC)回复
不知道何时能够恢复--航站区留言2024年10月29日 (二) 13:07 (UTC)回复

现在是只能浏览,不能使用Save Page Now(新增页面存档)。archive.is(作为备胎)也是不错的,和Internet Archive最大的区别就是页面爬完后会把javascript给冻结掉,这个有时是优点(例如部分新闻网页的付费墙用is能绕过但ia无法绕过)有时也是缺点(例如无法展开折叠内容)。--💊✖️2️⃣3️⃣留言2024年10月16日 (三) 10:30 (UTC)回复

其他还有Webarchive.io,不过Internet Archive用最多资料也较齐全,这样下去也不是办法。 --窝法乙烷 儿法梦碎 2024年10月16日 (三) 13:33 (UTC)回复
话说是否有服务器设于中国大陆的存档服务?--Tim Wu留言2024年10月16日 (三) 14:11 (UTC)回复
百度快照? --窝法乙烷 儿法梦碎 2024年10月16日 (三) 14:21 (UTC)回复
不是早没了?——Sakamotosan路过围观 | 避免做作,免敬 2024年10月17日 (四) 10:55 (UTC)回复
百度百科自己有参考资料预览(就是点进参考资料链接不会直接进入原始内容,会先打开存档),但是还得编辑百度百科,所以等于没有。 ——魔琴身份声明 留言 贡献 新手2023 2024年10月18日 (五) 05:40 (UTC)回复
今年Google在取消缓存服务后,改为与IA合作(不知道这样搞IA是不是多了个大金主不愁没人捐钱了),结果没过多久就发生ddos的事情……--💊✖️2️⃣3️⃣留言2024年10月16日 (三) 16:05 (UTC)回复
这么多天过去了,添加网页存档(Save Page Now)的功能还是不能用……这ddos攻势一打威力有这么大……--💊✖️2️⃣3️⃣留言2024年10月28日 (一) 10:46 (UTC)回复
[7]之前已说了,攻撃的手段除DDoS外还有其他。共有三波攻撃,由不同人士策动。主要都针对API tokens。"In the Internet Archive breach, hackers stole access tokens, allowing them to bypass security measures and gain entry into sensitive platforms, such as Zendesk. This allowed them to access user data, including support tickets without needing a password."--S叔 2024年10月30日 (三) 13:38 (UTC)回复
更:目前IABot的页面已停用(希望这代表技术团队正努力让它复原🫠)--树叶上的o(* ̄▽ ̄*)ブ木漏れ日 2024年11月3日 (日) 02:29 (UTC)回复
我刚刚发现互联网档案馆的自动存档功能似乎已经恢复了,官方扩充功能也得以重新运作。—— Eric Liu 創造は生命(留言留名学生会 2024年11月4日 (一) 12:21 (UTC)回复
手动保存也恢复了,真是太好了。--Tim Wu留言2024年11月4日 (一) 12:26 (UTC)回复
https://iabot.wmcloud.org/index.php
但这个好像还没好的样子?--树叶上的o(* ̄▽ ̄*)ブ木漏れ日 2024年11月4日 (一) 13:06 (UTC)回复
二更:IABot已可正常运作--树叶上的o(* ̄▽ ̄*)ブ木漏れ日 2024年11月6日 (三) 05:00 (UTC)回复
返回到项目页面“使用时光机”。