知乎、新浪微博、各种号、各大厂的人：请至少允许互联网档案馆（Internet Archive）抓你们的数据

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》，指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因，很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面；而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容，百度不能抓取，等同于说腾讯垄断了这些内容，百度无奈之下只能另起炉灶，搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统，让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为，保证了腾讯自己的利益，却侵害了整个互联网的内容循环。

十年前，互联网上涌现的新内容，无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛，所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住，实在让人无奈。

最近发现，知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料，涵盖了大多数常用的搜索引擎的爬虫，但是一些新兴搜索引擎（比如 Duckduckgo ）的爬虫则没有包含在内。

但除了新兴搜索引擎之外，还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆（ Internet Archive，https://archive.org ）的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”，字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外，互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站，并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭，或是 URL 因为网页改版失效，而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站，互联网档案馆还担负了另一个重要作用：保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机，没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说，读到这里大家都明白。

其他也有一些存档网站（比如 archive.is ），他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆，且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年，“翻车”的可能性几乎为零；而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构，每年收支基本稳定，可见的将来是倒不下的。

除了网站存档之外，互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员，在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

ddlee

2019-01-29 23:00:54 +08:00

Archive.org 自己的原因陈述：

Why is the Internet Archive collecting sites from the Internet? What makes the information useful?

Most societies place importance on preserving artifacts of their culture and heritage. Without such artifacts, civilization has no memory and no mechanism to learn from its successes and failures. Our culture now produces more and more artifacts in digital form. The Archive's mission is to help preserve those artifacts and create an Internet library for researchers, historians, and scholars. The Archive collaborates with institutions including the Library of Congress and the Smithsonian.

（来源： https://help.archive.org/hc/en-us/articles/360004716091-Wayback-Machine-General-Information ）

Wayback Machine 在抓取网址输入框下面的提示语：

Capture a web page as it appears now for use as a trusted citation in the future. Only available for sites that allow crawlers.

（来源： https://archive.org/web/）

希望“自己的回复能够对别人有帮助”。