知乎、新浪微博、各种号、各大厂的人：请至少允许互联网档案馆（Internet Archive）抓你们的数据

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》，指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因，很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面；而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容，百度不能抓取，等同于说腾讯垄断了这些内容，百度无奈之下只能另起炉灶，搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统，让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为，保证了腾讯自己的利益，却侵害了整个互联网的内容循环。

十年前，互联网上涌现的新内容，无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛，所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住，实在让人无奈。

最近发现，知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料，涵盖了大多数常用的搜索引擎的爬虫，但是一些新兴搜索引擎（比如 Duckduckgo ）的爬虫则没有包含在内。

但除了新兴搜索引擎之外，还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆（ Internet Archive，https://archive.org ）的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”，字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外，互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站，并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭，或是 URL 因为网页改版失效，而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站，互联网档案馆还担负了另一个重要作用：保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机，没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说，读到这里大家都明白。

其他也有一些存档网站（比如 archive.is ），他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆，且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年，“翻车”的可能性几乎为零；而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构，每年收支基本稳定，可见的将来是倒不下的。

除了网站存档之外，互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员，在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

snw

2019-01-29 02:44:43 +08:00

我完全支持网络档案馆，哪怕可能被翻出黑历史。对黑历史的恐惧其实并不源自于黑历史本身，而是黑历史被大肆曝光后的困扰。

我觉得网络档案馆应该做到如下几点（基本上是围绕中立性）：

1. 署名
必须标注网页的原始 url。如果网页标题、页脚、照片信息有作者署名，不能擦除。

2. 禁止商用
不得用于任何商业目的，包括广告。

3. 禁止演绎
必须原原本本地呈现原页面，不能截取内容、增加内容、混合内容、有损地转换。
但允许因为技术原因舍弃部分内容（例如文件过大）。

4. 禁止搜索
只能直接用原始 url 或原站的超链接访问，不能使用关键词搜索，尤其是跨站搜索。

5. 禁止索引
不能主动对相关内容或关键词制作索引目录。

6. 禁止宣传
不能诱导用户访问某个存档内容，比如维基百科首页的典范条目、你知道吗、历史上的今天等等