今天发一个特殊一点的工单。
最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。
这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。
十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。
最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。
但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。
可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。
除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。
对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。
其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。
除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。
希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot
。谢谢各位。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.