知乎、新浪微博、各种号、各大厂的人:请至少允许互联网档案馆(Internet Archive)抓你们的数据

2019-01-27 16:16:02 +08:00
 ChineseTeacher

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。

十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。

最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。

但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。

其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。

除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

20474 次点击
所在节点    全球工单系统
88 条回复
luoway
2019-01-28 11:51:50 +08:00
虽然有悖“互联”,但墙、暗网、APP 内建社区都是事实存在的。
苹果的万亿市值也让大家看到了实在的利益。
信息不对称衍生的商业服务,本身就是一种商品。

互联网终究还是会由早期的开放互联,走向现实的封闭社会。
across
2019-01-28 11:57:14 +08:00
叫内容网站放弃内容独占,好比当面给人讲:我们给你拍照片了,你可以去死了·····
Jay54520
2019-01-28 13:09:43 +08:00
@rayhy 扩展一下原因。因为你保存了它们想要删除的不和谐的证据。既然他们想要删除,就说明他们不想保留,所以他们不会同意这样的爬虫。
est
2019-01-28 13:43:08 +08:00
幻觉和现实碰撞的帖子。2333
var
2019-01-28 14:56:36 +08:00
@Lostars #54 可惜 Aaron 的梦依旧是个梦
radiolover
2019-01-28 15:00:53 +08:00
因为我们讲的是肥水不流外人田,IT 创始人等“大佬”追求的是独霸天下煮酒论英雄。这和西方世界有本质不同。
事实上,中国的所谓“互联网公司”其实不是互联网公司,而是基于互联网的中间商和媒体,技术只是处于从属地位。互联网公司是技术驱动型的,而不是依靠烧钱、风口、流量、公关....等一堆造出来的名词。
Choooooose
2019-01-28 15:16:38 +08:00
多谢楼主,我已经把(archive.org_bot)这个 UA 加入到我的网站访问黑名单了。
才不想要哪天被别人看到黑历史呢。
rizon
2019-01-28 19:17:06 +08:00
互联网档案馆这个名字我很喜欢,担当 档案馆这个职责的很多公益事情我觉得都是非常有价值的,也是非常感人的,比如 种质资源库、国家基因库这类的(我忘了具体的名字了)。

但是很遗憾的是很多网站出于当下的一些利益拒绝了这种被备份的行为,这虽然对企业来说是友好,但是对历史是不友好的。可是也没办法啊,就像我们现在所研究的历史一样,总会存在一些就是不想被人知道的事情。

虽然非常遗憾,但是又能如何。
rizon
2019-01-28 19:23:18 +08:00


随便翻了一下 csdn 的历史,哈哈~这种看历史的感觉,真的很棒哟~~
1762628386
2019-01-28 19:24:30 +08:00
不是,人家凭啥答应你抓你们的数据?
charlie21
2019-01-28 20:40:33 +08:00
还防爬虫,搞笑
你应该知道的是如果是暴力抓取那么你的黑历史就是逃不到的
幼儿园小朋友一样,“主动删除的东西再被检索出来很恶心” 是你自己恶心自己,过去的你恶心现在的你,好吗?
bzshow1
2019-01-28 21:19:02 +08:00
互联网精神被国内大厂玩坏了。
zyq2280539
2019-01-28 22:22:09 +08:00
第一次听说这个网站,于是好奇的点进去查询了自己博客的几年变迁历史,那一瞬间我被惊呆了,竟有如此完整的保存了个人博客的变迁历史轨迹。。佩服佩服。。。
clippit
2019-01-28 22:30:46 +08:00
archive.org 还是很厉害的,上次找一个 199x 年的独立游戏,一个只有几十 KB 的 exe,国内网站上都是各种添油加醋的魔改汉化版,在 archive.org 上面竟然找到了原版,而且还带着当年作者写的 changelog
zappos
2019-01-28 22:43:44 +08:00
百度自己都不遵守 robots.txt ,估计他的这个文件是瞎写的。
zappos
2019-01-28 22:46:10 +08:00
另外有本事你就自己创建个内容站抓取他们的数据,就像 chuansong.me 一样。
bravecarrot
2019-01-28 23:08:08 +08:00
现在很多人已经在抱怨自己的上网行为变成电子纹身了,楼主还要保留每一点证据。
有意思,观点和论据真是章口就来
FakeLeung
2019-01-28 23:41:45 +08:00
2333333333.
luguanyu1234
2019-01-28 23:57:30 +08:00
qq 和 360 浏览器是不是已经针对某些网站“优化”了。
snw
2019-01-29 02:44:43 +08:00
我完全支持网络档案馆,哪怕可能被翻出黑历史。对黑历史的恐惧其实并不源自于黑历史本身,而是黑历史被大肆曝光后的困扰。

我觉得网络档案馆应该做到如下几点(基本上是围绕中立性):

1. 署名
必须标注网页的原始 url。如果网页标题、页脚、照片信息有作者署名,不能擦除。

2. 禁止商用
不得用于任何商业目的,包括广告。

3. 禁止演绎
必须原原本本地呈现原页面,不能截取内容、增加内容、混合内容、有损地转换。
但允许因为技术原因舍弃部分内容(例如文件过大)。

4. 禁止搜索
只能直接用原始 url 或原站的超链接访问,不能使用关键词搜索,尤其是跨站搜索。

5. 禁止索引
不能主动对相关内容或关键词制作索引目录。

6. 禁止宣传
不能诱导用户访问某个存档内容,比如维基百科首页的典范条目、你知道吗、历史上的今天等等

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/531025

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX