请问怎样禁止这个叫wumii无觅的网站对内容的抓取

2013-12-15 16:40:56 +08:00
 GASALA
这个叫wumii无觅的网站未经允许随意抓取我们的原创内容,我们一发文章基本上秒速就被抓去,跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式,一种是用框架直接打开我们网页,一种是下面这种直接抓内容到他们网站上。

http://www.wumii.com/item/c0CpGgOA

请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它?或者仅仅屏蔽掉这个网站的ip就可以?
5187 次点击
所在节点    问与答
25 条回复
binux
2013-12-16 00:12:22 +08:00
@isy 看在哪层做咯,应用服务器出来的结果依旧缓存起来,增加一层专门添加这个串,性能不会太差
比如用openresty
txlty
2013-12-16 04:28:17 +08:00
有个办法是批量连接访客IP的80端口,如果哪个IP是通的,就有服务器嫌疑。

其实这个问题在技术上无解。如果采集程序在工作场所的PC上,由PC端上传入库。工作场所是adsl拨号产生的动态IP,怎么封?
txlty
2013-12-16 04:53:39 +08:00
如果采集方使用的不是100%模拟浏览器(不请求图片、不执行JS),那么是有办法抓出采集者IP的。

访问文章页面->记录访客IP,(延迟n秒后)通过页面一段JS以ajax方式发出一个请求,响应端收到请求后 删除IP记录 或 标记IP为正常访问。
这样,留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。
wzxjohn
2013-12-16 09:42:36 +08:00
看了大家的方法让我顿时觉得,原来还能这么玩!受教了!
underone
2013-12-16 10:21:08 +08:00
直接微博上去@林承仁 比较有效吧
在无觅初创的时候,还是很用过一阵的,没想到现在变成这样……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/93239

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX