请问怎样禁止这个叫wumii无觅的网站对内容的抓取

这个叫wumii无觅的网站未经允许随意抓取我们的原创内容，我们一发文章基本上秒速就被抓去，跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式，一种是用框架直接打开我们网页，一种是下面这种直接抓内容到他们网站上。

http://www.wumii.com/item/c0CpGgOA

请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它？或者仅仅屏蔽掉这个网站的ip就可以？

binux

2013-12-16 00:12:22 +08:00

@isy 看在哪层做咯，应用服务器出来的结果依旧缓存起来，增加一层专门添加这个串，性能不会太差
比如用openresty

txlty

2013-12-16 04:28:17 +08:00

有个办法是批量连接访客IP的80端口，如果哪个IP是通的，就有服务器嫌疑。

其实这个问题在技术上无解。如果采集程序在工作场所的PC上，由PC端上传入库。工作场所是adsl拨号产生的动态IP，怎么封？

txlty

2013-12-16 04:53:39 +08:00

如果采集方使用的不是100%模拟浏览器（不请求图片、不执行JS），那么是有办法抓出采集者IP的。

访问文章页面->记录访客IP，（延迟n秒后）通过页面一段JS以ajax方式发出一个请求，响应端收到请求后删除IP记录或标记IP为正常访问。
这样，留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。

wzxjohn

2013-12-16 09:42:36 +08:00

看了大家的方法让我顿时觉得，原来还能这么玩！受教了！

underone

2013-12-16 10:21:08 +08:00

直接微博上去@林承仁比较有效吧
在无觅初创的时候，还是很用过一阵的，没想到现在变成这样……

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/93239

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.