请问怎样禁止这个叫wumii无觅的网站对内容的抓取

2013-12-15 16:40:56 +08:00
 GASALA
这个叫wumii无觅的网站未经允许随意抓取我们的原创内容,我们一发文章基本上秒速就被抓去,跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式,一种是用框架直接打开我们网页,一种是下面这种直接抓内容到他们网站上。

http://www.wumii.com/item/c0CpGgOA

请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它?或者仅仅屏蔽掉这个网站的ip就可以?
5187 次点击
所在节点    问与答
25 条回复
ooh
2013-12-15 16:48:13 +08:00
关键是找出他的机器ip,给他点porn?
sanddudu
2013-12-15 16:50:09 +08:00
如果对方还有良心,UA里会用 XX-Spider 这样的字符表示
完全无节操,模拟客户端访问,那就在发一篇文章之后看着请求日志,如果发现有可疑ip就查日志
GASALA
2013-12-15 16:50:31 +08:00
@ooh 嗯,我在日志文件里面没办法确定哪个是他们的。
GASALA
2013-12-15 16:52:50 +08:00
@sanddudu 嗯,常规几个搜索引擎的都有标识,但是这个网站实在没有看到有明显的标识,看来只能一个一个排除?那工作量好大,日志文件很大。
ooh
2013-12-15 16:56:16 +08:00
@GASALA 哎,你看看他们网站ip是多少,找找看日志里面有没有,一般来说他访问时间很固定,可能一天就那么几次,也有可能是手动触发,所以说要找到他很难,可以试试检查header各个参数来揪出来,问题是恐怕不止一个在爬吧,让他去吧
GASALA
2013-12-15 16:57:42 +08:00
@ooh 查过了,日志里面没有网站所在的ip。嗯,工作量好大,看来只能随他去了
sanddudu
2013-12-15 16:58:23 +08:00
@GASALA 看了下,估计不止一个爬虫。这下难说了,通过能沟通的渠道看看。
Kirkcong
2013-12-15 17:08:36 +08:00
直接律师函即可,这样就不适用避风港原则了。
Livid
2013-12-15 17:09:35 +08:00
给 2 个小时的日志样本来看看吧。
zeinima
2013-12-15 20:44:45 +08:00
取证保存公证
找个律师发封律师信
zeinima
2013-12-15 20:45:04 +08:00
法制不健全的受害者就是普通人
snowhs
2013-12-15 21:44:53 +08:00
> 我们希望加入的人有以下特征
> 1. 正直。

摘自 http://www.wumii.com/about/jobs

我咳嗽刚好一点又笑到发作了...
snowhs
2013-12-15 21:48:26 +08:00
btw, 我就引用一下内容,不对事情本身发表意见。
rove
2013-12-15 21:54:01 +08:00
跑个题,Greader以前也可以对内容直接抓取···
lovejoy
2013-12-15 22:52:15 +08:00
虎嗅 ? 发律师函吧,不标明是spider,而且你们访问量应该比较大,日志确实难分析,或者明天发篇文章黑下对方?
abbatuu
2013-12-15 23:32:48 +08:00
技术仅仅是一个层面的东西
你还可以选择
1 工商局投诉 深圳二木科技有限公司
2 为它做一些广告 当然是负面的 每一篇文章内容前增加一句注释 wumii无良 盗取内容
3 联合其他被盗受损的客户 寻求法律支持
binux
2013-12-15 23:40:48 +08:00
发一篇文章,首先限制奇数IP不可见,5分钟后放开。如果在这时间内对方抓去了,那就排除掉一半了,如此往复
binux
2013-12-15 23:45:06 +08:00
突然想到这个太麻烦了。。
直接文章里面插入一个编码,每次访问都不同,抓去之后看他抓的那个编码对应的请求信息就完了。
yingluck
2013-12-15 23:58:34 +08:00
@binux 好办法! 还可以与IP运算 与客户端信息运算 直接显示在文章中 到时候直接看这个随机数就行了
isy
2013-12-16 00:07:00 +08:00
@binux 这样岂不是文章缓存不了?访问量大的会不会直接死掉。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/93239

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX