网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

2017-05-04 20:30:39 +08:00
 tianxiacangshen
2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
7100 次点击
所在节点    PHP
32 条回复
hard2reg
2017-05-05 10:12:18 +08:00
@kinghui 就一个出口😂 ip 是多稀缺
em70
2017-05-05 10:12:58 +08:00
@tttty 只封 24 小时,不会有太大影响,别考虑太多小概率事件
tttty
2017-05-05 11:12:58 +08:00
@kinghui 太可怕了...
@em70 嗯 好的
liuxu
2017-05-05 11:31:52 +08:00
我虽然是个爬虫,但我行事坦荡,从不遮遮掩掩
fuxkcsdn
2017-05-05 11:35:44 +08:00
@hard2reg
>>> import requests
>>> requests.get('http://httpbin.org/user-agent').text
u'{\n "user-agent": "python-requests/2.12.3"\n}\n'
hsmocc
2017-05-05 15:20:30 +08:00
封 IP 显然是下策啊,一段时间内访问次数达到一个上限后出验证码吧
tianxiacangshen
2017-05-05 16:52:16 +08:00
@hsmocc 这样的话 每一次访问都要查询(次数)+插入数据库,不是很占用资源吗
doublleft
2017-05-05 17:33:06 +08:00
@tttty 是啊,会误伤! 我们公司不知道哪个傻比天天疯狂刷 v 站,我现在挂着代理上的……
dsg001
2017-05-05 17:52:51 +08:00
这种 UA 直接返回乱码数据呗
qinbingchen
2017-05-05 21:40:26 +08:00
难道这是我?
flyshu
2017-05-06 10:43:42 +08:00
新手刚看了知乎的入门教程来练手了
dreamcountry
2017-07-16 11:44:37 +08:00
我的网站也有大量的这种日志,这些人真是闲的蛋疼

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/359181

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX