关于应对网站反爬虫和验证码识别的问题

公司需求所以开始写爬虫

第一次写直接 curl 请求 web 端折腾了一下午算是搞定了可是速度很慢而且频繁被验证码限制

第二天搞了台拨号的机器每次验证码就直接断了宽带重新拨号（动态 ip ）但是速度还是很慢

第三天刷了一下关于爬虫的乱七八糟的知识开始重写

重写是利用 curl_multi 进行并发请求这次是爬 H5 端 H5 端验证码的频率比 web 端要低很多

但是新的问题出现了放到之前拨号的机器上基本上一个页面就弹一次验证码换 IP 也一样

本地跑就不会这样而且重拨后 curl_multi 就会报链接超时的错误于是就放在本地跑

但是验证码的问题还是没有解决于是就开始摸索网站验证码的规律

几天下来还是没有太大的发现不管是降低访问频率还是更改爬取顺序基本上都没什么太大变化

于是考虑从过验证码下手验证码是纯底色没有干扰只是字体会变形旋转

又折腾了下 Tesseract-OCR 识别率太低达不到想要的效果

想问几个问题：

电商网站一般都是什么反爬虫策略? 被验证码限制最多的时候就是一个循环完成后下一个循环第一个页面被限制，最近几天在其他时候被验证码限制的情况发生频率高了一些有用 sleep()限制频率依然没什么用

爬虫 dalao 们都是怎么对抗验证码的除了代理 IP，以及对验证码识别有没有什么效率比较高的办法看 Tesseract-OCR 是有深度学习?的特性但是没搞太明白

拨号的那台机器用爬 H5 端的爬虫为什么会这么频繁被限制本地却不会这样每次重拨大概率 IP 都会换应该不是黑名单的问题吧?本地基本都是输入验证码接着重新开一下爬虫就好了

如果用 php-thread 真正独立线程编写爬虫重拨 IP 会不会出现超时的 error

Tesseract-OCR 配置 tessedit_char_whitelist 后会报错 read_params_file: Can't open tessedit_char_whitelist; 白名单只是添加了 a-z

作为新手可能会问出比较蠢的问题水平有限希望见谅 = =

有需要提供更多详细信息的我会补充爬虫工具是用的 V2dalao querylist 致谢

Wetoria

2017-07-21 14:10:36 +08:00

我和我同学爬过某电商平台，数据是动态出来的，怎么破？🤷🏻‍♂️
我同学爬某东，前几页数据正常，爬到后面开始为第一页的重复数据。🤷🏻‍♂️
正常情况与爬虫，主要就是访问量的差别了吧？原来搞爬虫看到的一句话“爬虫与反爬的战争中，爬虫终将获胜。”你的网站只要能被正常访问，就一定能被爬。

反爬策略封 ip，加验证码，是不是还有个 ajax 异步加载数据？？我记得另外爬了一个网站，访问结果就是一条链接🌚

DCjanus

2017-07-21 17:33:23 +08:00

访问频率可能是根据访问时长来限制阈值的：正常人访问时间一般比较短，爬虫几乎必然是长时间、不间断访问。
也就是说你连续请求时间越长，针对你的访问频率阈值就会越低。
爬虫如果不限制频率，很短时间内就会触发短期阈值；即使限制了频率，长时间访问也会碰到长期阈值。
这种基本上无解，只能靠大量代理来解决。
当然，如果你能知道他们的具体函数的话那就美滋滋了，比如知道多久不请求就会重置阈值以及阈值和访问时长的联系。

另外部分网站出现过的情况，页面里一堆只有爬虫才能看到的数据，给你的数据投毒 2333 还会用 csv 画出来的价格标签，真人看起来没什么区别，爬虫爬回来就是一堆 csv，你还得跟验证码识别一样去识别价格标签。

另外有的网站随机请求间隔比固定间隔有更高的效率。

关于应对网站反爬虫和验证码识别的问题

想问几个问题 ：

想问几个问题：