淘宝反爬求解

2019-01-17 11:53:16 +08:00
 frogex
爬虫新人,主要要爬淘宝一些搜索结果和商品的销量。
参考的帖子非常多:
https://intoli.com/blog/making-chrome-headless-undetectable/
https://antoinevastel.com/bot%20detection/2018/01/17/detect-chrome-headless-v2.html

目前已经做的事情:
1.mitmdump 挂脚本,拦截 js ( sufei_data/3.6.8/index.js )替换其中一些检测,比如知名的 f.webdriver,$cdc_asdjflasutopfhvcZLmcfl_
2.mitmdump 在页面 load 时设置了 navigator.language(注意,不是 languages,淘宝的 index.js 检测的没有复数),navigator.webdriver,window.chrome,window.navigator.permissions.query 属性
3.分析了 index.js ,测试了可能鉴定爬虫的特征代码( L = [r, i, a, e, l],B = [m, h, v, d, g];),这几个函数返回值 headless 和非 headless 下都是一致的

结果:
非 headless 下自动登陆大概率(90%)能通过,headless 下似乎一次都过不了。所以这下就郁闷了,不明白究竟是哪里遗漏了呢? headless 和非 headless 还有什么特征不同吗?
14475 次点击
所在节点    Python
72 条回复
mrcomer
2019-01-23 21:47:26 +08:00
@frogex 老哥,加我 wx:16620341036
iamdaguduizhang
2019-01-24 14:53:57 +08:00
@keyakizaka46 我有可以爬取淘宝 h5 的代码,可以用
keyakizaka46
2019-01-24 16:21:33 +08:00
@iamdaguduizhang 加我 QQ:690930494
okface
2019-01-26 17:23:48 +08:00
@iamdaguduizhang 老哥,加我 qq 394115733
okface
2019-01-26 18:09:03 +08:00
@frogex 老铁,我问一句,你们用了多少个淘宝账号在爬数据?这些账号哪里来的?是账号更容易被封还是 IP 更容易被封?
okface
2019-01-28 21:15:34 +08:00
@5200 老铁,脚本类的你们每天能爬多大量级
love9918
2019-02-12 10:31:28 +08:00
之前研究过一段,淘宝现在好像没验证了,使用 cookie 随机 useragent 外加随机代理跳过登录,直接爬取信息
thursday
2019-02-28 19:28:07 +08:00
有需要爬淘宝 app 需求的可以加我 qq 都能爬 348️⃣531171
thursday
2019-02-28 19:30:05 +08:00
用的是 app 接口计算 xsign
515576745
2019-03-09 16:37:04 +08:00
@love9918 一直有验证呀...
lxk11153
2020-03-16 22:29:18 +08:00
@frogex #16 x5sec 的问题好难,而且不同地方貌似检测级别不一样,比如登录好像低一点(登录时滑动通过了)
然后进页面,页面请求 api,返回个错误需要 x5sec 然后弹框让你滑动,页面是显示滑动通过的,然后页面再次请求 api 又告诉你还需要滑[滑稽]。。。懵了
no13bus
2020-07-10 15:07:57 +08:00
楼主问题解决了吗?想跟你交流下。我的微信 no13bus

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/527879

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX