淘宝反爬求解

爬虫新人，主要要爬淘宝一些搜索结果和商品的销量。
参考的帖子非常多：
https://intoli.com/blog/making-chrome-headless-undetectable/
https://antoinevastel.com/bot%20detection/2018/01/17/detect-chrome-headless-v2.html

目前已经做的事情：
1.mitmdump 挂脚本，拦截 js （ sufei_data/3.6.8/index.js ）替换其中一些检测，比如知名的 f.webdriver,$cdc_asdjflasutopfhvcZLmcfl_
2.mitmdump 在页面 load 时设置了 navigator.language(注意，不是 languages，淘宝的 index.js 检测的没有复数),navigator.webdriver,window.chrome,window.navigator.permissions.query 属性
3.分析了 index.js ，测试了可能鉴定爬虫的特征代码（ L = [r, i, a, e, l]，B = [m, h, v, d, g];），这几个函数返回值 headless 和非 headless 下都是一致的

结果：
非 headless 下自动登陆大概率(90%)能通过，headless 下似乎一次都过不了。所以这下就郁闷了，不明白究竟是哪里遗漏了呢？ headless 和非 headless 还有什么特征不同吗？

lxk11153

2020-03-16 22:29:18 +08:00

@frogex #16 x5sec 的问题好难，而且不同地方貌似检测级别不一样，比如登录好像低一点（登录时滑动通过了）
然后进页面，页面请求 api，返回个错误需要 x5sec 然后弹框让你滑动，页面是显示滑动通过的，然后页面再次请求 api 又告诉你还需要滑[滑稽]。。。懵了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/527879

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.