最近想搞个爬虫爬点东西, 目前 Python 那个框架最好用呢

68 天前
 iorilu

都说 python 最擅长爬虫

但实际上我以前没啥需求, 没怎么实践过

请推荐下实际生产项目中好用的爬虫框架或方案

3202 次点击
所在节点    Python
24 条回复
linxiaojialin
49 天前
@Cy86 请问一下,发起请求能跑满上行带宽的吗?用 aiohttp 单进程跑,好像也只有几 M 上行
godall
47 天前
@Cy86 #18 有没有处理过网页请求指纹加密的处理?比如京东的价格保护,以前直接访问 url ,然后自己浏览器登录后 cookie 保存,然后提交每天跑就行了,现在不行了,他有个 t 的时间戳,超过一定时间比如 10 小时后就无效了,必须用新的时间戳加上本机指纹数据形成一个 h5st 的数据包作为 form 表单数据才行,难道要自己破解他的加密算法?
godall
47 天前
对于防爬虫的网站,我发现最后只能用 seliunium 模拟浏览器访问了,就是效率太差,但其他一概都搞不定。。。。
sead
13 天前
@godall https://github.com/seadfeng/headless-browser-clusters

最早用无头,感觉确实效率很低, 后面再次尝试用,其实没那么糟糕;碰到硬茬逆向搞不定能有什么办法

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1102662

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX