scrapy 如何处理验证码?

2016-01-17 00:54:58 +08:00
 xarrow

对于 scrapy 中验证码怎么处理?(比如说登录知乎,现在需要验证码)
我的想法是通过 scrapy 把验证码下载下来,手动打码方式。
那么问题来了, scrapy 如何保持同一个 session 去下载验证码呢?

因为我之前用 requests 登录知乎 https://gist.github.com/Xarrow/69b971521f807924db77 ,保持一个 session ,下载验证码图片,在用这个 session 登录,可以成功。
我的想法是在 scrapy 中先用 requests 登录完,把 session 传给 scrapy 中的 cookiejar:requests.session(),
请问这样做可以么?或者有更好的方法么?
求大神给出示例~

5834 次点击
所在节点    Python
9 条回复
iseliget
2016-01-17 02:41:00 +08:00
我要是没记错的话, Python 有个专门识别验证码的 library
SCaffrey
2016-01-17 08:35:25 +08:00
@iseliget awesome-python OCR
sunchen
2016-01-17 11:32:42 +08:00
想省心就接入打码平台
junnplus
2016-01-17 12:31:11 +08:00
楼上的答案好像不对楼主的问题
xarrow
2016-01-17 13:26:38 +08:00
@junnplus 的确
donghouhe
2016-01-17 20:27:27 +08:00
用 tesseract 识别验证码过,可是姿势不对,效果不好(未试与 scrapy 搭配过)
xarrow
2016-01-17 22:33:04 +08:00
@donghouhe 其实我的意思是怎么样用 scrapy 把这个验证码下载下来,然后我手动打码
xarrow
2016-01-18 00:31:25 +08:00
已经解决,一个字:直接上 cookies ,
不过我是先用 requests 登录,因为比较熟悉,然后再把 cookies 保持下来,传入 scrapy 的 cookies 中
mikezhang0515
2016-01-26 17:24:29 +08:00
小心爬着爬着退出了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/251278

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX