@
Amayadream 在这个基础上写到获取所有联系信息,并且下载图片到本地,然后通过 tesseract 转图为字符串,附代码:
https://github.com/nicky2015/practier/blob/master/spider/getContact.py我的环境是: python2.7 + windows :
这是结果:
瑞安市主峰标准件制造有限公司[已核实]
通过认证[诚信档案]
联系人黄德海(先生)
会员 [当前离线] [加为商友] [发送信件]
邮件
电话
手机
地区浙江-温州市-瑞安市
地址浙江省瑞安市塘下镇下林工业区罗山大道 5 号
----------
Image downloads here: D:\emailPic.png
Image downloads here: D:\cellPic.png
Image downloads here: D:\phonePic.png
Starting retrieve text from images with tesseract...
image emailPic.png convertes to text: zP90000@126.com
image phonePic.png convertes to text: 36 — 577 — 6536563o
image cellPic.png convertes to text: 13806850329
要安装一个外部程序 tesseract 和 python 的接口包 pytesseract
1.windows 平台下载地址
https://sourceforge.net/projects/tesseract-ocr-alt/2.包安装: pip install pytesseract