我花了一天,做了一款和「百度」比肩的 OCR 图片识字工具 iText

2017-11-13 08:31:08 +08:00
 quietjosen

这是我第 7 款 macOS 产品了:iText

iText 是一款 从图片中识别文字 的 OCR 工具。

通过截图识别

选择屏幕任意区域,立即识别其中的文字。

配合快捷键,截图更方便。默认快捷键为 ⇧⌘1;当然,你可以在 iText 偏好设置中修改。

通过拖拽识别

比如,你在网上看到了一张图片、或者本地有个图片文件,都可以拖拽至 iText 菜单栏图标进行识别。

通过选择图片文件识别

当然,你也可以在 iText 菜单中选择图片文件进行识别。

下载

你会发现,对于 看扫描版 PDF 文件、登录才能复制文字的网页、对方以手机截图的方式发电话号码、等场景,iText 快速识字的功能,很有用、也很好用。

目前,iText 还处于封闭内测期。如需体验,请联系:iToolinbox+iText@gmail.com

15073 次点击
所在节点    分享创造
89 条回复
quietjosen
2017-11-13 11:37:07 +08:00
@hester 恩,明白。
deadEgg
2017-11-13 11:53:07 +08:00
嘿 cool
artandlol
2017-11-13 11:57:13 +08:00
非年轻人还这么喜欢折腾 点赞
icylogic
2017-11-13 11:59:59 +08:00
@quietjosen 七八年前开发的,好像没有用到 Deep Learning 吧,只是功能相对完善。

我也好奇你的软件或者说百度的算法,有干扰的情况调教地怎么样。你的截图和我发的图其实都是最容易识别的情景。对于 OCR 来说也就是 MNIST 这个级别的工作吧 …… 不妨试试这两张,看看效果怎么样 ……

https://i.loli.net/2017/11/13/5a0914552cfff.png
https://i.loli.net/2017/11/13/5a09145667ffc.png

原本就在屏幕上渲染的字体,比如视频中的字幕,更复杂的 b 站弹幕,这些文本其实本身可识别率非常高,只是背景有干扰。

另一方面比如手写体、照片、扫描文档,这些字体有变形,识别率就更低了。

后者其实我目前见到做得最好的也就是 Google 翻译 App,摄像头对着文本实时识别加翻译,App 会直接用翻译文本在手机取景界面上把原文替换掉,识别对了效果非常好。不过也经常完全识别错。微软的也不错,不过需要拍一下,一张一张扫。
quietjosen
2017-11-13 12:05:44 +08:00
@icylogic 我试了你提供的第 2 张图:



第 1 张图也是可以的,你也可以自己试试。
qdwang
2017-11-13 12:11:05 +08:00
看效果相当不错,应该很好用
lanfeng007
2017-11-13 12:24:38 +08:00
mark 一下!
notreami
2017-11-13 12:26:19 +08:00
亮点在哪里?没有创新小 Demo,就不要放上来赶英超美了。
gzlock
2017-11-13 12:33:55 +08:00
quietjosen
2017-11-13 13:08:45 +08:00
@gzlock 是的
BlackCat02
2017-11-13 13:24:10 +08:00
试了一下,对中文的识别不错。对 vim 里的代码识别了一下,就感觉有点差强人意。不知道百度这个接口是不是本身就不是针对英文的
quietjosen
2017-11-13 13:37:35 +08:00
@BlackCat02 恩,毕竟百度是中文起家的;如果是英文,估计得选择国外的服务。不过,代码不是英语,无法使用英语的规则对结果进行优化。
surewen
2017-11-13 13:44:28 +08:00
是用了百度云的 SDK ?曾经和你的想法一样,想做成 app ……

接口啥都调完了,不过后面犯懒没做完……

支持
quietjosen
2017-11-13 13:57:22 +08:00
@surewen 百度没有 macOS SDK,我是封装了其 REST API
menc
2017-11-13 14:35:54 +08:00
调用了人家的服务,应该叫“给百度套了个壳”,不是叫做“比肩百度”,你得自己做一个才好意思比较。
ty321ty
2017-11-13 14:38:12 +08:00
@icylogic 找来找去这软件只有截图功能啊 几百 K 的大小 是我下载错软件了吗..
surewen
2017-11-13 14:42:48 +08:00
@quietjosen 嗯嗯,我说的就是 rest api。

当时我还试过自己下载字库的图片,批量裁出来然后用 tesseract 来训练,结果中文的效果还是很差。
quietjosen
2017-11-13 14:47:36 +08:00
@menc 应该叫站在「百度肩膀」
quietjosen
2017-11-13 14:48:05 +08:00
@surewen 感觉这种离线的库,不如云服务;后者有天然优势,可以实时更新识别能力。
dong3580
2017-11-13 14:48:35 +08:00
@ty321ty
好像是这个,还是开源的,真是大牛,
https://sourceforge.net/projects/capture2text/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/405827

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX