有会图像处理的吗，小老弟有个问题想请教一下

有一个 pdf 文件，文件内容是一些规则排版的文字，但不是汉语，用目前的一些 ocr 也不能很好的识别出这些文字。

现在我想将 pdf 每一页转成图片，然后将图片中的每一个文字截取出来变成图片单独存储，现在的问题是不知道怎么样将每一个文字截取出来变成单独的图片，请问有什么合适不合适方法或者工具可以推荐一下吗？

jdhao

2020-10-31 17:36:35 +08:00

每一个字单独抠出来，你怎么确定每一个字在图像中的位置啊？

coderluan

2020-10-31 17:52:39 +08:00

给个思路，首先把根据文字颜色把图像二值化（文字的颜色全变成白色，其余的颜色变成黑色），然后进行膨胀变化（白色会变胖），这样文字部分会连成大白块，然后可以获取这些大白块的轮廓，然后获取这个轮廓的最小外接矩形，然后在原图中按这个矩形裁剪就行了，可以用 opencv 实现，上面提到的操作全有现成的 API 。

jdhao

2020-10-31 18:47:48 +08:00

@coderluan 太不稳定，有的文字挨的很近，你这样能保证每个文字一个连通域吗

3dwelcome

2020-10-31 19:23:19 +08:00

调用个 pdf 库，把 unicode 每个字符，逐个转换成图片不就可以了。

cbwood

2020-10-31 20:28:47 +08:00

@3dwelcome 请问可以具体说一下，没有找到可以识别 pdf 文字并保存为图片的库

3dwelcome

2020-10-31 23:38:18 +08:00

@cbwood 不用 ocr 啊，你本来 pdf 里就是存文字的，随便用个库，读出来也是文字。
如果原始 PDF，非汉子的那种语言是图片，那你直接切分图片就可以了，同样不需要 ocr 识别。

turan12

2020-10-31 23:45:06 +08:00

如果方便的话楼主可以把其中一段文字截图发上来看看

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/720521

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.