×

Ruby教程

如何识别pdf文档中的文字(图像识别)python

丘 发表于2024-05-21 浏览7085 评论0
如何识别pdf文档中的文字(图像识别) 直接处理pdf文档,来识别其中的文字比较困难,尝试过各种pdf的各种包,重要都是些处理格式的,或者只能读取当pdf文字可以选取的这类pdf文件,像那种扫描的pdf文档则不可以识别。 处理思路就是通过讲pdf文件的每一页转化为图片,然后再讲图片的中的文字,进行识别输出。这样的整体难度降低,也比较容易实现。 通过查阅资料,总结一下要点,给大伙留个参考 mac安装tesseract 通过查阅资料,mac安装的资料比较少,如果你是wins或linux(离