use java ,code by others 要是没有什么特殊要求(图片解析)建议使用java的代码, io.github.jonathanlink PDFLayoutTextStripper 2.2.3 使用OCR需要配置tesseract ocr环境 or use OCR(将pdf转换成图片再解析)效果不太好
https://digi.bib.uni-mannheim.de/tesseract/
Tesseract-OCR\tessdata
pip install pytesseract 在python中使用pytesseract会报编码错误,所以使用命令行代码
https://poppler.freedesktop.org/ https://blog.alivate.com.au/poppler-windows/ 其实里面也有自带的pdftotext,但是效果不好就随意啦,这里用到里面的 pdf2image