一、该问题的重现步骤是什么?
1. 上传知识库中我们好多pdf文件都是那种打印版,这个bladex没有ocr导致图片文字识别不了,知识库就构建不起来。
二、你期待的结果是什么?实际看到的又是什么?
正常解析PDF中的图片,实际看不到图片
三、你正在使用的是什么产品,什么版本?在什么操作系统上?
bladex-ai 4.7.0快照
四、请提供详细的错误堆栈信息,这很重要。
五、若有更多详细信息,请在下面提供。
你的意思是整个pdf是一张扫描件,然后文字和图片都合并在一张大图的情况么?还是说文字和图片是分开的?
如果是分开的,这里的oss配置一下:https://center.javablade.com/blade/BladeX-AI/src/branch/master/src/main/resources/application-dev.yml#L28
pdf里读取到图片会自动解析然后上传到oss里并且返回oss的地址。
如果是全部合并在一起的,目前还没发java层面完全解析,可以先借用下这个中间件:https://mineru.net/ 给他先识别切割后,再把处理完的pdf上传到知识库。
扫一扫访问 Blade技术社区 移动端