什么时候优先走 PDF 转 Excel
如果源文件本身就是电子版 PDF,而且里面的表格文字可以选中复制,那么优先走 PDF 转 Excel。这样的文件结构更清晰,直接抽表格的成功率通常更高。
这类页面的搜索意图也很明确,用户往往是想尽快拿到可编辑的 Excel,而不是先做图片识别再二次整理。
什么时候应该改走图片 OCR
如果文件本质上是扫描件、拍照件或者截图拼出来的 PDF,那么它虽然扩展名是 PDF,实际内容依旧更接近图片。这个时候继续强推 PDF 转 Excel,很容易造成识别结果差、用户预期落空。
更稳妥的做法是直接改走图片转文档或图片转 TXT,这样通常更容易拿到可用结果。