POST / Automation2026-07-03
PDF 转 Excel 最难的不是抽取,是证明没抽坏
AUTHOR: 张建鹏
PDF 转 Excel 最难的不是抽取,是证明没抽坏
银行流水 PDF 转 Excel 这类项目,技术难点不只在解析。
真正麻烦的是:今天为了修一个银行模板,不能把另一个模板弄坏;今天在新机器上能跑,不能说明下个月迁移后仍然能跑。所以回归机制比单次成功更重要。
当前项目已经有好的基础
PDF2Excel 目录里保留了精简迁移版,里面包括主流程、网页服务、后端接口、回归脚本、样例和迁移说明。
回归套件的通过标准也很明确:
- 所有 case 都是
PASS。 - 生成的
xlsx文件集合和基准完全一致。 - 每个同名
xlsx的单元格内容和基准完全一致。 - 没有缺页、没有多页。
python -X utf8 run_regression_suite.py run
python -X utf8 run_regression_suite.py run --case guangfa_text --case icbc_validation
为什么不要轻易刷新基准
刷新 baseline 是一个产品决策,不是一个让测试变绿的技巧。
只有确认新输出就是新的正确结果时,才应该执行 refresh-baseline。否则回归套件会失去意义:它不再告诉你代码有没有变坏,只是在记录最后一次输出。
服务化之后的边界
现在服务器上还有 PDF Process FastAPI 服务监听 4081,以及 PDF2Excel 相关进程。服务化的好处是可以接入网页、队列或外部系统;代价是必须考虑文件大小、超时、临时目录清理、并发和任务审计。
PDF 处理通常不是短请求,后续更适合改成上传任务、后台处理、结果下载的模型。
Terminal_Comments / 终端评论系统
Signals_Received
CONNECTING_D1_INSTANCE...