PDF 转 Excel 最难的不是抽取，是证明没抽坏

银行流水 PDF 转 Excel 这类项目，技术难点不只在解析。

真正麻烦的是：今天为了修一个银行模板，不能把另一个模板弄坏；今天在新机器上能跑，不能说明下个月迁移后仍然能跑。所以回归机制比单次成功更重要。

当前项目已经有好的基础

PDF2Excel 目录里保留了精简迁移版，里面包括主流程、网页服务、后端接口、回归脚本、样例和迁移说明。

回归套件的通过标准也很明确：

python -X utf8 run_regression_suite.py run
python -X utf8 run_regression_suite.py run --case guangfa_text --case icbc_validation

刷新 baseline 是一个产品决策，不是一个让测试变绿的技巧。

只有确认新输出就是新的正确结果时，才应该执行 refresh-baseline。否则回归套件会失去意义：它不再告诉你代码有没有变坏，只是在记录最后一次输出。

现在服务器上还有 PDF Process FastAPI 服务监听 4081，以及 PDF2Excel 相关进程。服务化的好处是可以接入网页、队列或外部系统；代价是必须考虑文件大小、超时、临时目录清理、并发和任务审计。

PDF 处理通常不是短请求，后续更适合改成上传任务、后台处理、结果下载的模型。