POST / Automation2026-07-03

PDF 转 Excel 最难的不是抽取,是证明没抽坏

AUTHOR: 张建鹏

PDF 转 Excel 最难的不是抽取,是证明没抽坏

银行流水 PDF 转 Excel 这类项目,技术难点不只在解析。

真正麻烦的是:今天为了修一个银行模板,不能把另一个模板弄坏;今天在新机器上能跑,不能说明下个月迁移后仍然能跑。所以回归机制比单次成功更重要。

当前项目已经有好的基础

PDF2Excel 目录里保留了精简迁移版,里面包括主流程、网页服务、后端接口、回归脚本、样例和迁移说明。

回归套件的通过标准也很明确:

  1. 所有 case 都是 PASS
  2. 生成的 xlsx 文件集合和基准完全一致。
  3. 每个同名 xlsx 的单元格内容和基准完全一致。
  4. 没有缺页、没有多页。
python -X utf8 run_regression_suite.py run
python -X utf8 run_regression_suite.py run --case guangfa_text --case icbc_validation

为什么不要轻易刷新基准

刷新 baseline 是一个产品决策,不是一个让测试变绿的技巧。

只有确认新输出就是新的正确结果时,才应该执行 refresh-baseline。否则回归套件会失去意义:它不再告诉你代码有没有变坏,只是在记录最后一次输出。

服务化之后的边界

现在服务器上还有 PDF Process FastAPI 服务监听 4081,以及 PDF2Excel 相关进程。服务化的好处是可以接入网页、队列或外部系统;代价是必须考虑文件大小、超时、临时目录清理、并发和任务审计。

PDF 处理通常不是短请求,后续更适合改成上传任务、后台处理、结果下载的模型。

Terminal_Comments / 终端评论系统
Signals_Received
CONNECTING_D1_INSTANCE...