跳转至

方法:杂志 PDF 处理流水线(抽取→OCR→clean→汇总)

  • 解决什么问题:把 PDF(含扫描件)变成可检索文本与主题汇总。
  • 数据目录:/Volumes/T7/酿造杂志原件/

流程

  1. 原件归档:PDF/zip 放 原件/
  2. 文本抽取:PyMuPDF 抽 *.txt
  3. OCR(扫描件):ocrmypdf 生成 *.ocr.pdf(必要时 *.ocr.safe.pdf
  4. OCR文本:生成 *.ocr.txt
  5. 启发式清洗:关键词+低文本/大图规则,产 *.clean.txt
  6. 主题汇总:从 clean 文本抽取要点,写入 汇总/*.md

工具依赖(已验证)

  • PyMuPDF
  • ocrmypdf
  • tesseract
  • ghostscript
  • unpaper

失败模式与排查

  • OCR 输出无效 PDF:改保守参数走 .ocr.safe 路线
  • OCR 质量差:提高清晰度/清理参数,必要时人工抽查关键页
  • 清洗误杀:保留 SKIPPED_PAGES_AD_HEURISTIC 供回看

相关术语