方法:杂志 PDF 处理流水线(抽取→OCR→clean→汇总)
- 解决什么问题:把 PDF(含扫描件)变成可检索文本与主题汇总。
- 数据目录:
/Volumes/T7/酿造杂志原件/
流程
- 原件归档:PDF/zip 放
原件/ - 文本抽取:PyMuPDF 抽
*.txt - OCR(扫描件):ocrmypdf 生成
*.ocr.pdf(必要时*.ocr.safe.pdf) - OCR文本:生成
*.ocr.txt - 启发式清洗:关键词+低文本/大图规则,产
*.clean.txt - 主题汇总:从 clean 文本抽取要点,写入
汇总/*.md
工具依赖(已验证)
- PyMuPDF
- ocrmypdf
- tesseract
- ghostscript
- unpaper
失败模式与排查
- OCR 输出无效 PDF:改保守参数走
.ocr.safe路线 - OCR 质量差:提高清晰度/清理参数,必要时人工抽查关键页
- 清洗误杀:保留
SKIPPED_PAGES_AD_HEURISTIC供回看