跳转至

ModelBeer Wiki

方法：杂志 PDF 处理流水线（抽取→OCR→clean→汇总）

方法：杂志 PDF 处理流水线（抽取→OCR→clean→汇总）

解决什么问题：把 PDF（含扫描件）变成可检索文本与主题汇总。
数据目录：/Volumes/T7/酿造杂志原件/

流程

原件归档：PDF/zip 放 原件/
文本抽取：PyMuPDF 抽 *.txt
OCR（扫描件）：ocrmypdf 生成 *.ocr.pdf（必要时 *.ocr.safe.pdf）
OCR文本：生成 *.ocr.txt
启发式清洗：关键词+低文本/大图规则，产 *.clean.txt
主题汇总：从 clean 文本抽取要点，写入 汇总/*.md

工具依赖（已验证）

PyMuPDF
ocrmypdf
tesseract
ghostscript
unpaper

失败模式与排查

OCR 输出无效 PDF：改保守参数走 .ocr.safe 路线
OCR 质量差：提高清晰度/清理参数，必要时人工抽查关键页
清洗误杀：保留 SKIPPED_PAGES_AD_HEURISTIC 供回看

相关术语

低DO