方法：PDF 抽取文字 + OCR + 启发式去广告 + 摘要

解决什么问题：把杂志 PDF（含扫描版）转为可检索的 txt，并尽量剔除广告页/低价值页。
数据位置：/Volumes/T7/酿造杂志原件/

流程（概览）

1) 直接文本抽取（PyMuPDF/fitz）→ *.txt 2) 如果是扫描/图片型：OCR（ocrmypdf + tesseract + ghostscript + unpaper）→ *.ocr*.pdf 3) 从 OCR 版再抽取文本 → *.ocr*.txt 4) 启发式去广告（关键词 + 低文本/大图 + URL/电话/价格等）→ *.clean.txt

失败模式与排查（草稿）

OCR 输出 PDF invalid：可能与源 PDF 内嵌 JPEG 流异常有关；可改用更保守参数（曾用 .ocr.safe 路线解决）。
OCR 质量差（diacritics 警告）：考虑提高分辨率/清理参数或补语言包。

参考/产物

产物汇总入口：汇总