方法:PDF 抽取文字 + OCR + 启发式去广告 + 摘要
- 解决什么问题:把杂志 PDF(含扫描版)转为可检索的 txt,并尽量剔除广告页/低价值页。
- 数据位置:
/Volumes/T7/酿造杂志原件/
流程(概览)
1) 直接文本抽取(PyMuPDF/fitz)→ *.txt
2) 如果是扫描/图片型:OCR(ocrmypdf + tesseract + ghostscript + unpaper)→ *.ocr*.pdf
3) 从 OCR 版再抽取文本 → *.ocr*.txt
4) 启发式去广告(关键词 + 低文本/大图 + URL/电话/价格等)→ *.clean.txt
失败模式与排查(草稿)
- OCR 输出 PDF invalid:可能与源 PDF 内嵌 JPEG 流异常有关;可改用更保守参数(曾用
.ocr.safe路线解决)。 - OCR 质量差(diacritics 警告):考虑提高分辨率/清理参数或补语言包。
参考/产物
- 产物汇总入口:汇总