跳转至

方法:PDF 抽取文字 + OCR + 启发式去广告 + 摘要

  • 解决什么问题:把杂志 PDF(含扫描版)转为可检索的 txt,并尽量剔除广告页/低价值页。
  • 数据位置:/Volumes/T7/酿造杂志原件/

流程(概览)

1) 直接文本抽取(PyMuPDF/fitz)→ *.txt 2) 如果是扫描/图片型:OCR(ocrmypdf + tesseract + ghostscript + unpaper)→ *.ocr*.pdf 3) 从 OCR 版再抽取文本 → *.ocr*.txt 4) 启发式去广告(关键词 + 低文本/大图 + URL/电话/价格等)→ *.clean.txt

失败模式与排查(草稿)

  • OCR 输出 PDF invalid:可能与源 PDF 内嵌 JPEG 流异常有关;可改用更保守参数(曾用 .ocr.safe 路线解决)。
  • OCR 质量差(diacritics 警告):考虑提高分辨率/清理参数或补语言包。

参考/产物