feat(pdf): gemeinsames pdfutil — Scan-PDFs als Bild + OCR (Files & Mail)

Scan-/bildbasierte PDFs werden jetzt von Files-MCP (read_file) UND Mail-MCP
(read_attachment) ueber das gemeinsame Modul pdfutil.py verarbeitet: Seiten via
PyMuPDF als PNG (150dpi, max 20) + OCR-Text (tesseract deu+eng). Verschluesselte/
kaputte PDFs bleiben graceful. Deps: pymupdf, pytesseract (+ system tesseract-ocr).
76 Tests gruen.
This commit is contained in:
Stefan Lohmaier
2026-06-19 08:46:00 +02:00
parent abeacfc3b8
commit 936ebc2f56
5 changed files with 80 additions and 54 deletions
+1
View File
@@ -5,4 +5,5 @@ openpyxl==3.1.5
pdfplumber==0.11.9
pillow==12.2.0
PyMuPDF==1.27.2.3
pytesseract==0.3.13
python-docx==1.2.0