feat(files): gescannte/bildbasierte PDFs als Bilder rendern (Vision)

read_file gab bei Scan-PDFs (kein extrahierbarer Text) nur nutzlose Rohbytes zurueck -> claude.ai konnte sie nicht lesen. Jetzt: PyMuPDF rendert die Seiten als PNG (150 dpi, max 20 Seiten) -> ImageContent, das LLM liest sie per Vision. Verschluesselte/kaputte PDFs bleiben graceful. TestFileTypes scanned.pdf -> image. Produktiv-Fix fuer alle User. Dep: pymupdf (requirements-extra.txt). 76 Tests gruen.
2026-06-19 08:27:08 +02:00
parent 85f5e26384
commit abeacfc3b8
4 changed files with 37 additions and 5 deletions
@@ -439,7 +439,7 @@ class TestFileTypes:
        ("testdata/text/readme.md",          {"text"}),
        ("testdata/text/data.csv",           {"text"}),
        ("testdata/documents/document.pdf",  {"text"}),            # Text-PDF -> extrahiert
-        ("testdata/documents/scanned.pdf",   {"text", "resource"}),# Scan-PDF
+        ("testdata/documents/scanned.pdf",   {"image"}),            # Scan-PDF -> als Bild gerendert
        ("testdata/documents/report.docx",   {"text"}),
        ("testdata/documents/budget.xlsx",   {"text"}),
        ("testdata/documents/slides.pptx",   {"text"}),