feat(files): gescannte/bildbasierte PDFs als Bilder rendern (Vision)
read_file gab bei Scan-PDFs (kein extrahierbarer Text) nur nutzlose Rohbytes zurueck -> claude.ai konnte sie nicht lesen. Jetzt: PyMuPDF rendert die Seiten als PNG (150 dpi, max 20 Seiten) -> ImageContent, das LLM liest sie per Vision. Verschluesselte/kaputte PDFs bleiben graceful. TestFileTypes scanned.pdf -> image. Produktiv-Fix fuer alle User. Dep: pymupdf (requirements-extra.txt). 76 Tests gruen.
This commit is contained in:
+1
-1
@@ -439,7 +439,7 @@ class TestFileTypes:
|
||||
("testdata/text/readme.md", {"text"}),
|
||||
("testdata/text/data.csv", {"text"}),
|
||||
("testdata/documents/document.pdf", {"text"}), # Text-PDF -> extrahiert
|
||||
("testdata/documents/scanned.pdf", {"text", "resource"}),# Scan-PDF
|
||||
("testdata/documents/scanned.pdf", {"image"}), # Scan-PDF -> als Bild gerendert
|
||||
("testdata/documents/report.docx", {"text"}),
|
||||
("testdata/documents/budget.xlsx", {"text"}),
|
||||
("testdata/documents/slides.pptx", {"text"}),
|
||||
|
||||
Reference in New Issue
Block a user