Frage · 18. Mai 2026
Reicht der Maschine ein Bild, oder braucht sie auch den Text?
Ein Bild allein reicht der Maschine nicht, sie braucht den Text daneben. Unsere Pipeline schickt Gemma über Ollama jetzt beides: das gescannte Dokument als Bild mit dreihundert DPI für Layout und Position, dazu den ausgelesenen Text für die exakten Werte. So liest sie ein Dokument in fünf bis fünfundzwanzig Sekunden, ohne Zahlen zu erraten. Das Auge zeigt, wo etwas steht, der Text sagt, was dort wirklich geschrieben ist.