benjamin weinlich
← Journal

#Gemma

7 Beiträge zu diesem Thema, neueste zuerst.

Soll eine KI den Rechnungsbetrag lesen oder eine feste Textregel?

Den Rechnungsbetrag lässt man besser von der KI lesen als von einer festen Textregel. Bei einem Test an fünf echten Rechnungen las unser lokales Modell, Gemma über Ollama, fünf von fünf Beträgen richtig, die alte Regel nur einen von fünf, weil sie viermal den Nettobetrag statt der Bruttosumme erwischte. Den Wert der KI nehme ich seitdem zuerst, die alte Regel läuft nur noch als stille Gegenprobe mit. Eine starre Regel trifft, was im Text zuerst steht, nicht das, was gemeint ist.

1. Juni 2026 Frage

Soll eine KI alle Felder aus einem Beleg ziehen oder nur die unsicheren?

Eine KI sollte nur die unsicheren Felder aus einem Beleg ziehen, die festen holt zuverlässiger ein einfaches Muster. Unsere Dokumenten-Pipeline arbeitet in drei Stufen: erst ein deterministischer Mustervergleich für klare Felder wie Datum und Belegnummer, dann Gemma für alles Unscharfe wie Absender und Belegart, am Ende ein Abgleich beider Ergebnisse. So rät die Maschine nur dort, wo es nichts Eindeutiges gibt. Wo eine Regel reicht, braucht es kein Modell, das auch mal halluziniert.

27. Mai 2026 Frage

Soll eine KI Datumsfelder aus einem Dokument lesen?

Datumsfelder soll keine KI frei aus einem Dokument lesen, dafür gehört eine feste Regel. Beim ersten Praxiseinsatz unserer Beleg-Pipeline las das lokale Modell Gemma aus einem Datum 2026 schlicht 2024, und auf einem Personalausweis griff es das Ablauf- statt des Ausstellungsdatums. Seitdem ziehe ich strukturierte Felder wie Datum und Nummer per fester Regel, und die KI darf nur den Freitext deuten. Eine Maschine, die rät, soll das nur dort tun, wo Raten erlaubt ist.

18. Mai 2026 Frage

Reicht der Maschine ein Bild, oder braucht sie auch den Text?

Ein Bild allein reicht der Maschine nicht, sie braucht den Text daneben. Unsere Pipeline schickt Gemma über Ollama jetzt beides: das gescannte Dokument als Bild mit dreihundert DPI für Layout und Position, dazu den ausgelesenen Text für die exakten Werte. So liest sie ein Dokument in fünf bis fünfundzwanzig Sekunden, ohne Zahlen zu erraten. Das Auge zeigt, wo etwas steht, der Text sagt, was dort wirklich geschrieben ist.