Soll eine KI den Rechnungsbetrag lesen oder eine feste Textregel?
Den Rechnungsbetrag lässt man besser von der KI lesen als von einer festen Textregel. Bei einem Test an fünf echten Rechnungen las unser lokales Modell, Gemma über Ollama, fünf von fünf Beträgen richtig, die alte Regel nur einen von fünf, weil sie viermal den Nettobetrag statt der Bruttosumme erwischte. Den Wert der KI nehme ich seitdem zuerst, die alte Regel läuft nur noch als stille Gegenprobe mit. Eine starre Regel trifft, was im Text zuerst steht, nicht das, was gemeint ist.
Woran merkt man, dass eine lautlose Synchronisation seit Monaten Dateien verschluckt?
Dass eine lautlose Synchronisation seit Monaten Dateien verschluckt, merkt man erst, wenn man zählt. Auf dem Server lagen 25.929 Dateien, lokal nur 22.005, fast viertausend fehlten. Der klassische Nextcloud-Sync war seit dem ersten April tot, und der neue File Provider brach an einem einzigen nicht unterstützten Symlink die ganze Enumeration ab. Eine Fehlermeldung hatte ich nie gesehen, alles sah ruhig aus. Ein stiller Fehler ist gefährlicher als ein lauter, weil niemand nach ihm sucht.
Heißt ein erfolgreicher Download auch, dass die richtigen Daten ankamen?
Ein erfolgreicher Download heißt noch lange nicht, dass die richtigen Daten ankamen. Beim Beschaffen einer großen Geräte-Datenbank über die Kommandozeile galt mein Abruf als geglückt, und meine Abbruch-Bedingung griff sofort, doch geladen waren nur vierzehn Bytes einer Fehlerseite aus dem falschen Verzeichnis. Erst der zweite Versuch holte die echte Datei, knapp achtzehn Megabyte. Ein grünes Häkchen prüft, ob etwas ankam, nicht, ob das Richtige ankam.
Soll eine KI alle Felder aus einem Beleg ziehen oder nur die unsicheren?
Eine KI sollte nur die unsicheren Felder aus einem Beleg ziehen, die festen holt zuverlässiger ein einfaches Muster. Unsere Dokumenten-Pipeline arbeitet in drei Stufen: erst ein deterministischer Mustervergleich für klare Felder wie Datum und Belegnummer, dann Gemma für alles Unscharfe wie Absender und Belegart, am Ende ein Abgleich beider Ergebnisse. So rät die Maschine nur dort, wo es nichts Eindeutiges gibt. Wo eine Regel reicht, braucht es kein Modell, das auch mal halluziniert.
Warum tippen fünf Mitarbeiter jeden Tag Kundennummern in Dateinamen?
Dass fünf Mitarbeiter jeden Tag Kundennummern in die Dateinamen tippen, ist genau der Schritt, den ich abschaffen will. An unserem Scanner bekommt bisher jeder Beleg von Hand einen Namen aus Debitoren-Nummer und Kundenname, fünfzehn bis fünfundzwanzig Stück am Tag, und genau dort schleichen sich die Zahlendreher ein. Die Nummer steht längst in der Datenbank, also soll die Maschine sie nachschlagen, nicht der Mensch sie abtippen. Jede Eingabe von Hand ist eine Fehlerquelle, die man sich sparen kann.
Was übersieht eine Überwachung, die nur prüft ob ein Dienst läuft?
Eine Überwachung, die nur prüft ob ein Dienst läuft, übersieht den Dienst, der läuft und trotzdem nichts Frisches liefert. Bei einer Gesundheitsprüfung fiel mir auf, dass unsere nächtliche Kopie drei Tage alt war, während ein Cron alle drei Minuten per curl brav meldete, alles sei erreichbar. Die Datei war da, nur eben von vorgestern. Gesund heißt nicht, dass etwas atmet, sondern dass es das Richtige tut.
Soll eine KI Datumsfelder aus einem Dokument lesen?
Datumsfelder soll keine KI frei aus einem Dokument lesen, dafür gehört eine feste Regel. Beim ersten Praxiseinsatz unserer Beleg-Pipeline las das lokale Modell Gemma aus einem Datum 2026 schlicht 2024, und auf einem Personalausweis griff es das Ablauf- statt des Ausstellungsdatums. Seitdem ziehe ich strukturierte Felder wie Datum und Nummer per fester Regel, und die KI darf nur den Freitext deuten. Eine Maschine, die rät, soll das nur dort tun, wo Raten erlaubt ist.
Darf eine KI eine Fahrzeugnummer selbst geradebiegen?
Eine Fahrzeugnummer darf eine KI nur nach festen Regeln geradebiegen, niemals nach Gefühl. In einer eigenen Funktion macht das System aus einem O eine Null, aus einem I eine Eins und aus einem Q eine Neun, weil eine Fahrgestellnummer diese drei Zeichen nie enthält. Danach prüft eine Regel hart auf genau siebzehn erlaubte Zeichen, sonst bricht es ab. Korrigieren darf nur, wer die Grenzen kennt, an denen das Korrigieren aufhört.
Warum lagen plötzlich mehrere fast gleich benannte Nextcloud-Ordner auf meinem Rechner?
Mehrere fast gleich benannte Nextcloud-Ordner lagen auf meinem Rechner, weil nach einem Umbau des Speichers die alten Sync-Konten nicht von selbst verschwinden. Nach dem Wechsel auf den neuen S3-Speicher hatte ich vier veraltete Ordner neben dem aktuellen, jeder mit fast demselben Namen und altem Inhalt. Fast hätte ich in einer toten Kopie weitergearbeitet. Seitdem prüfe ich vor jeder Änderung, welcher Pfad wirklich der lebende ist. Der gefährlichste Ordner ist der, der aussieht wie der richtige.
Soll ein Programm bei fehlenden Daten weiterlaufen oder abbrechen?
Abbrechen, laut und sichtbar. Einer unserer Abläufe machte bei fehlgeschlagener Datenanreicherung einfach mit leeren Werten weiter, und die leeren Werte richteten den Schaden an. Heute bricht er ab, sobald die Daten nicht stimmen. Ein sichtbarer Fehler ist ein Geschenk, ein stiller frisst sich durch, bis ihn der Kunde findet.
Wo behebt man Platzhalter-Texte und schlechte Daten, in der Pipeline oder an der Quelle?
An der Quelle. Als auf der Website ein Platzhalter-Text auftauchte, war die Versuchung groß, ihn im Skript wegzufiltern. Das hätte das Symptom kaschiert und wäre beim nächsten Datensatz wiedergekommen. Korrigiert wurde der Eintrag dort, wo er entsteht, in Loco-Soft. Am Symptom zu arbeiten fühlt sich schnell an und kommt immer wieder.
Warum zeigte ein Auto plötzlich die Bilder eines anderen?
Weil zwei verschiedene Fahrzeugnummern verwechselt wurden. Loco-Soft, die Software im Autohaus, führt eine laufende Nummer und eine Kommissionsnummer, und die laufende wird wiederverwendet, wenn ein Fahrzeug rausgeht. Unser Abgleich hängte Bilder an der wiederverwendeten Nummer auf, also bekam ein Elektroauto die Fotos seines Vorgängers. Identität ist die Grundlage, alles andere ist Kosmetik darauf. Der eindeutige Schlüssel ist seitdem die Kommissionsnummer.
Sollte die Software fehlerhafte Fahrzeugdaten automatisch ausblenden?
Nein, sie soll sie zeigen. Wenn ein Fahrzeug ohne Marke oder mit leerem Modell online steht, ist das ein Signal an den Verkäufer, es in der Quelle zu pflegen, kein Schönheitsfehler, den ein Filter vertuschen soll. Wir zeigen genau das, was in Loco-Soft zum Verkauf freigegeben ist. Datenpflege gehört an die Quelle, nicht in ein Skript, das ewig den Verband statt die Wunde pflegt.
Sollte man Quelldaten nach der Verarbeitung wegwerfen?
Nie. Unsere Fahrzeug-Datenbank speichert die Rohdaten jeder Quelle unverändert, bevor sie aufbereitet werden, und Fahrzeuge werden deaktiviert, nicht gelöscht. Genau diese aufgehobenen Rohdaten waren mehr als einmal der Beweis, warum etwas schieflief. Was heute überflüssig scheint, ist morgen die einzige Spur.
Eigenes Datenformat erfinden oder einen Branchenstandard übernehmen?
Den Standard. Wir bilden unsere Fahrzeugdaten nach der etablierten Schnittstelle von mobile.de ab, statt eigene Codes zu erfinden. Verstreute, selbst gebastelte Zuordnungen hatten vorher dafür gesorgt, dass aus einem Diesel schon mal ein Elektroauto wurde. Ein bestehender Standard fühlt sich kurz weniger schlau an und erspart lange Fehlersuche.