Question 1

Liegt eine Datei wirklich auf dem Rechner, wenn sie im Ordner steht?

Accepted Answer

Im Ordner zu stehen heißt nicht, dass eine Datei wirklich auf dem Rechner liegt. Moderne Cloud-Ordner zeigen Platzhalter, die den vollen Namen und die volle Größe melden, obwohl lokal kein einziges Byte liegt. Bei unserem Nextcloud-Umzug habe ich das erst bemerkt, als ich statt der angezeigten Größe die tatsächlich belegten Blöcke abgefragt habe: ein großer Teil des Ordners war Fassade. Wer so einen Ordner sichert, sichert Namen, keine Daten.

Question 2

Wie verschärft man eine Erkennungsregel, ohne richtige Fälle mit auszusortieren?

Accepted Answer

Eine Erkennungsregel verschärft man, indem man die neue Fassung vorher gegen den kompletten Echtbestand laufen lässt. Unsere Dokumentenerkennung hielt jede siebzehnstellige Zeichenfolge für eine Fahrgestellnummer und las so eine Barcode-Nummer als Fahrzeug. Bevor ich die Regel um die Bedingung Buchstaben und Ziffern gemischt ergänzte, habe ich sie gegen 7.499 echte Fahrgestellnummern aus Loco-Soft geprüft, und keine einzige fiel heraus. Wer eine Regel nur am Fehlerfall testet, hat sie nur halb getestet.

Question 3

Soll eine Automatik den ersten Treffer im Text nehmen?

Accepted Answer

Den ersten Treffer im Text soll eine Automatik nicht nehmen, sondern den besten. Unsere Dokumentenerkennung im Paperless hielt Modellbezeichnungen auf Rechnungen für ein Kennzeichen, brach danach ab und übersah das echte Kennzeichen weiter unten auf dem Blatt. In 388 von 17.076 Dokumenten ging so die Kundenzuordnung verloren. Jetzt hat der Fahrzeugbestand Vorrang vor dem ersten Fund, 1.449 falsche Treffer sind weg und kein einziges echtes Kennzeichen ist dabei verlorengegangen. Wer beim ersten Treffer aufhört, sucht nicht, er rät.

Question 4

Warum ordnet sich ein Prüfbericht nie von selbst zu, obwohl die Fahrgestellnummer draufsteht?

Accepted Answer

Ein Prüfbericht ordnet sich nie von selbst zu, wenn die Automatik die Fahrgestellnummer gar nicht als Suchmerkmal kennt. Unser Nacht-Job gleicht Belege gegen den Fahrzeugstamm aus Loco-Soft ab, las im Volltext aber nur Debitorennummer und Kennzeichen. Genau die fehlen auf Diagnoseprotokollen und Prüfberichten. Ein Fahrzeug lag drei Nächte unzugeordnet, obwohl seine Nummer zweimal auf dem Blatt stand. Seit die Fahrgestellnummer als dritter Anker gilt, lösen sich statt acht Dokumenten zweiunddreißig von allein auf. Was die Maschine nicht als Merkmal kennt, ist für sie nicht vorhanden.

Question 5

Warum erkannte unsere Software bei Elektroautos das Kennzeichen nicht?

Accepted Answer

Bei Elektroautos erkannte unsere Software das Kennzeichen nicht, weil das E am Ende abgesetzt steht und die Erkennungsregel es direkt an der Ziffer erwartete. Von 2.099 Kennzeichen, die unser Dokumentenarchiv keinem Fahrzeug zuordnen konnte, erklärten sich 1.245 allein dadurch. Im Stamm aus Loco-Soft tragen 521 von 6.860 Kennzeichen ein E für Elektro oder ein H für Oldtimer. Statt die Regel aufzuweichen, gleichen wir jetzt gegen den eigenen Bestand ab. Ein Sonderfall, der im eigenen Betrieb Alltag ist, ist kein Sonderfall mehr.

Question 6

Warum trug unsere Software den eigenen Betrieb als Absender ein?

Accepted Answer

Den eigenen Betrieb trug unsere Software als Absender ein, weil die KI auf unseren Ausgangsrechnungen den eigenen Briefkopf las und ihn für den Geschäftspartner hielt. Unser lokales Modell über Ollama hatte so dreizehn Namensvarianten des eigenen Hauses angelegt, verteilt auf achtundfünfzig Dokumente. Ich habe eine Sperrliste davorgesetzt und gegen alle 122 automatisch angelegten Partner geprüft: 63 fielen raus, 59 blieben, keiner davon zu Unrecht. Auch wenn wir selbst auf dem Blatt stehen, sind wir nicht der Absender.

Question 7

Was passiert, wenn ein neues Etikett fast genauso heißt wie ein altes?

Accepted Answer

Ein neues Etikett, das fast genauso heißt wie ein altes, macht am Ende beide unbrauchbar. Ich wollte im Dokumentenarchiv einen Prüfstapel für nicht auffindbare Fahrzeugnummern anlegen und hätte ihn beinahe so benannt wie ein bestehendes Etikett, das 152 Dokumente aus einem völlig anderen Prüfauftrag trägt. Die Software vergleicht Namen ohne Rücksicht auf Groß- und Kleinschreibung, beide Stapel wären verschmolzen, und hinterher hätte sie niemand mehr trennen können. Seitdem lese ich erst die vorhandene Liste, bevor ich etwas Neues hineinschreibe.

Question 8

Darf ein fehlender Kundenname die übrigen erkannten Daten mit verwerfen?

Accepted Answer

Ein fehlender Kundenname darf die übrigen erkannten Daten nicht mitreißen, und bei uns tat er es jahrelang doch. In unserer Dokumenten-Pipeline hingen Fahrzeugnummer, Kennzeichen und Betrag an derselben Bedingung wie der Kunde: kein Kunde erkannt, kein einziges Feld gespeichert. 153 von 164 Belegen ohne Kunden standen deshalb nackt im Archiv, obwohl die Erkennung alles sauber gelesen und ins Protokoll geschrieben hatte. Ausgerechnet die Belege, die Nacharbeit brauchen, verloren so jeden Anhaltspunkt. Wer das Unsichere verwirft, darf das Sichere nicht mitverwerfen.

Question 9

Warum zeigt meine Suchstatistik fast keine Suchbegriffe?

Accepted Answer

Fast keine Suchbegriffe zeigt die Statistik, weil Google seltene Anfragen aus Datenschutzgründen gar nicht erst ausweist. Am ersten Messtag tauchten meine Seiten neunmal in den Ergebnissen auf, verteilt auf zehn Adressen, ausgewiesen war genau eine einzige Suchanfrage. Welche Seite gefunden wurde, konnte ich lesen, wonach gesucht wurde, noch nicht. Kleine Zahlen tragen keine feine Auswertung, und wer sie trotzdem deutet, liest sein eigenes Wunschbild.

Question 10

Was macht man mit einer Warnung, die fast immer falsch ist?

Accepted Answer

Eine Warnung, die fast immer falsch ist, muss man reparieren, bevor irgendjemand anfängt nach ihr zu handeln. Meine neue Prüfung vergleicht die aus dem Beleg gelesene Fahrzeugnummer mit dem Stamm in Loco-Soft und markierte 124 Dokumente. Beim Durchsehen blieb genau ein echter Zahlendreher übrig, der Rest waren Lesefehler der Texterkennung und dreizehn Platzhalter-Nummern im Stamm, siebzehn Nullen und Doppelkreuze. Eine Lampe, die grundlos leuchtet, schaut nach kurzer Zeit niemand mehr an.

Question 11

Warum liefert ein neues Messwerkzeug keine Zahlen aus der Vergangenheit?

Accepted Answer

Ein neues Messwerkzeug liefert keine Zahlen aus der Vergangenheit, weil es erst ab dem Tag zählt, an dem man es einschaltet. Ich habe unsere Seite am siebenundzwanzigsten Juli in der Google Search Console angemeldet und sofort eine Auswertung über neunzig Tage abgerufen, die vollkommen leer war. Die ersten echten Zahlen kamen ein bis drei Tage später, alles davor bleibt für immer dunkel. Eine Messung, die man erst startet, wenn man die Antwort braucht, kommt immer zu spät.

Question 12

Woran erkennt man ein Duplikat sicher, am Dateinamen oder am Inhalt?

Accepted Answer

Ein Duplikat erkennt man sicher an der Prüfsumme des Inhalts, nicht am Dateinamen. Beim Aufräumen doppelt eingespielter Belege in Paperless fiel mein Skript, als der genaue Abgleich ins Leere lief, auf den Titel zurück und löschte vier echte Rechnungen über einen Fahrzeugverkauf. Zurückgeholt habe ich sie aus dem Papierkorb, der 613 Einträge lang war. Seitdem vergleicht es nur noch über die Prüfsumme, und fehlt die, hält es an, statt zu raten. Zwei Namen ähneln sich leicht, zwei Inhalte nie.

Question 13

Kann man der Fehlerliste einer Automatik glauben, was angekommen ist und was nicht?

Accepted Answer

Der Fehlerliste einer Automatik kann man nicht blind glauben, weder bei dem was fehlt noch bei dem was ankam. Nach einem Serverausfall lagen rund 235 Tresen-Belege eines ganzen Arbeitstags im Ordner für Fehlversuche, im Paperless-Archiv fehlten sie tatsächlich. Neun weitere Gruppen standen ebenfalls als Fehlversuch da und waren trotzdem doppelt angekommen. Erst der Abgleich Datei für Datei gegen das Zielsystem zeigte, was wirklich stimmt. Ein Programm weiß oft nur, ob es die Antwort gehört hat, nicht, ob die Arbeit getan wurde.

Question 14

Warum fehlten im nächtlichen Kundenexport ausgerechnet Telefon und E-Mail?

Accepted Answer

Im nächtlichen Kundenexport fehlten Telefon und E-Mail, weil dieser Export die Kommunikationsdaten schlicht nie mitzieht. Für unsere neue KI-Telefonannahme brauchte ich zu jeder anrufenden Nummer den passenden Kunden, und in der exportierten Tabelle standen zwar alle 7.495 Kunden, aber keine einzige Rufnummer. Erst über die zweite Schnittstelle von Loco-Soft kamen 5.764 Nummern zusammen. Eine Tabelle, die vollständig aussieht, ist damit noch lange nicht vollständig.

Question 15

Sollen Messprotokolle automatisch ins Dokumentenarchiv wandern?

Accepted Answer

Automatisch ins Dokumentenarchiv sollen Messprotokolle nur, wenn eine Zuordnung dranhängt. Beim Achsmessstand waren in allen 122 gespeicherten Messungen die Felder für Kunde, Auftrag und Kilometerstand leer, weil sie im Werkstattalltag niemand eintippt. Deshalb landen die Protokolle bei uns erst in einem Sammelpostfach und nicht im Archiv. Ein Archiv ohne Zuordnung ist nur ein schnellerer Weg, etwas zu verlieren.

Question 16

Was passiert, wenn eine Kundennummer an einen neuen Kunden vergeben wird?

Accepted Answer

Wenn eine Kundennummer an einen neuen Kunden vergeben wird, erben die alten Dokumente stillschweigend den falschen Besitzer. Unser Werkstatt-Programm Loco-Soft verwendet frei gewordene Nummern wieder, und prompt lag eine frisch gescannte Rechnung in der Akte des Vorgängers. Unser nächtlicher Abgleich meldete daraufhin zwölf verdächtige Fälle, nach genauem Vergleich blieben zwei echte übrig, und umgehängt wird nur, wenn das Dokument selbst den neuen Namen belegt. Eine Nummer, die zweimal vergeben wird, ist kein Schlüssel mehr, sondern eine Falle.

Question 17

Reicht die Duplikat-Warnung eines Programms als Schutz vor Duplikaten?

Accepted Answer

Die Duplikat-Warnung eines Programms reicht als Schutz nicht, denn eine Meldung ist keine Sperre. Unser Dokumentenarchiv Paperless meldete bei jedem erneuten Upload brav, dass ein Dokument mit gleichem Inhalt schon existiert, und importierte die Datei trotzdem. So sammelten sich 527 Kopien desselben Fotos an, bis ich die Prüfung selbst eingebaut habe: ein Inhalts-Vergleich vor jedem Upload. Was ein System nur meldet, muss man selbst verhindern.

Question 18

Woran merkt man, dass einer KI-Wissensdatenbank Dokumente fehlen?

Accepted Answer

Dass einer KI-Wissensdatenbank Dokumente fehlen, merkt man an fachlich falschen Antworten, nicht an einer Fehlermeldung. Unsere Loco-Soft-Hilfe auf Open WebUI beantwortete eine Storno-Frage falsch, und erst die Nachzählung zeigte: von 1.176 Dokumenten waren nur 819 wirklich drin, den Rest hatten wir für Duplikate gehalten. Seitdem gleiche ich nach jedem Import die Zahl im System mit der Quelle ab, erst bei 1176 zu 1176 gilt er als fertig. Die Maschine antwortet aus dem, was sie hat, nicht aus dem, was da sein müsste.

Question 19

Soll eine KI-Zusammenfassung Geldbeträge nennen?

Accepted Answer

Eine KI-Zusammenfassung soll keine Geldbeträge nennen, die stehen im Dokument selbst und in einem geprüften Feld. Unser lokales Modell Gemma hatte in eine Beleg-Zusammenfassung 499,70 Euro geschrieben, wo der maschinell geprüfte Zahlcode 174,82 Euro auswies. Beim Zählen fanden wir 1.862 alte Zusammenfassungen mit Beträgen, und niemand kann korrekt von erfunden unterscheiden. Seitdem gilt bei uns: Zusammenfassungen beschreiben, was ein Dokument ist, nicht was es kostet. Was die Maschine nicht behaupten darf, kann sie auch nicht falsch behaupten.

Question 20

Ist ein Beleg gerettet, wenn die Automatik ihn in einen Fehlerordner legt?

Accepted Answer

Ein Beleg im Fehlerordner ist erst gerettet, wenn dort auch regelmäßig jemand hineinsieht. Unsere Beleg-Automatik legt Dokumente, die sie nicht in die Ablage hochladen kann, sauber in einen Fehlerordner, damit nichts verloren geht. Genau dort lagen fünf Belege aus mehreren Tagen, still und unbemerkt, bis ich zufällig nachsah. Alle fünf habe ich am selben Abend nachträglich eingespeist, und als Nächstes bekommt der Ordner eine Überwachung, die meldet, sobald er nicht leer ist. Ein Auffangnetz, in das niemand schaut, ist nur ein zweiter Ort zum Verlieren.

Question 21

Reicht ein nächtlicher Datenabzug für eine Automatik, die tagsüber arbeitet?

Accepted Answer

Ein nächtlicher Datenabzug reicht nicht, wenn die Automatik tagsüber mit dem Tagesgeschäft arbeiten muss. Bei uns kaufte eine Neukundin ein Fahrzeug, die Rechnung wurde noch am selben Tag eingescannt, aber unsere Dokumentenablage kannte nur den Kundenstamm der letzten Nacht aus Loco-Soft. Darin gehörte das Fahrzeug noch uns selbst, also ordnete sie die Rechnung dem eigenen Autohaus zu statt der Käuferin. Jetzt bauen wir den Abgleich mehrmals täglich direkt aus der laufenden Datenbank. Der Datenstand von gestern Nacht kennt den Kunden von heute Mittag nicht.

Question 22

Wie stellt man sicher, dass eine Verbesserung nichts Bestehendes verschlechtert?

Accepted Answer

Dass eine Verbesserung nichts Bestehendes verschlechtert, stellt man sicher, indem man alt und neu über den kompletten Bestand laufen lässt, ohne etwas zu verändern. Bevor unsere überarbeitete Beleg-Erkennung live ging, die unserem lokalen Gemma-Modell die Kundennummern zuliefert, habe ich beide Fassungen read-only über 22.242 Archiv-PDFs geschickt: über dreitausend Kundennummern zusätzlich erkannt, keine einzige verloren, die wenigen Abweichungen einzeln geprüft. Erst diese Zahlen gaben die Freigabe für den Abend. Besser ist eine Änderung erst, wenn gemessen ist, dass nichts Vorhandenes verloren geht.

Question 23

Warum ordnet die KI einen Beleg falsch zu, obwohl die Kundennummer daraufsteht?

Accepted Answer

Wenn die KI einen Beleg falsch zuordnet, obwohl die Kundennummer daraufsteht, liegt der Fehler meist nicht bei der KI, sondern einen Schritt davor. Bei uns übersah eine zu schmale Leseregel die Kundennummern auf Barverkaufs- und Fahrzeugrechnungen, also musste Gemma aus dem Text raten und lag daneben. Nach dem Nachschärfen der Regel fanden sich in 22.242 Alt-Belegen über dreitausend Kundennummern zusätzlich, ohne dass die KI ein einziges Mal raten musste. Wer der Maschine die Fakten vorenthält, darf sich über ihr Raten nicht wundern.

Question 24

Soll jedes Blatt einer Akte einzeln zugeordnet werden?

Accepted Answer

Einzeln zugeordnet werden sollte nicht jedes Blatt einer Akte, denn ein Stapel gehoert meist zu einem einzigen Kunden und Fahrzeug. Als Gemma jedes Dokument fuer sich betrachtete, riet es beim Diagnoseausdruck den Geraetehersteller, obwohl das Deckblatt derselben Akte den Halter laengst nannte. Jetzt erbt der ganze Schwung zwischen zwei Trennblaettern denselben Korrespondenten, statt Seite fuer Seite neu zu raten. Wer den Zusammenhang wegwirft, muss ihn auf jedem Blatt neu erfinden.

Question 25

Soll ein Archiv seine Dateien nach dem Titel oder nach einer festen Nummer ablegen?

Accepted Answer

Ein Archiv legt seine Dateien besser nach einer festen Nummer ab als nach dem sprechenden Titel. Unser Langzeit-Archiv sortierte die Belege nach dem Titel, den die KI vergibt, doch dieselbe Bezeichnung entsteht dutzendfach, und so lagen am Ende 14.138 Objekte gegenüber rund 6.800 echten Dateien, sechs davon unter einem fremden Namen. Jetzt bekommt jedes Dokument seine unveränderliche Kennung, der Titel bleibt nur zum Lesen. Ein Name darf sprechen, tragen muss ihn eine Nummer, die sich nie verschiebt.

Question 26

Warum traegt die KI den Geraetehersteller als Kunden ein?

Accepted Answer

Den Geraetehersteller traegt die KI als Kunden ein, weil sie den auffaelligsten Namen auf dem Blatt greift, nicht den richtigen. Unser lokales Modell Gemma ordnete einen Diagnoseausdruck dem aufgedruckten Tester-Hersteller Hella Gutmann zu, bei einer Fahrzeugrechnung sogar meinem eigenen Autohaus als Rechnungssteller, statt der Kundin. Jetzt haengt die Zuordnung an der Fahrgestellnummer, die eindeutig einen Halter trifft, und bekannte Nicht-Kunden sind hart gesperrt. Der groesste Name auf einem Dokument ist selten der gesuchte.

Question 27

Was tut man, wenn eine KI einen Rechnungsbetrag erfindet, der nirgends auf dem Beleg steht?

Accepted Answer

Wenn eine KI einen Betrag erfindet, der nirgends auf dem Beleg steht, lässt man das Feld lieber leer als falsch. Unser Belegleser mit Gemma schrieb einmal 164,50 Euro auf einen Werkstattauftrag, auf dem gar keine Summe stand, frei erfunden und trotzdem völlig plausibel. Seitdem trage ich einen Betrag nur ein, wenn zwei Quellen sich einig sind, der QR-Code auf der Rechnung oder KI und Textsuche gemeinsam. Steht die Zahl nur an einer Stelle, bleibt das Feld leer. Eine leere Zahl fällt auf und wird geprüft, eine erfundene wird gebucht.

Question 28

Warum fand die Software ein altes Fahrzeug nicht, obwohl die Nummer stimmte?

Accepted Answer

Ein altes Fahrzeug fand die Software trotz richtiger Nummer nicht, weil in der Nummer ein unsichtbares Leerzeichen steckte. Beim Import der Altbestände aus Loco-Soft trugen gerade die ältesten Fahrzeugnummern ein führendes Leerzeichen, das auf dem Bildschirm niemand sieht, das den Abgleich aber jedes Mal scheitern ließ. Erst als ich die Nummern vor dem Vergleich säuberte, passten sie zusammen. Alte Daten tragen oft Schmutz, den man nicht sieht, sondern nur an seinen Folgen erkennt.

Question 29

Reicht die Bildvorschau eines Dokuments, oder braucht man das volle PDF?

Accepted Answer

Die Bildvorschau reicht nicht, wenn daneben das volle PDF liegt. Beim Import von über sechstausend Altdateien aus dem Werkstatt-Laufwerk lag zu jedem Beleg eine jpg-Vorschau und ein pdf mit fast gleichem Namen, also hielt ich beide für dasselbe in zwei Formaten. Der direkte Vergleich zeigte etwas anderes: die jpg ist nur grob aufgelöst, das pdf das eigentliche Dokument. Hätte ich nicht nachgesehen, wären tausende Belege in schlechter Qualität im Archiv gelandet. Gleicher Name heißt nicht gleicher Inhalt.

Question 30

Welche Fahrzeugnummer gilt, wenn Scan und Stammdaten sich widersprechen?

Accepted Answer

Wenn Scan und Stammdaten sich widersprechen, gilt die Nummer aus dem Bestand, nicht die frisch abgelesene. Unser Belegleser hatte an einem Dokument eine Fahrgestellnummer falsch entziffert und damit eine schon korrekt zugeordnete Akte überschrieben. Jetzt spiegelt das System die kanonische Nummer aus dem Loco-Soft-Bestand zurück, sobald das Fahrzeug einmal sicher erkannt ist, außer die abgelesene Nummer steht selbst im Bestand. Was ich einmal geprüft und abgelegt habe, wiegt schwerer als das, was eine Maschine gerade eben zu lesen glaubt.

Question 31

Kundenname oder Fahrzeugnummer, was hält eine Akte zusammen?

Accepted Answer

Was eine Kundenakte zusammenhält, ist die Fahrgestellnummer, nicht der Kundenname. Als wir die erste Papierakte digitalisierten, acht Belege zu einem Fahrzeug, stand auf einzelnen Blättern noch ein Vorbesitzer. Der Name wechselt, die Fahrgestellnummer bleibt, also haben wir sie fest auf jeden Beleg geschrieben und den Kunden nur weich zugeordnet. Man bindet eine Sache an das, was sich nicht ändert, nicht an das, was heute zufällig obenauf liegt.

Question 32

Soll eine Automatik jeden Zweifelsfall dem Menschen vorlegen?

Accepted Answer

Jeden Zweifelsfall dem Menschen vorlegen soll eine Automatik gerade nicht, sonst ertrinkt er in Rückfragen und schaut irgendwann gar nicht mehr hin. Bei der ersten digitalisierten Akte liefen acht Belege glatt durch, nur bei einem meldete das System einen Konflikt, weil die Texterkennung ein B und eine 8 in der Fahrgestellnummer verwechselt hatte. Genau dieser eine Fall gehört auf den Tisch, die anderen sieben nicht. Eine Automatik ist so viel wert wie die Ruhe, die sie schafft, nicht die Meldungen, die sie erzeugt.

Question 33

Reicht ein kuratiertes Gedächtnis, um die eigene Geschichte zu erzählen?

Accepted Answer

Ein kuratiertes Gedächtnis reicht nicht, um die eigene Geschichte zu erzählen. Als ich für eine Artikelreihe meine KI-Reise rekonstruierte, fehlte in der aus Merknotizen gebauten Zeitleiste ein ganzes Projekt, das Loco-Soft Hilfe-System, an dem ich wochenlang gebaut hatte. Erst die vollständigen Sitzungsprotokolle, rund sechshundert Einträge zurück bis Ende Oktober, brachten es zurück. Die aufgeräumte Zusammenfassung vergisst das Unscheinbare, der lückenlose Rohbestand erinnert sich. Wer nur seine Höhepunkte notiert, schreibt am Ende eine geschönte Geschichte.

Question 34

Soll eine KI den Rechnungsbetrag lesen oder eine feste Textregel?

Accepted Answer

Den Rechnungsbetrag lässt man besser von der KI lesen als von einer festen Textregel. Bei einem Test an fünf echten Rechnungen las unser lokales Modell, Gemma über Ollama, fünf von fünf Beträgen richtig, die alte Regel nur einen von fünf, weil sie viermal den Nettobetrag statt der Bruttosumme erwischte. Den Wert der KI nehme ich seitdem zuerst, die alte Regel läuft nur noch als stille Gegenprobe mit. Eine starre Regel trifft, was im Text zuerst steht, nicht das, was gemeint ist.

Question 35

Woran merkt man, dass eine lautlose Synchronisation seit Monaten Dateien verschluckt?

Accepted Answer

Dass eine lautlose Synchronisation seit Monaten Dateien verschluckt, merkt man erst, wenn man zählt. Auf dem Server lagen 25.929 Dateien, lokal nur 22.005, fast viertausend fehlten. Der klassische Nextcloud-Sync war seit dem ersten April tot, und der neue File Provider brach an einem einzigen nicht unterstützten Symlink die ganze Enumeration ab. Eine Fehlermeldung hatte ich nie gesehen, alles sah ruhig aus. Ein stiller Fehler ist gefährlicher als ein lauter, weil niemand nach ihm sucht.

Question 36

Heißt ein erfolgreicher Download auch, dass die richtigen Daten ankamen?

Accepted Answer

Ein erfolgreicher Download heißt noch lange nicht, dass die richtigen Daten ankamen. Beim Beschaffen einer großen Geräte-Datenbank über die Kommandozeile galt mein Abruf als geglückt, und meine Abbruch-Bedingung griff sofort, doch geladen waren nur vierzehn Bytes einer Fehlerseite aus dem falschen Verzeichnis. Erst der zweite Versuch holte die echte Datei, knapp achtzehn Megabyte. Ein grünes Häkchen prüft, ob etwas ankam, nicht, ob das Richtige ankam.

Question 37

Soll eine KI alle Felder aus einem Beleg ziehen oder nur die unsicheren?

Accepted Answer

Eine KI sollte nur die unsicheren Felder aus einem Beleg ziehen, die festen holt zuverlässiger ein einfaches Muster. Unsere Dokumenten-Pipeline arbeitet in drei Stufen: erst ein deterministischer Mustervergleich für klare Felder wie Datum und Belegnummer, dann Gemma für alles Unscharfe wie Absender und Belegart, am Ende ein Abgleich beider Ergebnisse. So rät die Maschine nur dort, wo es nichts Eindeutiges gibt. Wo eine Regel reicht, braucht es kein Modell, das auch mal halluziniert.

Question 38

Warum tippen fünf Mitarbeiter jeden Tag Kundennummern in Dateinamen?

Accepted Answer

Dass fünf Mitarbeiter jeden Tag Kundennummern in die Dateinamen tippen, ist genau der Schritt, den ich abschaffen will. An unserem Scanner bekommt bisher jeder Beleg von Hand einen Namen aus Debitoren-Nummer und Kundenname, fünfzehn bis fünfundzwanzig Stück am Tag, und genau dort schleichen sich die Zahlendreher ein. Die Nummer steht längst in der Datenbank, also soll die Maschine sie nachschlagen, nicht der Mensch sie abtippen. Jede Eingabe von Hand ist eine Fehlerquelle, die man sich sparen kann.

Question 39

Was übersieht eine Überwachung, die nur prüft ob ein Dienst läuft?

Accepted Answer

Eine Überwachung, die nur prüft ob ein Dienst läuft, übersieht den Dienst, der läuft und trotzdem nichts Frisches liefert. Bei einer Gesundheitsprüfung fiel mir auf, dass unsere nächtliche Kopie drei Tage alt war, während ein Cron alle drei Minuten per curl brav meldete, alles sei erreichbar. Die Datei war da, nur eben von vorgestern. Gesund heißt nicht, dass etwas atmet, sondern dass es das Richtige tut.

Question 40

Soll eine KI Datumsfelder aus einem Dokument lesen?

Accepted Answer

Datumsfelder soll keine KI frei aus einem Dokument lesen, dafür gehört eine feste Regel. Beim ersten Praxiseinsatz unserer Beleg-Pipeline las das lokale Modell Gemma aus einem Datum 2026 schlicht 2024, und auf einem Personalausweis griff es das Ablauf- statt des Ausstellungsdatums. Seitdem ziehe ich strukturierte Felder wie Datum und Nummer per fester Regel, und die KI darf nur den Freitext deuten. Eine Maschine, die rät, soll das nur dort tun, wo Raten erlaubt ist.

Question 41

Darf eine KI eine Fahrzeugnummer selbst geradebiegen?

Accepted Answer

Eine Fahrzeugnummer darf eine KI nur nach festen Regeln geradebiegen, niemals nach Gefühl. In einer eigenen Funktion macht das System aus einem O eine Null, aus einem I eine Eins und aus einem Q eine Neun, weil eine Fahrgestellnummer diese drei Zeichen nie enthält. Danach prüft eine Regel hart auf genau siebzehn erlaubte Zeichen, sonst bricht es ab. Korrigieren darf nur, wer die Grenzen kennt, an denen das Korrigieren aufhört.

Question 42

Warum lagen plötzlich mehrere fast gleich benannte Nextcloud-Ordner auf meinem Rechner?

Accepted Answer

Mehrere fast gleich benannte Nextcloud-Ordner lagen auf meinem Rechner, weil nach einem Umbau des Speichers die alten Sync-Konten nicht von selbst verschwinden. Nach dem Wechsel auf den neuen S3-Speicher hatte ich vier veraltete Ordner neben dem aktuellen, jeder mit fast demselben Namen und altem Inhalt. Fast hätte ich in einer toten Kopie weitergearbeitet. Seitdem prüfe ich vor jeder Änderung, welcher Pfad wirklich der lebende ist. Der gefährlichste Ordner ist der, der aussieht wie der richtige.

Question 43

Soll ein Programm bei fehlenden Daten weiterlaufen oder abbrechen?

Accepted Answer

Abbrechen, laut und sichtbar. Einer unserer Abläufe machte bei fehlgeschlagener Datenanreicherung einfach mit leeren Werten weiter, und die leeren Werte richteten den Schaden an. Heute bricht er ab, sobald die Daten nicht stimmen. Ein sichtbarer Fehler ist ein Geschenk, ein stiller frisst sich durch, bis ihn der Kunde findet.

Question 44

Wo behebt man Platzhalter-Texte und schlechte Daten, in der Pipeline oder an der Quelle?

Accepted Answer

An der Quelle. Als auf der Website ein Platzhalter-Text auftauchte, war die Versuchung groß, ihn im Skript wegzufiltern. Das hätte das Symptom kaschiert und wäre beim nächsten Datensatz wiedergekommen. Korrigiert wurde der Eintrag dort, wo er entsteht, in Loco-Soft. Am Symptom zu arbeiten fühlt sich schnell an und kommt immer wieder.

Question 45

Warum zeigte ein Auto plötzlich die Bilder eines anderen?

Accepted Answer

Weil zwei verschiedene Fahrzeugnummern verwechselt wurden. Loco-Soft, die Software im Autohaus, führt eine laufende Nummer und eine Kommissionsnummer, und die laufende wird wiederverwendet, wenn ein Fahrzeug rausgeht. Unser Abgleich hängte Bilder an der wiederverwendeten Nummer auf, also bekam ein Elektroauto die Fotos seines Vorgängers. Identität ist die Grundlage, alles andere ist Kosmetik darauf. Der eindeutige Schlüssel ist seitdem die Kommissionsnummer.

Question 46

Sollte die Software fehlerhafte Fahrzeugdaten automatisch ausblenden?

Accepted Answer

Nein, sie soll sie zeigen. Wenn ein Fahrzeug ohne Marke oder mit leerem Modell online steht, ist das ein Signal an den Verkäufer, es in der Quelle zu pflegen, kein Schönheitsfehler, den ein Filter vertuschen soll. Wir zeigen genau das, was in Loco-Soft zum Verkauf freigegeben ist. Datenpflege gehört an die Quelle, nicht in ein Skript, das ewig den Verband statt die Wunde pflegt.

Question 47

Sollte man Quelldaten nach der Verarbeitung wegwerfen?

Accepted Answer

Nie. Unsere Fahrzeug-Datenbank speichert die Rohdaten jeder Quelle unverändert, bevor sie aufbereitet werden, und Fahrzeuge werden deaktiviert, nicht gelöscht. Genau diese aufgehobenen Rohdaten waren mehr als einmal der Beweis, warum etwas schieflief. Was heute überflüssig scheint, ist morgen die einzige Spur.

Question 48

Eigenes Datenformat erfinden oder einen Branchenstandard übernehmen?

Accepted Answer

Den Standard. Wir bilden unsere Fahrzeugdaten nach der etablierten Schnittstelle von mobile.de ab, statt eigene Codes zu erfinden. Verstreute, selbst gebastelte Zuordnungen hatten vorher dafür gesorgt, dass aus einem Diesel schon mal ein Elektroauto wurde. Ein bestehender Standard fühlt sich kurz weniger schlau an und erspart lange Fehlersuche.

Name	Zweck	Laufzeit	Anbieter
pn-consent	Speichert Cookie-Einstellungen	365 Tage	benjaminweinlich.com
theme	Speichert Theme-Präferenz (hell/dunkel)	365 Tage	benjaminweinlich.com

#Datenqualität