benjamin weinlich
← Journal

#Bildanalyse

5 Beiträge zu diesem Thema, neueste zuerst.

Warum zeigten unsere KI-Bilder eine Tischlerei statt einer Kfz-Werkstatt?

Unsere KI-Bilder zeigten eine Tischlerei statt einer Kfz-Werkstatt, weil im Prompt der eigentliche Anker fehlte. Die erste Bildserie mit Nano Banana 2 war warm, ruhig und sauber belichtet, traf aber die Branche nicht: Holzwerkbank in einer Steinscheune statt Hebebühne und Motorraum. Erst als ich Auto, Diagnosegerät und freie Werkstatt ausdrücklich in jeden Prompt geschrieben habe, kam das, was gemeint war. Eine Maschine macht genau das, was dasteht, nicht das, was ich meine.

Soll ein Bild für die Website perfekt aussehen oder echt?

Ein Bild für die Website soll echt aussehen, nicht perfekt. Die ersten Entwürfe aus Nano Banana 2 waren hochglänzend und gestellt, ein Server zwischen Zimmerpflanzen, ein Oldtimer neben einem Traktor, alles zu sauber für eine echte freie Werkstatt. Die nächste Serie habe ich bewusst eine Spur rauer angelegt, etwas Öl unter den Fingernägeln, Werkstatt statt Lifestyle. Wer als kleiner Praktiker auftritt, verliert seine Glaubwürdigkeit, sobald das Bild zu glatt wird.

18. Mai 2026 Frage

Reicht der Maschine ein Bild, oder braucht sie auch den Text?

Ein Bild allein reicht der Maschine nicht, sie braucht den Text daneben. Unsere Pipeline schickt Gemma über Ollama jetzt beides: das gescannte Dokument als Bild mit dreihundert DPI für Layout und Position, dazu den ausgelesenen Text für die exakten Werte. So liest sie ein Dokument in fünf bis fünfundzwanzig Sekunden, ohne Zahlen zu erraten. Das Auge zeigt, wo etwas steht, der Text sagt, was dort wirklich geschrieben ist.