Modell Finetuning, was ist das Ergebnis ?

🧠 Du brauchst keinen besseren Prompt. Du brauchst ein Modell, das dein Business versteht.

Ich habe das gleiche 7B Modell zweimal gegen die gleiche Aufgabe antreten lassen. Einmal mit einem langen, detaillierten System-Prompt. Einmal feingetuned auf 327 Beispielen. Das Ergebnis war eindeutig.

━━━━━━━━━━━━━━━━━━━━━━

Der Use Case: Kundengespräche einer Gartenbaufirma automatisch analysieren und bewerten. Das Modell muss Budget, Fläche, Material, Untergrund und Eigentümerstatus erkennen, auch wenn der Kunde chaotisch redet.

Das Setup:

① Trainingsdaten synthetisch erzeugen

→ 35B Modell generiert 400 Gespräche (390 fehlerfreie)

→ Gleiches 35B Modell annotiert die Gespräche im gewünschten JSON-Schema

→ Ergebnis: 327 saubere Trainingsbeispiele

② Training auf dem 7B Modell

→ 80/20 Split (Training / Validierung)

→ 600 Iterationen, Batch-Größe 2

→ Bester Checkpoint nach ca. 200 Iterationen (danach beginnt das Auswendiglernen)

━━━━━━━━━━━━━━━━━━━━━━

Die drei Testszenarien, und was mich überrascht hat:

Szenario 1, positiv: Das Originalmodell listet den Zeitraum als fehlende Info, obwohl der Kunde "Ende Mai" gesagt hat. Das feingetunte Modell erkennt es korrekt.

Szenario 2, negativ: Lead Score 25 vs. 15. Das feingetunte Modell bewertet die Gesprächsqualität realistischer, weil kein Budget erkennbar ist.

Szenario 3, Chaos: Der Kunde springt zwischen Rasenmäher, Urlaub und Terrasse. Und dann sagt er, der Hund zerstört immer den Rasen. Das feingetunte Modell erkennt daraus: Untergrund ist Rasenfläche, draußen. Das Originalmodell listet den Untergrund als fehlend.

Das Modell hat nicht nur das Schema gelernt. Es hat gelernt, was in diesem Kontext wichtig ist.

━━━━━━━━━━━━━━━━━━━━━━

Wann lohnt sich Feintuning überhaupt?

▸ Immer die gleiche Aufgabe

▸ Fixes Output-Schema (JSON, strukturierte Ausgabe)

▸ Domänenspezifischer Kontext (Fachbegriffe, Branchenlogik)

▸ Beispiele vorhanden oder synthetisch erzeugbar

▸ Kosten und Latenz spielen eine Rolle (kleineres Modell, kürzerer Prompt)

Wann lieber nicht?

▸ Aufgaben variieren stark

▸ Keine oder kaum Beispieldaten

▸ Schnelle Iteration wichtiger als Konsistenz