π§ͺ Ich habe drei lokale LLMs in LM Studio auf meinem Apple M2 Max (96 GB) gegeneinander getestet.
Das ΓΌberraschendste Ergebnis war nicht die AntwortqualitΓ€t β sondern die Zeit, die die Modelle zum Denken brauchen.
βββββββββββββββββββββββββββββ
π¬ DIE DREI MODELLE
βββββββββββββββββββββββββββββ
β Qwen3.5-27B Β· Claude 4.6 Opus Distilled (14 GB)
β‘ Qwen3.5-35B-A3B Β· Claude 4.6 Opus Distilled, MoE (19,5 GB)
β’ Qwen3.5-27B Original β kein Finetuning (14 GB)
6 Aufgaben: Python-Code, Debugging, API-Client-Architektur, deutsche GeschΓ€ftstexte, Rechtsfragen (revDSG).
βββββββββββββββββββββββββββββ
β± DER THINKING-SCHOCK
βββββββββββββββββββββββββββββ
Diese Modelle denken laut β sie haben einen sichtbaren βThinking"-Block bevor die Antwort erscheint. Und genau da lag der wahre Unterschied.
Beispiel: Eine einfache Sortierfunktion in Python.
π£ 27B Distilled: 4 Sekunden
π’ 35B MoE: 4 Sekunden
β¬ 27B Original: 173 Sekunden
Dasselbe Ergebnis. Dreimal. Der gleiche Prompt.
Das Original grΓΌbelt fast 3 Minuten ΓΌber eine Aufgabe, fΓΌr die das Distilled-Modell 4 Sekunden braucht. Γber alle 6 Aufgaben:
π£ 27B Distilled: 87 Sekunden gesamt
π’ 35B MoE: 55 Sekunden gesamt
β¬ 27B Original: ~775 Sekunden gesamt
βββββββββββββββββββββββββββββ
π‘ WARUM IST DAS SO?
βββββββββββββββββββββββββββββ
Beim Knowledge Distillation lernt das kleinere Modell nicht aus Rohdaten β es lernt aus den vollstΓ€ndigen Reasoning-Trajektorien eines Frontier-Modells (hier: Claude 4.6 Opus).
Das bedeutet konkret:
β Das Original-Modell exploriert beim Denken: es probiert Wege aus, verwirft sie, dreht im Kreis β sichtbar im Thinking-Block als endlose Bullet-Listen
β Das Distilled-Modell hat Claudes Denkmuster internalisiert: strukturieren β Teilprobleme identifizieren β direkt lΓΆsen. Kein Herumirren.
β Das Ergebnis: nicht nur bessere Antworten, sondern ein fundamental effizienterer Denkprozess
Das ist der eigentliche Wert der Destillation. Nicht mehr Wissen β sondern besseres Denken.
βββββββββββββββββββββββββββββ
π GESAMTERGEBNIS
βββββββββββββββββββββββββββββ
QualitΓ€t:
π£ 27B Distilled: 100/105 Β· 95,2%
β¬ 27B Original: 93/105 Β· 88,6%
π’ 35B MoE: 81/105 Β· 77,1%
Token-Geschwindigkeit:
π£ 27B Distilled: ~20 tok/s
π’ 35B MoE: ~76 tok/s
β¬ 27B Original: ~16 tok/s
Das MoE-Modell verliert bei QualitΓ€t, gewinnt aber mit 76 tok/s klar bei der Ausgabegeschwindigkeit β sinnvoll fΓΌr lange Dokumente wo Denktiefe weniger zΓ€hlt als Tempo.
ββββββ
π FAZIT
ββββββ
Die Destillation von Frontier-Modellen auf lokale Hardware funktioniert β und der Hauptgewinn ist nicht die AntwortqualitΓ€t.
Es ist die Effizienz des Denkens.
Ein Modell das in 4 Sekunden zum richtigen Schluss kommt ist in der Praxis ein anderes Werkzeug als eines das 3 Minuten braucht β selbst wenn die Antwort am Ende gleich gut ist.
Modelle:
mlx-community/Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit
Jackrong/MLX-Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-4bit