DER THINKING-SCHOCK :)
πŸ§ͺ Ich habe drei lokale LLMs in LM Studio auf meinem Apple M2 Max (96 GB) gegeneinander getestet.
Das ΓΌberraschendste Ergebnis war nicht die AntwortqualitΓ€t – sondern die Zeit, die die Modelle zum Denken brauchen.
─────────────────────────────
πŸ”¬ DIE DREI MODELLE
─────────────────────────────
β‘  Qwen3.5-27B Β· Claude 4.6 Opus Distilled (14 GB)
β‘‘ Qwen3.5-35B-A3B Β· Claude 4.6 Opus Distilled, MoE (19,5 GB)
β‘’ Qwen3.5-27B Original – kein Finetuning (14 GB)
6 Aufgaben: Python-Code, Debugging, API-Client-Architektur, deutsche GeschΓ€ftstexte, Rechtsfragen (revDSG).
─────────────────────────────
⏱ DER THINKING-SCHOCK
─────────────────────────────
Diese Modelle denken laut – sie haben einen sichtbaren β€žThinking"-Block bevor die Antwort erscheint. Und genau da lag der wahre Unterschied.
Beispiel: Eine einfache Sortierfunktion in Python.
🟣 27B Distilled: 4 Sekunden
🟒 35B MoE: 4 Sekunden
⬜ 27B Original: 173 Sekunden
Dasselbe Ergebnis. Dreimal. Der gleiche Prompt.
Das Original grübelt fast 3 Minuten über eine Aufgabe, für die das Distilled-Modell 4 Sekunden braucht. Über alle 6 Aufgaben:
🟣 27B Distilled: 87 Sekunden gesamt
🟒 35B MoE: 55 Sekunden gesamt
⬜ 27B Original: ~775 Sekunden gesamt
─────────────────────────────
πŸ’‘ WARUM IST DAS SO?
─────────────────────────────
Beim Knowledge Distillation lernt das kleinere Modell nicht aus Rohdaten – es lernt aus den vollstΓ€ndigen Reasoning-Trajektorien eines Frontier-Modells (hier: Claude 4.6 Opus).
Das bedeutet konkret:
β†’ Das Original-Modell exploriert beim Denken: es probiert Wege aus, verwirft sie, dreht im Kreis – sichtbar im Thinking-Block als endlose Bullet-Listen
β†’ Das Distilled-Modell hat Claudes Denkmuster internalisiert: strukturieren β†’ Teilprobleme identifizieren β†’ direkt lΓΆsen. Kein Herumirren.
β†’ Das Ergebnis: nicht nur bessere Antworten, sondern ein fundamental effizienterer Denkprozess
Das ist der eigentliche Wert der Destillation. Nicht mehr Wissen – sondern besseres Denken.
─────────────────────────────
πŸ“Š GESAMTERGEBNIS
─────────────────────────────
QualitΓ€t:
🟣 27B Distilled: 100/105 · 95,2%
⬜ 27B Original: 93/105 · 88,6%
🟒 35B MoE: 81/105 · 77,1%
Token-Geschwindigkeit:
🟣 27B Distilled: ~20 tok/s
🟒 35B MoE: ~76 tok/s
⬜ 27B Original: ~16 tok/s
Das MoE-Modell verliert bei QualitΓ€t, gewinnt aber mit 76 tok/s klar bei der Ausgabegeschwindigkeit – sinnvoll fΓΌr lange Dokumente wo Denktiefe weniger zΓ€hlt als Tempo.
──────
πŸ† FAZIT
──────
Die Destillation von Frontier-Modellen auf lokale Hardware funktioniert – und der Hauptgewinn ist nicht die AntwortqualitΓ€t.
Es ist die Effizienz des Denkens.
Ein Modell das in 4 Sekunden zum richtigen Schluss kommt ist in der Praxis ein anderes Werkzeug als eines das 3 Minuten braucht – selbst wenn die Antwort am Ende gleich gut ist.
Modelle:
mlx-community/Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit
Jackrong/MLX-Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-4bit
0
0 comments
Michael Gross
1
DER THINKING-SCHOCK :)
powered by
Mastering local AI
skool.com/mastering-local-ai-6471
Baue High-End Workflows mit n8n & lokalen LLMs auf eigener Hardware. Maximale KI-Power bei voller DatensouverΓ€nitΓ€t. Join us!
Build your own community
Bring people together around your passion and get paid.
Powered by