DER THINKING-SCHOCK :) · Mastering local AI

Michael Gross

16h • General discussion

DER THINKING-SCHOCK :)

🧪 Ich habe drei lokale LLMs in LM Studio auf meinem Apple M2 Max (96 GB) gegeneinander getestet.

Das überraschendste Ergebnis war nicht die Antwortqualität – sondern die Zeit, die die Modelle zum Denken brauchen.

─────────────────────────────

🔬 DIE DREI MODELLE

─────────────────────────────

① Qwen3.5-27B · Claude 4.6 Opus Distilled (14 GB)

② Qwen3.5-35B-A3B · Claude 4.6 Opus Distilled, MoE (19,5 GB)

③ Qwen3.5-27B Original – kein Finetuning (14 GB)

6 Aufgaben: Python-Code, Debugging, API-Client-Architektur, deutsche Geschäftstexte, Rechtsfragen (revDSG).

─────────────────────────────

⏱ DER THINKING-SCHOCK

─────────────────────────────

Diese Modelle denken laut – sie haben einen sichtbaren „Thinking"-Block bevor die Antwort erscheint. Und genau da lag der wahre Unterschied.

Beispiel: Eine einfache Sortierfunktion in Python.

🟣 27B Distilled: 4 Sekunden

🟢 35B MoE: 4 Sekunden

⬜ 27B Original: 173 Sekunden

Dasselbe Ergebnis. Dreimal. Der gleiche Prompt.

Das Original grübelt fast 3 Minuten über eine Aufgabe, für die das Distilled-Modell 4 Sekunden braucht. Über alle 6 Aufgaben:

🟣 27B Distilled: 87 Sekunden gesamt

🟢 35B MoE: 55 Sekunden gesamt

⬜ 27B Original: ~775 Sekunden gesamt

─────────────────────────────

💡 WARUM IST DAS SO?

─────────────────────────────

Beim Knowledge Distillation lernt das kleinere Modell nicht aus Rohdaten – es lernt aus den vollständigen Reasoning-Trajektorien eines Frontier-Modells (hier: Claude 4.6 Opus).

Das bedeutet konkret:

→ Das Original-Modell exploriert beim Denken: es probiert Wege aus, verwirft sie, dreht im Kreis – sichtbar im Thinking-Block als endlose Bullet-Listen

→ Das Distilled-Modell hat Claudes Denkmuster internalisiert: strukturieren → Teilprobleme identifizieren → direkt lösen. Kein Herumirren.

→ Das Ergebnis: nicht nur bessere Antworten, sondern ein fundamental effizienterer Denkprozess

Das ist der eigentliche Wert der Destillation. Nicht mehr Wissen – sondern besseres Denken.

─────────────────────────────

📊 GESAMTERGEBNIS

─────────────────────────────

Qualität:

🟣 27B Distilled: 100/105 · 95,2%

⬜ 27B Original: 93/105 · 88,6%

🟢 35B MoE: 81/105 · 77,1%

Token-Geschwindigkeit:

🟣 27B Distilled: ~20 tok/s

🟢 35B MoE: ~76 tok/s

⬜ 27B Original: ~16 tok/s

Das MoE-Modell verliert bei Qualität, gewinnt aber mit 76 tok/s klar bei der Ausgabegeschwindigkeit – sinnvoll für lange Dokumente wo Denktiefe weniger zählt als Tempo.

──────

🏆 FAZIT

──────

Die Destillation von Frontier-Modellen auf lokale Hardware funktioniert – und der Hauptgewinn ist nicht die Antwortqualität.

Es ist die Effizienz des Denkens.

Ein Modell das in 4 Sekunden zum richtigen Schluss kommt ist in der Praxis ein anderes Werkzeug als eines das 3 Minuten braucht – selbst wenn die Antwort am Ende gleich gut ist.

Modelle:

mlx-community/Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit

Jackrong/MLX-Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-4bit

0 comments

Mastering local AI

skool.com/mastering-local-ai-6471

Baue High-End Workflows mit n8n & lokalen LLMs auf eigener Hardware. Maximale KI-Power bei voller Datensouveränität. Join us!

Photography Academy Prime

Calligraphy Skool

TFW Global

Bring people together around your passion and get paid.