Qwen3.6 35B A3B - Faszinierend ist untertrieben, vor allem was Coding angeht

🧪 Qwen3.6-35B-A3B-4bit auf meinem M2 Max (96 GB), drei Runs auf meinem 105-Punkte-Benchmark. Das neue Modell spielt in der Top-Liga, aber mit einer klaren Schwachstelle.

─────────────────────────────

📊 DIE ZAHLEN

─────────────────────────────

Drei unabhängige Runs, 6 Aufgaben, Temperatur 0,1.

🟣 Run 1: 98/105 (93,3%)

🟢 Run 2: 99/105 (94,3%)

🔵 Run 3: 101/105 (96,2%)

Mittelwert: 99,3/105, also 94,6 %.

Damit liegt das Modell gleichauf mit gpt-oss-120b und gemma4:31b Dense, bei nur 3B aktiven Parametern und rund 20 GB RAM. Konstant 83 bis 87 tok/s.

─────────────────────────────

⚡ DIE CODE-QUALITÄT IST BEMERKENSWERT

─────────────────────────────

Drei Python-Aufgaben: Sortierfunktion, CSV-Bugfix, HTTP-Client mit Retry-Logik. Über alle drei Runs:

🟣 A1 Sortieren: 15, 15, 15

🟢 A2 CSV-Debugging: 15, 14, 15

🔵 A3 HTTP-Client: 15, 15, 15

Das Interessante ist nicht die Punktzahl, sondern die Stilvarianz. Gleicher Prompt, drei völlig unterschiedliche produktionsreife Lösungen.

Beim HTTP-Client:

Run 1 zentralisiert mit einem _execute_request-Helper.

Run 2 liefert Context Manager plus Retry-After-Header-Parsing.

Run 3 trennt sauber in _should_retry und _wait_before_retry.

Alle drei brauchbar. Das ist Stilvarianz auf hohem Niveau, nicht Qualitätsvarianz.

─────────────────────────────

⚠️ DIE SCHWACHSTELLE

─────────────────────────────

Juristische Texte. In jedem der drei Runs hat das Modell bei revDSG-Argumentation Artikelnummern halluziniert.

Run 1: FDPB statt EDÖB, Art. 31 falsch zugeordnet

Run 2: "Unterlageverarbeitungsverträge" statt Auftragsverarbeitungsverträge

Run 3: Art. 5 und Art. 6 revDSG falsch zitiert

Die Konzepte sitzen, FISA 702, EO 12333, Angemessenheit. Aber die Paragraphen-Zuordnung wackelt. Für juristisch sensible Outputs ohne RAG-Layer nicht einsetzbar.

─────────────────────────────

🎯 FAZIT FÜR DEN KMU-EINSATZ

─────────────────────────────

Grün: Python-Automatisierung, Kundenkommunikation, Erklärtexte für nicht-technische Stakeholder.

Gelb: Business-Texte brauchen Gegenlesen, Sprache schwankt (Genus-Fehler, gelegentlich schiefe Formulierungen).

Rot: Juristische Texte nur mit Verifikations-Layer.

In meinem Stack ersetzt das Modell Qwen3.5-35B-A3B (77,1%). Ein Sprung um 17 Punkte bei gleicher Architektur-Klasse.

Habt ihr auch Modelle mit so auffälligem Gefälle zwischen Code und Domain-Wissen gesehen? Welche Verifikations-Layer nutzt ihr für juristische Outputs?

1 comment

Mastering local AI

skool.com/mastering-local-ai-6471

Baue High-End Workflows mit n8n & lokalen LLMs auf eigener Hardware. Maximale KI-Power bei voller Datensouveränität. Join us!

Members

Online

Admin

Synthesizer: Free Skool Growth

Self Inquiry Support Group

AI Money Lab

Calligraphy Skool

ACQ VANTAGE

Bring people together around your passion and get paid.