π§ͺ Qwen3.6-35B-A3B-4bit auf meinem M2 Max (96 GB), drei Runs auf meinem 105-Punkte-Benchmark. Das neue Modell spielt in der Top-Liga, aber mit einer klaren Schwachstelle.
βββββββββββββββββββββββββββββ
π DIE ZAHLEN
βββββββββββββββββββββββββββββ
Drei unabhΓ€ngige Runs, 6 Aufgaben, Temperatur 0,1.
π£ Run 1: 98/105 (93,3%)
π’ Run 2: 99/105 (94,3%)
π΅ Run 3: 101/105 (96,2%)
Mittelwert: 99,3/105, also 94,6 %.
Damit liegt das Modell gleichauf mit gpt-oss-120b und gemma4:31b Dense, bei nur 3B aktiven Parametern und rund 20 GB RAM. Konstant 83 bis 87 tok/s.
βββββββββββββββββββββββββββββ
β‘ DIE CODE-QUALITΓT IST BEMERKENSWERT
βββββββββββββββββββββββββββββ
Drei Python-Aufgaben: Sortierfunktion, CSV-Bugfix, HTTP-Client mit Retry-Logik. Γber alle drei Runs:
π£ A1 Sortieren: 15, 15, 15
π’ A2 CSV-Debugging: 15, 14, 15
π΅ A3 HTTP-Client: 15, 15, 15
Das Interessante ist nicht die Punktzahl, sondern die Stilvarianz. Gleicher Prompt, drei vΓΆllig unterschiedliche produktionsreife LΓΆsungen.
Beim HTTP-Client:
Run 1 zentralisiert mit einem _execute_request-Helper.
Run 2 liefert Context Manager plus Retry-After-Header-Parsing.
Run 3 trennt sauber in _should_retry und _wait_before_retry.
Alle drei brauchbar. Das ist Stilvarianz auf hohem Niveau, nicht QualitΓ€tsvarianz.
βββββββββββββββββββββββββββββ
β οΈ DIE SCHWACHSTELLE
βββββββββββββββββββββββββββββ
Juristische Texte. In jedem der drei Runs hat das Modell bei revDSG-Argumentation Artikelnummern halluziniert.
Run 1: FDPB statt EDΓB, Art. 31 falsch zugeordnet
Run 2: "UnterlageverarbeitungsvertrΓ€ge" statt AuftragsverarbeitungsvertrΓ€ge
Run 3: Art. 5 und Art. 6 revDSG falsch zitiert
Die Konzepte sitzen, FISA 702, EO 12333, Angemessenheit. Aber die Paragraphen-Zuordnung wackelt. FΓΌr juristisch sensible Outputs ohne RAG-Layer nicht einsetzbar.
βββββββββββββββββββββββββββββ
π― FAZIT FΓR DEN KMU-EINSATZ
βββββββββββββββββββββββββββββ
GrΓΌn: Python-Automatisierung, Kundenkommunikation, ErklΓ€rtexte fΓΌr nicht-technische Stakeholder.
Gelb: Business-Texte brauchen Gegenlesen, Sprache schwankt (Genus-Fehler, gelegentlich schiefe Formulierungen).
Rot: Juristische Texte nur mit Verifikations-Layer.
In meinem Stack ersetzt das Modell Qwen3.5-35B-A3B (77,1%). Ein Sprung um 17 Punkte bei gleicher Architektur-Klasse.
Habt ihr auch Modelle mit so auffΓ€lligem GefΓ€lle zwischen Code und Domain-Wissen gesehen? Welche Verifikations-Layer nutzt ihr fΓΌr juristische Outputs?