Ollama läuft jetzt mit MLX. Ich hab es sofort getestet.
Das Ergebnis war zunächst enttäuschend. Dann wurde es interessant. Gestern hat Ollama 0.19 eine Preview veröffentlicht: Apple MLX als neues Backend statt llama.cpp. Ich hab sofort einen direkten Vergleich aufgebaut: Ollama 0.19 vs. mein bestehendes vllm-mlx Setup. Gleiches Modell (Qwen3.5-35B), gleiche Prompts, echter Benchmark. Erster Lauf. Ollama verliert haushoch: → vllm-mlx: TTFT 60 ms → Ollama 0.19: TTFT 26.000 ms Der Grund: Thinking Mode. Ollama aktiviert ihn standardmäßig, vllm-mlx nicht. Kein fairer Vergleich. Also Thinking deaktiviert — was sich als eigene Odyssee herausstellte: ✘ /no_think im Prompt? Ignoriert. Das Modell analysiert den Text buchstäblich: "Input: /no_think zähle von 1 bis 10" ✔ "think": false im API-Body? Funktioniert — aber nur bei Ollama Nach dem Fix: der echte Vergleich. SHORT (Wissensabfrage) → vllm-mlx: TTFT 60 ms | 85 Tokens/s | 1,5 s → Ollama 0.19: TTFT 86 ms | 68 Tokens/s | 1,8 s CODE (C# HTTP-Client) → vllm-mlx: TTFT 56 ms | 79,6 Tokens/s | 29,5 s → Ollama 0.19: TTFT 76 ms | 65,5 Tokens/s | 28,1 s LONG (KMU-Analyse, 5 Kriterien) → vllm-mlx: TTFT 64 ms | 77,5 Tokens/s | 21,6 s → Ollama 0.19: TTFT 85 ms | 60,9 Tokens/s | 28,9 s Das Fazit in Zahlen: vllm-mlx ist ~25% schneller in Tokens/s und hat ~30% niedrigeren RAM-Verbrauch (44-46 GB vs. 50-51 GB). Was erklärt den RAM-Unterschied? Ollama 0.19 lädt das NVFP4-Modell anders in den Unified Memory als mein bestehendes MLX-4bit in vllm. Ob das an der Quantisierung liegt oder am neuen Backend — unklar. Das wäre der nächste Test. Was Ollama 0.19 trotzdem richtig macht: ✅ MLX als Backend ist die richtige Entscheidung — endlich kein llama.cpp-Workaround mehr ✅ "think": false funktioniert sauber über die API ✅ Caching über Conversations hinweg — relevant für Agenten-Workflows ✅ NVFP4 bringt Production-Parität mit Cloud-Providern Mein Fazit für KMU-Deployments: Ollama 0.19 ist noch nicht das schnellste lokale Setup auf Apple Silicon — aber es ist das einfachste. Kein Python-Venv, kein nginx Load-Balancer, kein manuelles Start-Script.