Gestern hat mein Multi-Agenten-System einen Bug abgefangen, der sonst in Produktion gegangen wäre — durch einen zweiten Agenten, nicht durch mich. Viele Multi-Agenten-Setups scheitern nicht am LLM, sondern an der Zuverlässigkeit zwischen den Agenten. Wenn du Kunden bedienen willst, reicht "funktioniert meistens" nicht. Ich baue gerade ein System mit drei Agenten — einer plant, einer setzt um, einer prüft. Die Prüfung ist der kritische Teil. Der Vorfall: Agent-Planner schlug ein DB-Schema vor, das mit einer bestehenden Tabelle kollidiert wäre. Agent-Executor hat vor der Umsetzung STOPP gemeldet — durch eine Pre-Flight-Regel die ich ihm mitgegeben habe: "Vor jeder Schema-Änderung prüfe was bereits existiert." 25 Minuten später: Fehler gefangen, Pre-Flight-Regel strukturell verschärft, Lernen in den Agent-Kontext geschrieben. Meine 6 Kontroll-Stufen: 1. Pre-Flight Check gegen aktuellen State 2. Assumption Tagging (bekannt vs. vermutet) 3. Hard-STOPP bei fehlender Quelle (keine Improvisation) 4. Cross-Agent Peer-Review vor Execution 5. Human-Gate (Freigabe vor Umsetzung) 6. Rule-Evolution nach jedem Incident Frage an euch: Wie prüft ihr bei euch, ob ein Agent-Output wirklich produktionsreif ist — bevor er beim Kunden landet? Welche Kontroll-Stufen habt ihr eingebaut?