In diesem Video zeige ich euch den Aufbau und die Funktionsweise von "Mantis", meinem Web-basierten lokalen KI-Voice-Agenten! Mantis hört dank nahtloser Voice Activity Detection (VAD) im Browser dauerhaft zu und antwortet fließend – und das nahezu komplett lokal auf deiner eigenen Hardware.
Wir zerlegen das Projekt und nutzen dazu:
🎙️ Faster-Whisper: Für eine blitzschnelle, lokale Spracherkennung (STT).
🧠 LM Studio: Für die Intelligenz (z.B. freie, unzensierte Modelle wie Gemma 4-26b oder Qwen).
🗣️ Edge-TTS: Für eine realistische und sehr flüssige deutsche Sprachausgabe.
Im Tutorial zeige ich euch das System in Action, erkläre den Aufbau und zeige euch, wie ihr euch das Tool über GitHub einfach selbst ziehen und ausprobieren könnt! Keine teuren Cloud-Abos mehr, eure Gespräche bleiben auf eurem Rechner.