Das Interface "Telefon" ist broken 📞
Telefonieren ist ineffizient. Es ist synchron (beide müssen Zeit haben), unstrukturiert (Audio-Daten) und nicht durchsuchbar. Aber Kunden lieben es. Also müssen wir das fixen.
Nicht indem wir das Telefon abschaffen, sondern indem wir eine API davor hängen. Diese API heißt Voice AI.
Wie der Tech-Stack funktioniert
Vergiss alte IVR-Systeme ("Drücken Sie die 1"). Das neue Setup sieht so aus:
- Input: Anruf kommt rein (SIP Trunk / Twilio).
- STT (Speech-to-Text): Whisper (oder ähnliche Modelle) transkribiert in Echzeit (< 300ms Latenz ist das Ziel).
- LLM Brain: Ein Prompt (System Instructions) entscheidet: Was will der Kunde?
- Action: Function Calling. Die KI greift auf deinen Kalender zu, checkt die DB oder das CRM.
- TTS (Text-to-Speech): ElevenLabs generiert die Antwort mit menschlicher Intonation.
Das passiert alles in Millisekunden.
Real World Test: Das Café-Szenario
Wir haben das für ein Café deployed.
Challenge: Hoher Noise-Level, gestresstes Personal, verpasste Calls.
Lösung: KI-Agent nimmt ab.
Kunde: "Habt ihr für morgen Abend was frei?"
KI (checkt Calendar API): "Morgen, also Samstag, um 19 Uhr? Ja, für wie viele Personen?"
-> Ergebnis: Strukturierter Datensatz im System (Name, Zeit, Pax). Kein Telefonklingeln im Gastraum.
Warum das spannend ist
Es macht das Telefon skalierbar. Eine KI kann 100 Anrufe gleichzeitig annehmen. Dein Front-Desk nicht. Und sie wird nie müde, egal wie oft jemand nach den Öffnungszeiten fragt.
Wir bauen solche Systeme gerade verstärkt, weil die Latenzzeiten endlich niedrig genug sind. Interessiert an einer Demo? Ruf mal an... (Spaß, schreib mir).


