Wenn du dich bereits mit Sprach KI beschäftigt hast, bist du vermutlich mit klassischen Szenarien wie Speech to Text oder Text to Speech vertraut. Diese Technologien sind heute aus vielen Anwendungen nicht mehr wegzudenken. Sobald es jedoch darum geht, echte Voice Agents zu bauen, die nicht nur Sprache umwandeln, sondern zuhören, verstehen, reagieren und dabei Kontext über mehrere Gesprächsverläufe hinweg behalten, stoßen klassische Ansätze schnell an ihre Grenzen. Genau an dieser Stelle setzt Azure Speech mit der Voice Live API an. In Kombination mit den Microsoft Foundry Tools entsteht eine Plattform, mit der du solche Agenten nicht nur entwickeln, sondern auch produktiv betreiben kannst. Und das mit einer Leichtigkeit, die man aus früheren Bot Architekturen so nicht kannte.
Was ist Azure Vision in den Foundry Tools – und warum ich es spannender finde als gedacht
Wenn man, so wie ich, mehrere Projekte im Microsoft Foundry Portal aufsetzt, kommt man an einem Thema nicht vorbei, egal ob man es liebt, fürchtet oder am liebsten ganz weit nach hinten schieben würde: Compliance.
Es gibt Projekte, die entstehen nicht, weil man sie von Anfang an perfekt geplant hat, sondern weil man sich irgendwann fragt, ob das eigentlich auch besser geht. Genau so ist dieses Projekt entstanden. Ich beschäftige mich schon lange mit Wertanlagen und Chartanalysen und habe irgendwann gemerkt, dass ich zwar unglaublich viele Informationen konsumiere, diese aber selten wirklich strukturiert zusammenlaufen. Kennzahlen hier, News dort, technische Indikatoren im Chart und irgendwo dazwischen versuche ich dann, eine halbwegs rationale Entscheidung zu treffen. Zudem wollte ich mal etwas Neues wagen und weg von langfristigen Investments hin zu kurzfrsitigeren Halten von Aktien/CFDs gehen, das Zauberwort nenne man hier Swing-Trading.
Kennst du das Gefühl, wenn du einem Menschen etwas erzählst und er es einige Tage später noch weiß? Wenn du ihm erklärst, dass du Kaffee mit Milch lieber magst als schwarz, und er dich beim nächsten Treffen direkt so anspricht? Genauso soll sich gute KI anfühlen. Und genau hier beginnt eine wichtige Unterscheidung, die viele Anwender und Entwickler zuerst nicht klar haben.