Sprachsynthese im Call Center von Syxtus Gaal

Sprachsynthese im Call Center
von Syxtus Gaal

Ein Großteil der Applikationen, die Sprachsynthese verwenden, wurde bis vor kurzem für den Kundenservice entwickelt. Besonders in den Call Centern hat Sprachsynthese die Automatisierung vieler Prozesse ermöglicht. Statt Agenten damit zu beschäftigen eine große Vielfalt von Daten für den Kunden nachzuschauen und sie ihm telefonisch anzugeben, war es dem Kunden möglich sie selber abzufragen – rund um die Uhr, ohne auf einen Agenten warten zu müssen.

Anwendungen
Im Vergleich zu einer Aufnahme klingt Sprachsynthese immer noch künstlich. Kleine Feinheiten in der Sprachausgabe führen dazu, dass Aufnahmen einer menschlichen Stimme im Call-Center-Umfeld immer noch bevorzugt werden. Für große Datenmengen ist das Aufnehmen eines jeden Datenschnipsels jedoch kaum durchführbar. Wenn der Datensatz oft aktualisiert wird, ist es auch schwer die Aufnahmen rechtzeitig durchzuführen und sie in das System einzupflegen. Praktisch bedeutet das, dass auch wenn sich doch entscheidet die Ansagen für die komplette Datenmenge durchzuführen, wird es immer Zeiten geben, wo einzelne Aufnahmen nicht vorhanden sind.

Sprachsynthese ist für ein solches Use Case die geeignete Lösung. Text-To-Speech (TTS), wie Sprachsynthese auch genannt wird, macht es möglich eine unendliche Anzahl von Datensätzen abzuspielen. Jede Form von Daten, die als Text oder Zahl dargestellt werden kann, kann mittels TTS akustisch wiedergegeben werden.
Es gibt einige Beispiele für eine solche Anwendung der Sprachsynthese. Hier sind Datensätze, die am besten mit TTS angesagt werden:

Adressen und Namen von Ortschaften
Haltestellen
Passwörter
Nachrichten im Falle eines Notfalls
Textnachrichten (SMS)

Die oben genannten Datensätze sind groß und nur teilweise berechenbar. Die Aufnahme dieser Daten mit einem Sprecher wäre kaum möglich oder einfach unpraktisch. Ein TTS-System ermöglicht das Abspielen solcher Datensätze bei voller Flexibilität und akzeptabler Qualität.

Funktionsweise
Aktuelle kommerzielle TTS-Systeme basieren auf dem Unit-Selection-Prinzip. Diese Technologie verwendet eine große Menge an Sprachaufnahmen eines Sprechers. Sie bieten dem Sprachsynthesesystem eine riesige Bibliothek an Sprachbausteinen, die für die Sprachausgabe verwendet werden. Diese Aufnahmen wurden sehr sorgfältig aufbereitet und annotiert, so dass das TTS bis auf die Millisekunde weiß, in welcher Aufnahme er den richtigen Satz, oder das richtige Wort findet.

Diese werden zusammengeschlossen, um den vom Benutzer eingegebenen Satz auszugeben. Dabei versucht das TTS zuerst immer die größten Bausteine zu finden, die genau dem eingegebenen Satz entsprechen. Dies ist nur selten möglich. So sucht es immer weiter nach geeigneten Bausteinen, z.B. auf Phrasen und Wortebene. Falls dies nicht gelingt, wird der Text teilweise aus Silben oder einzelnen Phonemen gebildet.

Kurz gefasst lautet das Prinzip: so wenig Synthese wie möglich. Die Bausteine (Units, deswegen Unit-Selection-Verfahren) sollten so groß wie möglich sein, um das Zusammenfügen unterschiedlicher Teilkomponenten zu minimieren.

Die Qualität eines solchen Programms hängt stark von der Struktur der vorgegebenen Sprachdaten sowie deren Menge. Bei der Installation eines TTS-Systems beim Kunden ist es mir letztlich aufgefallen, dass das Sprachpaket für Arabisch über 1 GB an Sprachdaten enthalten hat. Tatsächlich war die Qualität dieses Systems sehr gut. Je größer der Sprachdatensatz, desto größer die Wahrscheinlichkeit den geeigneten Baustein zu finden.

Zusätzliche Infos
Weitere Informationen über die Anwendung von Sprachsynthese in Call Centern finden sie unter diesen Adressen
http://en.wikipedia.org/wiki/Speech_synthesis#Unit_selection_synthesis – eine Einführung in das Unit-Selection-Verfahrens http://www.acapela-group.com/text-to-speech-interactive-demo.html – die Webseite von Acapela, wo man ein gutes TTS-System ausprobieren kann

Über den Autor, Syxtus Gaal
Syxtus Gaal hat Computerlinguistik und Informatik an der Universität Stuttgart studiert. Das erste Sprachsynthesesystem hat er im Seminar entwickelt, womit er Ergebnisse einer Fußballmeisterschaft ausgeben konnte. Syxtus Gaal beschäftigt sich seit sechs Jahren beruflich mit diesem Technologie. Obwohl er inzwischen andere Themen in der Contact-Center-Branche begleitet, bleiben Sprachtechnologien seine Kernkompetenz. Die Homepage von Syxtus Gaal ist zu finden unter www.ims.uni.stuttgart.de/~gaalss.