Sprachsynthese im Call Center von Syxtus Gaal

Sprachsynthese im Call Center
von Syxtus Gaal

Ein Großteil der Applikationen, die Sprachsynthese verwenden, wurde bis vor kurzem für den Kundenservice entwickelt. Besonders in den Call Centern hat Sprachsynthese die Automatisierung vieler Prozesse ermöglicht. Statt Agenten damit zu beschäftigen eine große Vielfalt von Daten für den Kunden nachzuschauen und sie ihm telefonisch anzugeben, war es dem Kunden möglich sie selber abzufragen – rund um die Uhr, ohne auf einen Agenten warten zu müssen.

Anwendungen
Im Vergleich zu einer Aufnahme klingt Sprachsynthese immer noch künstlich. Kleine Feinheiten in der Sprachausgabe führen dazu, dass Aufnahmen einer menschlichen Stimme im Call-Center-Umfeld immer noch bevorzugt werden. Für große Datenmengen ist das Aufnehmen eines jeden Datenschnipsels jedoch kaum durchführbar. Wenn der Datensatz oft aktualisiert wird, ist es auch schwer die Aufnahmen rechtzeitig durchzuführen und sie in das System einzupflegen. Praktisch bedeutet das, dass auch wenn sich doch entscheidet die Ansagen für die komplette Datenmenge durchzuführen, wird es immer Zeiten geben, wo einzelne Aufnahmen nicht vorhanden sind.

Sprachsynthese ist für ein solches Use Case die geeignete Lösung. Text-To-Speech (TTS), wie Sprachsynthese auch genannt wird, macht es möglich eine unendliche Anzahl von Datensätzen abzuspielen. Jede Form von Daten, die als Text oder Zahl dargestellt werden kann, kann mittels TTS akustisch wiedergegeben werden.
Es gibt einige Beispiele für eine solche Anwendung der Sprachsynthese. Hier sind Datensätze, die am besten mit TTS angesagt werden:

Adressen und Namen von Ortschaften
Haltestellen
Passwörter
Nachrichten im Falle eines Notfalls
Textnachrichten (SMS)

Die oben genannten Datensätze sind groß und nur teilweise berechenbar. Die Aufnahme dieser Daten mit einem Sprecher wäre kaum möglich oder einfach unpraktisch. Ein TTS-System ermöglicht das Abspielen solcher Datensätze bei voller Flexibilität und akzeptabler Qualität.

Funktionsweise
Aktuelle kommerzielle TTS-Systeme basieren auf dem Unit-Selection-Prinzip. Diese Technologie verwendet eine große Menge an Sprachaufnahmen eines Sprechers. Sie bieten dem Sprachsynthesesystem eine riesige Bibliothek an Sprachbausteinen, die für die Sprachausgabe verwendet werden. Diese Aufnahmen wurden sehr sorgfältig aufbereitet und annotiert, so dass das TTS bis auf die Millisekunde weiß, in welcher Aufnahme er den richtigen Satz, oder das richtige Wort findet.

Diese werden zusammengeschlossen, um den vom Benutzer eingegebenen Satz auszugeben. Dabei versucht das TTS zuerst immer die größten Bausteine zu finden, die genau dem eingegebenen Satz entsprechen. Dies ist nur selten möglich. So sucht es immer weiter nach geeigneten Bausteinen, z.B. auf Phrasen und Wortebene. Falls dies nicht gelingt, wird der Text teilweise aus Silben oder einzelnen Phonemen gebildet.

Kurz gefasst lautet das Prinzip: so wenig Synthese wie möglich. Die Bausteine (Units, deswegen Unit-Selection-Verfahren) sollten so groß wie möglich sein, um das Zusammenfügen unterschiedlicher Teilkomponenten zu minimieren.

Die Qualität eines solchen Programms hängt stark von der Struktur der vorgegebenen Sprachdaten sowie deren Menge. Bei der Installation eines TTS-Systems beim Kunden ist es mir letztlich aufgefallen, dass das Sprachpaket für Arabisch über 1 GB an Sprachdaten enthalten hat. Tatsächlich war die Qualität dieses Systems sehr gut. Je größer der Sprachdatensatz, desto größer die Wahrscheinlichkeit den geeigneten Baustein zu finden.

Zusätzliche Infos
Weitere Informationen über die Anwendung von Sprachsynthese in Call Centern finden sie unter diesen Adressen
http://en.wikipedia.org/wiki/Speech_synthesis#Unit_selection_synthesis – eine Einführung in das Unit-Selection-Verfahrens http://www.acapela-group.com/text-to-speech-interactive-demo.html – die Webseite von Acapela, wo man ein gutes TTS-System ausprobieren kann

Über den Autor, Syxtus Gaal
Syxtus Gaal hat Computerlinguistik und Informatik an der Universität Stuttgart studiert. Das erste Sprachsynthesesystem hat er im Seminar entwickelt, womit er Ergebnisse einer Fußballmeisterschaft ausgeben konnte. Syxtus Gaal beschäftigt sich seit sechs Jahren beruflich mit diesem Technologie. Obwohl er inzwischen andere Themen in der Contact-Center-Branche begleitet, bleiben Sprachtechnologien seine Kernkompetenz. Die Homepage von Syxtus Gaal ist zu finden unter www.ims.uni.stuttgart.de/~gaalss.

Syxtus Gaal – Sprachtechnologien – Sprachsynthese

Sprachsynthese von Syxtus Gaal

Sprachtechnologien in der Informatik gibt es schon sehr lange. Erste Experimente damit wurden bereits in den 30er Jahren unternommen. Damals hat man die erste Maschine erfunden, die Sprachlaute produzieren konnte. Die Qualität hat jedoch sehr viel zu wünschen übrig gelassen. Ohne „Untertitel“, bzw. ohne Kenntnis dessen, was die Maschine sagen wollte, war synthetische Sprache kaum zu verstehen.

Seit dieser Zeit hat sich vieles verändert. Inzwischen ist die Verständlichkeit der künstlichen Stimmen kein Problem mehr. Die Qualität ist jetzt so gut, dass Computerstimmen fast wie Menschen klingen. Ja, genau – fast meint Syxtus Gaal. Die Sprache ist eine der wichtigsten Fähigkeiten des Menschen und er beherrscht sie sehr gut. So kann er kleinste Feinheiten, wie die Stimmlage, Gefühle oder die Herkunft des Sprechers erkennen. So bemerkt er auch, dass die Stimme künstlich erzeugt wurde, wenn die Stimmlage oder die Aussprache nicht perfekt klingen.
Es fällt einem Sprachsynthesesystem sehr schwer es einem Menschen vorzumachen, dass das was er hört von einem anderen Menschen gesprochen wird. So gut wie kein System kann diese Aufgabe bewältigen. Die Sprache, die von Rechnern generiert wird, ist aber inzwischen sehr verständlich. Auch die Akzeptanz der Nutzer ist mit der Steigerung der Qualität und der Allgegenwertigkeit künstlich erzeugter Sprache stetig gestiegen. Sprachsynthese ist deswegen eine Technologie, die reif und gut genug ist, um in der Industrie angewendet zu werden. Es gibt mehrere wichtige Branchen, wo diese Technologie nicht mehr wegzudenken ist.

Syxtus Gaal – Screen reader

Sprachsynthese hilft Menschen, die unter eingeschränktem Sehvermögen leiden, auf digitale Inhalte zuzugreifen. Diese Inhalte sind vielfältig – seien es die Webseiten im Internet oder digitalisierte Bücher. Die Funktion der Sprachausgabe am Computer ermöglicht macht das Vorlesen von Texten möglich, auch wenn man sie nicht sieht. Sie ist eine Ergänzung zu einem Braille-Interface, so dass der Benutzer sich eine Internetseite oder ein E-Book direkt anhören kann, ohne dass der Inhalt in Braille dargestellt und gelesen werden muss.

Navigation
Die meisten Menschen kennen Sprachsynthese als eine nützliche Ergänzung eines Navigationssystems. Navigationssoftware ist eine multimodale Anwendung, die Informationen visuell und akustisch darstellen kann. Beide Modi ergänzen sich fabelhaft. Die Sprachsynthese gibt Befehle für die Fortbewegung in unmittelbarer Umgebung aus, der Bildschirm stellt diese Route in einer räumlichen Perspektive dar.

Sprachsynthese hat in dieser Anwendung zwei Komplexitätsgrade
Einerseits spielt sie einfache Befehle für die Richtung, in die sich der Fahrer bewegen soll, ab. Die Anzahl der Befehle ist vordefiniert und begrenzt sich meistens auf Richtungen sowie Elemente der Straßeninfrastruktur. Die Bausteine für diese Sprachbefehle werden von professionellen Sprechern aufgenommen. Danach werden diese hervorragenden Aufnahmen geschnitten und für das Abspielen während der Fahrt aufbereitet. Die Qualität ist so hervorragend, dass sie in der konstanten Freundlichkeit und Stimmqualität viele menschliche Lotsen übertrifft.

Die andere Anwendung für Sprachsynthese ist die Ausgabe der Orts- und Straßennamen. Die Anzahl solcher Begriffe ist viel größer als die Anzahl der Befehle, die für die Navigation aufgenommen werden. Hier muss das System auch neue Straßennamen und Adressen aussprechen können. In diesem Fall wird ein allgemeines Synthesesystem verwendet. Da es nicht aus zusammengeschnittenen Aufnahmen besteht, ist die Sprachqualität dieses Systems nicht so gut wie die Ausgabe der Richtungen. Trotzdem ist eine solche Sprachsynthese flexibel und kann potentiell jede Adresse, alt oder neu, akustisch wiedergeben.

Contact center
Sprachsynthese hat inzwischen einen festen Platz im Kundenservice. Der Rahmen dieser Aunwendung würde den Rahmen dieses Artikels sprengen. Eine detaillierte Analyse dazu befindet sich hier (Link: Sprachsynthese im Contact Center):

Weitere Ressourcen
Hier einige interessante Links zum Thema Sprachsynthese:
www.wikipedia.org/Sprachsynthese – eine gute Einführung in das Thema
• www.nuance.com – Nuance, der führende Hersteller von Sprachsynthesesystemen
• Genesys iCFD – Genesys, Anbieter von Lösungen für Contact Center. Das Konzept des Genesys intelligent Customer Front Door (iCFD) ermöglicht bahnbrechende, Kundenfreundliche Lösungen, die auf Sprachtechnologien basieren.

Über Syxtus Gaal
Syxtus Gaal ist Linguist und Informatiker mit sechs Jahren Erfahrung im Bereich Sprachtechnologien. Syxtus Gaal ist Absolvent der Universität Stuttgart, wo er sich auf Phonetik, digitale Signalverarbeitung und Architektur von Anwendungssystemen fokussiert hat. Nach 3 Jahren in der Sprachtechnologiefirma EXCELSIS ist er seit 2008 bei Genesys tätig, einem weltweit führenden Anbieter von Lösungen für Contact Center. Die Homepage von Syxtus Gaal ist zu finden unter www.ims.uni.stuttgart.de/~gaalss