#4/ 2020
7/12

Über den Umgang mit Amazons Text-zu-Sprache-Funktion

Amazon Polly bietet für seine Text-zu-Sprache-Funktion (Text-to-Speech) derzeit drei deutsche Stimmen: die sympathische Vicki, die eloquente Marlene und den erfahrenen Hans. Hat sich der Anwender für eine der Stimmen entschieden, kann er seinen schriftlichen Text in die Eingabemaske einfügen. So einfach das Prinzip klingen mag – ganz so simpel ist der Umgang mit Amazon Polly in der Praxis leider nicht.  

Wer in seinen Texten zum Beispiel viel mit Grafiken oder Tabellen arbeitet, sollte sich genau überlegen, ob sich derartige Texte überhaupt für eine Hörversion eignen. In jedem Fall braucht die akustische Umsetzung grafischer Elemente vorab einige textliche Anpassungen. So ist es beispielsweise bei einer Tabelle ratsam, in der Textversion hinter jeder Tabellenzeile eine Leerzeile einzufügen, bevor sie umgewandelt wird. Denn dadurch lesen Vicki, Marlene und Hans Tabellenzeilen separat vor und machen nach jeder Zeile eine Pause – was beim Hörer erst das semantische Verständnis schafft. Ähnliches gilt für Grafiken. Damit auch sie in einer Akustik-Version verständlich bleiben, sollte man sie im Vorfeld komplett neu in Textform erstellen und anschaulich umschreiben. 

Auch kritische Textpassagen sollte man sich aufmerksam anhören, bevor man die Audio-Datei zum Download anbietet. Als problematisch können sich beispielsweise URLs, Abkürzungen und Eigennamen erweisen. Vicki, Marlene und Hans können zwar Internetadressen verständlich vorlesen und auch Abkürzungen wie „z. B.“ als „zum Beispiel“ aussprechen, aber man sollte sich nicht blind darauf verlassen, dass die Übertragung von Text zu Sprache immer wie gewünscht funktioniert. Eigennamen wie „IBM“ etwa schreibt man in der Textversion besser mit Leerzeichen, als „I B M“. Ähnlich verhält es sich, wenn ein Anwender möchte, dass sein Beitrag etwas menschlicher und natürlicher klingt. Amazon Polly unterstützt nämlich sogenannte SSML-Tags. Dies gibt dem Anwender deutlich mehr Kontrolle darüber, wie die drei Stimmen gewisse Wörter in einem Artikel betonen. Fügt man beispielsweise den Tag „auto breath“ hinzu, fügt Amazon Polly entweder automatisiert oder an vordefinierten Stellen Sprechpausen ein. So können Nutzer auch Pausen ergänzen und bestimmte Wörter anders aussprechen oder betonen lassen. Selbst wenn eine Passage im Text geflüstert werden soll, lässt sich dies durch einen SSML-Tag realisieren.

Wer denkt, solch ein KI-Service wie Amazon Polly sei unbezahlbar, irrt sich übrigens gewaltig. Bei einem durchschnittlichen Artikel von drei Seiten mit einer Länge von circa 6.500 Zeichen kostet die Text-to-Speech-Version lediglich 0,03 USD. Der eigentliche Aufwand bei der Erstellung der Audio-Variante entsteht also dadurch, dass man seinen Text wie oben beschrieben vorbereiten muss, um den Tücken und Fallstricken bei der Vertonung mit Amazon Polly zu entgehen.