SSML – Speech-Synthesis-Markup-Language
Mit der Speech Synthesis Markup Language (SSML) in der Version 1.0 steht nun eine auf XML basierende Spezifikation für die Generierung und Steuerung von Sprachausgaben in Webbrowsern zur Verfügung. Über die SSML können XML-Dokumente erzeugt werden, die eine Sprachausgabe definieren und über Parameter in einem weiten Bereich auch manipulieren können. Mit Attributen steuern Sie ganz einfach die Sprecherstimme, die Tonhöhe, die Sprechgeschwindigkeit und die Betonungen der auszugebenden Informationen. Auch schwierige Passagen wie formatierte Informationen, Zahlen und Datumsangaben sowie auch Akzente können dabei berücksichtigt werden. Dieser Artikel gibt Ihnen einen ersten Einblick in die SSML.
Die Speech Synthesis Markup Language wurde von der Voice Browser Working Group des W3C entwickelt und basiert in weiten Teilen auf den Spezifikationen JSGF und JSML, die von Sun Microsystems definiert wurde. Diese Basisspezifikation finden Sie unter [1]. Mit der SSML, die einen Teil einer größeren Entwicklungsphase für Sprachausgabesysteme darstellt, können Entwickler nun Webbrowser und auch andere Anwendungen mit dieser Fähigkeit ausstatten und somit auch eingeschränkten Anwendern eine benutzerfreundliche Bedienungsoberfläche anbieten.
Beim Thema Sprachausgabesysteme entstehen immer wieder Verwechslungen zwischen den verwendeten Begriffen, die in diesem Zusammenhang genannt werden. Um hier etwas Licht ins Dunkel bringen zu können, möchte ich die für diesen Artikel geltenden Begriffe zu Begin gleich einmal definieren. Drei wichtige Begriffe werden Sie immer wieder antreffen, die wie folgt beschrieben werden können:
- Voice Browser
Ein Voice Browser stellt ein Gerät dar, welches die Sprachauszeichnungen eines Dokumentes, das z.B. in der SSML geschrieben wurde, in synthetische Sprache übersetzen und auf einem geeigneten Medium ausgeben kann. Zudem kann ein solches Gerät auch eine Spracherkennung realisieren und dadurch auf gesprochene Wörter/Wortsequenzen entsprechend reagieren. - Speech Synthesis
Die Speech Synthesis (Sprachsynthetisierung) ist der eigentliche Prozess, wenn, basierend auf einem geeigeneten Dokument, eine Sprachausgabe erzeugt wird. Dabei kann es sich unter anderem auch speziell und reine Textinformationen, formatierten Text und auch binären Objekten handeln. - Text-To-Speech
TTS-Systeme haben die Aufgabe, bestimmte Textinformationen direkt und unabhängig der eingesetzten Software in Sprachausgabe umzuwandeln. Diese TTS-Systeme sind bereits seit geraumer Zeit für begrenzte Anwendungen wie Ansagen, automatische Antwort- und Auskunftssysteme sowie auch als Vorlese-Anwendungen für eingeschränkte Anwender im Einsatz.
Den vollständigen Fachbeitrag finden Sie bei unserem Kunden (#KID-024) unter der folgenden Webadresse: (#KID-024-L).
[#Info: Sie sehen hier keinen Kundennamen und Kunden-URL? Nehmen Sie einfach Kontakt mit uns auf, um sich hier mit Ihrem Unternehmennamen und der vollständigen Themen-URL eintragen zu lassen. #Info]
Benötigen Sie einen fachlich hochwertigen, uniquen und SEO-optimierten Text zu diesem oder einen ähnlichen Themenbereich? Gerne erstellen wir für Sie ansprechende Fachtexte, aktuelle Themenbeitrage oder produktorientierte Testberichte. Sie brauchen eBooks oder komplette Manuskripte nach Ihren speziellen Vorgaben? Klicken Sie hier für eine unverbindliche Anfrage.