Sie sind hier

Wie funktioniert die Sprachausgabe?

Eine kleine Klärung für Einsteiger in das Thema Screenreader:
Screenreader und Sprachausgabe werden oft synonym benutzt, aber es handelt sich um unterschiedliche Programme. Der Screenreader ist die Schnittstelle zum PC und liest Informationen aus. Die Sprachausgabe ist ein reines Ausgabemedium, ein anderes Medium wäre Braille.
Braillezeile
Fast alle Screenreader bringen einen Sprach-Synthesizer mit, für NVDA ist das eSpeak, für Jaws Eloquence. Diese Sprachausgaben klingen in vielen Ohren künstlicher als die Sprachausgaben, die zum Beispiel in Smartphones oder Navis zum Einsatz kommen.
Das dürfte zumindest teilweise Absicht sein, ich benutze Jaws seit der Version 4 bis heute und kann mich nicht erinnern, dass die Elo sich in dieser Zeit großartig verändert hat. Natürlich klingende Sprachen sind vermutlich für Screenreader Ressourcenfresser, da sie in Echtzeit arbeiten und nicht nur im Wesentlichen Textbausteine zusammensetzen, wie es Navis tun. Zudem haben Linguatec und andere Entwickler natürlich klingender Sprachen einen technischen Vorsprung, der sich mit den finanziellen Mitteln der Screenreader-Entwickler nicht einholen lässt. Allerdings bieten Jaws und NVDA mittlerweile an, die natürlichen Stimmen zu integrieren.

Wer steuert die Sprache?

Ich bin immer davon ausgegangen, dass der Synthesizer im Wesentlichen nur die Phoneme liefert und der Screenreader die gesamte Steuerung übernimmt. Das scheint aber falsch zu sein. Ich verwende zuhause NVDA mit eSpeak und für externe Präsentationen die deutsche Stimme, die in Windows 8 integriert ist. Diese Stimme spricht viele Wörter anders aus, als es eSpeak tut.
Elo und eSpeak verfügen über Dictionaries, welche die Aussprache zahlreicher Wörter Regeln. Um das zu verstehen muss man ungefähr wissen, wie die Aussprache eigentlich funktioniert.
Im Grunde könnte alles so schön einfach sein. Wir legen ein paar Regeln fest, wie bestimmte Begriffe ausgesprochen werden und halten uns daran. In Wirklichkeit gibt es tausende von Ausnahmen von diesen Regeln, die mit Logik nichts mehr zu tun haben. So wird der „Weg“ anders ausgesprochen als das „weg“ in „ich bin dann mal weg“.
Solche Ausnahmen gibt es viele und einige von ihnen sind in den Wörterbüchern der Sprachausgaben verankert. Andererseits scheint die Steuerung der Sprache bei der Interpunktion eher vom Screenreader abzuhängen. So ist mir aufgefallen, dass Screenreader die Stimmabsenkung am Satzende wesentlich korrekter erfassen als Vorlese-Systeme wie der ReadSpeaker, der zum Beispiel von Heise Online eingesetzt wird. Letztere senken die Stimme zum Beispiel oft auch bei Punkten, die in Abkürzungen wie bzw. verwendet werden.
Dann gibt es Aspekte, bei denen ich einfach nicht weiß, wo sie herkommen. So spricht zum Beispiel der Screenreader von Android oder auch NVDA die Zeichenkette „Fr“ gerne als „Frau“ aus, obwohl sie viel wahrscheinlicher für Freitag steht. Er sagt dann zum Beispiel „Frau, 13. Oktober“. Da hat wohl jemand nicht mitgedacht, denn Fr. für Freitag ist wohl wesentlich geläufiger als für“Frau“. Unsinnig wird es, wenn NVDA frau-online.de statt fr-online.de liest - letzteres ist der Webauftritt der Frankfurter Rundschau. Mir ist nicht klar, ob dieser Bug aus eSpeak oder NVDA kommt, aber es wäre toll, wenn man das fixen würde.
Die Abkürzung bzw. wird immer als beziehungsweise ausgesprochen, obwohl sie nicht als Abkürzung gekennzeichnet ist. Jaws spricht die für uns unverzichtbare Zeichenkette „FYI“ als „for your information“ aus. Ehrlich gsagt fand ich das immer eher verwirrend als hilfreich, hier wäre es sinnvoller, wenn die Screenreader nur lesen würden, was tatsächlich auf dem Bildschirm steht.
Um die Verwirrung komplett zu machen: Die großen Screenreader verfügen über eigene Wörterbücher, bei denen man selbst die Aussprache von wörtern definieren kann. Ehrlich gesagt war ich immer zu faul, so etwas zu machen, ich habe mich so sehr daran gewöhnt, dass mein Computer „Fierefocks“ sagt, dass es mir gar nicht mehr auffällt. Bei dem Tempo, auf dem der Screenreader bei vielen Leuten eingestellt wird, ist die Aussprache einzelnerWörter wirklich nicht mehr relevant.

Warum erzähle ich das alles?

Ganz einfach, ich möchte zeigen, warum Sprachauszeichnungen für einzelne Wörter heute Zeitverschwendung sind. Natürlich sollten Webseiten und Dokumente mit einer korrekten Hauptsprache gekennzeichnet sein. Es mag noch sinnvoll sein, längere Zitate auszuzeichnen. Aber bei einzelnen Wörtern macht das heute keinen Sinn mehr, warum?
Die meisten Leute wissen nicht, was Fremdwörter sind. Restaurant, Smartphone, Foyer, Lobby, Team... Was davon muss gekennzeichnet werden und was nicht?
Die Screenreader sind sich uneins und viele Blinde verwenden heute mehr als einen. Ich habe NVDA, Jaws und VoiceOver am Start und mir fällt gar nicht mehr auf, wer was wie ausspricht. Jaws spricht das Wort „Team“ korrekt aus, NVDA tut das nicht. Ich könnte mir das nicht merken und Sehenden ist das erst recht nicht zumutbar. Man kann die gewonnene Zeit sinnvoller investieren.
Das zweite Problem ist, das eine Sprachauszeichnung nicht garantiert, dass ich das Wort verstehe. Anders als bei den Wörterbüchern der Screenreader wird nicht festgelegt, wie das Wort ausgesprochen wird. Vielmehr wird dem Screenreader die Anweisung gegeben, für dieses Wort sagen wir auf die französische Sprachausgabe umzuschalten und es so auszusprechen, als ob der Hörer Franzose wäre. Ich weiß aber gar nicht, wie Restaurant auf französisch klingt, weil ich dieser Sprache nicht mächtig bin. Bei der Geschwindigkeit, auf die ich meinen Screenreader eingestellt habe könnte ich im französischen Modus kein einzelnes Wort und im Englischen bestenfalls noch den groben Sinn erfassen.
Mein Fazit ist, dass die Sprachauszeichnung für einzelne Wörter nichts bringt und ihr es getrost lassen könnt.

Zum Weiterlesen