Wie wird die Aussprache von Screenreadern gesteuert?

https://audio.podigee-cdn.net/1907540-m-80cc5f36f97094cdf321bc1689348a92.mp3?source=feed
Eine kleine Klärung für Einsteiger in das Thema Screenreader: Screenreader und Sprachausgabe werden oft synonym benutzt, aber es handelt sich um unterschiedliche Programme. Der Screenreader ist die Schnittstelle zum PC und liest Informationen aus. Die Sprachausgabe ist ein reines Ausgabemedium, ein anderes Medium wäre Braille. Die Sprachausgabe ist also prinzipiell ein vom Screenreader unabhängiges Modul.
Alle Screenreader bringen einen Sprach-Synthesizer mit, für NVDA ist das eSpeak, für Jaws Eloquence. Diese Sprachausgaben klingen in vielen Ohren künstlicher als die Sprachausgaben, die zum Beispiel in Smartphones oder Navis zum Einsatz kommen. Sprachausgaben verwenden entweder synthethisch oder aufgenommene Phoneme, also Wortbestandteile. Synthetische Stimmen wurden zu einer Zeit entwickelt, als man Speicher noch in Kilobyte und Megabyte rechnete. Synthetische Sprachausgaben sind in der Regel schlank und performant, während natürliche Phonneme viel Speicherplatz brauchen und manchmal wenig performant sind. Die meisten blinden Hardcore-Nutzer:Innen von Sprachausgaben nutzen synthetische Sprachausgaben.

Inhalt

Wer steuert die Sprache?

Alle Sprachausgaben verfügen über Wörterbücher, welche die Aussprache zahlreicher Wörter Regeln. Um das zu verstehen muss man ungefähr wissen, wie die Aussprache generell funktioniert.
Im Grunde könnte alles so schön einfach sein. Wir legen ein paar Regeln fest, wie bestimmte Phoneme zusammengesetzt und ausgesprochen werden und halten uns daran. In Wirklichkeit gibt es tausende von Ausnahmen von diesen Regeln, die mit Logik nichts zu tun haben. So wird der „Weg“ anders ausgesprochen als das „weg“ in „ich bin dann mal weg“.
Solche Ausnahmen gibt es viele und einige von ihnen sind in den Wörterbüchern der Sprachausgaben verankert. Es gibt also Regeln, wie die Phoneme zusammengesetzt werden, die in vielen Fällen greifen sowie Wörterbücher, um Ausnahmen von den Ausspracheregeln abzufangen. Kompliziert wird es bei den in Deutschland so beliebten Komposita. Viele Screenreader sind etwa nicht in der Lage, das Wort „Chancengleichheit“ korrekt auszusprechen. Es klingt meistens wie Kanzengleichheit. Das liegt daran, dass hier zwei Wörter kombiniert werden und der Screenreader nicht herausfinden kann, wo Wort 1 aufhört und Wort 2 anfängt. Das Problem gibt es auch, wenn die Ausnahme-Regeln nicht greifen, die dafür entwickelt wurden. Das passiert etwa, wenn das betreffende Wort falsch geschrieben ider ungünstig manuell getrennt wird.
Auch die Zeichen-Aussprache ist ein komplexes Thema. In gängigen Screenreadern gibt es vorgegebene Modi zur Zeichenaussprache wie „alle“, „wenige“ oder „keine“, wobei jeder Screenreader selbst definiert, welche Zeichen unter diesen Modi subsummiert werden. Bei NVDA war eine Zeitlang das Euro-Zeichen € unter „einige“ abgeschaltet, eine ziemlich unsinnige Entscheidung.
Und wie soll es anders sein: Auch hier kann der Nutzer definieren, welche Zeichen in welchen Kontexten ausgesprochen werden sollen.
Regeln können sowohl von dem Screenreader als auch von dem Sprach-Synthesizer vorgegeben werden. Last not least kann der Nutzer selbst Aussprache-Regeln festlegen. Er kann sogar kontext-abhängig unterschiedliche Wörterbücher verwenden, wenn er etwa in der Textverarbeitung etwas anders ausgesprochen haben möchte als im Internet-Browser. Profis können mit regulären Ausdrücken noch eine feinere Steuerung durchführen.

Warum ist das wichtig

Aus den oben genannten Gründen sind Sprachauszeichnungen für einzelne Begriffe nicht sinnvoll. Die meisten Leute wissen nicht, was Fremdwörter sind. Restaurant, Smartphone, Foyer, Lobby, Team… Was davon muss gekennzeichnet werden und was nicht?
Die Screenreader sind sich uneins und viele Blinde verwenden heute mehr als einen. Ich habe NVDA, Jaws und VoiceOver am Start und mir fällt gar nicht mehr auf, wer was wie ausspricht. Jaws spricht das Wort „Team“ korrekt aus, NVDA tut das nicht. Ich könnte mir das nicht merken und Sehenden ist das erst recht nicht zumutbar. Man kann die gewonnene Zeit sinnvoller investieren.
Das zweite Problem ist, das eine Sprachauszeichnung nicht garantiert, dass ich das Wort verstehe. Anders als bei den Wörterbüchern der Screenreader wird nicht festgelegt, wie das Wort ausgesprochen wird. Vielmehr wird dem Screenreader die Anweisung gegeben, für dieses Wort sagen wir auf die französische Sprachausgabe umzuschalten und es so auszusprechen, als ob der Hörer Franzose wäre. Ich weiß aber gar nicht, wie Restaurant auf französisch klingt, weil ich dieser Sprache nicht mächtig bin. Bei der Geschwindigkeit, auf die ich meinen Screenreader eingestellt habe könnte ich im französischen Modus kein einzelnes Wort und im Englischen bestenfalls noch den groben Sinn erfassen. Leider interessiert das die sehenden Personen hinter dem BITV-Test nicht.
Es gibt auch SSML (Speech Synthesis Markup Language): Mit speziellen Markup-Sprachen wie SSML können Entwickler die Aussprache auf Webseiten gezielt beeinflussen, z. B. für Betonung, Pausen oder Lautstärke. Sicher gibt es Einsatz-Szenarien, wo das sinnvoll ist. Meistens sollte man es aber den Screenreadern und Nutzerinnen überlassen.

Wie wird die Aussprache von Screenreadern gesteuert?

Wer steuert die Sprache?

Warum ist das wichtig

Zum Weiterlesen