Drücke "Enter", um den Text zu überspringen.

Künstliche Intelligenz – die Killer-applikation für Barrierefreiheit und assistive Technologien?

Kein Thema hat die Tech-Branche in den letzten beiden Jahren so beschäftigt wie das Thema Künstliche Intelligenz (KI). Auch im Bereich digitale Barrierefreiheit wird viel darüber diskutiert. In diesem Beitrag soll es anhand konkreter Beispiele darum gehen, welches Potenzial in der KI steckt und wo noch Limitierungen sind.
Der Markt ist stark in Bewegung. Deshalb werden in diesem Beitrag keine konkreten Produktnamen mit Ausnahme der großen Large-Language-Models (LLMs) genannt.

Bild-Beschreibungen

Ein wichtiges Thema sind KI-generierte Bild-Beschreibungen. Während es kein Problem ist, für ein einfaches Bild eine Beschreibung händisch zu erstellen, stehen viele Organisationen vor der Herausforderung, viele tausend Bilder zu beschreiben. Das betrifft zum Beispiel den akademischen Bereich oder Online-Shops. Ein einfacher Alternativtext wie „mathematisches Modell“ oder „schwarzer Stiefel“ wäre zwar korrekt, aber nicht ausreichend, damit Blinde den Inhalt der Grafik verstehen. Gleichzeitig fehlt es an menschlicher Arbeitskraft, um all diese Grafiken angemessen zu beschreiben.
Ein weiteres Problem ist, dass blinde Menschen Beschreibungen unterschiedlich ausführlich haben wollen, je nach Nutzungs-Kontext. Für die einen sind die Beschreibungen zu kurz, für andere zu lang. Oder es fehlen genau die Informationen, die man in dem Moment benötigt. LLM erlauben das gezielte Stellen von Rückfragen nach Details. Das kann zum Beispiel im Studium für Informationsgrafiken wichtig sein.
Gleichzeitig sind blinde Menschen auf korrekte Beschreibungen angewiesen. Sie können nicht selbst prüfen, ob die Beschreibung zutreffend ist oder nicht. Es ist also wünschenswert, dass Beschreibungen möglichst noch einmal durch einen Menschen geprüft werden. Obwohl LLMS eine gute Beschreibungs-Qualität erreichen können gibt es doch einen Grad an Ungenauigkeit und Halluzination.

ChatGPT hat gerade in den USA eine Funktion in den Bezahl-Modellen ausgerollt, die Live-Beschreibungen von Umgebungen anbietet. In Kombination mit Kamerabrillen ist das eine evolutionäre Weiterentwicklung, die vielen Blinden und Sehbehinderten viele Möglichkeiten eröffnet.
Die Apps Seeing AI oder Piccybot bieten bereits KI-generierte Audio-beschreibungen von kurzen Videos, siehe dazu das Youtube-Video oben. Kurz gesagt passiert in diesem bereich in den letzten beiden Jahren mehr als in den 10 Jahren zuvor.

Sprach-Verständlichkeit

Ein weiteres großes Thema ist die Verständlich-Machung von Texten. Als Spezial-Formen für verständliche Texte gibt es in Deutschland die Leichte Sprache und die Einfache Sprache. Beide Sprachformen erfordern viel Erfahrung in der Übersetzung oder die finanziellen Mittel, um Profis mit dieser Aufgabe zu beauftragen. KI kann in diesem Bereich ähnlich wie bei Fremdsprachen bereits gute Dienste leisten. Es gibt zum Beispiel ein Modell von ChatGPT, dass Wikipedia-Texte automatisch verständlicher macht. Gängige LLMs sind sehr gut darin, vorhandene Texte zusammenzufassen oder verständlicher zu machen.
Allerdings gibt es auch in diesem Bereich Grenzen. Die KI kann nicht alle Kontexte korrekt übertragen, irrt sich manchmal bei der Gewichtung von Informationen und kann bestehende Texte nicht immer neu strukturieren, wenn das für die Verständlichkeit sinnvoll wäre.

Sprach-Steuerung für alle

KI kann dort ihre Stärken entfalten, wo die klassische Technik an ihre Grenzen stößt. So gibt es Personen, die keine Sprach-Steuerung nutzen können, weil die Software sie nicht versteht. Personen, die aufgrund ihrer Behinderung keine Maus, Tastatur und Sprach-Steuerung nutzen können sind sehr eingeschränkt, was die Technik-Nutzung angeht.
Ein weiteres Problem gibt es für Personen, die kommunikativ so eingeschränkt sind, dass sie praktisch nur von ihren Eltern verstanden werden können. Was aber passiert, wenn die Eltern oder andere Bezugspersonen nicht mehr da sind?
Durch Machine Learning ist es möglich, dass die Software allmählich lernt, die Äußerungen einer Person korrekt zu interpretieren oder sogar als Sprache auszugeben. iOS hat seit der Version 18 eine Funktion, um die Stimme einer Person zu klonen, so dass das Smartphone mit der Stimme der Person Sprache ausgeben kann. Bisher gab es nur Standard-Stimmen für alle Betroffenen, die sehr unnatürlich klangen oder nicht zur Person passten. Wie so viele Themen ist auch diser Bereich der unterstützten Kommunikation bisher noch sehr wenig supportet. Es muss sich wesentlich mehr tun, damit diese Gruppe besser teilhaben kann.

AgeTech als support für ältere Menschen

Ein weiterer Bereich, in dem sich meiner Meinung nach mehr tun müsste ist das Thema Technik im Alter. Ich könnte mir gut vorstellen, dass etwa Personen mit Demenz von einem virtuellen Assistenten unterstützt werden könnten. Er kann ihnen helfen, sich an Dinge zu erinnern, Medikamente korrekt und zum richtigen Zeitpunkt einzunehmen und vieles mehr. Der Bereich nennt sich AgeTech und wird aufgrund des demografischen Wandels in den nächsten Jahren immer relevanter.

Software statt Technik – der große Vorteil

Die Entwicklung neuer Hardware-Dvieces ist extrem teuer, wobei die Hilfsmittelbranche von Mittelständlern geprägt ist. Sie sind sehr begrenzt, was die Entwicklung enuer Produkte angeht. Auch die Software-Entwicklung ist nicht gerade günstig. Deshalb entwickelt sich der Markt nicht so dynamisch wie das bei Mainstream-Produkten mit hohen Verkaufszahlen und Budgets der Fall ist.
Auch hier hat die KI mit den LLMss große Vorteile: Software-Agenten können mit relativ wenig Aufwand und mit geringen oder keinen Programmier-Kenntnissen entwickelt und verbessert werden. Das heißt, dass auch die resultierenden Produkte relativ günstig oder sogar kostenlos angeboten werden können.

Die nächste Revolution steht schon vor der Tür

Der nächste große Bereich nach der KI ist schon absehbar: Robotik wird in den nächsten Jahren eine wachsende Rolle im Alltag einnehmen. Sie kann motorisch behinderten Menschen helfen, aber auch Älteren, wenn es um die Erledigung von Aufgaben geht. Ältere Menschen zum Beispiel haben für viele Aufgaben nicht mehr die Körperkraft oder Fein-Motorik.

Fazit

Das sind nur einige Beispiele dafür, was KI für die Barrierefreiheit leisten kann. Neue Anwendungen sind in Sicht: Sowohl Antropic als auch ChatGPT bieten mittlerweile in den Bezahl-Modellen Möglichkeiten, sich grafische Benutzeroberflächen beschreiben zu lassen und diese auch zu steuern. Das könnte die Revolution sein, auf die vor allem Blinde oder stark Sehbehinderte, aber auch motorisch behinderte Menschen gewartet haben. Es erleichtert die Bedienung von nicht-barrierefreien Applikationen deutlich.
Gleichzeitig muss man einschränken, dass die KI einige der komplexeren Probleme auf absehbare Zeit nicht lösen kann: Sie kann digitale Produkte nicht automatisch vollständig barrierefrei machen, sie kann keine manuellen Tests ersetzen oder Dokumente korrekt strukturieren. Ein wichtiges Thema ist zum Beispiel der korrekte Einsatz von Komponenten wie eines Links oder eines Buttons: Ein Mensch kann sehr gut entscheiden, in welchem Kontext das eine oder das andere Element in einer grafischen Benutzeroberfläche sinnvoll ist. Die KI kann das bisher nicht.
Gleichzeitig gilt, dass Datenschutz und Sicherheit höchste Priorität haben müssen. Die Nutzenden müssen darauf vertrauen können, dass ihre Inhalte sicher sind und nur wenn erlaubt für das Training außerhalb des eigenen Kontextes verwendet werden. Ansonsten werden viele die Technik nicht nutzen.
Anwendungen wie die oben beschriebenen entstehen nicht von selbst. Wir brauchen engagierte Nonprofif und Unternehmerinnen, die solche Ideen entwickeln und umsetzen.
Hinzu kommt, dass die Technologien nicht wie bisher nur den Vermögenden zur Verfügung stehen sollten.
Last but not least ist wichtig, dass Technologien nicht für, sondern mit den Zielgruppen entwickelt werden. Wir mögen denken, dass wir die praktischen Probleme kennen. Doch liegen wir oft genug voll daneben. Wenn wir wollen, dass die Produkte genutzt werden, dann müssen wir die Zielgruppen mit modernen Methoden wie Co-Creation einbeziehen und Praxis-Tests durchführen.

Zum Weiterlesen