Die WebAIM-Million 2024 – sind 96 Prozent der Webseiten nicht barrierefrei?

Repost aus gegebenem Anlass: WebAim hat eine neue Analyse im März 2024 veröffentlicht. Mit hohen Zahlen wie 50 Millionen gefundenen Fehlern auf eine Millionen Startseiten ist Aufmerksamkeit sicher. Meine Kritikpunkte bleiben aber bestehen.

Inhalt

Kommunikation von WebAIM auf Effekt ausgelegt

96 Prozent der meist genutzten Webseiten nicht barrierefrei – die Nachricht macht aktuell wieder die Runde auf Twitter und einschlägigen Accessibility-Kanälen. Tolle Sache, vor allem, wenn man nur Überschriften liest. Persönlich finde ich die WebAIM-Erhebung aus zahlreichen Gründen nicht aussagekräftig bzw. werden falsche Schlüsse gezogen. Die Gründe möchte ich in diesem Beitrag darlegen.

Kurz zur Erklärung: In Fachkreisen sprechen wir nicht von Barrierefreiheit, sondern von Konformität. Konformität heißt, dass ein bestimmter Standard erfüllt wurde, zum Beispiel WCAG 2.1 auf Stufe AA. Da der Begriff „barrierefrei“ für Webseiten nicht fest definiert ist, ist dieser Behelf stets notwendig.

Generell handelt es sich aus meiner Sicht weder um eine Analyse noch um eine Studie, der Begriff Daten-Erhebung passt am ehesten. WebAIM selbst gibt nur Zahlen heraus und interpretiert relativ wenig, es fehlt also an analytischer Tiefe. Für eine Studie wäre ein Hauch von empirischer Methodik notwendig, der ebenfalls nicht zu finden ist. Die – zumeist falschen – Interpretationen kommen von anderen Personen. Das WebAIM die Zahlen nur kommuniziert und nicht interpretiert, finde ich allerdings sinnvoll.

Da der Artikel recht lang geworden ist, möchte ich die Haupt-Kritik am Anfang zusammenfassen:

Die gefundenen Fehler dürften häufig nicht zu einer eingeschränkten Nutzbarkeit der Websites durch behinderte Menschen führen. Jede Teilmenge von Websites ist durch eine Teilmenge der behinderten Menschen schlecht oder gar nicht nutzbar, aber WebAims Erhebung bringt uns diesbezüglich keine neuen Erkentnisse. Nutzbarkeit durch behinderte Menschen und Konformität mit Barrierefreiheits-Regeln sind nicht immer deckungsgleich. Wenn einige Expert:Innen auf Grund der WebAIM-Analyse behaupten, 96 Prozent der Websites seien durch behinderte Menschen überhaupt nicht nutzbar, kann man das nur als Unsinn bezeichnen. Dass eine komplette Website überhaupt nicht nutzbar ist, kommt äußerst selten vor, häufig sind aber einzelne Teile wie der Login, die Cookie-Meldung und ähnliche Dinge nicht nutzbar. Das sind aber völlig verschiedene Dinge und man sollte sich schon an die Fakten halten.
Der Test ist so oder so eine Moment-Aufnahme: Zum Zeitpunkt X wurden so und so viele Fehler gefunden. Sie können eine Minute nach dem Test behoben oder es können andere Fehler hinzugekommen sein. Würde man das Test-Sample vergrößern, sich also nicht nur die Startseiten anschauen, würden vermutlich alle Websites mindestens einen (eher deutlich mehr) Fehler aufweisen. Was ist mit dieser Erkenntnis gewonnen?
WebAIM nimmt keine Gewichtung vor, wie schwerwiegend die Fehler sind. 1 oder 1000 Fehler, nach WebAIM ist das gleichermaßen relevant. Die Kommunikation ist nicht auf Information, sondern auf maximalen Effekt ausgelegt. Nicht jeder WCAG-Fehler ist gleichermaßen relevant, WebAIM suggeriert, das sei der Fall.
Wenn ich eine Studie lese, die behauptet, fast 100 Prozent der Anbieter würden gegen Regeln verstoßen, dann würde ich den Schluss daraus ziehen, dass die Regeln nicht erfüllbar sind. Ist es das, was WebAIM sagen möchte, dass es nicht möglich ist, mit den WCAG-Regeln konform zu sein? Wenn nein, worin liegt der Erkenntnis-Gewinn? Jede Expertin wird Ihnen heute sagen, dass absolute Konformität mit den Regeln für ein komplexes Angebot kaum mit vernünftigem Aufwand erreichbar und auch nicht notwendig ist.
Automatisierte Tools sind begrenzt aussagekräftig. Sie können Aussagen über eine große Menge von Daten treffen, die aber auf das einzelne Objekt betrachtet eventuell nicht relevant sind. Ich kann z.B. behaupten, dass Personen in Deutschland im Schnitt 1,80314 Meter groß sind und 71,235124 kg wiegen, was im Durchschnitt zutreffen mag, aber auf kein Indiduum. Die Websites weisen also wahrscheinlich Fehler auf, aber wie viele das sind und ob sie für die Nutzung relevant sind, kann die WebAIM-Studie nicht belegen. Schwerwiegender finde ich, dass wichtige Kriterien wie Benutzbarkeit per Tastatur oder das Abschalten von Animationen und Bewegungen gar nicht automatisch geprüft werden können, zumindest nicht mit Wave. Selbst die Homepages mit den meisten von WebAIM gefundenen Fehlern könnten weit besser sein als jene, auf denen WebAIM kaum Fehler gefunden hat: Sie könnten massenhaft Fehler enthalten, die nicht automatisch aufspürbar sind.
Auch der Umkehr-Schluss ist falsch: Weil WebAIM auf 4 Prozent der geprüften Websites keine Probleme gefunden haben will, müssen diese Seiten nicht barrierefrei oder für behinderte Menschen gut nutzbar sein, wie etwa Knowbility auf Twitter behauptet. Als Faustregel gilt, dass ca. 35 Prozent der Probleme automatisiert gefunden werden können. WebAIMs Studie belegt also höchstens, dass diese 4 Prozent automatisch (wahrscheinlich mit WebAIMs Wave) getestet und diese Fehler ausgebügelt haben. Sie könnten aber trotzdem massenhaft nicht automatisch aufspürbare Fehler enthalten. Das zeigt deutlich, wie wenig aussagekräftig der WebAIM-Score ist.
WebAIM suggeriert, dass es eine klare Relation zwischen der Zahl der gefundenen Fehler und der Barrierefreiheit gibt. Das ist nach aller Erfahrung nicht der Fall. Ein einzelner Fehler wie eine Tastaturfalle kann dazu führen, dass eine Anwendung nicht nutzbar ist. 10 Kontrast-Fehler etwa bei Werbebannern sind zwar nicht optimal, aber dürften in aller Regel keinen großen Impact haben, niemand ruft eine Nachrichtenseite auf, um sich die Werbung anzuschauen.
WebAIM animiert dazu, die Website mit dem eigenen Tool Wave zu optimieren. Das mag ein paar relevante Fehler beheben, hat aber nicht unbedingt relevanten Impact auf die Nutzbarkeit durch behinderte Menschen.

Methodik

Die eine Millionen Websites wurden mit dem WAVE-Tool von WebAIM automatisiert geprüft. Vielmehr ist zur Methodik auch nicht zu sagen. Es ist schlicht nicht möglich, eine solche Menge an Websites in angemessener Zeit qualitativ zu analysieren.

Hier beginnt aber auch schon das erste Problem: Das Tool untersucht sowohl WCAG-Kriterien nach A und AA. Doch selbst in den USA sind die meisten Betreiber nicht zur Barrierefreiheit verpflichtet und streben in der Regel wenn überhaupt nur A an. Es macht keinen Sinn, Organisationen auf AA zu prüfen, die das nicht anstreben, weil sie sich zum Beispiel an die Kontrast-Anforderungen nicht gebunden fühlen.

WebAIM macht außerdem nicht transparent, wie sie mit dem Kriterium 4.1.1 Parsing umgegangen sind, das mit der WCAG 2.2 abgeschafft wurde. Unter den dargestellten Fehlern ist kein WCAG-2.2-Kriterium zu finden, obwohl sie nach WCAG 2.2 geprüft haben wollen. Ich vermisse eine Tabelle über alle gefundenen Fehler verteilt auf die einzelnen Homepages. WebAIM ist hier leider alles Andere als transparent.

Automatisierte Tools sind begrenzt bis gar nicht hilfreich

Auch wenn WebAim Wave noch zu den besseren Tools zählen mag, ist man sich einig, dass diese Tools vielleicht 30 bis 40 Prozent der Barrierefreiheitsfehler finden können. Meines Erachtens sind die Tools nach wie vor eher mangelhaft, ich habe Zugang zu Siteimprove und Silktide und beide geben viele Fehler aus, die keine Relevanz haben. Es gibt viele falsch-positive Ergebnisse, d.h. es werden Fehler behauptet, die einer manuellen Prüfung nicht Stand halten. Andererseits gibt es viele falsch-negative Ergebnisse, also Fehler, die nicht erfasst werden.

Es gibt Dinge, die man automatisch messen kann wie das Vorhandensein bestimmter HTML-Elemente, ARIA-Attribute, Labels, Alternativtexte und einige Kontraste. Doch ist die Liste der Dinge länger, die sie nicht auswerten können. Dazu gehört die Sinnhaftigkeit von Alternativtexten, der sinnvolle Einsatz von ARIA, die korrekte Auszeichnung von Texten oder Formular-Elementen.

Kurz: Ob Wave Fehler anzeigt oder nicht, ist vollkommen irrelevant. Ein fauler, aber schlauer Entwickler lässt das Tool drüberlaufen, bügelt die Fehler aus und bekommt seine Seite konform, ohne ein Quentchen an der Barrierefreiheit verbessert zu haben.

Im Gegenteil setzt das Tool Fehl-Anreize, nämlich die Optimierung für automatisierte Prüftools. Warum aufwendige manuelle Tests, wenn WebAIM mit einem Klick grünes Licht gibt?

Wie WebAIM selber anmerkt, werden Webseiten immer komplexer. Ich gehe allerdings davon aus, dass viele Webseiten insbesondere aus dem angloamerikanischen Raum das Thema Barrierefreiheit auf dem Schirm haben. Das heißt, sie kümmern sich um Alternativtexte oder sinnvolle Link-Beschreibungen. Allerdings ist es für extern eingebundene Inhalte teils nicht möglich, diese Faktoren zu berücksichtigen.

Ein Großteil der Fehler dürfte auf solche eingebundenen Inhalte zurückzuführen sein: Das sind etwa Social-Media-Inhalte oder Werbung. Wenn man nach WebAIM geht, sollte man solche Inhalte wahrscheinlich weglassen, da man sie nicht barrierefrei machen kann. Damit dürfte man die Leute eher von Barrierefreiheit abschrecken. Etwas Anderes gilt für eingebundene Bibliotheken wie etwa Generatoren für Infografiken, hier sollte natürlich auf Barrierefreiheit geachtet werden. So was überprüft WebAIM Wave aber nicht separat. Sinnvoll wäre die Trennung von realem Website-Content und Content aus externen Quellen wie Werbe-Netzwerken, das würde eine realistischere Bewertung erlauben. Ob das technisch immer möglich ist, weiß ich nicht, aber so sind die Ergebnisse einfach nicht aussagekräftig, weil man nicht weiß, ob die Betreiberin der Website verantwortlich ist oder das Werbe-Netzwerk.

Schauen wir uns die Fehler einmal genauer an (die Zahlen beziehen sich auf eine ältere WebAIM-Studie):

86 Prozent mit Fehlern beim Kontrast: Wie oben angemerkt kein AA-Kriterium
66 Prozent Bilder mit fehlenden Alternativtexten: Hier gehts wahrscheinlich um extern eingebundene Inhalte, auf die man keinen großen Einfluss hat, gleiches gilt für Links ohne Text.
53 Prozent mit fehlenden Formular-Beschriftungen: In der Tat ärggerlich, aber das kann man nur im Zusammenhang beurteilen. Geht es etwa um das Suchfeld und ist nur ein Feld vorhanden, ist dieser Fehler nicht so schlimm.
28 Prozent fehlende Dokumentsprache – völlig irrelevant, da die meisten NutzerInnen der Webseiten MuttersprachlerrInnen sein dürften. Das Language-Attribut ist so ziemlich der größte Blödsinn, den sich die Accessibility Expert:Innen überhaupt ausgedacht haben.

Keine Seite ist ohne Fehler

Die eine Millionen am meisten besuchten Webseiten werden wohl jeweils von größeren Teams betreut. Da kann es immer wieder passieren, dass einzelne Redakteure Fehler machen: Sei es die fehlerhafte Einbindung eines Widgets, die falsche Verschachtelung von Überschriften oder das Vergessen des Alternativtextes. Wer ohne Fehler ist, werfe den ersten Stein auf WebAIM.

Das heißt, schon ein einzelner Fehler eines Redakteurs kann dazu führen, dass die Website durch die WCAG durchfällt. Kann man sinnvoll finden, praxisrelevant ist es nicht.

96 Prozent aller Webseiten weisen also Fehler auf, es dürften eher 100 Prozent sein. Wer schon mal Webseiten evaluiert hat weiß, dass man Fehler findet, wenn man gezielt nach ihnen sucht.

Am Ende geht es aber nicht um technische Perfektion, sondern darum, dass Menschen mit Behinderung die Website nutzen können. Darüber sagt die WebAIM-Studie tatsächlich gar nichts aus.

Niemand behauptet, dass alle Webseiten perfekt barrierefrei seien. Aber die Behauptung, 98 Prozent der Webseiten könnten von behinderten Menschen nicht genutzt werden ist einfach Quatsch. WebAIM sagt das nicht ausdrücklich, suggeriert es aber durch die gesamte Aufmachung der Kommunikation. Sheri BYRNE-Haber schreibt „98% of websites are completely inaccessible.“ auf Seite 33 in ihrem eBook „Giving a damn about accessibility.

Um es klar zu sagen: Es ist gut, diese Menge an Daten zu haben. Noch besser wäre es, die Rohdaten für die Forschung zur Verfügung zu stellen. Der Unsinn besteht in den Schlussfolgerungen, wie WebAIM damit suggeriert und Andere daraus ziehen.

Das Problem ist, dass eine Website bereits dann nicht konform ist, wenn ein einziger Fehler gefunden wird. Eine Gewichtung der Fehler findet nicht statt. Es ist also kein Unterschied zwischen es fehlt irgendwo eine Bildbeschreibung und der Kontrast der kompletten Seite ist verfehlt, beides ist ein Fehler, nur dass der eine in der Regel keine Rolle spielt und der andere riesigen Impact hat. In diesem Sinne hat ein winziger Fehler im Code die gleiche Bedeutung wie eine Cookie-Meldung, die sich nicht per Tastatur ausblenden lässt. Ersteres spielt in der Praxis keine Rolle, Letzteres verhindert die Nutzung der Seite durch eine Reihe von Personen. Das kann kein sinnvoller Maßstab sein.

Motivieren oder demotivieren

Ein Kunde wollte mich überreden, die Studie in einer der Schulungen zu erwähnen. Ich habe mich geweigert, aus den oben genannten Gründen. Aber auch, weil ich das Signal für fatal halte. Die Studie kann zeigen, dass auch Andere es nicht besser machen als man selbst und dann dazu motivieren, mehr zu tun.

Meines Erachtens hat sie aber einen demotivierenden Effekt. Sagt sie nicht aus, dass die WCAG 2.1 AA im Grunde nicht umsetzbar ist? Und das bei Websites, die teilweise ein sechsstelliges Budget haben dürften? Wenn es Riesen wie Amazon oder die New York Times nicht schaffen, ihre Websites barrierefrei zu machen, wie soll es dann dem lokalen Selbsthilfe-Verein gelingen. Solche Studien fördern meines Erachtens den Fatalismus, weil sie suggerieren, dass es kaum vorangeht.

Der einzige Nutzen, den ich sehe ist tatsächlich, dass hier eine große Menge an daten generiert wird. Dadurch kann man Vergleiche anstellen und Entwicklungen im zeitlichen Verlauf erkennen.

Die Websites untereinander zu vergleichen macht aus meiner Sicht keinen Sinn, Websites sind komplex oder weniger komplex, es wäre nicht sinnvoll, eine einfache Medien-Seite mit einem Onlineshop zu vergleichen.

Unter Site Categories kann man unterschiedliche Branchen, deren durchschnittliche Fehlerquote und Entwicklung verfolgen.

Tatsächlich sind die anderen Statistiken deutlich interessanter: Wie ist das Verhältnis von genutztem System/Framework zur Fehlerrate? Haben Websites mit Werbung mehr Fehler als solche ohne Anzeigen?

Für Forschende wären die Rohdaten der Analyse interessant, aber WebAim scheint diese nicht zugänglich machen zu wollen.

Was soll diese Erhebung

Im Grunde schätze ich die Kollegen von WebAIM. Umso mehr wundere ich mich darüber, dass sie so eine Erhebung veröffentlichen. Was ich hier schreibe ist sozusagen das kleine 1 mal 1 der Barrierefreiheit und natürlich auch den Verantwortlichen bekannt.

Ich habe im Grunde nur zwei Erklärungen: Entweder glauben sie tatsächlich so an die Qualität ihres Tools, dass sie die oben genannten Punkte einfach ausblenden. Oder – das vermute ich – die Studie ist ein reiner PR-Gag. Für eine schnelle Meldung ist das schön griffig: „96 Prozent aller Webseiten schließen Behinderte aus“. Kann man wunderbar in eine Schlagzeile packen. Dass diese Studie von WebAIM veröffentlicht wurde sagt wenig über die Haltung der WebAIM-Specialists dazu aus: Es wäre nicht das erste Mal, dass das Marketing etwas anderes tut als die Fach-Abteilung. Auch digitale Barrierefreiheit ist keine Wohlfahrt, sondern ein Business wie jedes Andere.

Mit der Realität hat das wenig zu tun. Zumindest die meisten textlastigen Angebote lassen sich gut nutzen, auch wenn sie kleinere Mankos in der Barrierefreiheit haben. Jede beliebige Website dürfte von einer Teilmenge der behinderten Menschen nicht benutzbar sein, aber das hat relativ wenig mit dem WCAG-Score zu tun.

Und ich bin mir auch nicht sicher, ob man der Barrierefreiheit damit einen Dienst erwiesen hat. Es wundert mich schon, dass WebAIM glaubt, diese Art von PR nötig zu haben. Auch namhafte Accessibility Specialists verbreiten die Studie unkritisch – was nicht heißt, dass sie deshalb sinnvoll ist. Ich kann nur vermuten, dass es da um Eigenmarketing geht oder sie nicht in der Lage sind, die Qualität von solchen Studien zu bewerten. Oder – das meine Vermutung – sie haben die Studie gar nicht gelesen. Oft ist das Problem bei solchen Analysen, dass nur Überschriften oder Zusammenfassungen gelesen werden. Die Barrierefreiheits-Profis teilen die Ergebnisse, weil sie dadurch ihre Existenz-Berechtigung belegen können oder weil das zu ihrer Erzählung passt. Die Nicht-Profis haben nicht die Zeit oder das Hintergrund-Wissen, die Aussagen zu hinterfragen.

Es ist ein wenig ironisch, wenn Personen, die ansonsten alles manuell oder durch behinderte Menschen geprüft haben wollen auf einmal einer automatischen Prüfung soviel Aussagekraft zubilligen. Nach dieser Logik darf sich niemand mehr über eine Website beschweren, die einen Score von 100 % bei WAVE hat. Es sind auch überwiegend die gleichen Leute, die der KI in der Barrierefreiheit sehr kritisch gegenüber stehen. Algorithmen scheinen nur gut zu sein, wenn sie die eigene Story bestätigen.

Wir lernen daraus, dass man nicht alle Aussagen ernst nehmen darf, sondern deren Basis hinterfragen sollte. Oft genug sieht man Zahlen ohne Quellen-Angaben oder schlecht gemachte Studien als Basis für Aussagen.