Texterkennung und Arabisch

OCR + Arabisch = viele Fehler

Die automatische Texterkennung (OCR) ist weit fortgeschritten und bildet die Grundlage für die Digitalisierung und Automatisierung zahlreicher Bereiche. Meine Buchhaltung ist dadurch beispielsweise sehr viel schneller und einfacher geworden. Aber auch bei Übersetzungsprojekten ist OCR sehr hilfreich: Die Textmenge (Wort- und Zeichenzahl) kann unkompliziert erfasst werden, Texte werden editierbar und in manchen Fällen ist dann auch eine Weiterverarbeitung in CAT-Tools möglich.

Einziges Problem in meinem Fall: Texterkennung und Arabisch vertragen sich bislang überhaupt nicht. Zwar werben viele Software-Anbieter damit, Texte aus fast alle Sprachen der Welt (darunter Arabisch) automatisiert einlesen und erkennen zu können. Und das ist nicht völlig falsch. Denn die meisten Programme erkennen durchaus, DASS es sich um Arabisch handelt und geben auch arabische Buchstaben aus. Aber leider sind die daraus entstehenden Texte durchweg mit groben Fehlern auf Buchstaben- und Wort-Ebene durchsetzt. Ein manuelles Abtippen wäre erheblich zeit- und nervensparender gegenüber einer Korrektur (Post-Editing) dieser Texte . Ich habe zwei Lösungen getestet: Die integrierte Texterkennungsfunktion im „ABBY Fine Reader“ und eine Trial-Version der Software „NovoVerus OCR“, die zu einem stolzen 4-stelligen Preis angeboten wird. Die Ergebnisse waren für arabische Texte unterschiedlicher Qualität und Formate leider gleich schlecht.

Woran liegt’s?

Ich kann mir eine Reihe von Gründen vorstellen, warum die automatische optische Erkennung arabischer Texte so schwierig zu bewerkstelligen ist:

  • Viele arabische Buchstaben sehen sich sehr ähnlich und unterscheiden sich beispielsweise nur darin, ob ein diakritischer Punkt oberhalb oder unterhalb der Line bzw. einfach oder doppelt vorhanden ist. Das macht es für eine OCR-Software ungleich schwieriger als bei lateinischen Buchstaben, wo der optische Kontrast zwischen den einzelnen Lettern deutlich größer ist. Schon eine kleine Verschmutzung auf dem Scan eines arabischen Textes kann einen Buchstaben und damit die Bedeutung komplett verändern.
  • Arabische Buchstaben können je nach Position im Wort oder in Einzelstellung bis zu 5 verschiedene Erscheinungsformen haben und sehen zusätzlich in Ligaturen noch einmal anders aus. Das erhöht die Komplexität weiter.
  • Die meisten arabischen Buchstaben werden durch eine waagerechte Linie miteinander verbunden. Diese Linie kann unterschiedlich lang sein. Die automatische Texterkennung muss aber exakt definieren können, wo ein Buchstabe aufhört und der nächste anfängt. Je nach verwendetem Schrifttyp unterscheiden sich zudem Form und Position einzelner Buchstaben.
  • Die Konsonantenschrift macht bei arabischem Text stets unterschiedliche Leseweisen und damit Bedeutungsvarianten von Wörtern und Sätzen möglich. Ein Leser (und damit auch eine Texterkennungssoftware) muss zur korrekten Erkennung die hocharabische Grammatik beherrschen. Ich könnte mir vorstellen, dass hier im Rahmen neuester Entwicklungen mit neuronalen Netzwerken bald Fortschritte zu verzeichnen sein werden.
  • Grammatikalische und lexikalische Eigenheiten des Arabischen kommen hinzu: Präpositionen, Partikel, Personal- und Possesivsuffixe werden oft mit dem Bezugswort zusammengeschrieben. Das muss von der OCR-Software ebenfalls erkannt und richtig zugeordnet werden. Viele Texterkennungsprogramme arbeiten zudem mit internen Lexika, um die erkannten Wörter der Sprache korrekt zuordnen zu können und als Rückkoppelung den Text besser zu erkennen. Arabische Wörter weisen allerdings eine enorme Polysemie auf. Das bedeutet, ein Wort kann je nach Kontext sehr viele verschiedene Bedeutungen haben. Und diesen zum Verständnis notwendigen Kontext kann eine Software in den meisten Fällen weder kennen noch erkennen.

Anmerkung: Ich habe bislang nur die genannten beiden Programme testen können. Bei einer weiteren Software habe ich den Anbieter um eine Trial-Version zu Versuchszwecken gebeten, bevor ich einen vierstelligen Betrag ohne Erfolgsgarantie hinlege. Bislang ohne Rückmeldung. Ich freue mich natürlich über Hinweise zu weiteren Programmen und mache gerne weitere Testreihen!
Bildquelle: Pixabay

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.