Wie die Texterkennung mit KI funktioniert und was Künstliche Intelligenz in der Dokumenten- und Texterkennung alles möglich macht.
Um die Qualität unserer KI-gestützten Dokumenten- und Texterkennung zu überprüfen und laufend zu verbessern, haben wir große Testvektoren angelegt. Mit diesen lassen sich auch die einzelnen Schritte zur Vorbereitung von Dokumenten genau analysieren (hier erfährst du mehr darüber).
Einsendungen von der Smartphone-Kamera
Wenn Kunden darum gebeten werden, selbst Fotos von Dokumenten einzusenden, gibt es oft Überraschungen: Verzerrungen, geknicktes oder zerknülltes Papier, Unschärfe, Drehungen, usw.
Wir zeigen nachfolgend besonders abenteuerliche Aufnahmen, die wir natürlich selbst für Tests angefertigt haben. Dazu wurde eine öffentlich verfügbare Vertragsvorlage der BVAEB (Versicherungsanstalt öffentlich Bediensteter) ausgedruckt und besonders kreativ wieder mit dem Smartphone digitalisiert.
Aufbereitung mit künstlicher Intelligenz
Auf den Bildern siehst du links jeweils unsere Handyfotos, rechts das Resultat aus unserer Pipeline mit mehreren KI-Netzen, die das Bild bestmöglich korrigiert haben. Diese Version kann dann durch die eigentliche Texterkennung laufen – mit viel besseren Ergebnissen als von der Ursprungsaufnahme.
Unser Pre-Processing schafft es, den Text zu straffen und in gerade Zeilen zu bringen – eine sehr wichtige Vorbereitung, damit der Text anschließend maschinell gelesen werden kann.
Auch sehr extreme Falten im Papier werden gemeistert.
Zwei oder mehrere, sowie horizontale und vertikale Knicke werden ebenfalls „ausgebügelt“.
Hier sind zwei Pre-Processing-Schritte relevant: Das zerknüllte Papier muss überwunden werden, aber auch die Biegung des gesamten Blattes. Wie du sehen kannst, funktioniert das überraschend gut. Die Schatten des Papiers sehen zwar intensiver aus (da wir den Kontrast erhöhen); damit kann die Texterkennung aber gut umgehen.
Hier haben wir es mit dem absoluten Extremfall zu tun: Dass Kunden so ihre Papiere einschicken, ist hoffentlich die Ausnahme. Dennoch gelingt es noch recht gut, die Zeilen des Texts wiederherzustellen. Die Schrift an sich wird dabei zwar kursiv, aber das ist für die Texterkennung im Anschluss ein Klacks.
Die gebogene Seite resultiert auch hier in einem kursiv geschriebenen, aber sehr gut lesbaren, neuen Bild.
Und hier noch ein zweiter Extremfall: Wir haben es zwar eindeutig übertrieben, denn dieser Versuch, ein Blatt zu fotografieren, ist ein Witz, aber wir waren dennoch sehr positiv überrascht, was unsere KI daraus gezaubert hat.
Probier es selbst
Wenn du selbst viele Dokumente zu bewältigen hast, oder diese spannende Technologie einfach selbst in Aktion sehen willst, dann schreib uns einfach eine kurze Nachricht. Die Texterkennung ist übrigens Teil von link|that Prism.