OCR: Wie funktioniert die optische Texterkennung?

Du willst einen gedruckten Zeitungsartikel schnell nach einem bestimmten Wort durchsuchen? Oder eingescannte Rechnungen automatisch erfassen und katalogisieren? Vielleicht liegt dir auch ein Vertrag in Papierform vor, aus dem du eine bestimmte Passage kopieren und in ein anderes Dokument einfügen willst, ohne sie mühsam abzutippen.

Bei all diesen Aufgaben hilft dir ein Programm mit OCR-Funktion. Wie genau diese Technologie funktioniert, welche Vorteile sie dir bietet und wie du sie selbst anwendest, erfährst du in diesem Artikel.

Was versteht man unter OCR?

OCR ist die englische Abkürzung für "Optical Character Recognition", was auf deutsch optische Zeichenerkennung bedeutet. Es handelt sich dabei um eine Technologie zur automatischen Texterkennung, die es ermöglicht, Buchstaben, Wörter und Zahlen in Bilddateien, wie etwa Scans, zu erfassen und diese in bearbeitbare und durchsuchbare Texte umzuwandeln.

OCR-Programme finden vor allem in Dokumentenmanagement Anwendung. Sie begegnen uns aber auch in anderen Bereichen wie dem Onlinehandel oder in der Wissenschaft.

Der Hintergrund der Technologie: Bilddateien sind häufig im JPEG-Format gespeichert und bestehen in der Regel aus einer Ansammlung vieler einzelner Bildpunkte – den sogenannten Pixeln. Diese enthalten jedoch nur die Informationen zur grafischen Wiedergabe von Abbildungen, was bedeutet, dass in Bildern enthaltene Wörter und Zahlen nicht vom Computer als solche erkannt werden. Mit anderen Worten: Du kannst den Text aus dem Bild weder kopieren, durchsuchen noch bearbeiten.

Genau hier kommt OCR ins Spiel, denn diese Technologie wandelt das Bild in ein Textformat, wie Word oder Excel um. Doch wie funktioniert das genau?

Wie funktioniert OCR?

Ganz allgemein basiert OCR auf dem Prinzip der Musterkennung (Pattern Recognition), das auch bei der Sprach- und Gesichtserkennung zum Einsatz kommt. Vereinfacht gesagt geht es bei der Mustererkennung in Bezug auf Texte darum, Buchstaben, Ziffern und Satzzeichen durch einen Datenbankabgleich automatisch als solche zu identifizieren und zu zusammenhängenden Wörtern und Sätzen zusammenzusetzen.

OCR-Technologie sorgt dafür, den Text in Bilddateien (wie etwa eingescannten Dokumenten) für den Computer erkennbar und somit bearbeitbar zu machen.

Während früher zur automatischen Texterkennung noch eigene Schriftarten entwickelt wurden, die so gestaltet waren, dass sie von speziellen OCR-Lesegeräten schnell und zuverlässig erfasst werden konnten, kommen heutzutage bei der Zeichenerfassung vor allem Algorithmen und künstliche Intelligenz (KI) zum Einsatz. Diese erlauben es mittlerweile zum Teil auch schon Handschriften zu erkennen.

Die verschiedenen Phasen des OCR.

Das moderne Verfahren der OCR-Texterkennung auf Basis von Algorithmen und KI lässt sich in fünf Phasen unterteilen:

1. Layoutanalyse:

Damit das OCR-Programm einzelne Schriftzeichen überhaupt identifizieren kann, muss zunächst einmal das Bild für den eigentlichen Verarbeitungsvorgang vorbereitet werden. Dazu gehört unter anderem, das Foto oder den Scan in Schwarz-Weiß zu formatieren, sodass der Text bestmöglich vom Hintergrund unterscheidbar ist. Beim Zoning wiederum werden einzelne Layoutelemente wie Absätze, Überschriften oder Tabellen als solche identifiziert

2. Segmentierung:

Bevor sich das Programm dann daran machen kann, konkret die einzelnen Buchstaben zu entschlüsseln und sie zu Wörtern und Sätzen zusammenzusetzen, muss es die Textblöcke zuerst noch von den grafischen Elementen eines Dokuments oder Bildes unterscheiden. Dazu werden in der Phase der Segmentierung Zeile für Zeile die einzelnen Textzeilen mit den dazugehörigen Buchstaben und Wörtern identifiziert.

3. Zeichenerkennung:

In diesem Schritt interpretiert die Software die Schriftzeichen über die Methode der Mustererkennung. Hierfür gleicht sie jedes zuvor identifizierte Zeichen mit einer Datenbank ab. Dabei können dann Merkmale wie Höhe, Breite oder allgemeine Struktur des Zeichens mit möglicherweise passenden Kandidaten aus der Bibliothek verglichen werden. Darauf aufbauend erstellt das Programm schließlich eine Analyse, um welchen Buchstaben, welche Zahl oder welches Satzzeichen es sich wahrscheinlich handelt.

Mithilfe der Methode der Mustererkennung identifizieren OCR-Programme Buchstaben in Bilddateien. Durch einen Abgleich mit Zeichen aus der Datenbank erstellt das Programm dann eine Analyse, um welche Wörter es sich handelt.

4. Nachbearbeitung:

Die meisten OCR-Programme führen heutzutage nach der ersten Texterkennung auch noch eine Art Autokorrektur durch. Hierbei wird mithilfe der sogenannten "Intelligent Character Recognition" (ICR) die Genauigkeit des Übersetzungsergebnisses verbessert.

5. Codierung:

Im letzten Schritt überführt das Programm das Endergebnis der Texterkennung dann in ein neues Dateiformat. Aus dem ursprünglichen Pixelformat wird so ein editierbares Textdokument in einem Format wie Word, Excel oder auch PDF.

ICR als Weiterentwicklung von OCR.

Bei moderner OCR-Software kommt in der Phase der Nachbearbeitung oft die sogenannte "Intelligent Character Recognition" (ICR) zum Einsatz, die als Weiterentwicklung von OCR verstanden werden kann. Sie ermöglicht eine Kontextanalyse von Wörtern und Sätzen und dadurch auch eine automatische Korrektur der OCR-Ergebnisse.

Ein Beispiel: Ohne Kontextanalyse ist die Wahrscheinlichkeit groß, dass die KI den Buchstaben "O" irrtümlicherweise als Ziffer "0" interpretiert. Aus dem ursprünglichen Wort "Oper" würde dann "0per". Auch die Ähnlichkeit des Buchstaben "B" mit der Ziffer "8" kann zu Verwirrung führen. Moderne ICR-Technologie korrigiert solche Fehler, sodass ein Wort wie "Berg" nicht als "8erg" erkannt wird.

Texterkennung mithilfe von künstlichen neuronalen Netzen.

Durch die kontinuierliche Weiterentwicklung von KI und Algorithmen in den letzten Jahren hat die automatische Zeichen- und Texterfassung immer größere Fortschritte gemacht. Eine große Rolle spielt dabei die Forschung an sogenannten "künstlichen neuronalen Netzen" (KNN) – einem Teilgebiet der KI.

Künstliche neuronale Netze ermöglichen heutzutage eine immer fehlerfreiere Erkennung von Text in Bilddateien.

Grundsätzlich sind KNN dem Gehirn des Menschen nachempfunden. Vereinfacht gesagt bestehen sie aus einer Vielzahl an miteinander vernetzten Neuronen, bzw. Rezeptoren, die im Verbund als Netz gemeinsam "lernen". Dies geschieht in der Regel durch die Bildung neuer neuronaler Verbindungen, das Löschen bestehender Verbindungen oder das Hinzufügen oder Löschen von Neuronen zum Netz.

In Bezug auf die Texterkennung bedeutet das: Durch die Analyse von tausenden von Texten "lernt" das KNN mit der Zeit immer besser, die richtigen Buchstaben und Wörter zu erkennen. Darin sind die Systeme inzwischen so gut geworden, dass sie nicht mehr Zeichen für Zeichen, sondern direkt ganze Zeilen verarbeiten und identifizieren. Im Unterschied zur Methode der Mustererkennung, arbeiten KNN heute oft fehlerfreier als klassische OCR-Systeme. Auch die Erfassung handschriftlicher Texte erfolgt durch die künstlichen neuronalen Netze inzwischen immer besser.

Welche Vorteile bietet OCR?

Die automatische Texterkennung mithilfe von OCR erspart dir jede Menge Zeit und Arbeit. Angenommen eine Kollegin schickt dir einen Vertrag zu, der aus vielen eingescannten Seiten besteht. Wenn du nun nach einer bestimmten Information suchst, müsstest du ohne OCR den kompletten Text mühevoll Satz für Satz durchlesen. Wandelst du das gescannte Dokument jedoch durch OCR in eine editierbare Datei um, kannst du den Text nun ganz einfach nach bestimmten Begriffen durchsuchen. Nach der Umwandlung kannst du den Text aus dem Dokument auch ganz einfach kopieren und anderswo wieder einfügen.

Nutzt du ein Dokumentenmanagementsystem (DMS) mit OCR-Funktion, kannst du auch die Erfassung und Katalogisierung von Dokumenten effizienter gestalten. Die automatische Texterfassung hilft dir nämlich dabei, eingescannte oder als E-Mail eingehende Dokumente (im Verbund mit einem DMS) direkt im richtigen Ordner abzulegen oder den richtigen Kolleg*innen zuzuweisen. OCR ermöglicht auch die automatische Extrahierung ganz spezifischer Daten wie etwa Rechnungsbeträge oder Kund*innennummern, was insbesondere die Buchhaltung effektiver gestaltet.

Einen Text bequem einscannen und dann ganz einfach weiter bearbeiten, ohne alles noch einmal komplett Zeile für Zeile abzutippen: Mit OCR lässt sich viel Arbeit ersparen.

Und schließlich sorgt die OCR-Software auch dafür, dass du den Text des eingescannten Dokuments, Fotos oder Bildes anschließend beliebig bearbeiten kannst. Wenn dir also ein bestimmtes Schriftstück nur in Papierform vorliegt, du jedoch Tippfehler darin entdeckst oder dir eine Passage nicht gefällt, musst du den Text nicht mehr mühevoll erneut abtippen, sondern kannst ihn automatisch erfassen und anschließend anpassen. Einige Programme wie Adobe Acrobat behalten dabei auch das ursprüngliche Layout, Formatierungen und Schriftarten bei, sodass die Anpassung eingescannter oder abfotografierter Texte mit wenigen Klicks und ohne großen Aufwand erledigt ist.

#F5F5F5

Du interessierst dich für Dokumentenmanagement?

Lerne, wie du deine digitalen Unterlagen effizienter organisierst.

Weitere Infos

Wo wird OCR eingesetzt?

Aufgrund der beschriebenen Vorteile kommt OCR heutzutage naheliegenderweise vor allem im Bürokontext und hier speziell in der Buchhaltung und im Office Management zum Einsatz. Nicht zuletzt spielt es dort als wichtiges Feature des Dokumentenmanagements eine Rolle: Durch die automatische Erfassung von beispielsweise Absender*innen oder Empfänger*innen von Rechnungen sorgt die Technologie im Bürobereich für eine effizientere Sortierung, Zuordnung, Verarbeitung und Ablage von digital oder postalisch eingehenden Dokumenten im Unternehmen.

Ein OCR-Programm empfiehlt sich vor allem im Bürokontext, weil sich damit eine effizientere Sortierung, Zuordnung und Verarbeitung von Dokumenten realisieren lässt.

Automatische Texterkennung wird aber noch in einer Vielzahl weiterer Bereiche eingesetzt. So werden etwa die Nummernschilder in Radarbildern von Verkehrssünder*innen inzwischen auf diese Weise ausgewertet. Auch die Post nutzt Texterkennungstools, um Adressen und Postleitzahlen auf Briefen und Paketen automatisch zu erfassen. Und selbst im Onlineshopping ist OCR inzwischen angekommen. So gibt es immer öfter die Möglichkeit, die Kreditkartendetails beim Kauf nicht mehr manuell auf der Tastatur einzutippen, sondern die Kombination aus Namen und Ziffern automatisch von der Handykamera erfassen zu lassen.

https://youtu.be/1-vQhXbJlxE

OCR-Texterkennung mit Adobe Acrobat.

Egal, ob auf dem Desktop, Tablet oder Smartphone: Mit der OCR-Technologie von Acrobat bearbeitest und durchsuchst du ganz einfach eingescannte Papierdokumente und digitale Bilder. Die automatische Texterkennung ermöglicht es dir, Scans mit wenigen Klicks in editierbare PDF-Dateien mit bearbeitbarem Text und originalgetreuen Schriftarten aus dem Ursprungsdokument umzuwandeln.

In vier Schritten gescannte Dokumente bearbeiten.

Der Weg vom Scan zum bearbeitbaren und durchsuchbaren Dokument geht mit Acrobat ganz einfach. So gehst du dabei vor:

1. Öffne zunächst die PDF-Datei mit dem eingescannten Dokument und klicke rechts in der Werkzeugliste auf "Scan & OCR".

2. Anschließend wählst du die Option "Text erkennen – in dieser Datei" aus.

3. Nun öffnet sich ein Reiter, in dem du die Sprache des Dokuments auswählen kannst.

4. Klicke dann in der Werkzeugliste auf "PDF bearbeiten". Jetzt kannst du Text und Grafiken nach Wunsch im PDF-Dokument bearbeiten.

#F5F5F5

Erstelle und bearbeite PDF-Dateien mit Adobe Acrobat Pro.

Acrobat Pro.

Gescannten Text mit OCR editierbar machen, Dokumente gemeinsam bearbeiten oder Unterlagen digital unterzeichnen. 7 Tage kostenlos, danach 23,79 €/Monat/Lizenz .

Weitere Infos

style

1-up, xl spacing

background

#F5F5F5

Häufig gestellte Fragen.

Was bedeutet OCR?

OCR ist eine Abkürzung und steht für "Optical Character Recognition" (deutsch: optische Zeichenerkennung). Es ist eine Technologie zur automatischen Erkennung von Text in digitalen Dokumenten. Mit OCR-Software lassen sich eingescannte Schriftstücke oder Bilder in bearbeitbare und durchsuchbare Dateien umwandeln.

Wie funktioniert OCR?

Eingescannte Dokumente werden prinzipiell als Bildkopie (Rastergrafik) abgespeichert. In diesem Format sind die einzelnen Schriftzeichen und Wörter vom Computer jedoch nicht als solche zu erkennen. OCR-Software analysiert daher das gesamte Dokument und versucht, die richtigen Buchstaben und Ziffern durch einen Abgleich mit zahlreichen Zeichen aus der eigenen Datenbank zu identifizieren. Anschließend wandelt das Programm das entschlüsselte Ergebnis in eine editierbare Textdatei um.

Wie arbeitet man mit OCR?

Viele Programme mit OCR-Funktion wie Adobe Acrobat erlauben dir, Scans mit wenigen Klicks in bearbeitbare PDF-Dateien mit bearbeitbarem Text umzuwandeln. In Acrobat wählst du dafür einfach in der Werkzeugleiste die Funktion "Scan & OCR" aus, klickst dann auf "Text erkennen" und wählst anschließend die Sprache des Dokuments aus. Nach einem weiteren Klick auf "PDF bearbeiten" lässt dich Acrobat jeden Text und jede Grafik des eingescannten Dokuments auswählen und anpassen.

#FF2701

Entdecke die praktischen Onlinetools von Acrobat.

PDF-Dateien einfach online erstellen, unterschreiben oder mit OCR in editierbare Word-Dateien umwandeln: Mit den Onlinetools von Acrobat kannst du PDF-Dokumente bequem in deinem Browser bearbeiten.

Weitere Infos