-
Diese Erfindung betrifft allgemein
Zeichenextraktion, z. B. zur Zeichenerkennung, unter Verwendung
von Dokumenten und insbesondere ein Verfahren zum Wiedergeben von
Dokumenten, wie z. B. Formularen, zur verbesserten Datenerkennung und
Verarbeitungschritte zum Extrahieren von Zielzeichen zur Erkennung.
-
Formularverarbeitung stellt eine
größere Geschäftsaktivität dar, wobei
von Hand oder mit Maschine eingetragene Daten aus elektronisch abgetasteten
Dokumenten automatisch extrahiert werden. Die teure Form, Daten
von Hand einzutragen, hat die Entwicklung von automatischen Systemen
zum Extrahieren der Daten angespornt. Ein bequemer Weg, Daten, elektronisch
einzutragen, besteht darin, Benutzern zu erlauben, geschriebene
Antworten in ein Formular einzutragen und dann die Daten unter Verwendung
der OCR-Verfahren optisch zu erkennen. Beispiele sind die 'Census'- und 'IRS'- Steuerformulare.
Typischerweise werden die Daten durch einen Operator eingegeben,
aber es gibt wachsende Bemühungen,
die Kosten zu senken und die Geschwindigkeit zu erhöhen, indem
Formulardokumente gescannt und der handgeschriebene Text erkannt
wird. Zu einem Beispiel von solchen Prozessen siehe einen Artikel
von Breuel, T. M., betitelt "Recognition
of handwritten responses on U. S. census forms", Document Analysis Systems, A. Lawrence
Spitz, Andreas Dengle, Herausgeber, World Scientific Publishing, 27–264 (1994).
Um die Erkennungsgenauigkeit zu erhöhen, werden Formulare oft als
eine Anordnung von Kästchen
konstruiert, in die der Benutzer Zeichen einträgt. Die Kästchen zwingen den Schreiber, Zeichen
deutlich zu trennen und die Notwendigkeit der Zeichensegmentierung
abzuwenden. Falsche Segmentierung trägt maßgeblich zu Erkennungsfehlern
bei. Das Extrahieren handgedruckter Daten ist schwierig, sofern
nicht eine Drop-out-Farbe, vielleicht Blau, verwendet wird. Dies
erfordert, dass Formulare in mehrfachen Farben gedruckt werden.
Eine andere Lösung
ist, schwarze Kästchen
zu verwenden, was den Vorteil hat, dass sie einfach und billig herzustellen
sind, man aber hoch entwickelte Bildveraibeitungsschritte durchführen muss,
um das Kästchen
zu entfernen, wie von Ramanaprasad, V. Shin, Y-C. und Shrihari,
S. N. in "Reading
hand-printed addresses on IRS tax forms", in Document Recognition III, Luc M.
Vincent, Lonathan J. Hull, Herausgeber, Proc. SPIE 2660, 243-250
(1996) gezeigt. Dies kann Registrieren des ursprünglichen leeren Formufars mit dem
gescannten Bild und Subtrahieren des Formularbildes, um nur die
Zeichen übrigzulassen,
einschließen.
Wenn ein Zeichenstrich mit dem Kästchen zusammenfällt, wür- de dieser
Zeichenstrich leider auch entfernt werden. Dies kann die Genauigkeit
der Zeichenerkennung stark verringern. Wichtig zur Kostensenkung
ist eine hoch genaue optische Zeichenerkennung der Dateneinträge, weil,
je mehr Fehler es gibt, desto mehr menschliche Mühe aufgewandt werden muss,
um sie finden und zu korrigieren.
-
Eine Hauptquelle von Fehlern sind
verschmolzene Zeichen. Dies verursacht Mehrdeutigkeit in der Interpretation.
Formulare sind bestimmt, den Schreiber zu zwingen, jedes Zeichen
zu trennen, wobei getrennte Zeichen genauer erkannt werden, wie von
M. D. Garris und D. L. Dimmick, "Form
design for high accuracy optical character recognition", IEEE Transactions
on Pattern Analysis and Machine Intelligence, Vol. 18, Nr. 6, Juni
1996, Seiten 653–656
beschrieben. Formulare bestehen daher aus jeder Zahl von Rahmen,
d. h., bezeichneten Bereichen zum Dateneintrag. Eine andere Fehlerquelle
ist das Zusammenfallen von Einträgen
mit den zum Führen
des Schreibers benutzten Rahmen, weil der Rahmen Teile der Zeichen
verfälscht,
wie von M. D. Garris gezeigt. Im Stand der Technik gibt es zwei
Lösungen
für dieses
Problem: 1) Drucken des Formulars in einer Drop-out-Farbe, die sich
von der zum Zeichnen des Formulars benutzten Farbe unterscheidet,
sodass das Formular und die eingetragenen Daten optisch unterschieden
werden können,
und 2) die Rahmen algorithmisch aus einem gescannten Formularbild entfernen
und den den eingetragenen Zeichen zugefügten Schaden algorithmisch
zu reparieren. Siehe M. D. Garris, "Intelligent form removal with character stroke
preservation", Proc.
SPIE, Vol. 2660, 1996, Seiten 321–332 und B. Yu und A. K Jain, "A generic system
for form dropout",
IEEE Transactions on, Pattern Recognition, Vol. 18, Nr. 11, Nov.
1996, Seiten 1127–1134,
wobei beide dieses Phänomen
beschreiben.
-
Die erste Lösung hat eine Anzahl von Nachteilen.
Erstens, man muss ein Formular in zwei Farben herstellen, eine Farbe
für die
Anweisungen oder gedruckten Text und eine hellere Farbe für die Rahmen.
Dies erhöht
die Kosten der Formularherstellung, weil sie auf einem Zweifarben-Drucker
gedruckt werden müssen.
Zweitens, die Formulare müssen mittels
eines Scanners mit entweder einer Glühlampe in der Farbe des Dropouts
gescannt werden, oder der Scanner muss ein Farbscanner sein, und
das sich ergebende Bild muss verarbeitet werden, um die Farbe zu
entfernen. In jedem Fall werden die Formularverarbeitungskosten
erhöht.
Schließlich,
zweifarbige Formulare können
auf Schwarz/Weiß-Kopierern nicht
fotokopiert werden., Die zweite Lösung verlangt, dass das Formular
algorithmisch entfernt wird. Zum Beispiel kann ein leeres Formular
im Computerspeicher wiedergegeben und mit gescannten eingetragenen
Bildern registriert und von dem Bild subtrahiert werden, um nur
die eingetragenen Daten übrigzulassen.
Die folgenden Verweise liefern mehr Hintergrund für solche
Prozesse: R. Casey, D. Ferguson, K. Mohiuddin und E. Walach, "Intelligentforms
processing system",
Machine Vision and Applications, Vol. 5, 1992, Seiten 143–155; S.
Liebowitz Taylor, R. Fritzon und J. A. Pastor, "Extraction of data from preprinted forms", Machine Vision and
Applications, Vol. 5, 1992, Seiten 211–222; US Patent Ni. 5,140,650, "Computer-implemented
method for automatic extraction of data from printes forms", und US Patent Nr.
5, 542,007, erteilt an Chevion et al., am 30. Juni 1996, betitelt "Form dropout compression
method which handles form white-out and writing in shaded and white-out
areas of the form".
Dies verlangt, dass entweder eine leere Version des Formulars eingescannt
wird, oder ein Modell des Formulars im Computerspeicher vorliegt.
Man kann auch das Formular durch sorgfältiges Löschen entlang horizontaler
und vertikaler Linien entfernen (s. Garris und Yu). In jedem Fall
werden Zeicheneinträge
durch das Linienentfernen beschädigt
Striche müsswn
mittels sorgfältig
aufgestellter Regeln repariert werden. In den Fällen, wo ein Strich mit einer
Rahmenlinie zusammenfällt,
in dies unmöglich.
Herkömmlich,
wenn keine Drop-out-Farbe
benutzt wird, muss man die Formularkästchen irgendwie aus einem
gescannten Bild entfernen. Dies kann auch durch Subtrahieren (XOR)
des ursprünglichen
Formularbildes von einem gescannten Bild getan werden. Auf diese
Weise kann man jedoch Teile der Zeichenbilder verlieren. Hoch entwickelte
Bildverarbeitungsverfahren sind noch immer erforderlich, um die
Zeichenbilder zu bewahren, und diese Verfahren arbeiten dürftig.
-
Die Möglichkeit des Erkennens handgeschriebener
Zeichen mittels Unterscheiden zwischen gedruckten Strukturen ist
durch Dokumente, einschließlich
FR A-2737930 und IBM Technical Disclosure Bulletin, Vol. 15, Nr.
10, (Hamburgen), beschrieben worden. Jedoch offenbart keines ein
bequemes Verfahren zur Implementierung von Strukturerkennung.
-
Was optische Zeichenerkennung angeht,
ist OCR der Prozess zum Umwandeln fotonischer oder elektronischer
Darstellungen eines Zeichenformulars in eine symbolische Form. In
modernen Systemen werden die Daten im Computerspeicher gehalten,
sei es auf einer Festplatte oder in einem Direktzugriffsspeicher.
Die symbolische Darstellung kann dann gespeichert und editiert werden.
Der Prozess besteht aus drei Schritten: Scannen, Merkmalextraktion
und Klassifizierung. Der erste Schritt findet statt, indem eine
lichtempfindliche Einrichtung verwendet wird, um ein auf einem Substrat
gedrucktes Zeichen in elektronische Impulse umzuwandeln und als
eine Matrix in einem Prozessorspeicher zu speichern. Das Zeichen
könnte
auch mit magnetischer Tinte gedruckt werden und mit einer geeigneten
Einrichtung abgetastet werden. Schritt zwei besteht aus dem Extrahieren
von Merkmalen aus dem als Matrix dargestellten Zeichenbild. Wählen eines
guten Merkmalsatzes, um unter einem Satz von Zeichen zu unterscheiden,
seien sie von Maschine (wie beim Maschineschreiben oder Setzen)
oder von Menschenhand gedruckt, ist und war ein aktives Feld von
Forschung und Entwicklung gewesen, wie in der Arbeit von S. Mori,
C. Y. Suen und K. Yamamoto, "Historical
Review of OCR research und development", Proceedings of the IEEE, Vol. 80,
Nr. 7, 1992, Seiten 1029–1058
gezeigt. Schritt drei wendet eine Entscheidungsregel auf das beob achtete
extrahierte Merkmal an und weist ihm eine Klasse, d. h. einen Zeichencode,
zu. Im Fall von neuralen Netzwerkverfahren mit verborgenen Schichten
für OCR
kommt Schritt zwei in der ersten Schicht und Schritt drei in der
zweiten Schicht vor. Zu mehr Information über OCR siehe U.S. Patent Nr.
4,034,343, erteilt an Michael E. Wilmer am 5. Juli, 1997, betitelt "Optical character
recognition system",
das den Stand der Technik in der Raumdomäne beschreibt. U.S. Patent 3,582,884
vom 1. Juni 1971, betitelt "Multiple-scanner
character reading system" beschreibt
ein OCR-System auf einem Kommunikationsnetzwerk, bei dem Zeichen
abgetastet und als Signale dargestellt werden. Das Decodieren der
Signale in die ursprünglichen
Video-Scandaten wird vor dem Erkennen vorgenommen.
-
Erfindungsgemäß wird ein Verfahren zum Extrahieren
sekundärer
Bilddaten aus einem vorwiedergegebenen Dokument bereitgestellt,
wobei das vor-wiedergegebene Dokument unter Verwendung von Halbtonmustern
von abwechselnden hoch (weiß) und
tief (dunkel) gepixelten Bereichen für ausgewählte Rahmen, Zeichen und Symbole
auf dem vor-wiedergegebenen Dokument erzeugt wird, dadurch gekennzeichnet,
dass das Verfahren die folgenden Schritte umfasst:
Schärfen der
Bilddaten unter Verwendung einer Faltung mit wenigstens einer Maske;
morphologisch
Abschließen
auf den Bilddaten mit wenigstens einem Strukturelement;
Schwellenwertverarbeiten
der morphologisch abgeschlossenen Bilddaten in ein binäres Bild
und
wiederholend Senken des Schwellenwertes, sodass, wenn mehr
von dem gepixelten Bereich weiß wird, Kästen des
oder der Rahmen zusammen mit einer oder mehreren unechten, zusammenhängenden Komponenten
des Bildes gelöscht
werden,
während
die sekundären
Bilddaten zur weiteren Verarbeitung übrig bleiben.
-
Um den Nachteil des Stands der Technik
bezüglich
Formularwiedergabe und Zeichenerkennung zu überwinden, verwendet diese
Erfindung Dokumente, die einfach Halbtöne auf billigen Druckern zusammen
mit einem Satz von Bildverarbeitungschritten geringer Kompexität, wie oben
beschrieben, verwenden, um die Zeichen zur Erkennung zu extrahieren.
-
Die Erfindung nutzt Strukturunterschiede zwischen
Zeichenstrichen und halbgetonten Kästchen aus, während andere
Verfahren Unterschiede in der optischen Dichte (z. B. Drop-out-Farbe) oder Strukturunterschiede
(Heraussubtrahieren von Kästchen
und Rückgewinnen
von Strichen) verwenden. Dieses Verfahren kann Formularkästchen mittels
eines Halbtons erzeugen, etwa des in PostScriptTM von Adobe
Corporation benutzen allgegenwärtigen
Halb tonschemas. In einem bevorzugten Beispiel wird ein Formular
mit halbgetonten Kästchen
mit hand- oder maschinegeschriebenen Zeichen von einem Benutzer
ausgefüllt.
Das Formular wird dann auf einem Graustufen-Scanner in einer Weise
gescannt, die zwischen halbgetonten Kästchen und Zeichen des Benutzers
unterscheidet. Auch wenn hangeschriebene oder nachträglich maschinegeschriebene
Zeichen mit Kästchen
des Formulars zusammenfallen, sind die Zeichen erkennbar, weil die
halbgetonten Kästchen
des Formulars während
des Scannens von dem Bild subtrahiert werden. Die typologischen
Merkmale aller handgeschriebenen oder maschinegeschriebenen Zeichen
würden
wen der Kästchen-Subtraktion selbst
in Überlappungssituationen
durch die halbgetonten Kästchen
nicht nachteilig beeinflusst werden.
-
Das hierin beschriebene Verfahren
der Formularwiedergabe überwindet
alle identifizierten, Mängel.
Formularrahmen, ausgewählter
Text, Symbole oder Zeichen werden als schwarze und weiße Halbtöne wiedergegeben,
und nachträglich
geschriebene oder getippte Zeichen werden durch Ausnutzen von Strukturunterschieden
zwischen den Rahmen und den neuen Zeichenstrichen extrahiert. Eine
Folge von einfachen Bildverarbeitungsoperationen, die ohne weiteres
in Hardware oder Software ausgeführt werden
können,
beseitigt die Rahmen (oder andere ausgewählte Felder), während die
nachträglich
hinzugefügten
Zeichen unversehrt gelassen werden. Halbtöne, die dem Aussehen eine helle
Farbe geben, wie in dem Dropout-Farben-Verfahren, werden durch Seitenbeschreibungssprachen
wie PostScript leicht erzeugt, sodass leere Formulare zu niedrigen
Kosten gedruckt und fotokopiert werden können.
-
Mit der Implementierung der offenbarten
Erfindung können
maßgeschneiderte
Formulare mit irgendeinem verfügbaren
Drucker, nicht unbedingt einem Farbdrucker, der Halbtöne hervorbringen
kann, erzeugt werden. Zuverlässige
Erkennung benötigt minimale
Bildverarbeitungsressourcen, diese Erfindung vorausgesetzt. Das
vorliegende Verfahren hat niedrige Rechenkomplexität und geringen
Speicherbedart zum Extrahieren von Zeichen aus diesen halbgetonten
Formularen. Daher werden niedrigpreisige individuelle Formulare
erzeugt, die eine zuverlässige, billige
Weise zum Extrahieren von Zielzeichen begünstigen. Handgeschriebene Formulardaten
können
in elektronische Form umgewandelt werden, indem das Formular gescannt
wird und handgedruckte Zeichen automatisch erkannt werden.
-
Die bevorzugten Ausführung und
andere Aspekte der Erfindung werden aus der folgenden ausführlichen
Beschreibung der Erfindung ersichtlich werden, wenn sie in Verbindung
mit den begleitenden Zeichnungen gelesen wird, die zum Zweck des
Beschreibens von Ausführungen
der Erfindung und nicht zum Begrenzen derselben bereitgestellt werden.
Inhalt der Zeichnungen:
-
1 veranschaulicht
ein Muster eines Originalformulars, das halbgetonte Kästchen hat
und handgeschriebenen Text enthält.
-
2 veranschaulicht
ein Muster der resultierenden Erkennung für das Bild von 1.
-
3 veranschaulicht
das Schärfen
des Bildes von 1.
-
4 veranschaulicht 3 nach morphologischem Abschließen.
-
5 veranschaulicht 4 nach Schwellenwertverarbeitung.
-
6 veranschaulicht
eine Serie von Mustern für
Bild 1, wenn sie bei 200, 190, 180, 170, 160 und 150 schwellenwertverarbeitet
werden.
-
7 ist
ein Blockschaltbild von Modulen, die nötig sind, um Zeichenerkennung
mittels der offenbarten Erfindung zustande zu bringen.
-
Das hierin offenbarte Verfahren erzeugt
Formularkästen
unter Verwendung von Halbtönen,
wie z. B. dem in PostScriptTM verwendeten
allgegenwärtigen
Halbtonschema, und sorgt für
die Erkennung von nachträglich
hand- oder maschine geschriebenen Zeichen durch Subtrahieren der
halbgetonten Formularkästen.
Obwohl sich die folgende Erörterung auf
Formularkästen
und handgeschriebene Zeichen bezieht, muss man verstehen, dass dieses
Verfahren benutzt werden kann, um jedes ausgewählte Feld, Symbol oder Text
in einem Formular zu beseitigen, und nachträglich von einem Benutzer in
ein Formular eingetragene Zeichen, hand- oder maschinegeschrieben,
erkennen kann.
-
Mit Verweis auf 1 wird ein Feld eines Formulars mit Kästen gezeigt,
das mittels Halbtonverfahren erzeugt wurde. Für dieses Beispiel wurde das
Formular als eine PostScript-Datei erzeugt, auf einem 300 dpi SparcPrinter
gedruckt, von einem Benutzer mit Handschrift ausgefüllt und
auf einem Graustufen-Scanner mit 200 spi und 8 Bit pro Pixel gescannt.
Man beachte, dass die handgeschriebenen Zeichen mit den Kästen zusammenfallen.
Würde man
die Kästen
einfach von dem Bild subtrahieren, würden die topologischen Merkmale
der Zeichen nachteilig beeinflusst werden, besonders das "E" in "PRIZE". Nach einfacher
Bildverarbeitung ist das Ergebnis ein binäres Bild, das die Zeichenbilder
bewahrt, wie in 2 gezeigt.
-
Im ersten Schritt wird das Originalbild
von
1 mittels einer
Faltung mit Maske geschärft:
wodurch das in
3 gezeigte Bild erzeugt
wird.
-
Im nächsten Schritt wird ein morphologisches
Abschließen
auf dem Bild mittels eines 2 × 2 strukturierenden
Elements durchgeführt,
wie in "An Introduction
to Nonlinear Processing",
E. R. Dougherty und J. T. Astola, SPIE Press, 1994, erklärt. Da die
halbgetonten Kästen
abwechselnde hohe (weiße) und
tiefe (dunkle) Pixeln enthalten, ist das strukturierende Element
nicht imstande, in die tiefen getrennten Pixeln zu passen, passt
aber in die dickeren Zeichenstriche, wie in 4 gezeigt.
-
Das abgeschlossene Bild wird schwellenwertverarbeitet,
um ein binäres
Bild zur anschließenden
Zeichenerkennung zu erlangen, wie in 5 gezeigt.
-
Der letzte Schritt ist zum "Trocken-Reinigen" des Bildes von unechten,
kleinen zusammenhängenden
Komponenten oder Klacksen in dem Bild, und das Ergebnis wird in 2 gezeigt.
-
Ein einfaches Schwellenwertverarbeitungsverfahren
wurde nicht so gut arbeiten. 6 zeigt eine
Folge von Bildern, die bei 200, 190, 180, 170, 160 und 150 schwellenwertverarbeitet
werden. Wenn der Schwellenwert gesenkt wird, sodass mehr Pixeln weiß werden,
verschwinden die Kästen,
aber auch die dünnen
Striche auf den Zeichen. Einmal verloren, können sie nicht zurückgewonnen
oder leicht abgeleitet werden.
-
Auf 7 verweisend
wird ein Formular 1A, das halbgetonte Felder und nachträglich eingetragenen
handgeschriebenen Text enthält
(wie in 1–2 gezeigt), elektronisch
gescannt 2. Eine Halbton-Subtraktion 3 wird dann
auf dem gescannten Bild durchgeführt,
um die halbgetonten Felder zu entfernen. Die Subtraktion kann während der
Abtastsequenz innerhalb der Abtastsoftware oder durch Softwarebearbeitung
mit einem Mikroprozessor stattfinden. Sobald die Subtraktion 3 vollendet
ist, kann das durch den Abtast/Subtraktions-Prozess erzeugte Dokument weitere
OCR-Verarbeitung 4 erfahren. Handgeschriebene Zeichen werden
während
OCR 4 erkannt und klassifiziert. Das resultierende "Dokument" 1B, das
in elektronischer oder physikalischer Form sein kann, wird nur erkannte
Zeichen enthalten, die in das Originalformular durch einen Benutzer
eingetragenen Daten gleichen. Die erkannten Zeichen können an
diesem Punkt wertere Bearbeitung oder Speicherung erfahren.