DE69823110T2

DE69823110T2 - Verfahren zur Dokumentwiedergabe und Zeichenextrahierung

Info

Publication number: DE69823110T2
Application number: DE69823110T
Authority: DE
Inventors: John C. Fairport Handley
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-08-04
Filing date: 1998-07-17
Publication date: 2004-08-19
Anticipated expiration: 2018-07-18
Also published as: JPH11110481A; US6023534A; EP0896294A2; DE69823110D1; EP0896294A3; EP0896294B1

Description

Diese Erfindung betrifft allgemein Zeichenextraktion, z. B. zur Zeichenerkennung, unter Verwendung von Dokumenten und insbesondere ein Verfahren zum Wiedergeben von Dokumenten, wie z. B. Formularen, zur verbesserten Datenerkennung und Verarbeitungschritte zum Extrahieren von Zielzeichen zur Erkennung.
Formularverarbeitung stellt eine größere Geschäftsaktivität dar, wobei von Hand oder mit Maschine eingetragene Daten aus elektronisch abgetasteten Dokumenten automatisch extrahiert werden. Die teure Form, Daten von Hand einzutragen, hat die Entwicklung von automatischen Systemen zum Extrahieren der Daten angespornt. Ein bequemer Weg, Daten, elektronisch einzutragen, besteht darin, Benutzern zu erlauben, geschriebene Antworten in ein Formular einzutragen und dann die Daten unter Verwendung der OCR-Verfahren optisch zu erkennen. Beispiele sind die 'Census'- und 'IRS'- Steuerformulare. Typischerweise werden die Daten durch einen Operator eingegeben, aber es gibt wachsende Bemühungen, die Kosten zu senken und die Geschwindigkeit zu erhöhen, indem Formulardokumente gescannt und der handgeschriebene Text erkannt wird. Zu einem Beispiel von solchen Prozessen siehe einen Artikel von Breuel, T. M., betitelt "Recognition of handwritten responses on U. S. census forms", Document Analysis Systems, A. Lawrence Spitz, Andreas Dengle, Herausgeber, World Scientific Publishing, 27–264 (1994). Um die Erkennungsgenauigkeit zu erhöhen, werden Formulare oft als eine Anordnung von Kästchen konstruiert, in die der Benutzer Zeichen einträgt. Die Kästchen zwingen den Schreiber, Zeichen deutlich zu trennen und die Notwendigkeit der Zeichensegmentierung abzuwenden. Falsche Segmentierung trägt maßgeblich zu Erkennungsfehlern bei. Das Extrahieren handgedruckter Daten ist schwierig, sofern nicht eine Drop-out-Farbe, vielleicht Blau, verwendet wird. Dies erfordert, dass Formulare in mehrfachen Farben gedruckt werden. Eine andere Lösung ist, schwarze Kästchen zu verwenden, was den Vorteil hat, dass sie einfach und billig herzustellen sind, man aber hoch entwickelte Bildveraibeitungsschritte durchführen muss, um das Kästchen zu entfernen, wie von Ramanaprasad, V. Shin, Y-C. und Shrihari, S. N. in "Reading hand-printed addresses on IRS tax forms", in Document Recognition III, Luc M. Vincent, Lonathan J. Hull, Herausgeber, Proc. SPIE 2660, 243-250 (1996) gezeigt. Dies kann Registrieren des ursprünglichen leeren Formufars mit dem gescannten Bild und Subtrahieren des Formularbildes, um nur die Zeichen übrigzulassen, einschließen. Wenn ein Zeichenstrich mit dem Kästchen zusammenfällt, wür- de dieser Zeichenstrich leider auch entfernt werden. Dies kann die Genauigkeit der Zeichenerkennung stark verringern. Wichtig zur Kostensenkung ist eine hoch genaue optische Zeichenerkennung der Dateneinträge, weil, je mehr Fehler es gibt, desto mehr menschliche Mühe aufgewandt werden muss, um sie finden und zu korrigieren.
Eine Hauptquelle von Fehlern sind verschmolzene Zeichen. Dies verursacht Mehrdeutigkeit in der Interpretation. Formulare sind bestimmt, den Schreiber zu zwingen, jedes Zeichen zu trennen, wobei getrennte Zeichen genauer erkannt werden, wie von M. D. Garris und D. L. Dimmick, "Form design for high accuracy optical character recognition", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, Nr. 6, Juni 1996, Seiten 653–656 beschrieben. Formulare bestehen daher aus jeder Zahl von Rahmen, d. h., bezeichneten Bereichen zum Dateneintrag. Eine andere Fehlerquelle ist das Zusammenfallen von Einträgen mit den zum Führen des Schreibers benutzten Rahmen, weil der Rahmen Teile der Zeichen verfälscht, wie von M. D. Garris gezeigt. Im Stand der Technik gibt es zwei Lösungen für dieses Problem: 1) Drucken des Formulars in einer Drop-out-Farbe, die sich von der zum Zeichnen des Formulars benutzten Farbe unterscheidet, sodass das Formular und die eingetragenen Daten optisch unterschieden werden können, und 2) die Rahmen algorithmisch aus einem gescannten Formularbild entfernen und den den eingetragenen Zeichen zugefügten Schaden algorithmisch zu reparieren. Siehe M. D. Garris, "Intelligent form removal with character stroke preservation", Proc. SPIE, Vol. 2660, 1996, Seiten 321–332 und B. Yu und A. K Jain, "A generic system for form dropout", IEEE Transactions on, Pattern Recognition, Vol. 18, Nr. 11, Nov. 1996, Seiten 1127–1134, wobei beide dieses Phänomen beschreiben.
Die erste Lösung hat eine Anzahl von Nachteilen. Erstens, man muss ein Formular in zwei Farben herstellen, eine Farbe für die Anweisungen oder gedruckten Text und eine hellere Farbe für die Rahmen. Dies erhöht die Kosten der Formularherstellung, weil sie auf einem Zweifarben-Drucker gedruckt werden müssen. Zweitens, die Formulare müssen mittels eines Scanners mit entweder einer Glühlampe in der Farbe des Dropouts gescannt werden, oder der Scanner muss ein Farbscanner sein, und das sich ergebende Bild muss verarbeitet werden, um die Farbe zu entfernen. In jedem Fall werden die Formularverarbeitungskosten erhöht. Schließlich, zweifarbige Formulare können auf Schwarz/Weiß-Kopierern nicht fotokopiert werden., Die zweite Lösung verlangt, dass das Formular algorithmisch entfernt wird. Zum Beispiel kann ein leeres Formular im Computerspeicher wiedergegeben und mit gescannten eingetragenen Bildern registriert und von dem Bild subtrahiert werden, um nur die eingetragenen Daten übrigzulassen. Die folgenden Verweise liefern mehr Hintergrund für solche Prozesse: R. Casey, D. Ferguson, K. Mohiuddin und E. Walach, "Intelligentforms processing system", Machine Vision and Applications, Vol. 5, 1992, Seiten 143–155; S. Liebowitz Taylor, R. Fritzon und J. A. Pastor, "Extraction of data from preprinted forms", Machine Vision and Applications, Vol. 5, 1992, Seiten 211–222; US Patent Ni. 5,140,650, "Computer-implemented method for automatic extraction of data from printes forms", und US Patent Nr. 5, 542,007, erteilt an Chevion et al., am 30. Juni 1996, betitelt "Form dropout compression method which handles form white-out and writing in shaded and white-out areas of the form". Dies verlangt, dass entweder eine leere Version des Formulars eingescannt wird, oder ein Modell des Formulars im Computerspeicher vorliegt. Man kann auch das Formular durch sorgfältiges Löschen entlang horizontaler und vertikaler Linien entfernen (s. Garris und Yu). In jedem Fall werden Zeicheneinträge durch das Linienentfernen beschädigt Striche müsswn mittels sorgfältig aufgestellter Regeln repariert werden. In den Fällen, wo ein Strich mit einer Rahmenlinie zusammenfällt, in dies unmöglich. Herkömmlich, wenn keine Drop-out-Farbe benutzt wird, muss man die Formularkästchen irgendwie aus einem gescannten Bild entfernen. Dies kann auch durch Subtrahieren (XOR) des ursprünglichen Formularbildes von einem gescannten Bild getan werden. Auf diese Weise kann man jedoch Teile der Zeichenbilder verlieren. Hoch entwickelte Bildverarbeitungsverfahren sind noch immer erforderlich, um die Zeichenbilder zu bewahren, und diese Verfahren arbeiten dürftig.
Die Möglichkeit des Erkennens handgeschriebener Zeichen mittels Unterscheiden zwischen gedruckten Strukturen ist durch Dokumente, einschließlich FR A-2737930 und IBM Technical Disclosure Bulletin, Vol. 15, Nr. 10, (Hamburgen), beschrieben worden. Jedoch offenbart keines ein bequemes Verfahren zur Implementierung von Strukturerkennung.
Was optische Zeichenerkennung angeht, ist OCR der Prozess zum Umwandeln fotonischer oder elektronischer Darstellungen eines Zeichenformulars in eine symbolische Form. In modernen Systemen werden die Daten im Computerspeicher gehalten, sei es auf einer Festplatte oder in einem Direktzugriffsspeicher. Die symbolische Darstellung kann dann gespeichert und editiert werden. Der Prozess besteht aus drei Schritten: Scannen, Merkmalextraktion und Klassifizierung. Der erste Schritt findet statt, indem eine lichtempfindliche Einrichtung verwendet wird, um ein auf einem Substrat gedrucktes Zeichen in elektronische Impulse umzuwandeln und als eine Matrix in einem Prozessorspeicher zu speichern. Das Zeichen könnte auch mit magnetischer Tinte gedruckt werden und mit einer geeigneten Einrichtung abgetastet werden. Schritt zwei besteht aus dem Extrahieren von Merkmalen aus dem als Matrix dargestellten Zeichenbild. Wählen eines guten Merkmalsatzes, um unter einem Satz von Zeichen zu unterscheiden, seien sie von Maschine (wie beim Maschineschreiben oder Setzen) oder von Menschenhand gedruckt, ist und war ein aktives Feld von Forschung und Entwicklung gewesen, wie in der Arbeit von S. Mori, C. Y. Suen und K. Yamamoto, "Historical Review of OCR research und development", Proceedings of the IEEE, Vol. 80, Nr. 7, 1992, Seiten 1029–1058 gezeigt. Schritt drei wendet eine Entscheidungsregel auf das beob achtete extrahierte Merkmal an und weist ihm eine Klasse, d. h. einen Zeichencode, zu. Im Fall von neuralen Netzwerkverfahren mit verborgenen Schichten für OCR kommt Schritt zwei in der ersten Schicht und Schritt drei in der zweiten Schicht vor. Zu mehr Information über OCR siehe U.S. Patent Nr. 4,034,343, erteilt an Michael E. Wilmer am 5. Juli, 1997, betitelt "Optical character recognition system", das den Stand der Technik in der Raumdomäne beschreibt. U.S. Patent 3,582,884 vom 1. Juni 1971, betitelt "Multiple-scanner character reading system" beschreibt ein OCR-System auf einem Kommunikationsnetzwerk, bei dem Zeichen abgetastet und als Signale dargestellt werden. Das Decodieren der Signale in die ursprünglichen Video-Scandaten wird vor dem Erkennen vorgenommen.
Erfindungsgemäß wird ein Verfahren zum Extrahieren sekundärer Bilddaten aus einem vorwiedergegebenen Dokument bereitgestellt, wobei das vor-wiedergegebene Dokument unter Verwendung von Halbtonmustern von abwechselnden hoch (weiß) und tief (dunkel) gepixelten Bereichen für ausgewählte Rahmen, Zeichen und Symbole auf dem vor-wiedergegebenen Dokument erzeugt wird, dadurch gekennzeichnet, dass das Verfahren die folgenden Schritte umfasst:
Schärfen der Bilddaten unter Verwendung einer Faltung mit wenigstens einer Maske;
morphologisch Abschließen auf den Bilddaten mit wenigstens einem Strukturelement;
Schwellenwertverarbeiten der morphologisch abgeschlossenen Bilddaten in ein binäres Bild und
wiederholend Senken des Schwellenwertes, sodass, wenn mehr von dem gepixelten Bereich weiß wird, Kästen des oder der Rahmen zusammen mit einer oder mehreren unechten, zusammenhängenden Komponenten des Bildes gelöscht werden,
während die sekundären Bilddaten zur weiteren Verarbeitung übrig bleiben.
Um den Nachteil des Stands der Technik bezüglich Formularwiedergabe und Zeichenerkennung zu überwinden, verwendet diese Erfindung Dokumente, die einfach Halbtöne auf billigen Druckern zusammen mit einem Satz von Bildverarbeitungschritten geringer Kompexität, wie oben beschrieben, verwenden, um die Zeichen zur Erkennung zu extrahieren.
Die Erfindung nutzt Strukturunterschiede zwischen Zeichenstrichen und halbgetonten Kästchen aus, während andere Verfahren Unterschiede in der optischen Dichte (z. B. Drop-out-Farbe) oder Strukturunterschiede (Heraussubtrahieren von Kästchen und Rückgewinnen von Strichen) verwenden. Dieses Verfahren kann Formularkästchen mittels eines Halbtons erzeugen, etwa des in PostScript^TM von Adobe Corporation benutzen allgegenwärtigen Halb tonschemas. In einem bevorzugten Beispiel wird ein Formular mit halbgetonten Kästchen mit hand- oder maschinegeschriebenen Zeichen von einem Benutzer ausgefüllt. Das Formular wird dann auf einem Graustufen-Scanner in einer Weise gescannt, die zwischen halbgetonten Kästchen und Zeichen des Benutzers unterscheidet. Auch wenn hangeschriebene oder nachträglich maschinegeschriebene Zeichen mit Kästchen des Formulars zusammenfallen, sind die Zeichen erkennbar, weil die halbgetonten Kästchen des Formulars während des Scannens von dem Bild subtrahiert werden. Die typologischen Merkmale aller handgeschriebenen oder maschinegeschriebenen Zeichen würden wen der Kästchen-Subtraktion selbst in Überlappungssituationen durch die halbgetonten Kästchen nicht nachteilig beeinflusst werden.
Das hierin beschriebene Verfahren der Formularwiedergabe überwindet alle identifizierten, Mängel. Formularrahmen, ausgewählter Text, Symbole oder Zeichen werden als schwarze und weiße Halbtöne wiedergegeben, und nachträglich geschriebene oder getippte Zeichen werden durch Ausnutzen von Strukturunterschieden zwischen den Rahmen und den neuen Zeichenstrichen extrahiert. Eine Folge von einfachen Bildverarbeitungsoperationen, die ohne weiteres in Hardware oder Software ausgeführt werden können, beseitigt die Rahmen (oder andere ausgewählte Felder), während die nachträglich hinzugefügten Zeichen unversehrt gelassen werden. Halbtöne, die dem Aussehen eine helle Farbe geben, wie in dem Dropout-Farben-Verfahren, werden durch Seitenbeschreibungssprachen wie PostScript leicht erzeugt, sodass leere Formulare zu niedrigen Kosten gedruckt und fotokopiert werden können.
Mit der Implementierung der offenbarten Erfindung können maßgeschneiderte Formulare mit irgendeinem verfügbaren Drucker, nicht unbedingt einem Farbdrucker, der Halbtöne hervorbringen kann, erzeugt werden. Zuverlässige Erkennung benötigt minimale Bildverarbeitungsressourcen, diese Erfindung vorausgesetzt. Das vorliegende Verfahren hat niedrige Rechenkomplexität und geringen Speicherbedart zum Extrahieren von Zeichen aus diesen halbgetonten Formularen. Daher werden niedrigpreisige individuelle Formulare erzeugt, die eine zuverlässige, billige Weise zum Extrahieren von Zielzeichen begünstigen. Handgeschriebene Formulardaten können in elektronische Form umgewandelt werden, indem das Formular gescannt wird und handgedruckte Zeichen automatisch erkannt werden.
Die bevorzugten Ausführung und andere Aspekte der Erfindung werden aus der folgenden ausführlichen Beschreibung der Erfindung ersichtlich werden, wenn sie in Verbindung mit den begleitenden Zeichnungen gelesen wird, die zum Zweck des Beschreibens von Ausführungen der Erfindung und nicht zum Begrenzen derselben bereitgestellt werden. Inhalt der Zeichnungen:
1 veranschaulicht ein Muster eines Originalformulars, das halbgetonte Kästchen hat und handgeschriebenen Text enthält.
2 veranschaulicht ein Muster der resultierenden Erkennung für das Bild von 1.
3 veranschaulicht das Schärfen des Bildes von 1.
4 veranschaulicht 3 nach morphologischem Abschließen.
5 veranschaulicht 4 nach Schwellenwertverarbeitung.
6 veranschaulicht eine Serie von Mustern für Bild 1, wenn sie bei 200, 190, 180, 170, 160 und 150 schwellenwertverarbeitet werden.
7 ist ein Blockschaltbild von Modulen, die nötig sind, um Zeichenerkennung mittels der offenbarten Erfindung zustande zu bringen.
Das hierin offenbarte Verfahren erzeugt Formularkästen unter Verwendung von Halbtönen, wie z. B. dem in PostScript^TM verwendeten allgegenwärtigen Halbtonschema, und sorgt für die Erkennung von nachträglich hand- oder maschine geschriebenen Zeichen durch Subtrahieren der halbgetonten Formularkästen. Obwohl sich die folgende Erörterung auf Formularkästen und handgeschriebene Zeichen bezieht, muss man verstehen, dass dieses Verfahren benutzt werden kann, um jedes ausgewählte Feld, Symbol oder Text in einem Formular zu beseitigen, und nachträglich von einem Benutzer in ein Formular eingetragene Zeichen, hand- oder maschinegeschrieben, erkennen kann.
Mit Verweis auf 1 wird ein Feld eines Formulars mit Kästen gezeigt, das mittels Halbtonverfahren erzeugt wurde. Für dieses Beispiel wurde das Formular als eine PostScript-Datei erzeugt, auf einem 300 dpi SparcPrinter gedruckt, von einem Benutzer mit Handschrift ausgefüllt und auf einem Graustufen-Scanner mit 200 spi und 8 Bit pro Pixel gescannt. Man beachte, dass die handgeschriebenen Zeichen mit den Kästen zusammenfallen. Würde man die Kästen einfach von dem Bild subtrahieren, würden die topologischen Merkmale der Zeichen nachteilig beeinflusst werden, besonders das "E" in "PRIZE". Nach einfacher Bildverarbeitung ist das Ergebnis ein binäres Bild, das die Zeichenbilder bewahrt, wie in 2 gezeigt.
Im ersten Schritt wird das Originalbild von 1 mittels einer Faltung mit Maske geschärft:
wodurch das in 3 gezeigte Bild erzeugt wird.
Im nächsten Schritt wird ein morphologisches Abschließen auf dem Bild mittels eines 2 × 2 strukturierenden Elements durchgeführt, wie in "An Introduction to Nonlinear Processing", E. R. Dougherty und J. T. Astola, SPIE Press, 1994, erklärt. Da die halbgetonten Kästen abwechselnde hohe (weiße) und tiefe (dunkle) Pixeln enthalten, ist das strukturierende Element nicht imstande, in die tiefen getrennten Pixeln zu passen, passt aber in die dickeren Zeichenstriche, wie in 4 gezeigt.
Das abgeschlossene Bild wird schwellenwertverarbeitet, um ein binäres Bild zur anschließenden Zeichenerkennung zu erlangen, wie in 5 gezeigt.
Der letzte Schritt ist zum "Trocken-Reinigen" des Bildes von unechten, kleinen zusammenhängenden Komponenten oder Klacksen in dem Bild, und das Ergebnis wird in 2 gezeigt.
Ein einfaches Schwellenwertverarbeitungsverfahren wurde nicht so gut arbeiten. 6 zeigt eine Folge von Bildern, die bei 200, 190, 180, 170, 160 und 150 schwellenwertverarbeitet werden. Wenn der Schwellenwert gesenkt wird, sodass mehr Pixeln weiß werden, verschwinden die Kästen, aber auch die dünnen Striche auf den Zeichen. Einmal verloren, können sie nicht zurückgewonnen oder leicht abgeleitet werden.
Auf 7 verweisend wird ein Formular 1A, das halbgetonte Felder und nachträglich eingetragenen handgeschriebenen Text enthält (wie in 1–2 gezeigt), elektronisch gescannt 2. Eine Halbton-Subtraktion 3 wird dann auf dem gescannten Bild durchgeführt, um die halbgetonten Felder zu entfernen. Die Subtraktion kann während der Abtastsequenz innerhalb der Abtastsoftware oder durch Softwarebearbeitung mit einem Mikroprozessor stattfinden. Sobald die Subtraktion 3 vollendet ist, kann das durch den Abtast/Subtraktions-Prozess erzeugte Dokument weitere OCR-Verarbeitung 4 erfahren. Handgeschriebene Zeichen werden während OCR 4 erkannt und klassifiziert. Das resultierende "Dokument" 1B, das in elektronischer oder physikalischer Form sein kann, wird nur erkannte Zeichen enthalten, die in das Originalformular durch einen Benutzer eingetragenen Daten gleichen. Die erkannten Zeichen können an diesem Punkt wertere Bearbeitung oder Speicherung erfahren.

Claims

Verfahren zum Extrahieren sekundärer Bilddaten aus einem vor-wiedergegebenen Dokument, wobei das vor-wiedergegebene Dokument unter Verwendung von Halbtonmustern von abwechselnden hoch (weiß) und tief (dunkel) gepixelten Bereichen für ausgewählte Rahmen, Zeichen und Symbole auf dem vor-wiedergegebenen Dokument erzeugt wird, dadurch gekennzeichnet, dass das Verfahren die folgenden Schritte umfasst: Schärfen der Bilddaten unter Verwendung einer Faltung mit wenigstens einer Maske; morphologisch Abschließen auf den Bilddaten mit wenigstens einem Strukturelement; Schwellenwertverarbeiten der morphologisch abgeschlossenen Bilddaten in ein binäres Bild, und wiederholend Senken des Schwellenwertes, sodass, wenn mehr von dem gepixelten Bereich weiß wird, Kästen des oder der Rahmen zusammen mit einer oder mehreren unechten, zusammenhängenden Komponenten des Bildes gelöscht werden, während die sekundären Bilddaten zur weiteren Verarbeitung übrig bleiben.
Verfahren nach Anspruch 1, wobei die sekundären Bilddaten handgeschriebene Zeichen umfassen.
Verfahren nach Anspruch 1 oder 2, wobei die sekundären Bilddaten in elektonisches Format umgewandelt werden können durch: a) elektronisches Abtasten des Dokuments, b) Beseitigen der halbgetonten Muster auf dem Dokument unter Verwendung des in Anspruch 1 beschriebenen Verfahrens, und c) Bereitstellen von übrig gebliebenen, nicht-halbgetonten Zeichen zur weiteren elektronischen Verarbeitung des Dokuments.
Verfahren nach Anspruch 3, wobei die weitere elektronische Verarbeitung des Dokuments Zeichenerkennung umfasst.
Verfahren nach Anspruch 3 oder 4, wobei die weitere elektronische Verarbeitung des Dokuments Speicherung der übrig gebliebenen, nicht-halbgetonten Zeichen umfasst.
Mikroprozesser, der programmiert ist, um das Verfahren des Extrahierens von sekundären Bilddaten nach Anspruch 1 durchzuführen, und die nicht-halbgetonten Zeichen zur weiteren elektronischen Verarbeitung bereitzustellen.