DE60129872T2

DE60129872T2 - Verfahren zur Extrahierung von Titeln aus numerischen Bildern

Info

Publication number: DE60129872T2
Application number: DE60129872T
Authority: DE
Inventors: Yue Robbinsville Ma; Min Revere Yi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2000-03-29
Filing date: 2001-03-22
Publication date: 2008-05-15
Anticipated expiration: 2021-03-23
Also published as: EP1146478B1; EP1146478A3; DE60129872D1; JP2002024836A; EP1146478A2; US6674900B1

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft allgemein den Zugriff auf rechnergestützte Informationen. Die Erfindung betrifft insbesondere ein Verfahren zum Extrahieren eines Titeltextes oder anderer Textbereiche aus Bitmap-Bildern, wie sie beispielsweise erzeugt werden, wenn Dokumente eingescannt werden. Der extrahierte Titeltext kann auf vielerlei Weisen verwendet werden, einschließlich dem Suchen nach Schlüsselwörtern oder dem Indizieren von Datenbanken von Bitmap-Bildern. In bestimmten Fällen kann der extrahierte Titeltext alle erforderlichen Informationen, wie beispielsweise Schlagzeilen von Zeitungen, bereitstellen.
Hintergrund der Erfindung
Die Welt wird schnell zu einer Informationsgesellschaft. Mit der Digitaltechnologie wurde die Schaffung riesiger Datenbanken, die eine Fülle von Informationen enthalten, möglich. Es wird erwartet, dass die kürzliche Explosion der Beliebtheit bildbasierter Systeme zu der Schaffung enormer Datenbanken führt, die enorme Herausforderungen für den Zugriff auf die Datenbanken darstellen werden. In diesem Zusammenhang ist die Explosion der Beliebtheit des World Wide Web nur ein Beispiel dafür, wie sich die Informationstechnologie schnell zu einem bildbasierten Modell hin entwickelt.
Bildbasierte Systeme stellen eine große Herausforderung für die Informationswiedergewinnung dar. Obwohl die Technologie der Informationswiedergewinnung in auf codierten Zeichen basierten Systemen ziemlich gut fortgeschritten ist, funktionieren diese Wiedergewinnungstechniken nicht bei bildbasierten Systemen. Die Ursache hierfür ist, dass bildbasierte Systeme Informationen als Bitmap-Daten abspeichern, die dem Erscheinungsbild der gedruckten Seite und nicht dem Gehalt an Informationen auf dieser Seite entsprechen. Herkömmliche Techniken erfordern die Umwandlung von Bitmap-Daten in Textdaten durch eine optische Zeichenerkennungs-(optical character recognition, OCR-)Software, bevor die Systeme zur Informationswiedergewinnung zu arbeiten beginnen.
Die optische Zeichenerkennungssoftware ist von der Rechnerseite aus gesehen jedoch leider teuer und der Erkennungsprozess ist ziemlich langsam. Bei der Handhabung großer Mengen an bildbasierten Daten ist es unpraktisch eine optische Zeichenerkennung für die gesamte Datenbank durchzuführen. Zudem ist das Ergebnis selbst dann, wenn die Zeit und rechenbetonte Quellen eine OCR-Umwandlung der Bilddaten in Textdaten en gros zulassen, noch immer eine große, unstrukturierte Datenbank ohne eine kurze Liste mit nützlichen Schlüsselwörtern, die das wiedergewinnen und durchsehen eines Dokuments von Interesse ermöglichen könnten. Das Durchsuchen der gesamten Datenbank nach ausgewählten Schlüsselwörtern kann nicht die optimale Lösung sein, da die Suche nach Schlüsselwörtern im gesamten Text oftmals viel zu viele Treffer erzeugt, um von Nutzen sein. Andere Nachteile der OCR-Umwandlung schließen daneben die Schwierigkeit, geeignete Ergebnisse bereitzustellen, wenn ein Dokument verzerrt ist (wie es beispielsweise durch Übertragen von einem Fax verursacht wird), unterschiedliche Schriftarten oder Grauskala-Bilder ein. Es besteht daher ein Bedarf nach einem Verfahren zum Extrahieren von lediglich Schlüsselteilen eines Dokuments, die einen Text enthalten, der eine Beschreibung des restlichen Teils des Dokuments bereitstellt, wie beispielsweise Titel.
Das U.S. Patent Nr. 5,818,978 ("das '978-Patent") offenbart ein Zeichenerkennungssystem, das zum Verstärken der optischen Zeichenerkennungsverfahren aus dem Stand der Technik verwendet wird, indem es ein Schwellenwertverfahren ("Thresholding") an einem Grauskala-Bild durchführt und dann die Zeichen unter Verwenden von Segmentierungstechniken aus dem Stand der Technik lokalisiert. Da das System des '978-Patents jedoch herkömmliche Segmentierungsverfahren an binären Bildern verwendet, bei denen an nur einem einzigen Niveau ein Schwellenwertverfahren durchgeführt wurde, werden bei Dokumenten mit komplexen Graphiken oder bei Dokumenten, die mehrere Bereiche mit ähnlichen Grauskalaintensitäten aufweisen, unangemessene Ergebnisse erzeugt werden.
Das U.S. Patent Nr. 5,892,843 ("das '843-Patent"), das dem gleichen Begünstigten zugesprochen wurde, wie die vorliegende Erfindung, offenbart ein System zum Extrahieren von Titeln, Überschriften und Fotos aus eingescannten Bildern. Da das '843-Patent jedoch ebenso wie das '978-Patent herkömmliche Segmentierungsverfahren an binären Bildern (die durch Durchführen eines Schwellenwertverfahren an einem Grauskala-Bild erzeugt worden sein können) verwendet, werden Dokumente mit komplexen Graphiken oder Dokumente, die mehrere Bereiche mit ähnlichen Grauskalaintensitäten aufweisen, von dem System des '843-Patents mit weniger als idealen Ergebnissen verarbeitet werden. Daneben erfordert das Verfahren des '843-Patents, dass die Sprache jedes verarbeiteten Dokuments vor dem Verarbeiten identifiziert werden muss. Andere Nachteile des Verfahrens des '843-Patents schließen das Unvermögen, in mehr als einer Zeile angeordnete Titel, innerhalb eines fotographischen Bereichs angeordnete Titel oder Titel mit invertierter Darstellung (d.h. weiße Buchstaben auf einem schwarzen Hintergrund) zu lokalisieren, ein.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das zuverlässigere Ergebnisse als Verfahren zum Extrahieren von Titeln aus dem Stand der Technik bereitstellt, wenn das Bild komplexe Graphiken oder Bereiche mit ähnlichen Grauskalaintensitäten aufweist, bereitzustellen.
Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das in mehr als einer Zeile angeordnete Titel extrahiert, bereitzustellen.
Es ist noch eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das Titel innerhalb fotographischer Bereiche extrahiert, bereitzustellen.
Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeile aus einem eingescannten Bild, das Titel, die aus einer invertierten Darstellung bestehen, extrahiert, bereitzustellen.
Es ist noch eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das nicht erfordert, dass die Sprache des verarbeiteten Dokuments vor dem Verarbeiten identifiziert wird, bereitzustellen.
Verschiedene andere Ziele, Vorteile und Merkmale der vorliegenden Erfindung werden leicht aus der folgenden ausführlichen Beschreibung ersichtlich und die neuen Merkmale werden in den beigefügten Ansprüchen besonders herausgestellt.
Zusammenfassung
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Entwerten von Titeln innerhalb eines Grauskala-Bildes nach Anspruch 1 unten bereitgestellt. Bevorzugte Merkmale des Verfahrens werden in den Ansprüchen 2 bis 11 unten vorgetragen.
In einer Ausführungsform ist die vorliegende Erfindung auf ein Verfahren zum Entwerten von Titeln innerhalb eines Grauskala-Bildes gerichtet, bei dem ein Grauskala-Bild, z.B. durch Einscannen eines Dokuments, empfangen wird und dann der Durchführung eines, vorzugsweise mehrstufigen, Schwellenwertverfahrens (einem "Multi-Level-Thresholding") unterzogen wird, um vorzugsweise eine Vielzahl von binären Bildern zu erhalten, die das ursprüngliche Grauskala-Bild wiedergeben. Jedes der binären Bilder wird vorzugsweise vorverarbeitet, um alle Rauschkomponenten darin zu filtern, und dann werden alle verbundenen Komponenten in jedem der binären Bilder identifiziert und in Cluster gepackt, um mögliche Titelbereiche darin zu identifizieren. Als nächstes wird jedes binäre Bild vorzugsweise nachverarbeitet, um mögliche Titelbereiche, die Striche umfassen, zusammenzufügen und Nicht-Titel-Bereiche, z.B. fotographische Bereiche, aus den vorher identifizierten, möglichen Titelbereichen in jedem der Bilder durch Vergleichen von Eigenschaften der vorher identifizierten, möglichen Titelbereiche mit vorbestimmten Kriterien zu entfernen. Ferner werden vorzugsweise bestimmte der vorher identifizierten, möglichen Titelbereiche in jedem der binären Bilder, die die vorbestimmten Kriterien erfüllen, zusammengefügt. Des Weiteren werden vorher identifizierte, mögliche Titelbereiche, die nach den optionalen Schritten des Nachverarbeitens und des Zusammenfügens von jedem der binären Bilder übrig bleiben, kombiniert. Schließlich werden vorzugsweise bestimmte der vorher identifizierten, möglichen Titelbereiche von verschiedenen binären Bildern zusammengefügt, um identifizierte Titelbereiche für eine weitere Verarbeitung, z.B. für eine Verwendung als Maske zum Extrahieren des Titeltextes aus dem Originalbild, zu erzeugen.
Der Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens ("Multi-Level-Thresholding") wird vorzugsweise durch Erzeugen eines Histogramms der Anzahl an Läufen, die aus der Durchführung eines Schwellenwertverfahrens an dem Grauskala-Bild bei jedem Intensitätsniveau in dem Grauskala-Bild resultieren würden, durchgeführt. Dann wird ein gleitendes Profil des Histogramms erzeugt und die Maxima in dem gleitenden Profil identifiziert. Der Wert für jedes der Maxima des gleitenden Profils wird identifiziert und diese Werte für die Durchführung eines Schwellenwertverfahrens an dem Grauskala-Bild zum Erzeugen einer Vielzahl von binären Bildern verwendet.
Es werden drei Verfahren zum Durchführen des Schritts des Vorverarbeitens dargestellt. Das erste Verfahren umfasst ein adaptives morphologisches Verfahren, das aus einer rekursiven Folge von Erosionsschritten und Dilatationsschritten besteht. Das zweite Verfahren besteht aus einem Löcher füllenden Verfahren, das die Schritte des zunächst Erzeugens eines gleitenden Fensters mit einem Bereich in der Mitte und vier äußeren Bereichen und dann des Bewegens des gleitenden Fensters über das binäre Bild umfasst. An jedem Punkt innerhalb des binären Bildes wird die Anzahl an Pixeln mit dem Wert Null in jedem äußeren Bereich berechnet. Wenn jeder äußere Bereich mindestens ein Pixel mit dem Wert Null darin enthält und wenn die Summe der Anzahl an Pixeln mit dem Wert Null größer als eine erste vorbestimmte Schwelle ist, wird das Pixel, das dem Bereich in der Mitte entspricht, auf 0 gesetzt, und, wenn die Summe der Anzahl an Pixeln mit dem Wert Null in jedem äußeren Bereich kleiner als oder gleich einem zweiten vorbestimmten Wert ist, wird das Pixel, das dem Bereich in der Mitte entspricht, auf 1 gesetzt. Das dritte Verfahren, das das bevorzugte Verfahren ist, umfasst schließlich ein morphologisches Verfahren, bei dem unter Verwenden eines vorbestimmten strukturellen Elements eine einfache Öffnungsoperation durchgeführt wird.
Kurze Beschreibung der Figuren
Die obigen und damit verbundene Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden unter Bezugnahme auf die folgende ausführliche Beschreibung der derzeit bevorzugten, wenngleich veranschaulichenden, Ausführungsformen der vorliegenden Erfindung noch vollständiger verstanden werden, wenn sie in Verbindung mit den begleitenden Figuren betrachtet werden, in denen:
1 ein Ablaufplan des Verfahrens der vorliegenden Erfindung ist;
2 ein simuliertes Bild ist, das zum Veranschaulichen des Schritts der Durchführung eines mehrstufigen Schwellenwertverfahrens der vorliegenden Erfindung verwendet wird;
3 ein Histogramm der Anzahl an Läufen ist, die pro Intensitätsniveau in dem eingescannten Bild gefunden wurden;
4 ein gleitendes Profil des Histogramms aus 3 ist;
5 ein Ablaufplan eines vorverarbeitenden Verfahrens der vorliegenden Erfindung ist;
6 ein Diagramm eines beispielhaften 5 × 5-gleitenden Fensters ist, das in einem Aspekt der vorliegenden Erfindung verwendet wird;
7 eine simulierte, vergrößerte Ansicht eines eingescannten Bildes ist, das zum Veranschaulichen eines Beispiels für eine Einkreisung gemäß einem weiteren Aspekt der vorliegenden Erfindung verwendet wird;
8 eine simulierte, vergrößerte Ansicht eines eingescannten Bildes ist, das zum Veranschaulichen eines Beispiels für verbundene Komponenten gemäß einem noch weiteren Aspekt der vorliegenden Erfindung verwendet wird;
9 ein Ablaufplan des Cluster-Algorithmus ist; und
10 ein simuliertes, eingescanntes Bild ist, das die Schwankungen der Größe von Wortstämmen, die in Sprachen, wie beispielsweise der japanischen und der chinesischen Sprache auftreten, veranschaulicht.
Ausführliche Beschreibung der bevorzugten Ausführungsformen
Nun wird auf die Figuren und im Besonderen die 1, die die an der vorliegenden Erfindung beteiligten Schritte veranschaulicht, Bezug genommen. Im Überblick wird zunächst ein mehrstufiges Schwellenwertverfahren (Schritt 110) auf ein Grauskala-Bild aus einem Dokument (das bei Schritt 100 eingescannt wurde) angewendet, um eines oder mehrere binäre Bilder, die verschiedene Intensitätsniveaus innerhalb des Grauskala-Bildes wiedergeben, zu erzeugen, verbundene Komponenten identifiziert, dann Titelbereiche aus diesen verbundenen Komponenten in jeder Schicht identifiziert und schließlich die Titelbereiche aus den verschiedenen Schichten kombiniert. Zum Extrahieren der Titelbereiche wird ein Bottom-up-Ansatz verwendet, wodurch die Titelbereiche in jeder Schicht zunächst identifiziert werden und dann in größere Titelbereiche in Cluster gepackt werden, da kein a priori Wissen über das Originaldokument verfügbar ist. Wie von einem Fachmann erkannt wird, sind verbundene Komponenten eine maximale Gruppe aus sich berührenden, schwarzen Pixeln in einem binären Bild.
Unter Bezugnahme auf 1 wird zunächst in Schritt 100 ein Dokument eingescannt, um ein Grauskala-Bild zu erzeugen. Wie ein Fachmann leicht erkennen wird, können alternativ dazu verschiedene andere Verfahren zum Erhalten des Grauskala-Bilds, einschließlich, z.B. dem Verwenden einer Digitalkamera oder dem Empfangen eines digitalisierten Bildes von einer Bezugsquelle als drittem Teilnehmer, verwendet werden. Das Grauskala-Bild wird dann dem Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens 110 unterzogen, um das Grauskala-Bild in n verschiedene binäre Bilder (Schichten) (d.h. BILD (i) für i = 1 bis n) aufzuteilen. Dieser Schritt ist nachstehend ausführlicher beschrieben. Die Anzahl n an Schichten, die aus dem Schritt 110 resultiert, hängt von der Komplexität des Originaldokuments ab, wie unten erörtert wird. In Schritt 120 wird ein Index i auf 1 gesetzt und dazu verwendet, durch die Schritte 130–160 für jede in Schritt 110 erzeugte Schicht eine Schleife zu bilden. Da es in dem Untergrund einige Verzerrungen oder Löcher geben kann, die die Zeichen miteinander verbinden können, ist der erste Schritt, dem die Schicht vorzugsweise unterzogen wird, der Schritt des Vorverarbeitens 130, der sehr kleine verbundene Komponenten herausfiltert und dünne Linien eliminiert, wodurch alle verbundenen Komponenten, die durch die eliminierten dünnen Linien verbunden gewesen sein könnten, voneinander getrennt werden. Der Schritt 133 verarbeitet jedes Bild, um alle darin angeordneten, verbundenen Komponenten zu identifizieren. Der Schritt 137 kann vorzugsweise bestimmte Linienobjekte filtern und vorzugsweise bestimmte fotographische Bereiche extrahieren. Als nächstes werden in Schritt 140 verbundene Komponenten in Cluster gepackt, wie nachstehend ausführlicher erörtert wird. Ein Nachverarbeiten wird vorzugsweise in Schritt 150 angewendet, das Striche (d.h. die Elemente von einer Sprache, wie beispielsweise chinesisch oder japanisch, in denen die Zeichen aus einer Reihe von isolierten Strichen bestehen) zusammenfügt und entsprechend einer vorbestimmten Gruppe von Bedingungen filtert, wie nachstehend ausführlicher erörtert wird. Schließlich werden in Schritt 160 Titelelemente, die zu dem gleichen Titel gehören und innerhalb der bestimmten Schicht, die gerade verarbeitet wird, in verschiedene Gruppen in Cluster gepackt wurden, zusammengefügt. In Schritt 170 wird der Index i erneut gegen die Gesamtanzahl an Schichten n geprüft und wenn i nicht gleich n ist, der Index i in Schritt 180 inkrementiert. Danach geht die Verarbeitung mit Schritt 130 für die nächste Schicht weiter. Wenn in Schritt 170 bestimmt wird, dass i gleich n ist, wurde jede Schicht in den Schritten 130–160 verarbeitet und in Schritt 190 die Titel in den verschiedenen Schichten von BILD(i) kombiniert und alle Titelelemente, die zu dem gleichen Titel gehören und in verschiedene Schichten segmentiert wurden, zusammengefügt.
Unter Bezugnahme auf Schritt 110 der 1 und die 2–4 ist das Schwellenwertverfahren ein üblicher Vorgang bei der Bildverarbeitung, der bei einer Grauskala (oder Farbbildern) angewendet wird, um ein binäres Bild oder eine Gruppe von mehrstufigen, binären Bildern zu erhalten. Einem Fachmann sind eine Reihe von Verfahren bekannt, bei denen ein mehrstufiges Schellenwertverfahren durchgeführt wird. Ein solches Verfahren wurde bei Laurence O'Gorman in seinem Artikel "Binarization and Multi-Thresholding of Document Images Using Connectivity", das als Teil der Dokumente des Third Annual Symposium in Document Analysis and Retrieval, 11.–13. April 1994 vorgestellt wurde, ("das O'Gorman-Dokument") beschrieben. Das Verfahren nach O'Gorman zeigt einen globalen Ansatz, verwendet jedoch als Messgröße Informationen über den lokalen Verbund, so dass Schwellenwerte bei Intensitätsniveaus zu finden sind, die den Verbund von Bereichen innerhalb des Bildes am besten bewahren. Das Intensitätsniveau bezieht sich auf jeden diskreten Wert, der jedem Pixel in einem Grauskala-Bild gegeben werden könnte (z.B. weist ein Grauskala-Bild mit acht Bit 256 Intensitätsniveaus auf). Auf diese Weise macht sich das Verfahren nach O'Gorman sowohl globale als auch lokal adaptive Ansätze zunutze. Obwohl das Verfahren nach O'Gorman in Verbindung mit der vorliegenden Erfindung einigermaßen gut funktioniert, können, wie ein Fachmann mit einigen technischen Fachkenntnissen leicht erkennen kann, auch verschiedene andere Verfahren verwendet werden. Das Verfahren nach O'Gorman, bei dem ein mehrstufiges Schwellenwertverfahren durchgeführt wird, ist ein bisschen zeitaufwendig und beeinträchtigt daher die Durchführung der vorliegenden Erfindung. Zu diesem Zeitpunkt ist es jedoch das bevorzugte Verfahren.
Das Verfahren nach O'Gorman weist drei Schritte auf:

1. Bestimmen eines Histogramms der Anzahl an Läufen, d.h. der Abfolgen aufeinander folgender (verbundener), als AN geschätzter Pixel entlang einer Reihe oder einer Spalte, die aus der Durchführung des Schwellenwertverfahrens an dem ursprünglichen Grauskala-Bild an jedem Intensitätsniveau resultieren;
2. Bestimmen eines "gleitenden Profils", wie unten beschrieben ist, des Histogramms, das ein Maß der Ebenheit, d.h. das Fehlen von Schwankungen in den Läufen, für Bereiche um jedes Intensitätsniveau herum innerhalb des Histogramms erzielt; und
3. Auswählen der Anzahl an Schwellen als die Anzahl an Maxima in dem gleitenden Profit, wobei jede Schwelle als die Intensität bei dem damit verbundenen Maximum ausgewählt wird.

Das O'Gorman-Dokument stellt einen Algorithmus zum Berechnen der Anzahl an Läufen in jedem Intensitätsniveau eines Grauskala-Bildes vor, der nicht erfordert, dass eine Vielzahl von binären Bildern, eines für jedes unterschiedliche Intensitätsniveau innerhalb des Grauskala-Bildes, mit Hilfe eines Schwellenwertverfahrens bei jedem Intensitätsniveau aus dem Originalbild erzeugt werden muss.
Unter Bezugnahme auf 2 weist das veranschaulichte Beispielbild 200 zwei Bereiche 210 und 220 mit einem Intensitätsniveau von 4 und einen dritten Bereich 230 mit einer Intensität von 12 auf. Ein Lauf ist als Abfolge aufeinander folgender (verbundener), als AN geschätzter Pixel entlang einer Reihe oder einer Spalte definiert. Der obere, linke Bereich 210 (Intensitätsniveau 4) in der 2 weist eine Pixelgröße von 5 × 5 auf und trägt daher 10 Läufe bei. Der zweite Bereich 220 mit einem Intensitätsniveau von 4 weist eine Pixelgröße von 6 × 6 auf und trägt daher 12 Läufe bei. Schließlich weist der obere, rechte Bereich 230 eine Pixelgröße von 4 × 4 auf und trägt daher 8 Läufe bei.
Unter Bezugnahme auf 3 werden nun, wenn das Schwellenwertverfahren bei jedem Intensitätsniveau von 1 bis 4 durchgeführt wir, dreißig Läufe gefunden, da alle drei Bereiche 210–230 eine Intensität von 4 oder mehr aufweisen und daher alle Läufe beisteuern, wie in dem Histogramm 300 der 3 gezeigt ist. Zwischen einer Intensität von 4 und einer Intensität von 12 wird nur der obere, rechte Bereich 230 in der 2 Läufe beisteuern und bei Intensitäten zwischen 4 und 12 zeigt das Histogramm 300 daher einen Wert von 8. Oberhalb einer Intensität von 12 sind keine Bereiche mit solchen Werten vorhanden und das Histogramm 300 der 3 weist daher oberhalb einer Intensität von 12 einen Wert von Null auf.
Das gleitende Profil wird bestimmt, indem zunächst ein Maß für die Abweichung um jede Intensität durch folgende Berechnung:
worin d_i die Summe der Differenzen innerhalb eines Fensters der Breite w bei einer Intensität i ist und R(i) die Anzahl an Läufen bei dieser Intensität ist, festgelegt wird. Das gleitende Profil P(i) bei jeder Intensität wird folgendermaßen bestimmt:
wobei σ die Standardabweichung der Gauss-förmigen Kurve ist.
Die Breite des Fensters w, die für die Gleichung (1) gewählt wird, sollte so groß wie möglich, um die Verzerrung durch Berechnen des Mittelwerts zu verringern, jedoch kleiner als der minimale Intensitätsbereich zwischen den Niveaus der Bereiche sein. Dieser Bereich wird als minimaler Kontrast bezeichnet. Als Ergebnis dieses Schritts resultiert der in 4 gezeigte Graph für P(i). Um die Anzahl an Schwellen zu bestimmen, wird die Anzahl an Maximalwerten in dem gleitenden Profil bestimmt. In dem Histogramm 300 zeigt jedes der Maxima 410 und 420 ein Plateau (ebener Bereich). Da die Anzahl an Läufen innerhalb eines Plateaus annähernd konstant bleibt, kann erkannt werden, dass die Intensitätsbereiche zwischen den Plateaus den Übergängen der Intensität zwischen den Niveaus der Bereiche entsprechen. Die Schwellenwerte für das Bild aus 2 sind daher (1) 1–3 für die erste Schwelle und (2) 5–11 für die zweite Schwelle. Wie ein Fachmann erkennen wird, wird jeder Wert an einem Maximum akzeptable Ergebnisse für das Schwellenwertverfahren bereitstellen (z.B. wird ein Schwellenwert von 1, 2 oder 3 die gleichen Ergebnisse für die erste Schwelle des Bildes aus 2 erzeugen). In der bevorzugten Ausführungform wird der maximale Wert eines Maximums als Schwelle ausgewählt, obwohl, wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, dass verschiedene andere Verfahren zum Auswählen des momentanen Schwellenpunkts verwendet werden können.
Aus der Durchführung des mehrstufigen Schwellenwertverfahrens an dem Bild aus 2 werden drei Bilder resultieren. Das erste Bild wird alle Pixel mit einem Intensitätswert von kleiner als oder gleich der ersten Schwelle, z.B. 3, einschließen und wird daher alle Pixel außer denjenigen in den drei Bereichen 210–230 einschließen. Das zweite Bild wird aus allen Pixeln mit einem Intensitätswert von größer als dem ersten Schwellenwert, aber kleiner als oder gleich dem zweiten Schwellenwert, z.B. 10, einschließen und wird daher die beiden Bereiche 210 und 220 mit einem Intensitätswert von 4 einschließen. Das dritte Bild wird schließlich alle Pixel mit einem Intensitätswert von größer als dem zweiten Schwellenwert einschließen und wird daher nur den Bereich 230 mit einer Intensität von 12 einschließen.
In einem Bild, das mit Hilfe eines mehrstufigen Schwellenwertverfahrens erzeugt wurde, treten mehrere Arten von Verzerrungen auf. Eine dieser Arten von Verzerrungen ist der Einbau von Verzerrungen in Form von Sprenkeln. Eine andere Art von Verzerrungen ist der Einbau vieler Löcher sowohl in den Hintergrund als auch die Zeichen des Titels im Vordergrund. Wenn diese Löcher groß sind, können sich einige Zeichen miteinander verbinden und das Ergebnis der Extraktion des Titels beeinträchtigen. Es wird daher vorzugsweise ein erster Schritt des Vorverarbeitens 130 (1) dazu verwendet, diese Arten an Verzerrungen vor dem Schritt des Clusterns 140 zu entfernen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, erzeugt das Verfahren der vorliegenden Erfindung ohne ein solches Vorverarbeiten bei vielen Arten von Dokumenten annehmbare Ergebnisse. Zum Durchführen des Schritts des Vorverarbeitens 130 werden drei alternative Verfahren als Teil der vorliegenden Erfindung vorgestellt.
Das erste Verfahren zum Vorverarbeiten, das vorgestellt wird, ist ein rekursives morphologisches Verfahren, bei dem eine Reihe morphologischer Öffnungsoperationen (d.h. ein Erosionsschritt, gefolgt von einem Dilatationsschitt) durchgeführt wird. Dieses Verfahren ist rekursiv und beginnt mit einem öffnenden, strukturellen Element mit vorbestimmter Größe. Es wird eine Reihe von Öffnungsoperationen durchgeführt, wobei die Größe des öffnenden, strukturellen Elements nach jeder Operation zunimmt, bis bestimmte vorbestimmte Kriterien erfüllt sind. Auf diese Weise wird die Größe des öffnenden, strukturellen Elements in jedem rekursiven Schritt adaptiv ausgewählt. Dieses Verfahren ist insbesondere für das Extrahieren großer Titelzeichen geeignet und entfernt bestimmte dünne Verbindungen zwischen Komponenten, die nicht verbunden sein sollten und eliminiert auch bestimmte kleine Textzeichen, wodurch die Belastung für die spätere Verarbeitung verringert wird.
Um dieses adaptive morphologische Verfahren zu verstehen, wird zunächst angenommen, dass die Komponenten des Titels 1/k der Gesamtfläche des Dokuments (Größe des Dokuments) einnehmen, wobei k ein vorbestimmter Parameter ist. Dieses Verfahren versucht die Fläche einer möglichen Titelkomponente, wenn die aktuelle Fläche der möglichen Titelkomponenten mehr als 1/k der Fläche des Dokuments einnimmt, durch Durchführen eines Schritts des rekursiven Öffnens mit einem größeren, strukturellen Element, zu verringern, bis die Fläche der möglichen Titelkomponenten weniger als 1/k der Fläche des Dokuments beträgt. Die an diesem Verfahren beteiligten Schritte sind in dem Ablaufplan in 5 veranschaulicht.
Unter Bezugnahme auf 5 wird nun zunächst eine morphologische Öffnungsoperation (Schritt 500) mit einem vorbestimmten, kleinen, strukturellen Element (z.B. 3 × 3, was der erwarteten, minimalen Strichbreite von drei Pixeln für ein Zeichen innerhalb eines Titelbereichs in der bevorzugten Ausführungsform entspricht) durchgeführt, um die Verzerrung in Form von Sprenkeln zu eliminieren.
Als nächstes wird die Fläche der restlichen verbundenen Komponenten nach diesem Schritt unter Verwenden der Gleichung nwh -, wobei n die Anzahl an aktuellen verbundenen Komponenten ist, w - die durchschnittliche Breite der aktuellen verbundenen Komponenten ist und h - die durchschnittliche Höhe der aktuellen verbundenen Komponenten ist. Die Variablen w - und h - werden entsprechend der Gleichungen:
berechnet, in denen h_i für i = 1 bis n die Höhen der aktuellen verbundenen Komponenten sind und w_i für i = 1 bis n die Breiten der aktuellen verbundenen Komponenten sind.
Zu Beginn dieser Verarbeitung werden aufgrund der Verzerrungen zu viele kleine Komponenten in dem Bild auftreten. Als Ergebnis davon ist die geschätzte Fläche nwh - größer als 1/k der Gesamtfläche des Dokuments. Das heißt, dass, wenn die Fläche des Dokuments W·H ist, dann nwh - > W·H/k ist. Durch Auswählen einer Variablen n', die einen Schätzwert für die Anzahl an verbundenen Komponenten, die basierend auf der aktuellen durchschnittlichen Breite w - und der aktuellen mittleren Höhe h - resultieren würden, wiedergibt, d.h.
An diesem Punkt ist der Schätzwert n' kleiner als die Anzahl an aktuellen verbundenen Komponenten n, d.h. n > n'. In Schritt 510 werden daher die Werte für n und n' berechnet und anschließend in Schritt 520 verglichen. Es tritt solange eine iterative Schleife ein, solange n größer als n' bleibt, was die Schritte 510–540 beinhaltet.
In Schritt 530 wird die Variable auf Basis der Strichbreite der aktuellen verbundenen Komponenten berechnet, da die Strichbreite ein Anzeichen für die Größe der aktuell in dem Bild verbundenen Komponenten ist. Um die Strichbreite zu bestimmen, wird jede aktuelle Komponente Reihe für Reihe von oben nach unten gescannt, um alle Läufe (d.h. die aufeinander folgenden Pixel im Vordergrund) und die Länge dieser Läufe zu identifizieren. Aus diesen Daten wird ein Histogramm der Länge der Läufe erzeugt und die Strichbreite wird als der Wert am Maximum des Histogramms bestimmt. Insbesondere wird p als die minimale Strichbreite ausgewählt, die die folgende Gleichung erfüllt:
wobei M die vorbestimmte maximale Strichbreite (100 Pixel in der bevorzugten Ausführungsform) und f(i) für i = 1 bis M die Anzahl an Komponenten mit einer Strichbreite von i ist (z.B. wenn es 5 Komponenten mit einer Strichbreite von 3 gibt, ist dann f(3)=5).
Wenn die Variable p ausgewählt wurde, wird sie zum Einstellen der Größe des strukturellen Elements für die nächste Öffnung verwendet, d.h. p × (p/2), Schritt 540 der 5, die ein modifiziertes binäres Bild erzeugt. Die Verarbeitung kehrt dann zu Schritt 510 zurück, wo n und n' unter Verwenden des modifizierten binären Bildes berechnet werden. Wenn n größer als n' bleibt, werden dann die Schritte 530, 540 und 510 solange wiederholt, bis n kleiner als oder gleich n' wird, wenn das Verfahren des ersten Vorverarbeitens beendet wird.
Der Nutzen dieses Verfahrens des Vorverarbeitens ist der, dass es das öffnende, strukturelle Element adaptiv auswählt. Dieses Verfahren ist zum Extrahieren großer Titelzeichen, jedoch nicht für kleine Titelzeichen, deren Strichbreite der Größe des öffnenden, strukturellen Elements ähnelt, geeignet, da kleine Titelzeichen in kleinere Teile aufgetrennt werden können. Ein weiterer Nachteil dieses Verfahrens ist, dass Probleme entstehen können, wenn Dokumente verarbeitet werden, die Fotos oder Bilder enthalten, die in viele kleinere Bereiche aufgetrennt werden können. Dieses Verfahren ist auch einigermaßen zeitaufwendig.
Unter Bezugnahme auf 6 beinhaltet nun ein Verfahren des zweiten Vorverarbeitens das Auffüllen von Löchern. Bei diesem Verfahren gleitet eine Vorlage (d.h. ein gleitendes Fenster 600, wie es in der 6 gezeigt ist) über das gesamte Bild, um aufzufüllende Löcher zu identifizieren. Um die Wirkung dieses Verfahrens an den Rändern zu minimieren, wird das gleitende Fenster 600 in vier Bereiche 610–640 eingeteilt, wobei das Pixel I (650) in der Mitte untersucht wird. Da die Verzerrungen in dem Bild zufällig verteilt sind, werden dann die folgenden vier Werte für die Merkmale erhalten:

1. Summe (1) = SUM (Pixel mit dem Wert Null in dem Bereich 1);
2. Summe (2) = SUM (Pixel mit dem Wert Null in dem Bereich 2);
3. Summe (3) = SUM (Pixel mit dem Wert Null in dem Bereich 3);
4. Summe (4) = SUM (Pixel mit dem Wert Null in dem Bereich 4).

An jeder Position des gleitenden Fensters werden die Anzahlen für die Werte Null in allen vier Bereichen berechnet und entsprechend dem folgenden Pseudocode verglichen:
Wenn (if) Sum (1) > 0 und Sum (2) > 0 und Sum (3) > 0 und Sum (4) > 0 und (Sum (1) + Sum (2) + Sum (3) + Sum (4)) > 5
I auf Null einstellen // Auffüllen eines Lochs im Hintergrund
ansonsten (else if) (Sum (1) + Sum (2) + Sum (3) + Sum (4)) <= 3
I auf Eins einstellen // Auffüllen eines Lochs im Vordergrund
Dieses Verfahren ist für Titelzeichen geeignet, deren Strichbreite größer als 5 Pixel in der bevorzugten Ausführungsform ist, und es ist leichter zu implementieren als das oben angegebene Verfahren der ersten Vorverarbeitung. Dieses Verfahren ist jedoch nicht für Titelzeichen geeignet, deren Strichbreite kleiner als 5 Pixel in der bevorzugten Ausführungsform ist und es kann keine breiten Verbindungen zwischen irgendwelchen Komponenten entfernen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, sind die für den oben angegebenen Vergleich ausgewählten Werte zudem die bevorzugten Werte, obwohl sie variiert werden können und noch annehmbare Ergebnisse bereitstellen.
Der dritte, hierin vorgestellte Schritt des Vorverarbeitens ist ein einfaches morphologisches Verfahren, bei dem eine einfache Öffnungsoperation durchgeführt wird. Dies ist das in der vorliegenden Erfindung bevorzugt verwendete Verfahren. In der bevorzugten Ausführungsform wird für den Fall, bei dem die Strichbreite eines Titelzeichens auf mehr als drei Pixel vordefiniert ist, eine Größe für ein strukturelles Element von 3 × 3 verwendet. Das Einstellen der Größe des strukturellen Elements auf 3 × 3 lässt das Entfernen von Verzerrungen in Form von Sprenkeln und falscher Verbindungslinien ohne Beeinträchtigung der Titelzeichen zu.
Dieses Verfahren versucht nicht, kleine Löcher im Inneren von verbundenen Komponenten zu füllen, da die Löcher im Inneren von verbundenen Komponenten durch die Schwankungen der Intensität von Pixeln von den umgebenden Pixeln verursacht werden.
Nach dem Schritt des morphologischen Öffnens kann vorzugsweise ein zusätzlicher Schritt zum Entfernen kleiner verbundener Komponenten, der somit die späteren Prozesse beschleunigt, wie folgt durchgeführt werden:
N_p wird als die Anzahl an Pixeln für eine verbundene Komponente festgelegt und
N_cc wird als die Anzahl an Komponenten innerhalb des Bildes festgelegt.
Dann wird die minimale Schwelle für N_p als T_p festgelegt, so dass, wenn N_p < T_p, die abgeschätzte, verbundene Komponente entfernt wird. Die Schwelle T_p ist eine Funktion von N_cc, d.h. T_p = f(N_cc). Es wird vorzugsweise eine lineare Funktion verwendet, d.h. T_p = kN_cc, wobei k eine Konstante ist, so dass der Wert für die Schwelle T_p sich proportional mit der Anzahl an verbundenen Komponenten ändert.
Als nächstes wird in Schritt 133 (1) jedes Bild verarbeitet, um alle der darin angeordneten, verbundenen Komponenten zu identifizieren. Diese Verarbeitung wird auf herkömmliche Weise durchgeführt, wie einem Fachmann leicht bekannt ist.
Nach dem Erzeugen der verbundenen Komponenten in jedem Bild (Schritt 133 der 1) können vorzugsweise zwei weitere Schritte des Vorverarbeitens durchgeführt werden. Zuerst werden kleine Linienkomponenten entfernt. Bei Komponenten, deren Anzahl an Pixeln kleiner als eine vorbestimmte minimale Schwelle für Pixel ist, werden diese Komponenten eliminiert. Die Linienkomponenten werden insbesondere dann eliminiert, wenn das folgende Kriterium erfüllt ist: max{w(I), h(I)}/min{w(I), h(I)} > PTwobei max{w(I), h(I)) die größere der Höhe oder der Breite der verbundenen Komponenten I ist und min{w(I), h(I)) die kleinere der Höhe oder der Breite der verbundenen Komponente I ist. In der bevorzugten Ausführungsform wird die Schwelle PT auf 20 festgelegt. Auf diese Weise ist dieser Schritt zum Erfassen von horizontalen oder vertikalen Linienobjekten nützlich, wobei bei einer vertikalen Linie die maximale Höhe groß ist und die minimale Breite klein ist. Dieser Schritt ist jedoch nicht für das Erfassen von diagonalen Linienobjekten geeignet.
Ein zweiter allgemeiner Schritt des Vorverarbeitens kann dazu verwendet werden, zwischen Fotos und Zeichenkomponenten zu unterscheiden. Verfahren aus dem Stand der Technik, die binäre Bilder in Dokumenten verarbeiten, bestimmen das Vorhandensein eines Fotobereichs basierend auf der Größe der verbundenen Komponenten, da ein Fotobereich dazu neigt, eine sehr große verbundene Komponente zu sein. Wenn komplexe Grauskala-(oder Farb-)Bilder verarbeitet werden, können Fotos aufgrund des Schritts eines mehrstufigen Schwellenwertverfahrens 110 und der Schwankungen der Intensität der Grauskala in dem Originalbild jedoch in mehrere isolierte, kleine, verbundene Komponenten aufgetrennt werden. Diese isolierten, kleinen, verbundenen Komponenten können in unterschiedlichen Schichten vorhanden sein. Die Verfahren zum Extrahieren von Fotos aus dem Stand der Technik sind daher nicht für komplexe Grauskala-Bilder geeignet. Aufgrund der Komplexität der Grauskala-Bilder können die Titel in einem Foto, da sogar ein identifizierter Fotobereich noch überprüft werden muss, um nach möglichen Titeln zu suchen, insbesondere, da es nicht so leicht sein kann, ein Foto in einem Grauskala-(oder Farb-)Bild in einem Dokument mit einem komplexen Hintergrund zu identifizieren, wie es bei einem binäre Dokumentenbild der Fall ist. Die folgenden Kriterien können zum Identifizieren solcher Fotobereiche (die keine Titelbereiche sind) verwendet wurden, um eine solche Extraktion zu ermöglichen. Um als Fotokomponente (-bereich) angesehen zu werden, muss der untersuchte Bereich eine der folgenden vorbestimmten Bedingungen erfüllen:

(1) Größe der Zeichen-Box > (Gesamtgröße des Dokuments/k); oder
(2) eine Komponente umgibt eine andere Komponente UND die Größe der Zeichen-Box > (Gesamtgröße des Dokuments/2k),

Unter Bezugnahme auf das simulierte, eingescannte Bild 700 in der 7, stellt die Aufgabe, wie zu bestimmen ist, ob eine Komponente eine andere Komponente umgibt, bestimmte Schwierigkeiten dar. In der vorliegenden Erfindung wird ein einfaches Verfahren verwendet. Wie in 7 veranschaulicht ist, werden für jeden Punkt auf der Komponente 710 vier Linien 720–750, die in die vier verschiedenen Richtungen zeigen, gezogen (d.h. die linke Linie 720, die obere Linie 730, die rechte Linie 740, die untere Linie 750). Wenn die vier Linien, z.B. die Linien 720–750, mit der gleichen Komponente 760 verbunden sind, wird bestimmt, dass die Komponente 710 von der Komponente 760 umgeben ist und wird daher entfernt, wenn die Größe ihrer Zeichen-Box größer als die vorbestimmte Schwelle, die oben angegeben ist, ist. In dem simulierten, eingescannten Bild 700 der 7 verbindet die Linie 740 nicht die Komponente 710 mit der Komponente 760 und sie wird daher nicht entfernt.
Unter Bezugnahme auf den Schritt 140 der 1 ergibt sich nun eine Schwierigkeit beim Identifizieren von Titelbereichen in einem Grauskala-Bild aus dem Verpacken in Cluster. Wie ein Fachmann erkennen wird, ist ein "Cluster" gewöhnlich als ein relativ gut verbundener Bereich, der eine ähnliche Datendichte aufweist, definiert. Bezüglich der vorliegenden Erfindung ist ein Cluster genauer gesagt als eine Gruppe relativ enger und ähnlicher, verbundener Komponenten (wobei sich die verbundenen Komponenten auf ein Objekt mit einer maximalen Gruppe aus sich berührenden, schwarzen Pixeln beziehen) definiert und Clustern bezieht sich auf die Bildung eines Clusters. Die Hauptaufgabe beim Identifizieren möglicher Titelbereiche (Cluster) ist, homogene Gruppe aus Objekten auf Basis ihrer Merkmale (Dimensionen) zu identifizieren. Wenn ein anderer Weg festgelegt ist, bei dem verbundenen Komponenten in einem Bild vorliegen, muss das Merkmal Raum dieser Komponenten identifiziert werden und diese Komponenten werden dann in Cluster verpackt, wenn das identifizierte Merkmal Raum eng verwandt ist. Das zur Identifizierung der Komponenten verwendete Merkmal muss in geeigneter Weise ausgewählt werden. Von den Clusterverfahren aus dem Stand der Technik wird weitgehend das K-Mittelwert-Verfahren verwendet. Der Nachteil des K-Mittelwert-Verfahrens ist jedoch, dass die Anzahl an resultierenden Clustern vorher vorbestimmt werden muss. Das Verfahren der vorliegenden Erfindung verwendet daher das hierarchische Clusterverfahren, das kein a priori Wissen über das richtig zu verarbeitende Bild erfordert.

Die folgenden Werte für sieben Merkmale werden bei einer verbundenen Komponente erhalten, deren Indexwert in dem Clusterverfahren der vorliegenden Erfindung I ist:

(1)	Höhe der Zeichen-Box	H(I)
(2)	Breite der Zeichen-Box	W(I)
(3)	y-Koordinate des Mittelpunks	center_y(I) (Mittel_y(I))
(4)	x-Koordinate des Mittelpunkts	center_x(I) (Mittel_x(I))
(5)	Strichbreite	stroke_w(I) (Strich_w(I))
(6)	Mittelwert der Grauintensität	gray_mean(I) (grau_Mittel(I))
(7)	Standardabweichung der Grauintensität	gray_std(I) (grau_Std(I))

Die Größe der Zeichen-Box (d.h. die Höhe H(I) und die Breite W(I)) und die Anordnung in der Mitte (center_y(I) und center_x(I)) werden leicht identifiziert.
Wie oben angegeben ist, wird die Strichbreite (d.h. stroke_w(I)) identifiziert, indem jede Komponente Reihe für Reihe von oben nach unten eingescannt wird, um alle Läufe (d.h. aufeinander folgende Pixel im Vordergrund) und die Länge solcher Läufe zu identifizieren. Aus diesen Daten wird ein Histogramm der Länge der Läufe erzeugt und die Strichbreite wird als der Wert am Maximum des Histogramms bestimmt. In den meisten Fällen gibt die identifizierte Strichbreite die Strichbreite eines Zeichens (d.h. einer verbundenen Komponente) wieder. Manchmal sind jedoch viele Löcher in einer Komponente vorhanden und diese Löcher können die Genauigkeit der oben angegebenen Bestimmung der Strichbreite zum großen Teil beeinträchtigen. Unter Bezugnahme auf das simulierte, eingescannte Bild 800 der 8 ist eine verbundene Komponente, die eine Vielzahl von Löchern aufweist gezeigt. Es gibt zwei Wege, das Problem der Strichbreite zu lösen, das sich während dem Verarbeiten einer solchen verbundenen Komponente stellt. Ein Weg ist, zuerst die Löcher aufzufüllen und dann den Wert für die Strichbreite nach dem Auffüllen zu erfassen. Dies kann jedoch manchmal dazu führen, dass große Blöcke im Hintergrund falsch aufgefüllt werden. Ein einfacherer Weg ist, eine min_num-Schwelle für jede verbundene Komponente festzulegen, so dass, wenn die Breite eines Lochs kleiner als die min_num-Schwelle ist, das Loch als Verzerrung angenommen wird und daher aufgefüllt wird und das Loch ansonsten als Hintergrund betrachtet wird und nicht beachtet wird.
Die Werte für gray_mean(I) und gray_std(I) werden bei den jeweiligen verbundenen Komponenten unter Verwenden von Daten aus dem ursprünglichen Grauskala-Bild berechnet.
Unter Bezugnahme auf den Ablaufplan aus 9 werden nun zwei getrennte verbundene Komponenten mit Hilfe des darin definierten Verarbeitens zusammengefügt, wenn die Ähnlichkeit ihrer Merkmale in einem vorbestimmten Bereich liegt. Das Verfahren der vorliegenden Erfindung erfordert nicht, dass die Anzahl an verschiedenen verbundenen Komponenten vorher bekannt ist. Zum Vergleichen von zwei verschiedenen verbundenen Komponenten werden in der vorliegenden Erfindung mehrere verschiedene Messgrößen der Ähnlichkeit von Merkmalen verwendet, von denen jede von den oben beschriebenen Merkmalen der Komponenten abhängt. Diese Messgrößen beinhalten:

1. Ähnlichkeit der Höhe der Zeichen-Box
2. Ähnlichkeit der Breite der Zeichen-Box
3. Ähnlichkeit der Strichbreite
4. Abstand
wobei sich NearestEdgeDist(i, j) auf den kürzesten Abstand zwischen einem Rand einer verbundenen Komponente I und einem Rand der verbundenen Komponente j bezieht.
5. Ähnlichkeit des Mittelwerts der Grauintensität S5(i, j) = |gray_mean(i) – gray_mean)(j)| (10)
6. Ähnlichkeit der Standardabweichung der Grauintensität S6(i, j) = |gray_std(i) – gray_std(j)| (11)

In den obigen Gleichungen sind sich die beiden Komponenten i und j umso ähnlicher, je kleiner der resultierende Wert ist. In der vorliegenden Erfindung werden zuerst die Werte für die Merkmale der beiden Komponenten I und J berechnet (siehe Schritte 900 und 910 in 9) und dann die Ähnlichkeit des Mittelwerts der Grauintensität, d.h. S₅(i, j), und die Ähnlichkeit der Standardabweichung der Grauintensität, d.h. S₆(i, j) berechnet und in Schritt 920 der 9 überprüft. Wenn die beiden Werte unter die vorbestimmten Schwellen fallen, wird in Schritt 930 eine weitere Ähnlichkeit geprüft, ansonsten werden die beiden Komponenten als nicht ähnlich betrachtet und die Verarbeitung geht mit Schritt 950 weiter.
Bei der Durchführung des Überprüfens der weiteren Ähnlichkeit in Schritt 930 der 9 wird eine dimensionale Ähnlichkeit untersucht. Die dimensionale Ähnlichkeit ist definiert als:
wobei die a_k die Höhen der Messwerte der Ähnlichkeit S₁–S₄ sind; die T_p für p = 1 ... 4 die maximale, annehmbare Schwelle für jeden Messwert der Ähnlichkeit sind (in der bevorzugten Ausführungsform der vorliegenden Erfindung sind diese alle auf ½ eingestellt). Die dimensionale Ähnlichkeit S_dim ist eine Kombination aus den Ähnlichkeiten der Breite, der Höhe der Zeichen-Box, der Strichbreite und dem Abstand, wobei sich diese alle auf die dimensionalen Eigenschaften der Komponenten beziehen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, können die Höhen, d.h. die Werte für a_k mit Hilfe eines Trainingsprozesses, z.B. einem neuralen Netzwerk, erhalten werden. In der vorliegenden Erfindung werden die folgenden Werte einfach zugewiesen:
a₁ = 0,5; a₂ = 0,5; a₃ = 1,0; und a₄ = 1,0.
Wenn in Schritt 930 festgestellt wird, dass der Wert für S_dim(i, j) unterhalb einer vorbestimmten Schwelle liegt, werden die Komponenten I und J als ähnlich betrachtet und anschließend in Schritt 940 kombiniert. Ansonsten werden sie als nicht ähnlich betrachtet und die Verarbeitung geht mit Schritt 950 weiter.
Wenn die beiden Komponenten als ähnlich bestimmt werden, werden sie zusammen in einem Cluster verpackt, um durch Erzeugen einer verknüpften Liste von jeder ursprünglichen Komponente eine Gruppe aus Komponenten zu bilden. Die Merkmale von jeder Komponente in der Gruppe werden innerhalb der verknüpften Liste beibehalten. Bei allen Komponenten innerhalb jeder Gruppe werden die Werte der Merkmale für jede Komponente durch die Mittelwerte für dieses Merkmale für jede Komponente innerhalb der Gruppe ersetzt, außer bei den Merkmalen center_x(i) und center_y(i), die bei jeder Komponente i gleich bleiben. Wenn in einem Cluster zu Beispiel eine Gruppe an Komponenten c_i(i = 1 ... n) auftritt, weist jede Komponente die Merkmale H(c_i), W(c_i), center_y(c_i), center_x(c_i), stroke_w(c_i), gray_mean(c_i) und gray_std(c_i), alle für i = 1 ... n auf. Die neuen Werte für die Merkmale nach dem Zusammenfügen (Verpacken in Clustern) der Komponenten sind:
Wie oben angegeben ist, bleiben die Eigenschaften innerhalb der Liste der Merkmale bei jeder verbundenen Komponente unverändert. Wie ein Fachmann leicht erkennen wird, wird obwohl die bevorzugte Ausführungsform der vorliegenden Erfindung erfordert, dass das eingegebene Bild zuerst einem Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens unterzogen wird, der Schritt des Clustern 140 (1) der vorliegenden Erfindung ein binäres Bild verarbeiten, unabhängig davon, ob dies mit einem mehrstufigen Schwellenwertverfahren oder einem binären Schwellenwertverfahren erzeugt wurde.
Unter Bezugnahme auf 1 wird nun, nachdem jedes Bild in Cluster verpackt wurde (Schritt 140 der 1), ein Schritt des Nachverarbeitens 150 angewendet, der zunächst die Striche zusammenfügt und dann die Bereiche der Nicht-Titelkomponenten filtert.
Bezüglich des Zusammenfügens der Striche bestehen in manchen Sprachen, wie zum Beispiel dem Chinesischen und dem Japanischen, die meisten Zeichen aus einer Gruppe von isolierten Strichen (Wortstämmen). Da die Größe der Strichkomponenten, wie in dem simulierten, eingescannten Bild 1000 in der 10 gezeigt ist, größtenteils variiert (siehe die Elemente 1010 und 1020 in der 10) müssen solche Strichkomponenten unbedingt zu möglichen Zeichen zusammengefügt werden. Bevorzugt wird das folgende Verfahren verwendet, wobei dieses Verfahren keine ungünstigen Wirkungen auf Titel einer Sprache ohne Wortstämme (d.h. die Titel mit englischen Zeichen) hat. Das Verfahren der vorliegenden Erfindung ist daher von der Sprache unabhängig.
In einer Gruppe aus zusammengefügten Komponenten können zwei Komponenten c_j, c_j', wobei j, j' ∊ [1, n] zusammengefügt werden, um eine neue Komponente, die mit größerer Wahrscheinlichkeit ein vollständiges Zeichen ist, zu bilden, wenn sie die beiden folgenden Gleichungen erfüllen: H(cj)/2 + H(cj)/2 + |center_y(cj) – center_y(cj)| ≤ k(H(c) - + σh) (18) W(cj)/2 + W(cj)/2 + center_x(cj) – center_x(cj)| ≤ k(W(c) - + σw) (19)wobei H(c_j) die Höhe der Komponente c_j ist, W(c_j) die Breite der Komponente c_j ist und k eine Konstante ist, die vorzugsweise auf 1,2 eingestellt wird. Daneben werden H(c) -, W(C) - durch die Gleichungen:
bestimmt und σ_h, σ_w werden durch die Gleichungen:
bestimmt.
Wenn die beiden Komponenten in diesem Schritt des Nachverarbeitens zusammengefügt wurden, werden sie durch eine neu zusammengefügte Komponente ersetzt und die Anzahl an Komponenten innerhalb der verknüpften Liste wird um eine [Komponente] verringert. Ähnlich dem Clustern (Gleichungen 13–17) werden die Merkmale der neu zusammengefügten Komponenten durch Berechnen eines Mittelwerts aus jedem der entsprechenden Merkmale erhalten. Die Zeichen-Boxen werden jedoch zu einer zusammengefügt und für die neue Komponente wird ein neues center_x(i) und ein neues center_y(i) berechnet werden. Dieser Prozess des Zusammenfügens läuft solange weiter ab, bis keine zwei Komponenten innerhalb der gleichen Komponente weiter zusammengefügt werden können.
Eine in Clustern zusammengefügte Gruppe besteht aus einer verknüpften Liste der Komponenten in dem Cluster. Da jede Komponente ihre eigenen Informationen über die Merkmale beibehält, sind die Informationen über das Clustern und die Informationen über die einzelnen Komponenten für die Komponenten innerhalb des Clusters für die Nachverarbeitung verfügbar. Nicht-Titelkomponenten können daher vorzugsweise aus den Komponenten in Gruppen von in Clustern verpackten Komponenten identifiziert werden und anschließend durch Bestimmen, ob eine solche Komponente eine der folgenden Bedingungen erfüllt, entfernt werden (was zu der Bestimmung führt, dass dies eine Nicht-Titelkomponente ist):

1. Wenn die Komponente eine unabhängige Komponente ist;
2. Bei einer Gruppe, die aus zwei Titelkomponenten besteht, wenn die beiden Komponenten im Wesentlichen nicht in der vertikalen oder horizontalen Richtung aneinander ausgerichtet sind;
3. Bei einer Gruppe, die aus drei Titelkomponenten besteht, wenn es nicht mindestens zwei Titelkomponenten gibt, die im Wesentlichen in der horizontalen oder der vertikalen Richtung aneinander ausgerichtet sind;
4. Wenn die Anzahl an verknüpften Verbindungen innerhalb eines Clusters größer ist als eine Schwelle T, die in der bevorzugten Ausführungsform der vorliegenden Erfindung auf 100 eingestellt ist, sind die Komponenten innerhalb dieses Clusters wahrscheinlich Nicht-Titel-Zeichen, wobei angenommen wird, dass die Anzahl an in einem Titel eingeschlossenen Zeichen kleiner als T ist.
5. Bei einer Liste von verknüpften Komponenten werden, wenn die Werte für die Standardabweichung des Mittelwerts der Grauintensität geteilt durch die Anzahl an verknüpften Komponenten größer als eine Schwelle ist, die in der bevorzugten Ausführungsform auf 0,2 eingestellt ist, diese Komponenten als Nicht-Titel betrachtet.
6. Bei einer Gruppe von verknüpften Komponenten werden, wenn die Standardabweichung der Höhe geteilt durch die Mittelwert der Höhe größer ist als eine Schwelle, die in der bevorzugten Ausführungsform auf 0,5 eingestellt ist, oder die Standardabweichung der Breite geteilt durch den Mittelwert der Breite größer als eine Schwelle ist, die in der bevorzugten Ausführungsform auf 0,5 eingestellt ist, diese Komponenten als Nicht-Titel betrachtet.

Unter erneuter Bezugnahme auf 1 wird das Zusammenfügen der Ergebnisse der Verarbeitung nun zunächst in Schritt 160 durch Zusammenfügen der Gruppen von in Clustern verpackten Komponenten innerhalb der gleichen Schicht durchgeführt.
Bei den Clusterverfahren können manchmal manche Komponenten, die zu dem gleichen Titel gehören, in verschiedenen Gruppen in Cluster verpackt werden. Das Ziel des Schritts des Zusammenfügens 160 der 1 ist, diese Gruppen zusammenzufassen.
Die Grundlage dieses Schritts ist, dass bei beliebigen zwei Komponenten, die zu zwei verschiedenen Clustern gehören, die Komponenten, wenn sie die vorbestimmten Kriterien, d.h. das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft und das Kriterium der Ähnlichkeit der Form, die unten definiert sind, erfüllen, als der gleiche Titel betrachtet werden und daher zusammengefügt werden. Das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft ist definiert als:
[average: Mittelwert]
und, wenn S_d(i, j) < T_d, werden die beiden Komponenten i und j als nahe beieinander liegend betrachtet. T_d ist die vorbestimmte maximale Schwelle für das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft.
Das Kriterium der Ähnlichkeit der Form ist definiert als:
wobei S_k(i, j) für k = 1 ... 3 jeweils die Ähnlichkeit der Höhe der Zeichen-Box (S₁(i, j), Gleichung 6). die Ähnlichkeit der Breite der Zeichen-Box (S₂(i, j), Gleichung 7) und die Ähnlichkeit der Strichbreite (S₃(i, j), Gleichung 8) bezeichnen, wie oben angegeben ist. Daneben bezeichnen T_p für p = 1 ... 3 die maximal annehmbaren Schwellen für jeden Messwert der Ähnlichkeit, wobei in der bevorzugten Ausführungsform alle Werte auf 0,5 eingestellt sind und a_k für k = 1 ... 3 die Höhen bezeichnet, die vorzugsweise jeweils auf 0,5, 0,5 und 1,0 eingestellt sind. T_s ist die vorbestimmte maximale Schwelle für die Ähnlichkeit der Form. Wenn S(i, j) < T_s werden die beiden Komponenten i und j als in ihrer Form ähnlich betrachtet.
Als Ergebnis von diesem Schritt werden dann, wenn festgestellt wird, dass sowohl S_d(i, j) – T_d als auch S(i, j) < T_s sind, die beiden Komponenten und j und die mit ihnen in Verbindung stehenden Gruppen zusammengefügt. Eine Zusammenfügung innerhalb einer Schicht kann zwischen zwei beliebigen Komponenten aus unterschiedlichen Gruppen durchgeführt werden und die Ergebnisse sind neu gebildete Gruppen, die jede der ursprünglichen Gruppen umfassen. Die für das Zusammenfügen von Komponenten in diesem Schritt auferlegten Bedingungen sind nicht so streng wie bei dem Schritt des Clusterns 140, da ein großer Teil der Verzerrungen in dem Schritt des Clusterns 140 und dem Schritt des Nachverarbeitens 150 eliminiert werden. Bei der Durchführung dieses Schritts wird die Grauskala-/Farbintensität ebenso wenig beachtet. In dem Schritt des Clusterns 140 werden schließlich die zusammengefügten Komponenten durch die Mittelwerte ihrer Merkmale wiedergegeben (siehe die Gleichungen 13–17), die in diesem Fall die Merkmale center_x(i) und center_y(i) einschließen.
Wie oben erörtert wurde, kann, während des mehrstufigen Schwellenwertverfahrens, aufgrund der Schwankungen der Intensität der Grauskala innerhalb eines Bildes ein Titel in verschiedene Schichten segmentiert werden. In Schritt 190 der 1 werden verbundene Komponenten für ein mögliches Zusammenfügen mit Komponenten aus anderen Schichten betrachtet. Die gleichen Kriterien für das Zusammenfügen werden als diejenigen verwendet, die oben bezüglich des Zusammenfügens von Komponenten innerhalb der gleichen Schicht beschrieben sind (d.h. die Kriterien, durch die Gleichungen 24 und 25 definiert sind).
Wenn der Schritt 190 der 1 beendet wurde, geben die restlichen verbundenen Komponenten identifizierte Titelbereiche für eine Ausgabe an den Benutzer wieder.
Obwohl die vorliegende Erfindung im Speziellen gezeigt wurde und unter Bezugnahme auf die bevorzugten Ausführungsformen und verschiedenen Aspekte davon beschrieben wurde, wird von einem Fachmann erkannt werden, dass verschiedene Änderungen und Modifikationen vorgenommen werden können, ohne von dem Umfang der Erfindung abzuweichen. Es wird angestrebt, dass die angefügten Ansprüche so interpretiert werden, dass sie die hierin beschriebenen Ausführungsformen, die oben erwähnten Alternativen und alle Äquivalente davon enthalten.

Claims

Ein Verfahren zum Entwerfen von Titeln innerhalb eines Grauskala-Bildes, die Schritte umfassend: (A) Multi-Level-Thresholding (110) eines Grauskala-Bildes, das im Speicher gespeichert ist, um eine Mehrzahl an binären Bildern zu erhalten; (B) Identifizieren (133) von verbundenen Komponenten in jedem der genannten binären Bilder; (C) Clustern (140) der genannten verbundenen Komponenten in jedem der genannten binären Bilder, um mögliche Titelbereiche in jedem der genannten Bilder zu identifizieren; und (D) Kombinieren (190) der genannten möglichen Titelbereiche von jedem der genannten binären Bilder für eine Ausgabe.
Das Verfahren von Anspruch 1, in dem der Schritt des Multi-Level-Thresholding die Schritte umfasst: (A) Erzeugen eines Histogramms der Anzahl der Läufe, die aus dem Thresholding des genannten Grauskala-Bildes zu jedem Intensitätsniveau in dem genannten Grauskala-Bild resultiert; (B) Erzeugen eines gleitenden Profils des genannten Histogramms; (C) Identifizieren eines jeden Maximums in dem genannten gleitenden Profil und eines Intensitätsniveauwerts an jedem Maximum; und (D) Thresholding des genannten Grauskala-Bildes an jedem der genannten Intensitätsniveauwerte, um eine Mehrzahl an binären Bildern zu erzeugen.
Das Verfahren von Anspruch 1 oder 2, in dem der genannte Schritt des Clusterns die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; (C) wenn der genannte Unterschied in der genannten zumindest einen Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in einem Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Vergleichen des Unterschieds in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten mit einer zweiten vorbestimmten Schwelle; und (D) wenn der genannte Unterschied in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte zweite vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
Das Verfahren von Anspruch 1 oder 2, in dem der genannte Schritt des Clusterns die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; (C) wenn der genannte Unterschied in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
Das Verfahren von Anspruch 1 oder 2, in dem der Schritt des Clusters die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; und (C) wenn der genannte Unterschied in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
Das Verfahren von Anspruch 3, in dem zumindest eine Grauintensitätseigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einem Mittelwert der Intensität in der genannten verbundenen Komponente und einer Standardabweichung der Intensität in der genannten verbundenen Komponente besteht.
Das Verfahren von Anspruch 4, in dem zumindest eine Grauintensitätseigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einem Mittelwert der Intensität in der genannten verbundenen Komponente und einer Standardabweichung der Intensität in der genannten verbundenen Komponente besteht.
Das Verfahren von Anspruch 3, in dem die genannte zumindest dimensionale Eigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einer Höhe der genannten verbundenen Komponente, einer Breite der genannten verbundenen Komponente, einer maximalen Strichbreite der genannten verbundenen Komponente und einem kürzesten Abstand zwischen Rändern von jeder der genannten verbundenen Komponenten besteht.
Das Verfahren von Anspruch 5, in dem die genannte zumindest eine dimensionale Eigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einer Höhe der genannten verbundenen Komponente, einer Breite der genannten verbundenen Komponente, einer maximalen Strichbreite der genannten verbundenen Komponente und einem kürzesten Abstand zwischen Rändern von jeder der genannten verbundenen Komponenten besteht.
Das Verfahren von Anspruch 1, den Schritt umfassend (A) Vorverarbeiten von jedem der genannten binären Bilder, um Rauschkomponenten von jedem der genannten Bilder vor den Schritten des Identifizierens und Clusters verbundener Komponenten in den Bildern zu filtern, und die Schritte: (B) Nachverarbeiten von jedem der genannten binären Bilder, um mögliche Titelbereiche, die Striche umfassen, zusammenzufügen, und um Nicht-Titel-Bereiche von den genannten möglichen Titelbereichen in jedem der genannten Bilder durch Vergleichen der genannten möglichen Titelbereiche mit vorbestimmten Kriterien zu entfernen; (C) Zusammenfügen bestimmter der genannten möglichen Titelbereiche in jedem der genannten binären Bilder, die den vorbestimmten Kriterien genügen, vor dem Schritt: (D) Kombinieren der genannten möglichen Titelbereiche und dem abschließenden Schritt des Zusammenfügens bestimmter der genannten möglichen Titelbereiche von unterschiedlichen binären Bildern, die vorbestimmten Kriterien genügen.
Das Verfahren von Anspruch 10, in dem der genannte Vorverarbeitungsschritt eine morphologische Öffnungsoperation umfasst, die aus den Schritten besteht: (A) Ausführen eines Erosionsschritts unter Verwendung eines strukturellen Elements, das eine vorbestimmte Größe besitzt, die kleiner als die erwartete Strichbreite eines Zeichens in dem Titel ist; und (B) Ausführen eines Dilatationsschritts unter Verwendung des genannten strukturellen Elements.