DE60129872T2 - Verfahren zur Extrahierung von Titeln aus numerischen Bildern - Google Patents

Verfahren zur Extrahierung von Titeln aus numerischen Bildern Download PDF

Info

Publication number
DE60129872T2
DE60129872T2 DE60129872T DE60129872T DE60129872T2 DE 60129872 T2 DE60129872 T2 DE 60129872T2 DE 60129872 T DE60129872 T DE 60129872T DE 60129872 T DE60129872 T DE 60129872T DE 60129872 T2 DE60129872 T2 DE 60129872T2
Authority
DE
Germany
Prior art keywords
components
connected components
component
intensity
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60129872T
Other languages
English (en)
Other versions
DE60129872D1 (de
Inventor
Yue Robbinsville Ma
Min Revere Yi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60129872D1 publication Critical patent/DE60129872D1/de
Application granted granted Critical
Publication of DE60129872T2 publication Critical patent/DE60129872T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft allgemein den Zugriff auf rechnergestützte Informationen. Die Erfindung betrifft insbesondere ein Verfahren zum Extrahieren eines Titeltextes oder anderer Textbereiche aus Bitmap-Bildern, wie sie beispielsweise erzeugt werden, wenn Dokumente eingescannt werden. Der extrahierte Titeltext kann auf vielerlei Weisen verwendet werden, einschließlich dem Suchen nach Schlüsselwörtern oder dem Indizieren von Datenbanken von Bitmap-Bildern. In bestimmten Fällen kann der extrahierte Titeltext alle erforderlichen Informationen, wie beispielsweise Schlagzeilen von Zeitungen, bereitstellen.
  • Hintergrund der Erfindung
  • Die Welt wird schnell zu einer Informationsgesellschaft. Mit der Digitaltechnologie wurde die Schaffung riesiger Datenbanken, die eine Fülle von Informationen enthalten, möglich. Es wird erwartet, dass die kürzliche Explosion der Beliebtheit bildbasierter Systeme zu der Schaffung enormer Datenbanken führt, die enorme Herausforderungen für den Zugriff auf die Datenbanken darstellen werden. In diesem Zusammenhang ist die Explosion der Beliebtheit des World Wide Web nur ein Beispiel dafür, wie sich die Informationstechnologie schnell zu einem bildbasierten Modell hin entwickelt.
  • Bildbasierte Systeme stellen eine große Herausforderung für die Informationswiedergewinnung dar. Obwohl die Technologie der Informationswiedergewinnung in auf codierten Zeichen basierten Systemen ziemlich gut fortgeschritten ist, funktionieren diese Wiedergewinnungstechniken nicht bei bildbasierten Systemen. Die Ursache hierfür ist, dass bildbasierte Systeme Informationen als Bitmap-Daten abspeichern, die dem Erscheinungsbild der gedruckten Seite und nicht dem Gehalt an Informationen auf dieser Seite entsprechen. Herkömmliche Techniken erfordern die Umwandlung von Bitmap-Daten in Textdaten durch eine optische Zeichenerkennungs-(optical character recognition, OCR-)Software, bevor die Systeme zur Informationswiedergewinnung zu arbeiten beginnen.
  • Die optische Zeichenerkennungssoftware ist von der Rechnerseite aus gesehen jedoch leider teuer und der Erkennungsprozess ist ziemlich langsam. Bei der Handhabung großer Mengen an bildbasierten Daten ist es unpraktisch eine optische Zeichenerkennung für die gesamte Datenbank durchzuführen. Zudem ist das Ergebnis selbst dann, wenn die Zeit und rechenbetonte Quellen eine OCR-Umwandlung der Bilddaten in Textdaten en gros zulassen, noch immer eine große, unstrukturierte Datenbank ohne eine kurze Liste mit nützlichen Schlüsselwörtern, die das wiedergewinnen und durchsehen eines Dokuments von Interesse ermöglichen könnten. Das Durchsuchen der gesamten Datenbank nach ausgewählten Schlüsselwörtern kann nicht die optimale Lösung sein, da die Suche nach Schlüsselwörtern im gesamten Text oftmals viel zu viele Treffer erzeugt, um von Nutzen sein. Andere Nachteile der OCR-Umwandlung schließen daneben die Schwierigkeit, geeignete Ergebnisse bereitzustellen, wenn ein Dokument verzerrt ist (wie es beispielsweise durch Übertragen von einem Fax verursacht wird), unterschiedliche Schriftarten oder Grauskala-Bilder ein. Es besteht daher ein Bedarf nach einem Verfahren zum Extrahieren von lediglich Schlüsselteilen eines Dokuments, die einen Text enthalten, der eine Beschreibung des restlichen Teils des Dokuments bereitstellt, wie beispielsweise Titel.
  • Das U.S. Patent Nr. 5,818,978 ("das '978-Patent") offenbart ein Zeichenerkennungssystem, das zum Verstärken der optischen Zeichenerkennungsverfahren aus dem Stand der Technik verwendet wird, indem es ein Schwellenwertverfahren ("Thresholding") an einem Grauskala-Bild durchführt und dann die Zeichen unter Verwenden von Segmentierungstechniken aus dem Stand der Technik lokalisiert. Da das System des '978-Patents jedoch herkömmliche Segmentierungsverfahren an binären Bildern verwendet, bei denen an nur einem einzigen Niveau ein Schwellenwertverfahren durchgeführt wurde, werden bei Dokumenten mit komplexen Graphiken oder bei Dokumenten, die mehrere Bereiche mit ähnlichen Grauskalaintensitäten aufweisen, unangemessene Ergebnisse erzeugt werden.
  • Das U.S. Patent Nr. 5,892,843 ("das '843-Patent"), das dem gleichen Begünstigten zugesprochen wurde, wie die vorliegende Erfindung, offenbart ein System zum Extrahieren von Titeln, Überschriften und Fotos aus eingescannten Bildern. Da das '843-Patent jedoch ebenso wie das '978-Patent herkömmliche Segmentierungsverfahren an binären Bildern (die durch Durchführen eines Schwellenwertverfahren an einem Grauskala-Bild erzeugt worden sein können) verwendet, werden Dokumente mit komplexen Graphiken oder Dokumente, die mehrere Bereiche mit ähnlichen Grauskalaintensitäten aufweisen, von dem System des '843-Patents mit weniger als idealen Ergebnissen verarbeitet werden. Daneben erfordert das Verfahren des '843-Patents, dass die Sprache jedes verarbeiteten Dokuments vor dem Verarbeiten identifiziert werden muss. Andere Nachteile des Verfahrens des '843-Patents schließen das Unvermögen, in mehr als einer Zeile angeordnete Titel, innerhalb eines fotographischen Bereichs angeordnete Titel oder Titel mit invertierter Darstellung (d.h. weiße Buchstaben auf einem schwarzen Hintergrund) zu lokalisieren, ein.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das zuverlässigere Ergebnisse als Verfahren zum Extrahieren von Titeln aus dem Stand der Technik bereitstellt, wenn das Bild komplexe Graphiken oder Bereiche mit ähnlichen Grauskalaintensitäten aufweist, bereitzustellen.
  • Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das in mehr als einer Zeile angeordnete Titel extrahiert, bereitzustellen.
  • Es ist noch eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das Titel innerhalb fotographischer Bereiche extrahiert, bereitzustellen.
  • Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeile aus einem eingescannten Bild, das Titel, die aus einer invertierten Darstellung bestehen, extrahiert, bereitzustellen.
  • Es ist noch eine weitere Aufgabe der Erfindung, ein Verfahren zum Extrahieren von Titeln und Kopfzeilen aus einem eingescannten Bild, das nicht erfordert, dass die Sprache des verarbeiteten Dokuments vor dem Verarbeiten identifiziert wird, bereitzustellen.
  • Verschiedene andere Ziele, Vorteile und Merkmale der vorliegenden Erfindung werden leicht aus der folgenden ausführlichen Beschreibung ersichtlich und die neuen Merkmale werden in den beigefügten Ansprüchen besonders herausgestellt.
  • Zusammenfassung
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zum Entwerten von Titeln innerhalb eines Grauskala-Bildes nach Anspruch 1 unten bereitgestellt. Bevorzugte Merkmale des Verfahrens werden in den Ansprüchen 2 bis 11 unten vorgetragen.
  • In einer Ausführungsform ist die vorliegende Erfindung auf ein Verfahren zum Entwerten von Titeln innerhalb eines Grauskala-Bildes gerichtet, bei dem ein Grauskala-Bild, z.B. durch Einscannen eines Dokuments, empfangen wird und dann der Durchführung eines, vorzugsweise mehrstufigen, Schwellenwertverfahrens (einem "Multi-Level-Thresholding") unterzogen wird, um vorzugsweise eine Vielzahl von binären Bildern zu erhalten, die das ursprüngliche Grauskala-Bild wiedergeben. Jedes der binären Bilder wird vorzugsweise vorverarbeitet, um alle Rauschkomponenten darin zu filtern, und dann werden alle verbundenen Komponenten in jedem der binären Bilder identifiziert und in Cluster gepackt, um mögliche Titelbereiche darin zu identifizieren. Als nächstes wird jedes binäre Bild vorzugsweise nachverarbeitet, um mögliche Titelbereiche, die Striche umfassen, zusammenzufügen und Nicht-Titel-Bereiche, z.B. fotographische Bereiche, aus den vorher identifizierten, möglichen Titelbereichen in jedem der Bilder durch Vergleichen von Eigenschaften der vorher identifizierten, möglichen Titelbereiche mit vorbestimmten Kriterien zu entfernen. Ferner werden vorzugsweise bestimmte der vorher identifizierten, möglichen Titelbereiche in jedem der binären Bilder, die die vorbestimmten Kriterien erfüllen, zusammengefügt. Des Weiteren werden vorher identifizierte, mögliche Titelbereiche, die nach den optionalen Schritten des Nachverarbeitens und des Zusammenfügens von jedem der binären Bilder übrig bleiben, kombiniert. Schließlich werden vorzugsweise bestimmte der vorher identifizierten, möglichen Titelbereiche von verschiedenen binären Bildern zusammengefügt, um identifizierte Titelbereiche für eine weitere Verarbeitung, z.B. für eine Verwendung als Maske zum Extrahieren des Titeltextes aus dem Originalbild, zu erzeugen.
  • Der Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens ("Multi-Level-Thresholding") wird vorzugsweise durch Erzeugen eines Histogramms der Anzahl an Läufen, die aus der Durchführung eines Schwellenwertverfahrens an dem Grauskala-Bild bei jedem Intensitätsniveau in dem Grauskala-Bild resultieren würden, durchgeführt. Dann wird ein gleitendes Profil des Histogramms erzeugt und die Maxima in dem gleitenden Profil identifiziert. Der Wert für jedes der Maxima des gleitenden Profils wird identifiziert und diese Werte für die Durchführung eines Schwellenwertverfahrens an dem Grauskala-Bild zum Erzeugen einer Vielzahl von binären Bildern verwendet.
  • Es werden drei Verfahren zum Durchführen des Schritts des Vorverarbeitens dargestellt. Das erste Verfahren umfasst ein adaptives morphologisches Verfahren, das aus einer rekursiven Folge von Erosionsschritten und Dilatationsschritten besteht. Das zweite Verfahren besteht aus einem Löcher füllenden Verfahren, das die Schritte des zunächst Erzeugens eines gleitenden Fensters mit einem Bereich in der Mitte und vier äußeren Bereichen und dann des Bewegens des gleitenden Fensters über das binäre Bild umfasst. An jedem Punkt innerhalb des binären Bildes wird die Anzahl an Pixeln mit dem Wert Null in jedem äußeren Bereich berechnet. Wenn jeder äußere Bereich mindestens ein Pixel mit dem Wert Null darin enthält und wenn die Summe der Anzahl an Pixeln mit dem Wert Null größer als eine erste vorbestimmte Schwelle ist, wird das Pixel, das dem Bereich in der Mitte entspricht, auf 0 gesetzt, und, wenn die Summe der Anzahl an Pixeln mit dem Wert Null in jedem äußeren Bereich kleiner als oder gleich einem zweiten vorbestimmten Wert ist, wird das Pixel, das dem Bereich in der Mitte entspricht, auf 1 gesetzt. Das dritte Verfahren, das das bevorzugte Verfahren ist, umfasst schließlich ein morphologisches Verfahren, bei dem unter Verwenden eines vorbestimmten strukturellen Elements eine einfache Öffnungsoperation durchgeführt wird.
  • Kurze Beschreibung der Figuren
  • Die obigen und damit verbundene Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden unter Bezugnahme auf die folgende ausführliche Beschreibung der derzeit bevorzugten, wenngleich veranschaulichenden, Ausführungsformen der vorliegenden Erfindung noch vollständiger verstanden werden, wenn sie in Verbindung mit den begleitenden Figuren betrachtet werden, in denen:
  • 1 ein Ablaufplan des Verfahrens der vorliegenden Erfindung ist;
  • 2 ein simuliertes Bild ist, das zum Veranschaulichen des Schritts der Durchführung eines mehrstufigen Schwellenwertverfahrens der vorliegenden Erfindung verwendet wird;
  • 3 ein Histogramm der Anzahl an Läufen ist, die pro Intensitätsniveau in dem eingescannten Bild gefunden wurden;
  • 4 ein gleitendes Profil des Histogramms aus 3 ist;
  • 5 ein Ablaufplan eines vorverarbeitenden Verfahrens der vorliegenden Erfindung ist;
  • 6 ein Diagramm eines beispielhaften 5 × 5-gleitenden Fensters ist, das in einem Aspekt der vorliegenden Erfindung verwendet wird;
  • 7 eine simulierte, vergrößerte Ansicht eines eingescannten Bildes ist, das zum Veranschaulichen eines Beispiels für eine Einkreisung gemäß einem weiteren Aspekt der vorliegenden Erfindung verwendet wird;
  • 8 eine simulierte, vergrößerte Ansicht eines eingescannten Bildes ist, das zum Veranschaulichen eines Beispiels für verbundene Komponenten gemäß einem noch weiteren Aspekt der vorliegenden Erfindung verwendet wird;
  • 9 ein Ablaufplan des Cluster-Algorithmus ist; und
  • 10 ein simuliertes, eingescanntes Bild ist, das die Schwankungen der Größe von Wortstämmen, die in Sprachen, wie beispielsweise der japanischen und der chinesischen Sprache auftreten, veranschaulicht.
  • Ausführliche Beschreibung der bevorzugten Ausführungsformen
  • Nun wird auf die Figuren und im Besonderen die 1, die die an der vorliegenden Erfindung beteiligten Schritte veranschaulicht, Bezug genommen. Im Überblick wird zunächst ein mehrstufiges Schwellenwertverfahren (Schritt 110) auf ein Grauskala-Bild aus einem Dokument (das bei Schritt 100 eingescannt wurde) angewendet, um eines oder mehrere binäre Bilder, die verschiedene Intensitätsniveaus innerhalb des Grauskala-Bildes wiedergeben, zu erzeugen, verbundene Komponenten identifiziert, dann Titelbereiche aus diesen verbundenen Komponenten in jeder Schicht identifiziert und schließlich die Titelbereiche aus den verschiedenen Schichten kombiniert. Zum Extrahieren der Titelbereiche wird ein Bottom-up-Ansatz verwendet, wodurch die Titelbereiche in jeder Schicht zunächst identifiziert werden und dann in größere Titelbereiche in Cluster gepackt werden, da kein a priori Wissen über das Originaldokument verfügbar ist. Wie von einem Fachmann erkannt wird, sind verbundene Komponenten eine maximale Gruppe aus sich berührenden, schwarzen Pixeln in einem binären Bild.
  • Unter Bezugnahme auf 1 wird zunächst in Schritt 100 ein Dokument eingescannt, um ein Grauskala-Bild zu erzeugen. Wie ein Fachmann leicht erkennen wird, können alternativ dazu verschiedene andere Verfahren zum Erhalten des Grauskala-Bilds, einschließlich, z.B. dem Verwenden einer Digitalkamera oder dem Empfangen eines digitalisierten Bildes von einer Bezugsquelle als drittem Teilnehmer, verwendet werden. Das Grauskala-Bild wird dann dem Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens 110 unterzogen, um das Grauskala-Bild in n verschiedene binäre Bilder (Schichten) (d.h. BILD (i) für i = 1 bis n) aufzuteilen. Dieser Schritt ist nachstehend ausführlicher beschrieben. Die Anzahl n an Schichten, die aus dem Schritt 110 resultiert, hängt von der Komplexität des Originaldokuments ab, wie unten erörtert wird. In Schritt 120 wird ein Index i auf 1 gesetzt und dazu verwendet, durch die Schritte 130160 für jede in Schritt 110 erzeugte Schicht eine Schleife zu bilden. Da es in dem Untergrund einige Verzerrungen oder Löcher geben kann, die die Zeichen miteinander verbinden können, ist der erste Schritt, dem die Schicht vorzugsweise unterzogen wird, der Schritt des Vorverarbeitens 130, der sehr kleine verbundene Komponenten herausfiltert und dünne Linien eliminiert, wodurch alle verbundenen Komponenten, die durch die eliminierten dünnen Linien verbunden gewesen sein könnten, voneinander getrennt werden. Der Schritt 133 verarbeitet jedes Bild, um alle darin angeordneten, verbundenen Komponenten zu identifizieren. Der Schritt 137 kann vorzugsweise bestimmte Linienobjekte filtern und vorzugsweise bestimmte fotographische Bereiche extrahieren. Als nächstes werden in Schritt 140 verbundene Komponenten in Cluster gepackt, wie nachstehend ausführlicher erörtert wird. Ein Nachverarbeiten wird vorzugsweise in Schritt 150 angewendet, das Striche (d.h. die Elemente von einer Sprache, wie beispielsweise chinesisch oder japanisch, in denen die Zeichen aus einer Reihe von isolierten Strichen bestehen) zusammenfügt und entsprechend einer vorbestimmten Gruppe von Bedingungen filtert, wie nachstehend ausführlicher erörtert wird. Schließlich werden in Schritt 160 Titelelemente, die zu dem gleichen Titel gehören und innerhalb der bestimmten Schicht, die gerade verarbeitet wird, in verschiedene Gruppen in Cluster gepackt wurden, zusammengefügt. In Schritt 170 wird der Index i erneut gegen die Gesamtanzahl an Schichten n geprüft und wenn i nicht gleich n ist, der Index i in Schritt 180 inkrementiert. Danach geht die Verarbeitung mit Schritt 130 für die nächste Schicht weiter. Wenn in Schritt 170 bestimmt wird, dass i gleich n ist, wurde jede Schicht in den Schritten 130160 verarbeitet und in Schritt 190 die Titel in den verschiedenen Schichten von BILD(i) kombiniert und alle Titelelemente, die zu dem gleichen Titel gehören und in verschiedene Schichten segmentiert wurden, zusammengefügt.
  • Unter Bezugnahme auf Schritt 110 der 1 und die 24 ist das Schwellenwertverfahren ein üblicher Vorgang bei der Bildverarbeitung, der bei einer Grauskala (oder Farbbildern) angewendet wird, um ein binäres Bild oder eine Gruppe von mehrstufigen, binären Bildern zu erhalten. Einem Fachmann sind eine Reihe von Verfahren bekannt, bei denen ein mehrstufiges Schellenwertverfahren durchgeführt wird. Ein solches Verfahren wurde bei Laurence O'Gorman in seinem Artikel "Binarization and Multi-Thresholding of Document Images Using Connectivity", das als Teil der Dokumente des Third Annual Symposium in Document Analysis and Retrieval, 11.–13. April 1994 vorgestellt wurde, ("das O'Gorman-Dokument") beschrieben. Das Verfahren nach O'Gorman zeigt einen globalen Ansatz, verwendet jedoch als Messgröße Informationen über den lokalen Verbund, so dass Schwellenwerte bei Intensitätsniveaus zu finden sind, die den Verbund von Bereichen innerhalb des Bildes am besten bewahren. Das Intensitätsniveau bezieht sich auf jeden diskreten Wert, der jedem Pixel in einem Grauskala-Bild gegeben werden könnte (z.B. weist ein Grauskala-Bild mit acht Bit 256 Intensitätsniveaus auf). Auf diese Weise macht sich das Verfahren nach O'Gorman sowohl globale als auch lokal adaptive Ansätze zunutze. Obwohl das Verfahren nach O'Gorman in Verbindung mit der vorliegenden Erfindung einigermaßen gut funktioniert, können, wie ein Fachmann mit einigen technischen Fachkenntnissen leicht erkennen kann, auch verschiedene andere Verfahren verwendet werden. Das Verfahren nach O'Gorman, bei dem ein mehrstufiges Schwellenwertverfahren durchgeführt wird, ist ein bisschen zeitaufwendig und beeinträchtigt daher die Durchführung der vorliegenden Erfindung. Zu diesem Zeitpunkt ist es jedoch das bevorzugte Verfahren.
  • Das Verfahren nach O'Gorman weist drei Schritte auf:
    • 1. Bestimmen eines Histogramms der Anzahl an Läufen, d.h. der Abfolgen aufeinander folgender (verbundener), als AN geschätzter Pixel entlang einer Reihe oder einer Spalte, die aus der Durchführung des Schwellenwertverfahrens an dem ursprünglichen Grauskala-Bild an jedem Intensitätsniveau resultieren;
    • 2. Bestimmen eines "gleitenden Profils", wie unten beschrieben ist, des Histogramms, das ein Maß der Ebenheit, d.h. das Fehlen von Schwankungen in den Läufen, für Bereiche um jedes Intensitätsniveau herum innerhalb des Histogramms erzielt; und
    • 3. Auswählen der Anzahl an Schwellen als die Anzahl an Maxima in dem gleitenden Profit, wobei jede Schwelle als die Intensität bei dem damit verbundenen Maximum ausgewählt wird.
  • Das O'Gorman-Dokument stellt einen Algorithmus zum Berechnen der Anzahl an Läufen in jedem Intensitätsniveau eines Grauskala-Bildes vor, der nicht erfordert, dass eine Vielzahl von binären Bildern, eines für jedes unterschiedliche Intensitätsniveau innerhalb des Grauskala-Bildes, mit Hilfe eines Schwellenwertverfahrens bei jedem Intensitätsniveau aus dem Originalbild erzeugt werden muss.
  • Unter Bezugnahme auf 2 weist das veranschaulichte Beispielbild 200 zwei Bereiche 210 und 220 mit einem Intensitätsniveau von 4 und einen dritten Bereich 230 mit einer Intensität von 12 auf. Ein Lauf ist als Abfolge aufeinander folgender (verbundener), als AN geschätzter Pixel entlang einer Reihe oder einer Spalte definiert. Der obere, linke Bereich 210 (Intensitätsniveau 4) in der 2 weist eine Pixelgröße von 5 × 5 auf und trägt daher 10 Läufe bei. Der zweite Bereich 220 mit einem Intensitätsniveau von 4 weist eine Pixelgröße von 6 × 6 auf und trägt daher 12 Läufe bei. Schließlich weist der obere, rechte Bereich 230 eine Pixelgröße von 4 × 4 auf und trägt daher 8 Läufe bei.
  • Unter Bezugnahme auf 3 werden nun, wenn das Schwellenwertverfahren bei jedem Intensitätsniveau von 1 bis 4 durchgeführt wir, dreißig Läufe gefunden, da alle drei Bereiche 210230 eine Intensität von 4 oder mehr aufweisen und daher alle Läufe beisteuern, wie in dem Histogramm 300 der 3 gezeigt ist. Zwischen einer Intensität von 4 und einer Intensität von 12 wird nur der obere, rechte Bereich 230 in der 2 Läufe beisteuern und bei Intensitäten zwischen 4 und 12 zeigt das Histogramm 300 daher einen Wert von 8. Oberhalb einer Intensität von 12 sind keine Bereiche mit solchen Werten vorhanden und das Histogramm 300 der 3 weist daher oberhalb einer Intensität von 12 einen Wert von Null auf.
  • Das gleitende Profil wird bestimmt, indem zunächst ein Maß für die Abweichung um jede Intensität durch folgende Berechnung:
    Figure 00100001
    worin di die Summe der Differenzen innerhalb eines Fensters der Breite w bei einer Intensität i ist und R(i) die Anzahl an Läufen bei dieser Intensität ist, festgelegt wird. Das gleitende Profil P(i) bei jeder Intensität wird folgendermaßen bestimmt:
    Figure 00100002
    wobei σ die Standardabweichung der Gauss-förmigen Kurve ist.
  • Die Breite des Fensters w, die für die Gleichung (1) gewählt wird, sollte so groß wie möglich, um die Verzerrung durch Berechnen des Mittelwerts zu verringern, jedoch kleiner als der minimale Intensitätsbereich zwischen den Niveaus der Bereiche sein. Dieser Bereich wird als minimaler Kontrast bezeichnet. Als Ergebnis dieses Schritts resultiert der in 4 gezeigte Graph für P(i). Um die Anzahl an Schwellen zu bestimmen, wird die Anzahl an Maximalwerten in dem gleitenden Profil bestimmt. In dem Histogramm 300 zeigt jedes der Maxima 410 und 420 ein Plateau (ebener Bereich). Da die Anzahl an Läufen innerhalb eines Plateaus annähernd konstant bleibt, kann erkannt werden, dass die Intensitätsbereiche zwischen den Plateaus den Übergängen der Intensität zwischen den Niveaus der Bereiche entsprechen. Die Schwellenwerte für das Bild aus 2 sind daher (1) 1–3 für die erste Schwelle und (2) 5–11 für die zweite Schwelle. Wie ein Fachmann erkennen wird, wird jeder Wert an einem Maximum akzeptable Ergebnisse für das Schwellenwertverfahren bereitstellen (z.B. wird ein Schwellenwert von 1, 2 oder 3 die gleichen Ergebnisse für die erste Schwelle des Bildes aus 2 erzeugen). In der bevorzugten Ausführungform wird der maximale Wert eines Maximums als Schwelle ausgewählt, obwohl, wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, dass verschiedene andere Verfahren zum Auswählen des momentanen Schwellenpunkts verwendet werden können.
  • Aus der Durchführung des mehrstufigen Schwellenwertverfahrens an dem Bild aus 2 werden drei Bilder resultieren. Das erste Bild wird alle Pixel mit einem Intensitätswert von kleiner als oder gleich der ersten Schwelle, z.B. 3, einschließen und wird daher alle Pixel außer denjenigen in den drei Bereichen 210230 einschließen. Das zweite Bild wird aus allen Pixeln mit einem Intensitätswert von größer als dem ersten Schwellenwert, aber kleiner als oder gleich dem zweiten Schwellenwert, z.B. 10, einschließen und wird daher die beiden Bereiche 210 und 220 mit einem Intensitätswert von 4 einschließen. Das dritte Bild wird schließlich alle Pixel mit einem Intensitätswert von größer als dem zweiten Schwellenwert einschließen und wird daher nur den Bereich 230 mit einer Intensität von 12 einschließen.
  • In einem Bild, das mit Hilfe eines mehrstufigen Schwellenwertverfahrens erzeugt wurde, treten mehrere Arten von Verzerrungen auf. Eine dieser Arten von Verzerrungen ist der Einbau von Verzerrungen in Form von Sprenkeln. Eine andere Art von Verzerrungen ist der Einbau vieler Löcher sowohl in den Hintergrund als auch die Zeichen des Titels im Vordergrund. Wenn diese Löcher groß sind, können sich einige Zeichen miteinander verbinden und das Ergebnis der Extraktion des Titels beeinträchtigen. Es wird daher vorzugsweise ein erster Schritt des Vorverarbeitens 130 (1) dazu verwendet, diese Arten an Verzerrungen vor dem Schritt des Clusterns 140 zu entfernen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, erzeugt das Verfahren der vorliegenden Erfindung ohne ein solches Vorverarbeiten bei vielen Arten von Dokumenten annehmbare Ergebnisse. Zum Durchführen des Schritts des Vorverarbeitens 130 werden drei alternative Verfahren als Teil der vorliegenden Erfindung vorgestellt.
  • Das erste Verfahren zum Vorverarbeiten, das vorgestellt wird, ist ein rekursives morphologisches Verfahren, bei dem eine Reihe morphologischer Öffnungsoperationen (d.h. ein Erosionsschritt, gefolgt von einem Dilatationsschitt) durchgeführt wird. Dieses Verfahren ist rekursiv und beginnt mit einem öffnenden, strukturellen Element mit vorbestimmter Größe. Es wird eine Reihe von Öffnungsoperationen durchgeführt, wobei die Größe des öffnenden, strukturellen Elements nach jeder Operation zunimmt, bis bestimmte vorbestimmte Kriterien erfüllt sind. Auf diese Weise wird die Größe des öffnenden, strukturellen Elements in jedem rekursiven Schritt adaptiv ausgewählt. Dieses Verfahren ist insbesondere für das Extrahieren großer Titelzeichen geeignet und entfernt bestimmte dünne Verbindungen zwischen Komponenten, die nicht verbunden sein sollten und eliminiert auch bestimmte kleine Textzeichen, wodurch die Belastung für die spätere Verarbeitung verringert wird.
  • Um dieses adaptive morphologische Verfahren zu verstehen, wird zunächst angenommen, dass die Komponenten des Titels 1/k der Gesamtfläche des Dokuments (Größe des Dokuments) einnehmen, wobei k ein vorbestimmter Parameter ist. Dieses Verfahren versucht die Fläche einer möglichen Titelkomponente, wenn die aktuelle Fläche der möglichen Titelkomponenten mehr als 1/k der Fläche des Dokuments einnimmt, durch Durchführen eines Schritts des rekursiven Öffnens mit einem größeren, strukturellen Element, zu verringern, bis die Fläche der möglichen Titelkomponenten weniger als 1/k der Fläche des Dokuments beträgt. Die an diesem Verfahren beteiligten Schritte sind in dem Ablaufplan in 5 veranschaulicht.
  • Unter Bezugnahme auf 5 wird nun zunächst eine morphologische Öffnungsoperation (Schritt 500) mit einem vorbestimmten, kleinen, strukturellen Element (z.B. 3 × 3, was der erwarteten, minimalen Strichbreite von drei Pixeln für ein Zeichen innerhalb eines Titelbereichs in der bevorzugten Ausführungsform entspricht) durchgeführt, um die Verzerrung in Form von Sprenkeln zu eliminieren.
  • Als nächstes wird die Fläche der restlichen verbundenen Komponenten nach diesem Schritt unter Verwenden der Gleichung nwh -, wobei n die Anzahl an aktuellen verbundenen Komponenten ist, w - die durchschnittliche Breite der aktuellen verbundenen Komponenten ist und h - die durchschnittliche Höhe der aktuellen verbundenen Komponenten ist. Die Variablen w - und h - werden entsprechend der Gleichungen:
    Figure 00120001
    berechnet, in denen hi für i = 1 bis n die Höhen der aktuellen verbundenen Komponenten sind und wi für i = 1 bis n die Breiten der aktuellen verbundenen Komponenten sind.
  • Zu Beginn dieser Verarbeitung werden aufgrund der Verzerrungen zu viele kleine Komponenten in dem Bild auftreten. Als Ergebnis davon ist die geschätzte Fläche nwh - größer als 1/k der Gesamtfläche des Dokuments. Das heißt, dass, wenn die Fläche des Dokuments W·H ist, dann nwh - > W·H/k ist. Durch Auswählen einer Variablen n', die einen Schätzwert für die Anzahl an verbundenen Komponenten, die basierend auf der aktuellen durchschnittlichen Breite w - und der aktuellen mittleren Höhe h - resultieren würden, wiedergibt, d.h.
    Figure 00130001
    An diesem Punkt ist der Schätzwert n' kleiner als die Anzahl an aktuellen verbundenen Komponenten n, d.h. n > n'. In Schritt 510 werden daher die Werte für n und n' berechnet und anschließend in Schritt 520 verglichen. Es tritt solange eine iterative Schleife ein, solange n größer als n' bleibt, was die Schritte 510540 beinhaltet.
  • In Schritt 530 wird die Variable auf Basis der Strichbreite der aktuellen verbundenen Komponenten berechnet, da die Strichbreite ein Anzeichen für die Größe der aktuell in dem Bild verbundenen Komponenten ist. Um die Strichbreite zu bestimmen, wird jede aktuelle Komponente Reihe für Reihe von oben nach unten gescannt, um alle Läufe (d.h. die aufeinander folgenden Pixel im Vordergrund) und die Länge dieser Läufe zu identifizieren. Aus diesen Daten wird ein Histogramm der Länge der Läufe erzeugt und die Strichbreite wird als der Wert am Maximum des Histogramms bestimmt. Insbesondere wird p als die minimale Strichbreite ausgewählt, die die folgende Gleichung erfüllt:
    Figure 00130002
    wobei M die vorbestimmte maximale Strichbreite (100 Pixel in der bevorzugten Ausführungsform) und f(i) für i = 1 bis M die Anzahl an Komponenten mit einer Strichbreite von i ist (z.B. wenn es 5 Komponenten mit einer Strichbreite von 3 gibt, ist dann f(3)=5).
  • Wenn die Variable p ausgewählt wurde, wird sie zum Einstellen der Größe des strukturellen Elements für die nächste Öffnung verwendet, d.h. p × (p/2), Schritt 540 der 5, die ein modifiziertes binäres Bild erzeugt. Die Verarbeitung kehrt dann zu Schritt 510 zurück, wo n und n' unter Verwenden des modifizierten binären Bildes berechnet werden. Wenn n größer als n' bleibt, werden dann die Schritte 530, 540 und 510 solange wiederholt, bis n kleiner als oder gleich n' wird, wenn das Verfahren des ersten Vorverarbeitens beendet wird.
  • Der Nutzen dieses Verfahrens des Vorverarbeitens ist der, dass es das öffnende, strukturelle Element adaptiv auswählt. Dieses Verfahren ist zum Extrahieren großer Titelzeichen, jedoch nicht für kleine Titelzeichen, deren Strichbreite der Größe des öffnenden, strukturellen Elements ähnelt, geeignet, da kleine Titelzeichen in kleinere Teile aufgetrennt werden können. Ein weiterer Nachteil dieses Verfahrens ist, dass Probleme entstehen können, wenn Dokumente verarbeitet werden, die Fotos oder Bilder enthalten, die in viele kleinere Bereiche aufgetrennt werden können. Dieses Verfahren ist auch einigermaßen zeitaufwendig.
  • Unter Bezugnahme auf 6 beinhaltet nun ein Verfahren des zweiten Vorverarbeitens das Auffüllen von Löchern. Bei diesem Verfahren gleitet eine Vorlage (d.h. ein gleitendes Fenster 600, wie es in der 6 gezeigt ist) über das gesamte Bild, um aufzufüllende Löcher zu identifizieren. Um die Wirkung dieses Verfahrens an den Rändern zu minimieren, wird das gleitende Fenster 600 in vier Bereiche 610640 eingeteilt, wobei das Pixel I (650) in der Mitte untersucht wird. Da die Verzerrungen in dem Bild zufällig verteilt sind, werden dann die folgenden vier Werte für die Merkmale erhalten:
    • 1. Summe (1) = SUM (Pixel mit dem Wert Null in dem Bereich 1);
    • 2. Summe (2) = SUM (Pixel mit dem Wert Null in dem Bereich 2);
    • 3. Summe (3) = SUM (Pixel mit dem Wert Null in dem Bereich 3);
    • 4. Summe (4) = SUM (Pixel mit dem Wert Null in dem Bereich 4).
  • An jeder Position des gleitenden Fensters werden die Anzahlen für die Werte Null in allen vier Bereichen berechnet und entsprechend dem folgenden Pseudocode verglichen:
    Wenn (if) Sum (1) > 0 und Sum (2) > 0 und Sum (3) > 0 und Sum (4) > 0 und (Sum (1) + Sum (2) + Sum (3) + Sum (4)) > 5
    I auf Null einstellen // Auffüllen eines Lochs im Hintergrund
    ansonsten (else if) (Sum (1) + Sum (2) + Sum (3) + Sum (4)) <= 3
    I auf Eins einstellen // Auffüllen eines Lochs im Vordergrund
  • Dieses Verfahren ist für Titelzeichen geeignet, deren Strichbreite größer als 5 Pixel in der bevorzugten Ausführungsform ist, und es ist leichter zu implementieren als das oben angegebene Verfahren der ersten Vorverarbeitung. Dieses Verfahren ist jedoch nicht für Titelzeichen geeignet, deren Strichbreite kleiner als 5 Pixel in der bevorzugten Ausführungsform ist und es kann keine breiten Verbindungen zwischen irgendwelchen Komponenten entfernen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, sind die für den oben angegebenen Vergleich ausgewählten Werte zudem die bevorzugten Werte, obwohl sie variiert werden können und noch annehmbare Ergebnisse bereitstellen.
  • Der dritte, hierin vorgestellte Schritt des Vorverarbeitens ist ein einfaches morphologisches Verfahren, bei dem eine einfache Öffnungsoperation durchgeführt wird. Dies ist das in der vorliegenden Erfindung bevorzugt verwendete Verfahren. In der bevorzugten Ausführungsform wird für den Fall, bei dem die Strichbreite eines Titelzeichens auf mehr als drei Pixel vordefiniert ist, eine Größe für ein strukturelles Element von 3 × 3 verwendet. Das Einstellen der Größe des strukturellen Elements auf 3 × 3 lässt das Entfernen von Verzerrungen in Form von Sprenkeln und falscher Verbindungslinien ohne Beeinträchtigung der Titelzeichen zu.
  • Dieses Verfahren versucht nicht, kleine Löcher im Inneren von verbundenen Komponenten zu füllen, da die Löcher im Inneren von verbundenen Komponenten durch die Schwankungen der Intensität von Pixeln von den umgebenden Pixeln verursacht werden.
  • Nach dem Schritt des morphologischen Öffnens kann vorzugsweise ein zusätzlicher Schritt zum Entfernen kleiner verbundener Komponenten, der somit die späteren Prozesse beschleunigt, wie folgt durchgeführt werden:
    Np wird als die Anzahl an Pixeln für eine verbundene Komponente festgelegt und
    Ncc wird als die Anzahl an Komponenten innerhalb des Bildes festgelegt.
  • Dann wird die minimale Schwelle für Np als Tp festgelegt, so dass, wenn Np < Tp, die abgeschätzte, verbundene Komponente entfernt wird. Die Schwelle Tp ist eine Funktion von Ncc, d.h. Tp = f(Ncc). Es wird vorzugsweise eine lineare Funktion verwendet, d.h. Tp = kNcc, wobei k eine Konstante ist, so dass der Wert für die Schwelle Tp sich proportional mit der Anzahl an verbundenen Komponenten ändert.
  • Als nächstes wird in Schritt 133 (1) jedes Bild verarbeitet, um alle der darin angeordneten, verbundenen Komponenten zu identifizieren. Diese Verarbeitung wird auf herkömmliche Weise durchgeführt, wie einem Fachmann leicht bekannt ist.
  • Nach dem Erzeugen der verbundenen Komponenten in jedem Bild (Schritt 133 der 1) können vorzugsweise zwei weitere Schritte des Vorverarbeitens durchgeführt werden. Zuerst werden kleine Linienkomponenten entfernt. Bei Komponenten, deren Anzahl an Pixeln kleiner als eine vorbestimmte minimale Schwelle für Pixel ist, werden diese Komponenten eliminiert. Die Linienkomponenten werden insbesondere dann eliminiert, wenn das folgende Kriterium erfüllt ist: max{w(I), h(I)}/min{w(I), h(I)} > PTwobei max{w(I), h(I)) die größere der Höhe oder der Breite der verbundenen Komponenten I ist und min{w(I), h(I)) die kleinere der Höhe oder der Breite der verbundenen Komponente I ist. In der bevorzugten Ausführungsform wird die Schwelle PT auf 20 festgelegt. Auf diese Weise ist dieser Schritt zum Erfassen von horizontalen oder vertikalen Linienobjekten nützlich, wobei bei einer vertikalen Linie die maximale Höhe groß ist und die minimale Breite klein ist. Dieser Schritt ist jedoch nicht für das Erfassen von diagonalen Linienobjekten geeignet.
  • Ein zweiter allgemeiner Schritt des Vorverarbeitens kann dazu verwendet werden, zwischen Fotos und Zeichenkomponenten zu unterscheiden. Verfahren aus dem Stand der Technik, die binäre Bilder in Dokumenten verarbeiten, bestimmen das Vorhandensein eines Fotobereichs basierend auf der Größe der verbundenen Komponenten, da ein Fotobereich dazu neigt, eine sehr große verbundene Komponente zu sein. Wenn komplexe Grauskala-(oder Farb-)Bilder verarbeitet werden, können Fotos aufgrund des Schritts eines mehrstufigen Schwellenwertverfahrens 110 und der Schwankungen der Intensität der Grauskala in dem Originalbild jedoch in mehrere isolierte, kleine, verbundene Komponenten aufgetrennt werden. Diese isolierten, kleinen, verbundenen Komponenten können in unterschiedlichen Schichten vorhanden sein. Die Verfahren zum Extrahieren von Fotos aus dem Stand der Technik sind daher nicht für komplexe Grauskala-Bilder geeignet. Aufgrund der Komplexität der Grauskala-Bilder können die Titel in einem Foto, da sogar ein identifizierter Fotobereich noch überprüft werden muss, um nach möglichen Titeln zu suchen, insbesondere, da es nicht so leicht sein kann, ein Foto in einem Grauskala-(oder Farb-)Bild in einem Dokument mit einem komplexen Hintergrund zu identifizieren, wie es bei einem binäre Dokumentenbild der Fall ist. Die folgenden Kriterien können zum Identifizieren solcher Fotobereiche (die keine Titelbereiche sind) verwendet wurden, um eine solche Extraktion zu ermöglichen. Um als Fotokomponente (-bereich) angesehen zu werden, muss der untersuchte Bereich eine der folgenden vorbestimmten Bedingungen erfüllen:
    • (1) Größe der Zeichen-Box > (Gesamtgröße des Dokuments/k); oder
    • (2) eine Komponente umgibt eine andere Komponente UND die Größe der Zeichen-Box > (Gesamtgröße des Dokuments/2k),
    wobei k ein Parameter ist, der in der bevorzugten Ausführungsform auf 12 eingestellt wird.
  • Unter Bezugnahme auf das simulierte, eingescannte Bild 700 in der 7, stellt die Aufgabe, wie zu bestimmen ist, ob eine Komponente eine andere Komponente umgibt, bestimmte Schwierigkeiten dar. In der vorliegenden Erfindung wird ein einfaches Verfahren verwendet. Wie in 7 veranschaulicht ist, werden für jeden Punkt auf der Komponente 710 vier Linien 720750, die in die vier verschiedenen Richtungen zeigen, gezogen (d.h. die linke Linie 720, die obere Linie 730, die rechte Linie 740, die untere Linie 750). Wenn die vier Linien, z.B. die Linien 720750, mit der gleichen Komponente 760 verbunden sind, wird bestimmt, dass die Komponente 710 von der Komponente 760 umgeben ist und wird daher entfernt, wenn die Größe ihrer Zeichen-Box größer als die vorbestimmte Schwelle, die oben angegeben ist, ist. In dem simulierten, eingescannten Bild 700 der 7 verbindet die Linie 740 nicht die Komponente 710 mit der Komponente 760 und sie wird daher nicht entfernt.
  • Unter Bezugnahme auf den Schritt 140 der 1 ergibt sich nun eine Schwierigkeit beim Identifizieren von Titelbereichen in einem Grauskala-Bild aus dem Verpacken in Cluster. Wie ein Fachmann erkennen wird, ist ein "Cluster" gewöhnlich als ein relativ gut verbundener Bereich, der eine ähnliche Datendichte aufweist, definiert. Bezüglich der vorliegenden Erfindung ist ein Cluster genauer gesagt als eine Gruppe relativ enger und ähnlicher, verbundener Komponenten (wobei sich die verbundenen Komponenten auf ein Objekt mit einer maximalen Gruppe aus sich berührenden, schwarzen Pixeln beziehen) definiert und Clustern bezieht sich auf die Bildung eines Clusters. Die Hauptaufgabe beim Identifizieren möglicher Titelbereiche (Cluster) ist, homogene Gruppe aus Objekten auf Basis ihrer Merkmale (Dimensionen) zu identifizieren. Wenn ein anderer Weg festgelegt ist, bei dem verbundenen Komponenten in einem Bild vorliegen, muss das Merkmal Raum dieser Komponenten identifiziert werden und diese Komponenten werden dann in Cluster verpackt, wenn das identifizierte Merkmal Raum eng verwandt ist. Das zur Identifizierung der Komponenten verwendete Merkmal muss in geeigneter Weise ausgewählt werden. Von den Clusterverfahren aus dem Stand der Technik wird weitgehend das K-Mittelwert-Verfahren verwendet. Der Nachteil des K-Mittelwert-Verfahrens ist jedoch, dass die Anzahl an resultierenden Clustern vorher vorbestimmt werden muss. Das Verfahren der vorliegenden Erfindung verwendet daher das hierarchische Clusterverfahren, das kein a priori Wissen über das richtig zu verarbeitende Bild erfordert.
  • Die folgenden Werte für sieben Merkmale werden bei einer verbundenen Komponente erhalten, deren Indexwert in dem Clusterverfahren der vorliegenden Erfindung I ist:
    (1) Höhe der Zeichen-Box H(I)
    (2) Breite der Zeichen-Box W(I)
    (3) y-Koordinate des Mittelpunks center_y(I) (Mittel_y(I))
    (4) x-Koordinate des Mittelpunkts center_x(I) (Mittel_x(I))
    (5) Strichbreite stroke_w(I) (Strich_w(I))
    (6) Mittelwert der Grauintensität gray_mean(I) (grau_Mittel(I))
    (7) Standardabweichung der Grauintensität gray_std(I) (grau_Std(I))
  • Die Größe der Zeichen-Box (d.h. die Höhe H(I) und die Breite W(I)) und die Anordnung in der Mitte (center_y(I) und center_x(I)) werden leicht identifiziert.
  • Wie oben angegeben ist, wird die Strichbreite (d.h. stroke_w(I)) identifiziert, indem jede Komponente Reihe für Reihe von oben nach unten eingescannt wird, um alle Läufe (d.h. aufeinander folgende Pixel im Vordergrund) und die Länge solcher Läufe zu identifizieren. Aus diesen Daten wird ein Histogramm der Länge der Läufe erzeugt und die Strichbreite wird als der Wert am Maximum des Histogramms bestimmt. In den meisten Fällen gibt die identifizierte Strichbreite die Strichbreite eines Zeichens (d.h. einer verbundenen Komponente) wieder. Manchmal sind jedoch viele Löcher in einer Komponente vorhanden und diese Löcher können die Genauigkeit der oben angegebenen Bestimmung der Strichbreite zum großen Teil beeinträchtigen. Unter Bezugnahme auf das simulierte, eingescannte Bild 800 der 8 ist eine verbundene Komponente, die eine Vielzahl von Löchern aufweist gezeigt. Es gibt zwei Wege, das Problem der Strichbreite zu lösen, das sich während dem Verarbeiten einer solchen verbundenen Komponente stellt. Ein Weg ist, zuerst die Löcher aufzufüllen und dann den Wert für die Strichbreite nach dem Auffüllen zu erfassen. Dies kann jedoch manchmal dazu führen, dass große Blöcke im Hintergrund falsch aufgefüllt werden. Ein einfacherer Weg ist, eine min_num-Schwelle für jede verbundene Komponente festzulegen, so dass, wenn die Breite eines Lochs kleiner als die min_num-Schwelle ist, das Loch als Verzerrung angenommen wird und daher aufgefüllt wird und das Loch ansonsten als Hintergrund betrachtet wird und nicht beachtet wird.
  • Die Werte für gray_mean(I) und gray_std(I) werden bei den jeweiligen verbundenen Komponenten unter Verwenden von Daten aus dem ursprünglichen Grauskala-Bild berechnet.
  • Unter Bezugnahme auf den Ablaufplan aus 9 werden nun zwei getrennte verbundene Komponenten mit Hilfe des darin definierten Verarbeitens zusammengefügt, wenn die Ähnlichkeit ihrer Merkmale in einem vorbestimmten Bereich liegt. Das Verfahren der vorliegenden Erfindung erfordert nicht, dass die Anzahl an verschiedenen verbundenen Komponenten vorher bekannt ist. Zum Vergleichen von zwei verschiedenen verbundenen Komponenten werden in der vorliegenden Erfindung mehrere verschiedene Messgrößen der Ähnlichkeit von Merkmalen verwendet, von denen jede von den oben beschriebenen Merkmalen der Komponenten abhängt. Diese Messgrößen beinhalten:
    • 1. Ähnlichkeit der Höhe der Zeichen-Box
      Figure 00200001
    • 2. Ähnlichkeit der Breite der Zeichen-Box
      Figure 00200002
    • 3. Ähnlichkeit der Strichbreite
      Figure 00200003
    • 4. Abstand
      Figure 00200004
      wobei sich NearestEdgeDist(i, j) auf den kürzesten Abstand zwischen einem Rand einer verbundenen Komponente I und einem Rand der verbundenen Komponente j bezieht.
    • 5. Ähnlichkeit des Mittelwerts der Grauintensität S5(i, j) = |gray_mean(i) – gray_mean)(j)| (10)
    • 6. Ähnlichkeit der Standardabweichung der Grauintensität S6(i, j) = |gray_std(i) – gray_std(j)| (11)
  • In den obigen Gleichungen sind sich die beiden Komponenten i und j umso ähnlicher, je kleiner der resultierende Wert ist. In der vorliegenden Erfindung werden zuerst die Werte für die Merkmale der beiden Komponenten I und J berechnet (siehe Schritte 900 und 910 in 9) und dann die Ähnlichkeit des Mittelwerts der Grauintensität, d.h. S5(i, j), und die Ähnlichkeit der Standardabweichung der Grauintensität, d.h. S6(i, j) berechnet und in Schritt 920 der 9 überprüft. Wenn die beiden Werte unter die vorbestimmten Schwellen fallen, wird in Schritt 930 eine weitere Ähnlichkeit geprüft, ansonsten werden die beiden Komponenten als nicht ähnlich betrachtet und die Verarbeitung geht mit Schritt 950 weiter.
  • Bei der Durchführung des Überprüfens der weiteren Ähnlichkeit in Schritt 930 der 9 wird eine dimensionale Ähnlichkeit untersucht. Die dimensionale Ähnlichkeit ist definiert als:
    Figure 00210001
    wobei die ak die Höhen der Messwerte der Ähnlichkeit S1–S4 sind; die Tp für p = 1 ... 4 die maximale, annehmbare Schwelle für jeden Messwert der Ähnlichkeit sind (in der bevorzugten Ausführungsform der vorliegenden Erfindung sind diese alle auf ½ eingestellt). Die dimensionale Ähnlichkeit Sdim ist eine Kombination aus den Ähnlichkeiten der Breite, der Höhe der Zeichen-Box, der Strichbreite und dem Abstand, wobei sich diese alle auf die dimensionalen Eigenschaften der Komponenten beziehen. Wie ein Fachmann mit einigen technischen Fachkenntnissen erkennen wird, können die Höhen, d.h. die Werte für ak mit Hilfe eines Trainingsprozesses, z.B. einem neuralen Netzwerk, erhalten werden. In der vorliegenden Erfindung werden die folgenden Werte einfach zugewiesen:
    a1 = 0,5; a2 = 0,5; a3 = 1,0; und a4 = 1,0.
  • Wenn in Schritt 930 festgestellt wird, dass der Wert für Sdim(i, j) unterhalb einer vorbestimmten Schwelle liegt, werden die Komponenten I und J als ähnlich betrachtet und anschließend in Schritt 940 kombiniert. Ansonsten werden sie als nicht ähnlich betrachtet und die Verarbeitung geht mit Schritt 950 weiter.
  • Wenn die beiden Komponenten als ähnlich bestimmt werden, werden sie zusammen in einem Cluster verpackt, um durch Erzeugen einer verknüpften Liste von jeder ursprünglichen Komponente eine Gruppe aus Komponenten zu bilden. Die Merkmale von jeder Komponente in der Gruppe werden innerhalb der verknüpften Liste beibehalten. Bei allen Komponenten innerhalb jeder Gruppe werden die Werte der Merkmale für jede Komponente durch die Mittelwerte für dieses Merkmale für jede Komponente innerhalb der Gruppe ersetzt, außer bei den Merkmalen center_x(i) und center_y(i), die bei jeder Komponente i gleich bleiben. Wenn in einem Cluster zu Beispiel eine Gruppe an Komponenten ci(i = 1 ... n) auftritt, weist jede Komponente die Merkmale H(ci), W(ci), center_y(ci), center_x(ci), stroke_w(ci), gray_mean(ci) und gray_std(ci), alle für i = 1 ... n auf. Die neuen Werte für die Merkmale nach dem Zusammenfügen (Verpacken in Clustern) der Komponenten sind:
    Figure 00220001
    Figure 00230001
  • Wie oben angegeben ist, bleiben die Eigenschaften innerhalb der Liste der Merkmale bei jeder verbundenen Komponente unverändert. Wie ein Fachmann leicht erkennen wird, wird obwohl die bevorzugte Ausführungsform der vorliegenden Erfindung erfordert, dass das eingegebene Bild zuerst einem Schritt der Durchführung eines mehrstufigen Schwellenwertverfahrens unterzogen wird, der Schritt des Clustern 140 (1) der vorliegenden Erfindung ein binäres Bild verarbeiten, unabhängig davon, ob dies mit einem mehrstufigen Schwellenwertverfahren oder einem binären Schwellenwertverfahren erzeugt wurde.
  • Unter Bezugnahme auf 1 wird nun, nachdem jedes Bild in Cluster verpackt wurde (Schritt 140 der 1), ein Schritt des Nachverarbeitens 150 angewendet, der zunächst die Striche zusammenfügt und dann die Bereiche der Nicht-Titelkomponenten filtert.
  • Bezüglich des Zusammenfügens der Striche bestehen in manchen Sprachen, wie zum Beispiel dem Chinesischen und dem Japanischen, die meisten Zeichen aus einer Gruppe von isolierten Strichen (Wortstämmen). Da die Größe der Strichkomponenten, wie in dem simulierten, eingescannten Bild 1000 in der 10 gezeigt ist, größtenteils variiert (siehe die Elemente 1010 und 1020 in der 10) müssen solche Strichkomponenten unbedingt zu möglichen Zeichen zusammengefügt werden. Bevorzugt wird das folgende Verfahren verwendet, wobei dieses Verfahren keine ungünstigen Wirkungen auf Titel einer Sprache ohne Wortstämme (d.h. die Titel mit englischen Zeichen) hat. Das Verfahren der vorliegenden Erfindung ist daher von der Sprache unabhängig.
  • In einer Gruppe aus zusammengefügten Komponenten können zwei Komponenten cj, cj', wobei j, j' ∊ [1, n] zusammengefügt werden, um eine neue Komponente, die mit größerer Wahrscheinlichkeit ein vollständiges Zeichen ist, zu bilden, wenn sie die beiden folgenden Gleichungen erfüllen: H(cj)/2 + H(cj)/2 + |center_y(cj) – center_y(cj)| ≤ k(H(c) - + σh) (18) W(cj)/2 + W(cj)/2 + center_x(cj) – center_x(cj)| ≤ k(W(c) - + σw) (19)wobei H(cj) die Höhe der Komponente cj ist, W(cj) die Breite der Komponente cj ist und k eine Konstante ist, die vorzugsweise auf 1,2 eingestellt wird. Daneben werden H(c) -, W(C) - durch die Gleichungen:
    Figure 00240001
    bestimmt und σh, σw werden durch die Gleichungen:
    Figure 00250001
    bestimmt.
  • Wenn die beiden Komponenten in diesem Schritt des Nachverarbeitens zusammengefügt wurden, werden sie durch eine neu zusammengefügte Komponente ersetzt und die Anzahl an Komponenten innerhalb der verknüpften Liste wird um eine [Komponente] verringert. Ähnlich dem Clustern (Gleichungen 13–17) werden die Merkmale der neu zusammengefügten Komponenten durch Berechnen eines Mittelwerts aus jedem der entsprechenden Merkmale erhalten. Die Zeichen-Boxen werden jedoch zu einer zusammengefügt und für die neue Komponente wird ein neues center_x(i) und ein neues center_y(i) berechnet werden. Dieser Prozess des Zusammenfügens läuft solange weiter ab, bis keine zwei Komponenten innerhalb der gleichen Komponente weiter zusammengefügt werden können.
  • Eine in Clustern zusammengefügte Gruppe besteht aus einer verknüpften Liste der Komponenten in dem Cluster. Da jede Komponente ihre eigenen Informationen über die Merkmale beibehält, sind die Informationen über das Clustern und die Informationen über die einzelnen Komponenten für die Komponenten innerhalb des Clusters für die Nachverarbeitung verfügbar. Nicht-Titelkomponenten können daher vorzugsweise aus den Komponenten in Gruppen von in Clustern verpackten Komponenten identifiziert werden und anschließend durch Bestimmen, ob eine solche Komponente eine der folgenden Bedingungen erfüllt, entfernt werden (was zu der Bestimmung führt, dass dies eine Nicht-Titelkomponente ist):
    • 1. Wenn die Komponente eine unabhängige Komponente ist;
    • 2. Bei einer Gruppe, die aus zwei Titelkomponenten besteht, wenn die beiden Komponenten im Wesentlichen nicht in der vertikalen oder horizontalen Richtung aneinander ausgerichtet sind;
    • 3. Bei einer Gruppe, die aus drei Titelkomponenten besteht, wenn es nicht mindestens zwei Titelkomponenten gibt, die im Wesentlichen in der horizontalen oder der vertikalen Richtung aneinander ausgerichtet sind;
    • 4. Wenn die Anzahl an verknüpften Verbindungen innerhalb eines Clusters größer ist als eine Schwelle T, die in der bevorzugten Ausführungsform der vorliegenden Erfindung auf 100 eingestellt ist, sind die Komponenten innerhalb dieses Clusters wahrscheinlich Nicht-Titel-Zeichen, wobei angenommen wird, dass die Anzahl an in einem Titel eingeschlossenen Zeichen kleiner als T ist.
    • 5. Bei einer Liste von verknüpften Komponenten werden, wenn die Werte für die Standardabweichung des Mittelwerts der Grauintensität geteilt durch die Anzahl an verknüpften Komponenten größer als eine Schwelle ist, die in der bevorzugten Ausführungsform auf 0,2 eingestellt ist, diese Komponenten als Nicht-Titel betrachtet.
    • 6. Bei einer Gruppe von verknüpften Komponenten werden, wenn die Standardabweichung der Höhe geteilt durch die Mittelwert der Höhe größer ist als eine Schwelle, die in der bevorzugten Ausführungsform auf 0,5 eingestellt ist, oder die Standardabweichung der Breite geteilt durch den Mittelwert der Breite größer als eine Schwelle ist, die in der bevorzugten Ausführungsform auf 0,5 eingestellt ist, diese Komponenten als Nicht-Titel betrachtet.
  • Unter erneuter Bezugnahme auf 1 wird das Zusammenfügen der Ergebnisse der Verarbeitung nun zunächst in Schritt 160 durch Zusammenfügen der Gruppen von in Clustern verpackten Komponenten innerhalb der gleichen Schicht durchgeführt.
  • Bei den Clusterverfahren können manchmal manche Komponenten, die zu dem gleichen Titel gehören, in verschiedenen Gruppen in Cluster verpackt werden. Das Ziel des Schritts des Zusammenfügens 160 der 1 ist, diese Gruppen zusammenzufassen.
  • Die Grundlage dieses Schritts ist, dass bei beliebigen zwei Komponenten, die zu zwei verschiedenen Clustern gehören, die Komponenten, wenn sie die vorbestimmten Kriterien, d.h. das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft und das Kriterium der Ähnlichkeit der Form, die unten definiert sind, erfüllen, als der gleiche Titel betrachtet werden und daher zusammengefügt werden. Das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft ist definiert als:
    Figure 00270001
    [average: Mittelwert]
    und, wenn Sd(i, j) < Td, werden die beiden Komponenten i und j als nahe beieinander liegend betrachtet. Td ist die vorbestimmte maximale Schwelle für das Kriterium der Ähnlichkeit der unmittelbaren Nachbarschaft.
  • Das Kriterium der Ähnlichkeit der Form ist definiert als:
    Figure 00270002
    wobei Sk(i, j) für k = 1 ... 3 jeweils die Ähnlichkeit der Höhe der Zeichen-Box (S1(i, j), Gleichung 6). die Ähnlichkeit der Breite der Zeichen-Box (S2(i, j), Gleichung 7) und die Ähnlichkeit der Strichbreite (S3(i, j), Gleichung 8) bezeichnen, wie oben angegeben ist. Daneben bezeichnen Tp für p = 1 ... 3 die maximal annehmbaren Schwellen für jeden Messwert der Ähnlichkeit, wobei in der bevorzugten Ausführungsform alle Werte auf 0,5 eingestellt sind und ak für k = 1 ... 3 die Höhen bezeichnet, die vorzugsweise jeweils auf 0,5, 0,5 und 1,0 eingestellt sind. Ts ist die vorbestimmte maximale Schwelle für die Ähnlichkeit der Form. Wenn S(i, j) < Ts werden die beiden Komponenten i und j als in ihrer Form ähnlich betrachtet.
  • Als Ergebnis von diesem Schritt werden dann, wenn festgestellt wird, dass sowohl Sd(i, j) – Td als auch S(i, j) < Ts sind, die beiden Komponenten und j und die mit ihnen in Verbindung stehenden Gruppen zusammengefügt. Eine Zusammenfügung innerhalb einer Schicht kann zwischen zwei beliebigen Komponenten aus unterschiedlichen Gruppen durchgeführt werden und die Ergebnisse sind neu gebildete Gruppen, die jede der ursprünglichen Gruppen umfassen. Die für das Zusammenfügen von Komponenten in diesem Schritt auferlegten Bedingungen sind nicht so streng wie bei dem Schritt des Clusterns 140, da ein großer Teil der Verzerrungen in dem Schritt des Clusterns 140 und dem Schritt des Nachverarbeitens 150 eliminiert werden. Bei der Durchführung dieses Schritts wird die Grauskala-/Farbintensität ebenso wenig beachtet. In dem Schritt des Clusterns 140 werden schließlich die zusammengefügten Komponenten durch die Mittelwerte ihrer Merkmale wiedergegeben (siehe die Gleichungen 13–17), die in diesem Fall die Merkmale center_x(i) und center_y(i) einschließen.
  • Wie oben erörtert wurde, kann, während des mehrstufigen Schwellenwertverfahrens, aufgrund der Schwankungen der Intensität der Grauskala innerhalb eines Bildes ein Titel in verschiedene Schichten segmentiert werden. In Schritt 190 der 1 werden verbundene Komponenten für ein mögliches Zusammenfügen mit Komponenten aus anderen Schichten betrachtet. Die gleichen Kriterien für das Zusammenfügen werden als diejenigen verwendet, die oben bezüglich des Zusammenfügens von Komponenten innerhalb der gleichen Schicht beschrieben sind (d.h. die Kriterien, durch die Gleichungen 24 und 25 definiert sind).
  • Wenn der Schritt 190 der 1 beendet wurde, geben die restlichen verbundenen Komponenten identifizierte Titelbereiche für eine Ausgabe an den Benutzer wieder.
  • Obwohl die vorliegende Erfindung im Speziellen gezeigt wurde und unter Bezugnahme auf die bevorzugten Ausführungsformen und verschiedenen Aspekte davon beschrieben wurde, wird von einem Fachmann erkannt werden, dass verschiedene Änderungen und Modifikationen vorgenommen werden können, ohne von dem Umfang der Erfindung abzuweichen. Es wird angestrebt, dass die angefügten Ansprüche so interpretiert werden, dass sie die hierin beschriebenen Ausführungsformen, die oben erwähnten Alternativen und alle Äquivalente davon enthalten.

Claims (11)

  1. Ein Verfahren zum Entwerfen von Titeln innerhalb eines Grauskala-Bildes, die Schritte umfassend: (A) Multi-Level-Thresholding (110) eines Grauskala-Bildes, das im Speicher gespeichert ist, um eine Mehrzahl an binären Bildern zu erhalten; (B) Identifizieren (133) von verbundenen Komponenten in jedem der genannten binären Bilder; (C) Clustern (140) der genannten verbundenen Komponenten in jedem der genannten binären Bilder, um mögliche Titelbereiche in jedem der genannten Bilder zu identifizieren; und (D) Kombinieren (190) der genannten möglichen Titelbereiche von jedem der genannten binären Bilder für eine Ausgabe.
  2. Das Verfahren von Anspruch 1, in dem der Schritt des Multi-Level-Thresholding die Schritte umfasst: (A) Erzeugen eines Histogramms der Anzahl der Läufe, die aus dem Thresholding des genannten Grauskala-Bildes zu jedem Intensitätsniveau in dem genannten Grauskala-Bild resultiert; (B) Erzeugen eines gleitenden Profils des genannten Histogramms; (C) Identifizieren eines jeden Maximums in dem genannten gleitenden Profil und eines Intensitätsniveauwerts an jedem Maximum; und (D) Thresholding des genannten Grauskala-Bildes an jedem der genannten Intensitätsniveauwerte, um eine Mehrzahl an binären Bildern zu erzeugen.
  3. Das Verfahren von Anspruch 1 oder 2, in dem der genannte Schritt des Clusterns die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; (C) wenn der genannte Unterschied in der genannten zumindest einen Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in einem Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Vergleichen des Unterschieds in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten mit einer zweiten vorbestimmten Schwelle; und (D) wenn der genannte Unterschied in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte zweite vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
  4. Das Verfahren von Anspruch 1 oder 2, in dem der genannte Schritt des Clusterns die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; (C) wenn der genannte Unterschied in zumindest einer Grauintensitätseigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
  5. Das Verfahren von Anspruch 1 oder 2, in dem der Schritt des Clusters die Schritte umfasst: (A) paarweise Zusammenfassen von jeder der genannten verbundenen Komponenten mit jeder anderen der genannten verbundenen Komponenten in dem genannten binären Bild; (B) Vergleichen des Unterschieds in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in den genannten Paaren der verbundenen Komponenten mit einer ersten vorbestimmten Schwelle; und (C) wenn der genannte Unterschied in zumindest einer dimensionalen Eigenschaft zwischen jeder verbundenen Komponente in dem genannten Paar der verbundenen Komponenten kleiner als die genannte erste vorbestimmte Schwelle ist, Kombinieren der genannten Komponenten in dem genannten Paar der verbundenen Komponenten.
  6. Das Verfahren von Anspruch 3, in dem zumindest eine Grauintensitätseigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einem Mittelwert der Intensität in der genannten verbundenen Komponente und einer Standardabweichung der Intensität in der genannten verbundenen Komponente besteht.
  7. Das Verfahren von Anspruch 4, in dem zumindest eine Grauintensitätseigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einem Mittelwert der Intensität in der genannten verbundenen Komponente und einer Standardabweichung der Intensität in der genannten verbundenen Komponente besteht.
  8. Das Verfahren von Anspruch 3, in dem die genannte zumindest dimensionale Eigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einer Höhe der genannten verbundenen Komponente, einer Breite der genannten verbundenen Komponente, einer maximalen Strichbreite der genannten verbundenen Komponente und einem kürzesten Abstand zwischen Rändern von jeder der genannten verbundenen Komponenten besteht.
  9. Das Verfahren von Anspruch 5, in dem die genannte zumindest eine dimensionale Eigenschaft zumindest eine Eigenschaft aus eine Gruppe ausgewählt umfasst, die aus einer Höhe der genannten verbundenen Komponente, einer Breite der genannten verbundenen Komponente, einer maximalen Strichbreite der genannten verbundenen Komponente und einem kürzesten Abstand zwischen Rändern von jeder der genannten verbundenen Komponenten besteht.
  10. Das Verfahren von Anspruch 1, den Schritt umfassend (A) Vorverarbeiten von jedem der genannten binären Bilder, um Rauschkomponenten von jedem der genannten Bilder vor den Schritten des Identifizierens und Clusters verbundener Komponenten in den Bildern zu filtern, und die Schritte: (B) Nachverarbeiten von jedem der genannten binären Bilder, um mögliche Titelbereiche, die Striche umfassen, zusammenzufügen, und um Nicht-Titel-Bereiche von den genannten möglichen Titelbereichen in jedem der genannten Bilder durch Vergleichen der genannten möglichen Titelbereiche mit vorbestimmten Kriterien zu entfernen; (C) Zusammenfügen bestimmter der genannten möglichen Titelbereiche in jedem der genannten binären Bilder, die den vorbestimmten Kriterien genügen, vor dem Schritt: (D) Kombinieren der genannten möglichen Titelbereiche und dem abschließenden Schritt des Zusammenfügens bestimmter der genannten möglichen Titelbereiche von unterschiedlichen binären Bildern, die vorbestimmten Kriterien genügen.
  11. Das Verfahren von Anspruch 10, in dem der genannte Vorverarbeitungsschritt eine morphologische Öffnungsoperation umfasst, die aus den Schritten besteht: (A) Ausführen eines Erosionsschritts unter Verwendung eines strukturellen Elements, das eine vorbestimmte Größe besitzt, die kleiner als die erwartete Strichbreite eines Zeichens in dem Titel ist; und (B) Ausführen eines Dilatationsschritts unter Verwendung des genannten strukturellen Elements.
DE60129872T 2000-03-29 2001-03-22 Verfahren zur Extrahierung von Titeln aus numerischen Bildern Expired - Fee Related DE60129872T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/537,931 US6674900B1 (en) 2000-03-29 2000-03-29 Method for extracting titles from digital images
US537931 2000-03-29

Publications (2)

Publication Number Publication Date
DE60129872D1 DE60129872D1 (de) 2007-09-27
DE60129872T2 true DE60129872T2 (de) 2008-05-15

Family

ID=24144719

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60129872T Expired - Fee Related DE60129872T2 (de) 2000-03-29 2001-03-22 Verfahren zur Extrahierung von Titeln aus numerischen Bildern

Country Status (4)

Country Link
US (1) US6674900B1 (de)
EP (1) EP1146478B1 (de)
JP (1) JP2002024836A (de)
DE (1) DE60129872T2 (de)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6888893B2 (en) * 2001-01-05 2005-05-03 Microsoft Corporation System and process for broadcast and communication with very low bit-rate bi-level or sketch video
US7916794B2 (en) * 2001-04-28 2011-03-29 Microsoft Corporation System and process for broadcast and communication with very low bit-rate bi-level or sketch video
KR20030027953A (ko) * 2001-06-15 2003-04-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 영상 정보에서의 자동적인 자연 콘텐트 검출
JP4100885B2 (ja) * 2001-07-11 2008-06-11 キヤノン株式会社 帳票認識装置、方法、プログラムおよび記憶媒体
US6922487B2 (en) * 2001-11-02 2005-07-26 Xerox Corporation Method and apparatus for capturing text images
US7024049B2 (en) * 2002-01-16 2006-04-04 Xerox Corporation Method and apparatus for improving image appearance
US6970606B2 (en) * 2002-01-16 2005-11-29 Eastman Kodak Company Automatic image quality evaluation and correction technique for digitized and thresholded document images
US7120297B2 (en) 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7392472B2 (en) 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7024039B2 (en) 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7043079B2 (en) 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
US7164797B2 (en) 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7263227B2 (en) 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7284200B2 (en) * 2002-11-10 2007-10-16 Microsoft Corporation Organization of handwritten notes using handwritten titles
US7634729B2 (en) * 2002-11-10 2009-12-15 Microsoft Corporation Handwritten file names
US7136066B2 (en) * 2002-11-22 2006-11-14 Microsoft Corp. System and method for scalable portrait video
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
US8904267B2 (en) * 2003-10-14 2014-12-02 International Business Machines Corporation Retrieving slide show content from presentation documents
US7379562B2 (en) * 2004-03-31 2008-05-27 Microsoft Corporation Determining connectedness and offset of 3D objects relative to an interactive surface
US8645793B2 (en) 2008-06-03 2014-02-04 Marvell International Ltd. Statistical tracking for flash memory
US8725929B1 (en) 2006-11-06 2014-05-13 Marvell World Trade Ltd. Adaptive read and write systems and methods for memory cells
BRPI0711706B1 (pt) 2006-05-19 2020-05-05 Koninklijke Philips Nv método e aparelho para gerar imagens, e, suporte de gravação legível por computador.
ATE409334T1 (de) * 2006-05-19 2008-10-15 Datasensor Spa Bildsensor für sicherheitssystem und dazugehöriges betriebsverfahren
US7941590B2 (en) * 2006-11-06 2011-05-10 Marvell World Trade Ltd. Adaptive read and write systems and methods for memory cells
US7873235B2 (en) * 2007-01-29 2011-01-18 Ford Global Technologies, Llc Fog isolation and rejection filter
US7808834B1 (en) 2007-04-13 2010-10-05 Marvell International Ltd. Incremental memory refresh
US8031526B1 (en) 2007-08-23 2011-10-04 Marvell International Ltd. Write pre-compensation for nonvolatile memory
US8189381B1 (en) 2007-08-28 2012-05-29 Marvell International Ltd. System and method for reading flash memory cells
US8085605B2 (en) 2007-08-29 2011-12-27 Marvell World Trade Ltd. Sequence detection for flash memory with inter-cell interference
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
CN101984426B (zh) * 2010-10-21 2013-04-10 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
EP2645305A3 (de) * 2012-03-26 2014-05-14 Tata Consultancy Services Limited System und Verfahren zum Verarbeiten eines Bildes zum Identifizieren von alfanumerischen Zeichen in einer Serie
JP5888068B2 (ja) * 2012-03-30 2016-03-16 ブラザー工業株式会社 画像処理装置およびプログラム
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
JP6072560B2 (ja) * 2013-02-14 2017-02-01 パペルック株式会社 電子雑誌生成システムおよび電子雑誌生成方法並びに電子雑誌生成プログラム
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
JP6107270B2 (ja) * 2013-03-19 2017-04-05 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
GB2513431B (en) * 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
US9104940B2 (en) * 2013-08-30 2015-08-11 Konica Minolta Laboratory U.S.A., Inc. Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
US9495343B2 (en) * 2014-09-30 2016-11-15 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN106157250B (zh) * 2015-03-26 2019-03-01 富士通株式会社 去除文档图像中的印记的方法和设备
US9978123B2 (en) 2015-03-31 2018-05-22 Brother Kogyo Kabushiki Kaisha Computer-readable storage medium storing image processing program, image processing device, and image processing method
JP6380209B2 (ja) * 2015-03-31 2018-08-29 ブラザー工業株式会社 画像処理プログラム、画像処理装置、及び、画像処理方法
JP6365379B2 (ja) 2015-03-31 2018-08-01 ブラザー工業株式会社 画像処理プログラム、画像処理装置、及び、画像処理方法
JP6540280B2 (ja) 2015-06-30 2019-07-10 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
US9990561B2 (en) * 2015-11-23 2018-06-05 Lexmark International, Inc. Identifying consumer products in images
US10136103B2 (en) 2015-11-23 2018-11-20 Lexmark International, Inc. Identifying consumer products in images
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
KR102193403B1 (ko) * 2019-02-20 2020-12-21 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템
JP2021124843A (ja) * 2020-02-03 2021-08-30 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN112906686A (zh) * 2021-03-11 2021-06-04 北京小米移动软件有限公司 文字识别方法、装置、电子设备及存储介质
CN115496061B (zh) * 2022-09-30 2023-06-20 内蒙古财经大学 一种神经网络标题生成模型的构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2144793C (en) 1994-04-07 1999-01-12 Lawrence Patrick O'gorman Method of thresholding document images
EP0811946A3 (de) 1994-04-15 1998-01-14 Canon Kabushiki Kaisha Bildvorverarbeitung für Zeichenerkennungsanlage
GB2289969A (en) * 1994-05-24 1995-12-06 Ibm Character segmentation
CA2211258C (en) * 1995-01-31 2000-12-26 United Parcel Service Of America, Inc. Method and apparatus for separating foreground from background in images containing text
US5649025A (en) * 1995-02-03 1997-07-15 Xerox Corporation Multithresholding for document image segmentation
US5892843A (en) 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Also Published As

Publication number Publication date
EP1146478B1 (de) 2007-08-15
EP1146478A3 (de) 2004-06-09
DE60129872D1 (de) 2007-09-27
JP2002024836A (ja) 2002-01-25
EP1146478A2 (de) 2001-10-17
US6674900B1 (en) 2004-01-06

Similar Documents

Publication Publication Date Title
DE60129872T2 (de) Verfahren zur Extrahierung von Titeln aus numerischen Bildern
DE4311172C2 (de) Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE69432585T2 (de) Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument
DE69723220T2 (de) Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder
DE69724557T2 (de) Dokumentenanalyse
DE60114469T2 (de) Methode und Gerät zur Bestimmung von interessanten Bildern und zur Bildübermittlung
DE60303202T2 (de) System und verfahren zum identifizieren und extrahieren von zeichenketten aus erfassten bilddaten
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE60222722T2 (de) Verfahren und Vorrichtung zur Korrektur von perspektivischen Verzerrungen in Dokumentbildern und zur Summierung von Bildzeilen
DE60210199T2 (de) Verfahren zur erkennung von motivbereichen in bildern
DE10317917B4 (de) System und Verfahren zum Umgrenzen und Klassifizieren von Regionen innerhalb einer graphischen Abbildung
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
DE69937530T2 (de) Verfahren zum automatischen Klassifizieren von Bildern nach Ereignissen
DE60111851T2 (de) Videobildsegmentierungsverfahren unter verwendung von elementären objekten
DE102007035884B4 (de) Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
DE102013210375A1 (de) Auffinden von text in natürlichen szenen
DE19953608B4 (de) Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem
DE102011005579A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium
DE102009036467A1 (de) Mustermodell-Positionierungsverfahren bei Bildverarbeitung, Bildverarbeitungsvorrichtung, Bildverarbeitsprogamm und computerlesbares Aufzeichnungsmedium
DE112005000205T5 (de) System und Verfahren zur automatischen Knochenextraktion von einem medizinischen Bild
DE102007040070B4 (de) Bilddichteumwandlungsverfahren, Bildverbesserungsverarbeitungseinrichtung und dafür geeignetes Programm
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
DE112012004809T5 (de) Kantenverfolgung mit Hysterese-Schwellenwertbildung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee