DE4232507A1 - Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten - Google Patents

Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten

Info

Publication number
DE4232507A1
DE4232507A1 DE4232507A DE4232507A DE4232507A1 DE 4232507 A1 DE4232507 A1 DE 4232507A1 DE 4232507 A DE4232507 A DE 4232507A DE 4232507 A DE4232507 A DE 4232507A DE 4232507 A1 DE4232507 A1 DE 4232507A1
Authority
DE
Germany
Prior art keywords
document
string
documents
strings
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE4232507A
Other languages
English (en)
Inventor
Marc Damashek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
US Department of Health and Human Services
Original Assignee
US Department of Health and Human Services
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by US Department of Health and Human Services filed Critical US Department of Health and Human Services
Publication of DE4232507A1 publication Critical patent/DE4232507A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

Anwendungsgebiet der Erfindung
Diese Erfindung bezieht sich auf ein Dokumentationssystem, insbesondere auf ein Dokumentationssystem, das in der Lage ist, Volltext-Recherchen durchzuführen, ohne daß dabei schlüsselwort- oder kontextbezogene Informationen erforder­ lich sind. Diese Methode kann dazu benutzt werden, um Dokumente ihrem Inhalt oder ihrer Sprache nach zu kenn­ zeichnen, wiederaufzufinden und zu sortieren. Die Methode ist ebenfalls brauchbar zum Kennzeichnen, Wiederauffinden und Sortieren jeder beliebigen Form von Kommunikation, wie zum Beispiel von akustischen Signalen (z. B. gesprochene Sprache) und grafischen Symbolen (z. B. Bilder), die in maschinenlesbarem Format dargestellt werden können.
Beschreibung des bisherigen einschlägigen Standes der Technik
In dem Artikel "DARPA Eyes Smart Text Sifters" (augenfreund­ liche Textsichter DARPA) von R. Colin Johnson, der in der Electronic Engineering Times (Elektronik-Times) vom 17. Fe­ bruar 1992 auf Seite 35 ff. veröffentlicht wurde, wurde darauf hingewiesen, daß die Forschung intensive Bemühungen darauf verwendet, bessere Wege bei der Suche von Textdaten­ banken zu finden, um den Benutzer interessierende Dokumente wiederaufzufinden. Es wurde darauf verwiesen, daß dabei der Erzielung größerer Erfolge mehrere fundamentale Probleme entgegenstehen.
Ein Verfahren, die Suchvorgänge zu erleichtern, bestand darin, eine spezielle Hardware bereitzustellen, mit der die Informationen schneller verarbeitet werden können. Das Problem bei diesem Lösungsweg liegt darin, daß die Verbesserungen bei der Verarbeitungsgeschwindigkeit nicht Schritt gehalten haben mit der raschen Entwicklung, mit der Datenbankinformationen zugenommen haben.
Es wurde festgestellt, daß ein grundlegender theoretischer Durchbruch notwendig sei, um die Möglichkeiten, Informationen aus großen Datenbanken wiederzufinden, zu verbessern.
Die herkömmlichen Systeme der Informationswiedergewinnung basieren immer noch auf der Verwendung von Schlüsselwörtern oder Satzteilen mit Operationssymbolen (wie z. B. und, oder, nicht), um interessierende Dokumente zu identifizieren. Das Problem bei diesem Verfahren besteht darin, daß die Dokumente oftmals ein Synonym des Schlüsselwortes und nicht das Schlüsselwort selbst enthalten (z. B. Wagen anstelle von Auto) oder aber eine gebeugte Form des Schlüsselwortes aufweisen (z. B. suchend anstelle von suchen). Solche Systeme reagieren typischerweise sensibel auf Orthographiefehler oder auf Fehler bei der Datenüber­ tragung bei der Eingabe. Auch sind die Operationssymbole manchmal schwierig zu verwenden. Weitere Probleme ergeben sich bei der Kennzeichnung der richtigen Schlüsselwörter, bei der Kennzeichnung der richtigen Synonyme und beim Wiederauffinden von entweder unvollständigen, umfangreichen und/oder systemfremden Dokumenten. Es ist hierbei typisch, daß eine umfassende Synonymliste benutzt wird, um diesen Problemen zu begegnen. Bei dieser Methode wird jedoch der Speicherplatzbedarf größer und die Verarbeitungszeit langsamer.
Ein anderes Problem bei Suchvorgängen mit Schlüsselwörtern besteht darin, daß die Bedeutung des Schlüsselwortes gewöhn­ lich von dem Sinnzusammenhang abhängt, in dem es gebraucht wird. Deshalb ist ohne Angaben zu dem gewünschten Kontext des Schlüsselwortes die Gefahr groß, nicht gewünschte Dokumente zu selektieren. Bei den früheren Lösungswegen zum Wiederauffinden von Dokumenten hat man versucht, diesem Problem dadurch entgegenzutreten, daß der Suchvorgang mit textabhängigen Informationen ergänzt wurde, wobei man sich solcher Techniken wie Kontextvektoren, konzeptioneller grafischer Darstellungen, semantischer Netze und Inferenz­ netze bediente. Durch diese Techniken wird ebenfalls der Speicherplatzbedarf größer und die Verarbeitungszeit lang­ samer. Die Ergänzung mit textabhängigen Informationen ist zudem eine Aufgabe, die einen erheblichen Zeitaufwand durch einen ausgebildeten Anwender erfordert.
In dem Artikel "Global Text Matching for Information Retrieval" (Gesamttextvergleich zur Informationswieder­ gewinnung) von G. Salton und C. Buckley, der in Science (Wissenschaft), Ausgabe 253 vom 30. August 1991, Seiten 1012-1015, veröffentlicht wurde, wird festgestellt, daß Textanalyse unter Verwendung von Synonymen mühsam und Textanalyse unter Verwendung einer wissensbasierten Methode kompliziert sei. In demselben Artikel wird festgestellt, daß das Verstehen des Textes auf dem Sinnzusammenhang und dem Erkennen von Textteilen (d. h. Textabschnitten, Absätzen oder Sätzen) basieren muß.
In dem Artikel "Developments in Automatic Text Retrieval" (Fortschritte bei der automatischen Textwiedergewinnung) von G. Salton, der in Science (Wissenschaft), Ausgabe 253 vom 30. August 1991, Seiten 974-980, veröffentlicht wurde, wird der gegenwärtige Stand bei der Wiedergewinnung von Dokumenten zusammengefaßt. Es wird darauf hingewiesen, daß Textanalyse problematisch sei, da es erforderlich ist, aus großen Datenbanken nur Dokumente, die von Interesse sind, herausfinden zu können. Die übliche Lösung dieses Problems bestand darin, daß Inhaltskennzeichen gebildet wurden. Dies geschah deshalb, weil die Bedeutung eines Wortes durch Nachschlagen in einem Wörterbuch nicht zutreffend festgelegt werden kann, ohne daß dabei dem Sinnzusammenhang, in dem das Wort gebraucht wird, Rechnung getragen wird. Es wird erwähnt, daß die Wörter im Text auch zur Kontextidentifikation herangezogen werden können. Solche Dokumentationssysteme werden als Volltext-Dokumen­ tationssysteme bezeichnet.
In dem Artikel "N-gram Statistics for Natural Language Understanding and Text Processing" (Statistik der Zeichen­ zahlen n zum Verstehen und zur Textverarbeitung von natür­ licher Sprache) von C. Suen, der in IEEE Transactions On Pattern Analysis and Machine Intelligence (Vorgänge bei der Musteranalyse und der Rechnerintelligenz von IEEE) , Ausgabe PAMI-1 Nr. 2 von April 1979, veröffentlicht wurde, wurden zwei Methoden der Verarbeitung natürlicher Sprache beschrieben, wobei bei der einen Schlüsselwörter und ein Wörterbuch und bei der anderen Zeichenzahlen n verwendet wurden. Bei der Lösung mit Schlüsselwörtern werden Wörter miteinander verglichen. Bei der Lösung mit Zeichenzahlen n werden Buchstabenfolgen miteinander verglichen. Der Ver­ gleich von Buchstabenfolgen ist schneller und erfordert weniger Speicherplatz als die Methode mit Schlüsselwörtern und Wörterbuch.
In dem US-Patent Nr. 5.020.019 mit der Bezeichnung "Document Retrieval System" (Dokumentationssystem) ist ein System beschrieben, das Dokumente sucht, indem es Schlüsselwörter mit einer Lerneigenschaft verwendet, und das es dem Benutzer ermöglicht, den einzelnen Schlüssel­ wörtern als Reaktion auf das Ergebnis eines vorangegangenen Suchvorgangs Gewichtungen zuzuordnen. Bei der vorliegenden Erfindung wird keine Lösung mit Schlüsselwörtern verwendet.
In dem US-Patent Nr. 4.985.863 mit der Bezeichnung "Document Storage and Retrieval" (Speicherung und Wieder­ auffindung von Dokumenten) ist eine Methode beschrieben, nach der Dokumente abschnittsweise gespeichert werden. Zum Wiederfinden ähnlicher Dokumente werden hierbei Text­ abschnitte und nicht Schlüsselwörter verwendet. Bei der vorliegenden Erfindung erfolgt die Lösung nicht mit Hilfe von Schlüsselwörtern oder Aufteilungen in Abschnitten.
In dem US-Patent Nr. 4.849.898 mit der Bezeichnung "Method and Apparatus to Identify the Relation of Meanings Between Words in Text Expressions" (Methode und Einrichtung zur Kennzeichnung der Beziehung von Bedeutungen zwischen Wörtern in sprachlichen Ausdrücken) ist eine Methode be­ schrieben, bei der eine buchstabensemantische Analyse der Schlüsselwörter und Wörter aus einem Dokument benutzt wird, um herauszufinden, ob diese Wörter die gleiche Be­ deutung haben. Diese Methode wird angewandt, um Dokumente oder Teile von Dokumenten wiederzufinden, die das gleiche Thema wie die Schlüsselwörter beinhalten. Bei der vorlie­ genden Erfindung wird keine semantische Analyse verwendet.
In dem US-Patent Nr. 4.823.306 mit der Bezeichnung "Text Search System" (Textsuchsystem) wird eine Methode beschrie­ ben, bei der Synonyme von Schlüsselwörtern gebildet werden. Dabei werden jedem Synonym unterschiedliche Werte zuge­ wiesen, um den Suchvorgang zu leiten. Bei der vorliegenden Erfindung werden keine Synonyme gebildet.
In dem US-Patent Nr. 4.775.956 mit der Bezeichnung "Method and System for Information Storing and Retrieval Using Word Stems and Derivative Pattern Codes Representing Families of Affixes" (Methode und System zur Informations­ speicherung und -wiedergewinnung unter Verwendung von Wortstämmen und abgeleiteten Mustercodes, die Affix-Familien darstellen) wird eine Methode beschrieben, bei der eine allgemeine Menge von Affixen verwendet wird, die dazu benutzt werden, um jeden Schlüsselwortstamm zu verändern. Diese Methode reduziert den Bedarf an Speicher­ platz, der sonst dazu benötigt würde, um die Synonyme jedes Schlüsselworts zu speichern. Bei der vorliegenden Erfindung werden keine Schlüsselwortstämme verändert.
In dem US-Patent Nr. 4.358.824 mit der Bezeichnung "Office Correspondence Storage and Retrieval System" (System zum Speichern und Wiederauffinden von Bürokorrespondenz) wird eine Methode beschrieben, bei der die Dokumente zu Kurz­ referaten gekürzt werden, indem die in jedem Dokument verwendeten Schlüsselwörter erfaßt werden. Die Schlüssel­ wörter werden dann dazu herangezogen, um nach den Dokumenten, die von Interesse sind, zu suchen. Bei der vorliegenden Erfindung wird nicht der Text der gespeicherten Dokumente durch Kurzreferate aus Schlüsselwörtern ersetzt.
Zusammenfassung der Erfindung
Eine Aufgabe der Erfindung besteht darin, eine Methode zur Identifizierung der Sprache, in der ein bestimmtes Dokument geschrieben ist, zu liefern.
Eine weitere Aufgabe der Erfindung besteht darin, eine Methode zu liefern, mit deren Hilfe Dokumente in einer bestimmten Sprache dem Inhalt nach aus einer Datenbank herausgesucht werden können.
Eine weitere Aufgabe der Erfindung ist es, eine Methode zu liefern, mit deren Hilfe Dokumente in einer Datenbank ihrer Sprache nach sortiert werden können.
Eine weitere Aufgabe der Erfindung ist es, eine Methode zu liefern, mit deren Hilfe Dokumente in einer Datenbank ihrem Inhalt nach sortiert werden können.
Diese Aufgaben werden durch eine neuartige Lösungsmöglich­ keit bei der Identifikation, beim Wiederauffinden und beim Sortieren von Dokumenten gelöst. Der Begriff Dokumente bezieht sich auf maschinenlesbaren Text, gesprochene Sprache oder Graphiken. Bei der vorliegenden Erfindung wird anstelle der üblichen schlüsselwort- oder kontextbezogenen Methode eine Mustererkennungstechnik verwendet, die auf Vergleichen von Zeichenfolgen n zwischen den Dokumenten beruht. Durch Herausrechnen der Häufigkeitszahl beim Vergleich zwischen den Dokumenten einer Datenbank wird eine sensitive Selektion der Dokumente ermöglicht, während gleichzeitig der Speicher­ platzbedarf (im Vergleich zu den Methoden mittels Schlüssel­ wort und Wörterbuch) verringert und die Leistung erhöht wird. Der Benutzer kann die Schwelle setzen, die dazu dient, herauszufinden, ob Dokumente ähnlich sind.
Kurze Beschreibung der Zeichnungen
Abb. 1 ist ein Ablaufdiagramm des Sprachenidentifi­ zierungsalgorithmus.
Abb. 2 ist ein Ablaufdiagramm des Identifizierungs­ algorithmus für Sprache und Inhalt.
Tabelle 1 ist ein Beispiel eines Referenzdokuments für die grönländische Sprache, das alle einzelnen 2er-Zeichen­ folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge und die Gewichtung jeder 2er-Zeichenfolge zeigt.
Tabelle 2 ist ein Beispiel eines Referenzdokuments für die hawaiische Sprache, das alle einzelnen 2er-Zeichen­ folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge und die Gewichtung jeder 2er-Zeichenfolge zeigt.
Tabelle 3 ist eine Liste aller einzelnen 2er-Zeichenfolgen aus den Referenzdokumenten in Tabelle 1 und Tabelle 2, der Gewichtung für jede 2er-Zeichenfolge und der gemeinsamen Häufigkeitsgewichtung, die jede 2er-Zeichenfolge in den Referenzdokumenten aufweist.
Tabelle 3a ist eine Liste der von der gemeinsamen Häufig­ keitszahl bereinigten Gewichtungen für jede einzelne 2er- Zeichenfolge in dem grönländischen Referenzdokument.
Tabelle 3b ist eine Liste der von der gemeinsamen Häufig­ keitszahl bereinigten Gewichtungen für jede einzelne 2er- Zeichenfolge in dem hawaiischen Referenzdokument.
Tabelle 4 ist ein Beispiel für eine nicht identifizierte Sprache, das alle einzelnen 2er-Zeichenfolgen, die Häufig­ keit des Vorkommens jeder 2er-Zeichenfolge, die Gewichtung jeder 2er-Zeichenfolge und die von der Häufigkeitszahl bereinigte Gewichtung jeder 2er-Zeichenfolge zeigt.
Abb. 3 zeigt die Auswertung des nicht identifizierten Textes in Tabelle 4 gegenüber dem grönländischen Referenz­ dokument in Tabelle 1.
Abb. 4 ist ein Ablaufdiagramm für den Suchalgorithmus nach Sprache und Inhalt und
Abb. 5 ein Ablaufdiagramm für den Datenbank-Sortier­ algorithmus nach Sprache und Inhalt.
Beschreibung der bevorzugten Ausführungsarten
Diese Erfindung beschreibt ein Verfahren zum Kennzeichnen, Suchen und Sortieren von Dokumenten. Mit diesem Verfahren wird ein sensitives, schnelles und wirtschaftliches Ver­ fahren für die Identifikation einer Sprache, die Identi­ fikation des Inhalts, das Wiederauffinden und das Sortieren von Dokumenten geschaffen. In dieser Patentschrift und den anschließenden Patentansprüchen wird der Begriff Dokument in bezug auf eine Informationsmenge in maschinen­ lesbarem Format benutzt. Das Dokument kann aus Text, gesprochener Sprache oder Graphiken bestehen.
Das Verfahren dieser Erfindung kann leicht an jede beliebige Programmiersprache oder in Hardware implementiert werden, so daß so schwierige Aufgaben wie die Identifizierung der Inhalte von Dokumenten, sogar wenn diese Dokumente in Sprachen, die sich der Begriffsschrift bedienen, wie zum Beispiel Japanisch, abgefaßt sind, bewältigt werden können. Dieses System kann auch dazu benutzt werden, um Dokumente in einer Datenbank in gleiche Kategorien zu sortieren, ohne daß eine vorherige Identifikation der Kategorien oder der darin enthaltenen Dokumente erforder­ lich ist.
Anstatt auf Schlüsselwörter, Synonymtabellen oder text­ abhängige Informationen zu vertrauen, werden die Aufgaben dieser Erfindung mit Hilfe eines Mustererkennungsverfahrens gelöst. Die Erfindung geht von der Hypothese aus, daß Dokumente, die in Sprache und/oder Inhalt gleich sind, gleich aussehen, daß sie die Tendenz haben, viele der gleichen Zeichenfolgen n zu enthalten (also aufeinander­ folgendes Auftreten von Zeichen n). Sie sehen nicht nur hinsichtlich der Schlüsselwörter, sondern hinsichtlich aller benutzten Wörter gleich aus. Diese Hypothese läßt die ziemlich erstaunliche Schlußfolgerung zu, daß zuver­ lässig dadurch auf den Inhalt eines Dokuments geschlossen werden kann, daß die darin enthaltenen Zeichenfolgen n gezählt werden und das Ergebnis dieser Operation mit den gezählten Zeichenfolgen n, die in einem anderen ("Referenz-") Dokument vorkommen, verglichen wird.
Dieser Ausführungsweg erlaubt Vereinfachungen im Suchalgo­ rithmus, der zur Identifizierung einschlägiger Dokumente benutzt wird. Aus diesen Vereinfachungen ergibt sich die Möglichkeit, Dokumente unabhängig von der Sprache, in der sie abgefaßt sind, klassifizieren zu können. Es wird zudem eine hohe Fehlerquote ("Verstümmelung") im Original­ text toleriert. Die höchstzulässige Fehlerquote bei unähnlichen Sprachen ist höher als die höchstzulässige Fehlerquote bei ähnlichen Sprachen. Zum Beispiel kann die höchstzu­ lässige Fehlerquote bei einem Text in Suaheli im Vergleich mit einem schwedischen Text bis zu 25% betragen, ohne zu fehlerhaften Ergebnissen zu führen, während die höchst­ zulässige Fehlerquote bei einem russischen Text im Vergleich mit einem tschechischen Text nur bis zu 15% betragen darf, um nicht zu fehlerhaften Ergebnissen zu führen.
Abb. 1 stellt einen Sprachenidentifizierungsalgorithmus dar. Der erste Schritt besteht darin, den Text, der in einer nicht identifizierten Sprache abgefaßt ist, in Zeichenfolgen n zu zerlegen. Zeichenfolgen n sind auf­ einanderfolgend vorkommende Zeichen n, wobei n eine belie­ bige positive ganze Zahl größer als Null ist. Mittelmäßig lange Zeichenfolgen n (d. h. n < 3) sind üblicherweise informativer als kürzere Zeichenfolgen n, da sie meistens Informationen über die Wortstämme der in dem Text vorkommen­ den Wörter enthalten. Der zweite Schritt besteht darin, die Häufigkeit des Vorkommens der Zeichenfolgen n in dem nicht identifizierten Text mit der Häufigkeit des Vorkommens genau der gleichen Zeichenfolgen n in dem Text mit bekannten Sprachen zu vergleichen. Der nicht identifizierte Text wird dann als in der Sprache des Textes geschrieben iden­ tifiziert, mit dem der nicht identifizierte Text ab besten vergleichbar ist.
Die zulässigen Zeichen in den Zeichenfolgen n werden vom Benutzer festgelegt. Beispielsweise können die Bestandteile der Zeichenfolgen n für eine bestimmte Sprache auf die Buchstaben des Alphabets von gewünschten Sprachen und ein Leerzeichen (d. h. "_") beschränkt werden. Kleine Buchstaben können in Großbuchstaben umgewandelt werden, und mehrfache Leerzeichen können auf ein einziges Leer­ zeichen reduziert werden, um die Gesamtzahl der möglichen Zeichenfolgen n zu reduzieren. Die Zeichensetzung kann ebenfalls ignoriert werden, um den Speicherplatzbedarf zu minimieren und die Leistung zu erhöhen. Es können auch Zeichenketten ausgeschlossen oder durch ein vom Benutzer gewähltes Zeichen oder eine Zeichenkette ersetzt werden.
Abb. 2 stellt einen Algorithmus dar, der zum Identi­ fizieren der Sprache oder des Inhalts eines Dokuments benutzt wird. Der Festlegung des Algorithmus folgt zur Veranschaulichung ein einfaches Beispiel der damit ver­ bundenen wichtigsten Schritte.
Als Referenzdokumente werden bekannte Textbeispiele unter­ schiedlicher Sprachen und Inhalte erfaßt. Hinsichtlich der Form, die diese Referenzdokumente haben können, besteht keine Einschränkung. Es können Textproben aus jeder belie­ bigen Quelle benutzt werden. Die Anzahl der Referenzdoku­ mente und der in diesen Dokumenten enthaltenen Zeichen­ folgen n muß statistisch bedeutsam sein. Es wurde durch Versuche herausgefunden, daß zur Identifikation von Sprachen etwa zehn Dokumente mit je etwa eintausend Zeichen ein statistisch signifikanter Stichprobenumfang sind. Zur Identifikation von Inhalten in einer bestimmten Sprache, welche eine feinere Unterscheidung als die Identifikation von Sprachen darstellt, sind etwa fünfzig Dokumente mit je etwa eintausend Zeichen ein statistisch signifikanter Stichprobenumfang.
Die Referenzdokumente werden in Zeichenfolgen n analysiert. Dies geschieht dadurch, daß für jedes einzelne Referenz­ dokument eine gesonderte Liste aller jeweiligen Zeichen­ folgen n, die in dem Referenzdokument vorkommen, erstellt wird (wobei n üblicherweise auf einen Wert festgelegt wird, der sinnvoll ist, zum Beispiel n = 5). Das nicht identifizierte Dokument wird ebenfalls in eine Liste der einzelnen Zeichenfolgen n analysiert.
Jeder einzelnen Zeichenfolge n werden Gewichtungen zuge­ ordnet. Die Gewichtung richtet sich nach der relativen Häufigkeit des Vorkommens der jeweiligen Zeichenfolge n in dem entsprechenden Referenzdokument (d. h. der Anzahl der Male, die eine Zeichenfolge n in einem bestimmten Referenzdokument vorkommt, dividiert durch die Gesamtzahl der Häufigkeit des Vorkommens aller Zeichenfolgen n in diesem Referenzdokument). Es werden jeder Zeichenfolge n in jedem Referenzdokument und jeder Zeichenfolge n in dem nicht identifizierten Dokument Gewichtungen zugeordnet.
Danach wird die gemeinsame Häufigkeitszahl, die sich aus den Referenzdokumenten ergibt, sowohl aus den Referenzdoku­ menten als auch aus dem nicht identifizierten Dokument herausgerechnet. Dies geschieht dadurch, daß zunächst die in den Referenzdokumenten enthaltenen einzelnen Zeichen­ folgen n aufgelistet werden. Als zweites wird jeder ein­ zelnen Zeichenfolge n der Referenzdokumente eine gemein­ same Häufigkeitsgewichtung zugeordnet, die auf ihrer mittleren relativen Häufigkeit des Vorkommens basiert (d. h. die Summe aus den Einzelgewichtungen der jeweiligen Zeichenfolge n aus allen Referenzdokumenten, dividiert durch die Gesamtanzahl der Referenzdokumente) . Danach wird die gemeinsame Häufigkeitsgewichtung jeder Zeichenfolge n von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Referenzdokument und von der Gewichtung der ihr entsprechenden Zeichenfolge n in dem nicht identifizierten Dokument subtrahiert.
Das nicht identifizierte Dokument wird dann mit jedem der Referenzdokumente verglichen. Dies geschieht durch Auswertung des nicht identifizierten Dokuments gegenüber jedem der Referenzdokumente. Die Punktzahl für das nicht identifizierte Dokument in bezug auf ein Referenzdokument gibt den Grad der Ähnlichkeit zwischen beiden Dokumenten an.
Die Auswertung des nicht identifizierten Dokuments bedingt zuerst, wie oben angegeben, die Subtraktion der sich aus den Referenzdokumenten ergebenden gemeinsamen Häufigkeits­ gewichtung von der Gewichtung der ihr entsprechenden Zeichenfolge n in dem nicht identifizierten Dokument. Kommt eine Zeichenfolge n in dem nicht identifizierten Dokument, jedoch nicht in den Referenzdokumenten vor, so ist die gemeinsame Häufigkeitsgewichtung für diese Zeichenfolge n gleich Null. Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n des nicht identifizierten Dokuments (mit Ui bezeichnet) wird dann mit der von der gemeinsamen Häufigkeitszahl bereinigten Gewichtung der ihr entsprechenden Zeichenfolge n in einem bestimmten Referenzdokument (mit Ri bezeichnet) multipliziert. Diese Produkte werden sodann summiert (also "Summierung der Produkte").
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich­ tung einer Zeichenfolge n in dem Referenzdokument wird danach quadriert (also Ri**2) . Diese quadrierten Glieder werden dann summiert. Danach wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n in dem nicht identifizierten Dokument quadriert (also Ui**2) . Diese quadrierten Glieder werden ebenfalls summiert. Anschließend werden diese beiden Summen miteinander multi­ pliziert und bilden somit ein "Produkt aus den Summierungen".
Die Punktzahl des nicht identifizierten Dokuments in bezug auf ein bestimmtes Referenzdokument ist schließlich die "Summierung der Produkte", dividiert durch die Quadrat­ wurzel des "Produkts aus den Summierungen".
Das nicht identifizierte Dokument wird gegenüber jedem der Referenzdokumente mit einer Punktzahl bewertet. Der Benutzer kann die Punktzahl-Schwelle festlegen, die er­ forderlich sein soll, damit ein Dokument als einem Referenz­ dokument hinsichtlich Sprache oder Inhalt ähnlich identi­ fiziert wird. Wenn eine vom Benutzer festgelegte Schwelle verwendet wird, kann es möglich sein, daß ein nicht iden­ tifiziertes Dokument nicht als mit irgendeinem der Referenz­ dokumente ähnlich identifiziert wird. Der Benutzer kann es vermeiden, eine solche Schwelle setzen zu müssen, wenn er zuläßt, daß das nicht identifizierte Dokument mit dem­ jenigen Referenzdokument identifiziert wird, das die höchste Punktzahl erreichte.
Die folgenden Beispiele veranschaulichen die numerischen Verarbeitungsschritte, die zu der Erfindung gehören. Diese Beispiele sind lediglich als beispielhaft für die einzelnen Schritte des Algorithmus anzusehen und dürfen nicht als die beanspruchte Erfindung einschränkend betrachtet werden.
Tabelle 1 zeigt ein Referenzdokument für die grönländische Sprache (nämlich "Nanok nunane issigtune"). Eine Vorver­ arbeitung des Beispiels ist nicht erforderlich. In diesem Beispiel werden Zweier-Zeichenfolgen benutzt. Um die Anzahl der möglichen 2er-Zeichenfolgen zu verringern, werden die kleinen Buchstaben in Großbuchstaben umgewandelt, und mehrfache Leerzeichen werden auf ein einziges Leer­ zeichen (d. h. "_") reduziert. Das grönländische Referenz­ dokument wird somit zu "NANOK_NUNANE_ISSIGTUNE".
In Tabelle 1 sind alle einzelnen 2er-Zeichenfolgen für das grönländische Referenzdokument aufgelistet. Diese sind NA, AN, NO, OK, K_, _N, NU, UN, NE, E_, _I, IS, SS, SI, IG, GT, TU. Jeder dieser 2er-Zeichenfolgen wird eine Ge­ wichtung zugeordnet. Man erhält die Gewichtung einer 2er- Zeichenfolge, indem man die Häufigkeit des Vorkommens der jeweiligen 2er-Zeichenfolge durch die Gesamtzahl der in dem Referenzdokument vorkommenden (möglicherweise nicht einmaligen) 2er-Zeichenfolgen dividiert (d. h. die Gewichtung der 2er-Zeichenfolge NA ist 2 : 21 = 0,095).
Tabelle 2 zeigt ein Referenzdokument für die hawaiische Sprache (nämlich "I hele mai nei au e hai") . Alle Referenz­ dokumente sind unter Anwendung der gleichen Struktur der Zeichenfolge n zu analysieren (d. h. 2er-Zeichenfolgen in diesem Beispiel) . Um die Zahl der möglichen 2er-Zeichen­ folgen zu verringern, werden wiederum die kleinen Buchstaben in Großbuchstaben umgewandelt und mehrfache Leerzeichen auf ein einziges Leerzeichen reduziert. Das hawaiische Referenzdokument wird somit zu "I_HELE_MAI_NEI_AU_E_HAI".
In Tabelle 2 sind alle einzelnen 2er-Zeichenfolgen für das hawaiische Referenzdokument aufgelistet. Diese sind I_, _H, HE, EL, LE, E_, _M, MA, AI, _N, NE, EI, _A, AU, U_, _E, HA. Jeder 2er-Zeichenfolge wird auf die gleiche Weise wie weiter oben für das grönländische Referenzdoku­ ment beschrieben eine Gewichtung zugeordnet (d. h. die Gewichtung der 2er-Zeichenfolge I_ ist 3 : 22 = 0,136).
Es besteht keine Notwendigkeit, daß die Anzahl der in den Referenzdokumenten enthaltenen Zeichenfolgen n gleich ist. Der Algorithmus erfordert keine Vorverarbeitung der Dokumente. Sogar die Umwandlung in Großbuchstaben und die Reduzierung mehrfacher Leerzeichen auf ein einziges Leerzeichen sind für eine einwandfreie Wirkungsweise dieser Erfindung nicht erforderlich. Diese Maßnahmen dienen ledig­ lich dem Zweck, die Leistung zu erhöhen und den Speicher­ platzbedarf zu reduzieren.
Die gemeinsame Häufigkeitszahl, die sich aus den Referenz­ dokumenten ergibt, wird nun herausgerechnet. Dies geschieht dadurch, daß zunächst alle einzelnen 2er-Zeichenfolgen in sämtlichen Referenzdokumenten, wie in Tabelle 3 gezeigt, aufgelistet werden (also NA, AN, NO, OK, K_, _N, NU, UN, NE, E_, _I, IS, SS, SI, IG, GT, TU, I_, _H, HE, EL, LE, _M, MA, AI, EI, _A, AU, U_, _E, HA). Danach werden die gemeinsamen Häufigkeitsgewichtungen für jede einzelne 2er- Zeichenfolge dadurch ermittelt, daß die Summe der Gewich­ tungen für jede 2er-Zeichenfolge aus allen Referenzen durch die Gesamtanzahl der Referenzdokumente dividiert wird. Beispielsweise ist die gemeinsame Häufigkeitsgewich­ tung für die 2er-Zeichenfolge NE (0,095+0,045) : 2 = 0,070, während die gemeinsame Häufigkeitsgewichtung für die 2er-Zeichenfolge NA (0,095+0) : 2 = 0,048 ist. Die 2er-Zeichenfolge NA hat in dem grönländischen Referenz­ dokument eine Gewichtung von 0,095, während sie in dem hawaiischen Referenzdokument eine Gewichtung von 0 hat, da sie in dem hawaiischen Referenzdokument nicht vorkommt.
Die gemeinsame Häufigkeitsgewichtung drückt die durchschnitt­ liche Verteilung einer bestimmten 2er-Zeichenfolge auf jedes der Referenzdokumente aus. Diese gemeinsame Häufig­ keitszahl wird sowohl aus den Referenzdokumenten als auch aus dem nicht identifizierten Dokument herausgerechnet, um ein Dokument besser von dem anderen unterscheiden zu können. Die gemeinsame Häufigkeitszahl wird aus der Gewich­ tung einer 2er-Zeichenfolge in einem Dokument herausgerech­ net, indem die gemeinsame Häufigkeitsgewichtung von der Gewichtung der entsprechenden 2er-Zeichenfolge in diesem Dokument subtrahiert wird. Zum Beispiel ist die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der 2er-Zeichenfolge NE in dem grönländischen Referenzdokument 0,095-0,070 = 0,025. Die von der gemeinsamen Häufigkeits­ zahl bereinigte Gewichtung der 2er-Zeichenfolge NE in dem hawaiischen Referenzdokument beträgt 0,045-0,070 = -0,025. Durch den Verarbeitungsschritt des Herausrechnens der gemeinsamen Häufigkeitszahl wird die Leistung gesteigert und das Verfahren der Identifizierung von Dokumenten er­ leichtert.
In Tabelle 3 ist auch die gemeinsame Häufigkeitsgewichtung jeder einzelnen 2er-Zeichenfolge aus den Referenzdokumenten aufgeführt. Diese gemeinsamen Häufigkeitsgewichtungen werden dann aus der Gewichtung der entsprechenden 2er- Zeichenfolge in jedem Referenzdokument und aus dem nicht identifizierten Dokument herausgerechnet. In Tabelle 3a sind die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen für die einzelnen 2er-Zeichenfolgen in Grön­ ländisch aufgelistet, während in Tabelle 3b die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen für die einzelnen 2er-Zeichenfolgen in Hawaiisch aufgelistet sind. Die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen eines bestimmten Referenzdokuments werden dann dazu benutzt, um eine Punktzahl für die Übereinstimmung des Referenzdokuments mit einem nicht identifizierten Dokument zu errechnen.
Tabelle 4 zeigt ein Beispiel für einen Text, der in einer nicht identifizierten Sprache geschrieben ist (nämlich "Martsime nanut"). Der nicht identifizierte Text ist in die gleiche Struktur der Zeichenfolgen n wie die Referenz­ dokumente (d. h. 2er-Zeichenfolgen) zu analysieren. Um die Anzahl der möglichen 2er-Zeichenfolgen zu verringern, werden wiederum die kleinen Buchstaben in Großbuchstaben umgewandelt und mehrfache Leerzeichen auf ein einziges Leerzeichen reduziert. Das nicht identifizierte Dokument wird somit zu "MARTSIME_NANUT".
Sämtliche einzelnen 2er-Zeichenfolgen in dem nicht identi­ fizierten Dokument, wie in Tabelle 4 aufgeführt, lauten MA, AR, RT, TS, SI, IM, ME, E_, _N, NA, AN, NU, UT. Jeder 2er-Zeichenfolge wird eine Gewichtung zugeordnet. Die Gewichtung einer 2er-Zeichenfolge wird wiederum dadurch ermittelt, daß die Häufigkeit des Vorkommens dieser 2er- Zeichenfolge durch die Gesamtzahl der in dem nicht identi­ fizierten Text enthaltenen 2er-Zeichenfolgen dividiert wird (d. h. die Gewichtung von MA in dem unidentifizierten Text ist 1 : 13 = 0,077). Danach werden die Häufigkeits­ gewichte der Referenzdokumente von den dazugehörigen 2er- Zeichenfolgen in den nicht identifizierten Dokumenten subtrahiert (siehe Tabelle 4).
In Abb. 3 wird eine Punktzahl, die die Übereinstimmung des nicht identifizierten Textes mit dem grönländischen Referenzdokument ausdrückt, errechnet. Die Gleichung für diese Berechnung lautet wie folgt:
worin Ui die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer 2er-Zeichenfolge in dem nicht identifi­ zierten Text und Ri die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der entsprechenden 2er-Zeichenfolge in dem grönländischen Referenzdokument ausdrückt, welches mit dem nicht identifizierten Dokument verglichen wird.
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich­ tung der 2er-Zeichenfolgen in dem nicht identifizierten Text wird mit der ihr entsprechenden, von der gemeinsamen Häufigkeitszahl bereinigten Gewichtung in dem grönländischen Referenzdokument multipliziert. Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem grönländischen Referenzdokument wird danach quadriert. Diese quadrierten Glieder werden dann summiert. Danach wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem nicht identifizierten Dokument quadriert. Diese quadrierten Glieder werden dann summiert. Diese Summen werden miteinander multipliziert und bilden ein "Produkt aus den Summierungen".
Die Punktzahl des nicht identifizierten Dokuments in bezug auf das grönländische Referenzdokument ist schließlich die "Summierung der Produkte", dividiert durch die Quadrat­ wurzel des "Produkts aus den Summierungen". Das Ergebnis, wie in Abb. 3 gezeigt, ist eine Punktzahl, die die Ähnlichkeit zwischen dem nicht identifizierten Text und dem grönländischen Referenzdokument ausdrückt.
Eine Punktzahl, die die Ähnlichkeit ausdrückt, wird für jedes Referenzdokument errechnet. Das Dokument kann entweder als dem Referenzdokument ähnlich, das die höchste Punktzahl erreichte, oder aber als dem Referenzdokument ähnlich identifiziert werden, das eine Punktzahl erreichte, die eine vom Benutzer gewählte Schwelle überschreitet. Bei der letzteren Möglichkeit wird eine Identifikation nicht erzwungen (das heißt, das nicht identifizierte Dokument kann gegebenenfalls nicht als einem der Referenzdokumente ähnlich identifiziert werden). Ebenso kann das nicht identi­ fizierte Dokument bei der letzteren Möglichkeit gegebenen­ falls als mehreren Referenzdokumenten ähnlich identifiziert werden, falls diese Referenzdokumente eine Punktzahl er­ reichen, die die vom Benutzer gewählte Schwelle überschreitet.
Gewisse Suchwörter in einer bestimmten Sprache, wie beispiels­ weise "is", "the", "and", "with", "for" usw. im Englischen, die zur Identifikation der Sprache geeignet sind, sind normalerweise zur Identifikation des Inhalts wertlos. Diese Erfindung löst die Aufgabe, Unterschiede zwischen den Dokumenten in bezug auf den Inhalt herauszufinden, dadurch, daß die gemeinsame Häufigkeitszahl unter den Dokumenten herausgerechnet wird.
Das Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus den Dokumenten ergibt, beinhaltet, daß der Mittel­ wert der Häufigkeit des Vorkommens für jede Zeichenfolge n in allen Dokumenten errechnet wird und dann diese Mittel­ werte von der Häufigkeit des Vorkommens für jede entspre­ chende Zeichenfolge n in jedem Dokument subtrahiert werden. Das Herausrechnen der gemeinsamen Häufigkeitszahl verein­ facht die Aufgabe herauszufinden, ob ein Dokument einem anderen Dokument ähnlich ist. Die Sensitivität in bezug auf die Inhaltsbestimmung wird ohne jedes menschliche Zutun unabhängig von der Sprache des Dokuments erreicht. Der Benutzer kann wiederum eine Schwelle setzen, um fest­ zulegen, wann sich die Dokumente bezüglich des Inhalts ähnlich sind.
Dieser Algorithmus arbeitet in jeder beliebigen Sprache gleich gut, die Identifikation des Inhalts funktioniert jedoch nur, wenn Dokumente miteinander verglichen werden, die in einer gemeinsamen Sprache abgefaßt sind (oder in mehreren eng miteinander verwandten Sprachen). Dies liegt darin begründet, weil der Inhalt mit dem von den Zeichen­ folgen n erstellten Muster in Zusammenhang steht. Das von den Zeichenfolgen n erstellte Muster wird durch die Sprache des Dokuments gesteuert.
Die Identifikation des Inhalts kann in Sprachen, die relativ wenige Buchstaben haben, wie zum Beispiel Englisch, ebenso problemlos durchgeführt werden wie in Sprachen, die viele Schriftzeichen haben, wie zum Beispiel Sprachen mit Begriffs­ schrift (z. B. Japanisch). Ohne theoretisieren zu wollen, wird die Ansicht vertreten, daß die vorteilhaften Wirkungen dieser Erfindung realisiert sind, da der Inhalt eines Dokuments mit Hilfe der verwendeten Zeichenfolgen n aus­ gewertet wird. Die Identifikation des Inhalts wird so eine Frage der Festlegung, wie ähnlich die Dokumente in bezug auf die verwendeten Zeichenfolgen n sind.
Abb. 4 stellt den Algorithmus dar, der dazu benutzt wird, um die Dokumente aus einer Datenbank wiederaufzufinden. Die Dokumente sind in bezug auf eine gewünschte Sprache oder einen gewünschten Inhalt wiederauffindbar.
Eine Datenbank enthält üblicherweise zahlreiche Dokumente, die viele Inhalte betreffen und in unterschiedlichen Sprachen abgefaßt sind. Es besteht keine Notwendigkeit, daß diese Dokumente irgendeine bestimmte Form haben müssen. Für jedes Dokument der Datenbank wird ein Datenfeld mit den Zeichenfolgen n angelegt. Dies geschieht dadurch, daß für jedes Dokument der Datenbank eine Liste mit den ein­ zelnen Zeichenfolgen n, die in diesem Dokument vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens einer Zeichenfolge n in einem bestimmten Dokument bestimmt (d. h. die Anzahl der Male, die eine Zeichenfolge n in einem bestimmten Dokument vor­ kommt, dividiert durch die Gesamtzahl der Häufigkeit des Vorkommens aller Zeichenfolgen n in diesem Dokument). Die Gewichtungen werden dann jeder Zeichenfolge n in jedem Dokument der Datenbank zugeordnet.
Die gemeinsame Häufigkeitszahl, die sich aus allen Doku­ menten der Datenbank ergibt, wird dann bei den Dokumenten der Datenbank und der Abfrage herausgerechnet. Dies geschieht dadurch, daß zunächst alle einzelnen Zeichenfolgen n in allen Dokumenten aufgelistet werden. Als zweites wird jeder einzelnen Zeichenfolge n eine gemeinsame Häufigkeits­ gewichtung zugeordnet, die auf ihrer mittleren relativen Häufigkeit des Vorkommens basiert. Die gemeinsame Häufig­ keitsgewichtung für jede Zeichenfolge n wird danach von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Dokument der Datenbank und von der Gewichtung der ihr entsprechenden Zeichenfolge n in der Abfrage subtrahiert.
Die Abfrage wird vom Benutzer vorgeschlagen. Die Abfrage beinhaltet die Art des Dokuments, das der Benutzer aus der Datenbank heraussuchen möchte (d. h. Dokumente ähn­ lichen Inhalts oder gleicher Sprache) . Hinsichtlich der Form, die die Abfrage haben muß, gibt es keine Erforder­ nisse.
Es ist zu beachten, daß eine Abfrage zu einem interessieren­ den Thema dazu führt, daß Dokumente zu dem Thema herausge­ sucht werden, die in der Sprache der Abfrage geschrieben sind. Dokumente zu diesem Thema, die in einer anderen Sprache als der der Abfrage geschrieben sind, werden normalerweise nicht gefunden. Dies liegt darin begründet, daß unterschiedliche Sprachen üblicherweise unterschied­ liche Zeichenfolgen n verwenden, um das gleiche Thema darzustellen.
Die Abfrage wird anschließend in Zeichenfolgen n analysiert. Dies geschieht dadurch, daß eine Liste aller einzelnen Zeichenfolgen n, die in der Abfrage vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n in der Abfrage werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens dieser Zeichenfolge n in der Abfrage bestimmt. Danach werden die gemeinsamen Häufig­ keitsgewichtungen von den entsprechenden 2er-Zeichenfolgen in der Abfrage subtrahiert. Die Abfrage wird dann mit jedem Dokument der Datenbank verglichen, wobei die Abfrage gegenüber jedem Dokument der Datenbank ausgewertet wird.
Die Auswertungspunktzahl erhält man dadurch, daß zunächst jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich­ tung einer Zeichenfolge n in der Abfrage (z. B. Qi) mit der von der gemeinsamen Häufigkeitszahl bereinigten Gewich­ tung der ihr entsprechenden Zeichenfolge n in einem be­ stimmten Dokument der Datenbank (z. B. Di) multipliziert wird. Diese Produkte werden dann summiert (also "Summierung der Produkte").
Danach wird jede Zeichenfolge n in dem Dokument der Daten­ bank quadriert (z. B. Di**2). Diese quadrierten Glieder werden dann summiert. Anschließend wird jede Zeichenfolge n in der Abfrage quadriert (z. B. Qi**2). Diese quadrierten Glieder werden dann summiert. Danach werden diese Summen miteinander multipliziert und bilden so ein "Produkt aus den Summie­ rungen".
Die Auswertungspunktzahl des Dokuments der Datenbank in bezug auf die Abfrage ist schließlich die "Summierung der Produkte", dividiert durch die Quadratwurzel des "Produkts aus den Summierungen".
Es wird für jedes Dokument der Datenbank eine Auswertungs­ punktzahl in bezug auf die Abfrage errechnet. Der Benutzer definiert die Schwellen-Punktzahl, die benutzt wird, um zu ermitteln, ob ein Dokument der Datenbank der Abfrage hinsichtlich Sprache oder Inhalt ähnelt.
Die obengenannten Beispiele für die bei der Identifikation von Sprachen anfallenden Verarbeitungsschritte können auch für die Beschreibung der Verarbeitungsschritte ange­ wandt werden, die bei diesem Algorithmus anfallen, mit dessen Hilfe die Dokumente aus einer Datenbank herausge­ sucht werden.
Zeichenfolgen n können ebenfalls dazu benutzt werden, um die Probleme zu lösen, die mit dem Sortieren von Doku­ menten in einer Datenbank nach Kategorien, die gleiche Dokumente enthalten, verbunden sind. Der Algorithmus der vorliegenden Erfindung bedarf keinerlei Anleitung durch den Benutzer und über die oben beschriebene hinaus keiner weiteren Vorverarbeitung bei der Datenbank. Die Datenbank kann nach Sprach- oder Inhaltskategorien sortiert werden. Die Dokumente können leicht mit Querverweisen auf verschie­ dene Kategorien versehen werden (d. h. ein Dokument kann sowohl nach einer bestimmten Sprachkategorie als auch nach einer bestimmten Inhaltskategorie sortiert werden).
Abb. 5 stellt den Algorithmus dar, der benutzt wird, um Dokumente einer Datenbank nach Kategorien zu sortieren. Die Dokumente können in bezug auf eine Sprache oder einen Inhalt sortiert werden. Eine Datenbank enthält üblicher­ weise zahlreiche Dokumente. Diese Dokumente können sich mit verschiedenen Themen befassen und können in unterschied­ lichen Sprachen geschrieben sein. Es besteht keine Not­ wendigkeit, daß diese Dokumente irgendeine bestimmte Form haben müssen.
Für jedes Dokument einer Datenbank wird ein Datenfeld mit den Zeichenfolgen n angelegt. Dies geschieht dadurch, daß für jedes Dokument der Datenbank eine gesonderte Liste mit den einzelnen Zeichenfolgen n, die in diesem Dokument vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens dieser Zeichenfolge n in dem bestimmten Dokument bestimmt. Die Gewichtungen werden dann jeder Zeichenfolge n in jedem Dokument der Datenbank zugeordnet.
Die gemeinsame Häufigkeitszahl, die sich aus den Dokumenten der Datenbank ergibt, wird dann bei jedem Dokument der Datenbank herausgerechnet. Dies geschieht dadurch, daß zunächst die einzelnen Zeichenfolgen n, die in den Doku­ menten vorkommen, aufgelistet werden (d. h. hierbei werden die getrennten Dokumente der Datenbank vorübergehend als ein großes Dokument angesehen, wobei dann die einzelnen Zeichenfolgen n, die in diesem einen Dokument vorkommen, aufgelistet werden). Als zweites wird jeder Zeichenfolge n eine gemeinsame Häufigkeitsgewichtung zugeordnet, die auf der Häufigkeit des Vorkommens basiert (d. h. die Gesamt­ zahl der Häufigkeit des Vorkommens dieser bestimmten Zeichen­ folge n in allen Dokumenten der Datenbank, dividiert durch die Gesamtzahl der einzelnen Zeichenfolgen n in allen Dokumenten der Datenbank). Jede gemeinsame Häufigkeits­ gewichtung wird durch die Gesamtanzahl der Dokumente der Datenbank dividiert. Danach wird die gemeinsame Häufigkeits­ gewichtung jeder Zeichenfolge n von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Dokument der Datenbank subtrahiert.
Anschließend wird jedes Dokument der Datenbank mit jedem der anderen Dokumente der Datenbank verglichen. Dies ge­ schieht dadurch, daß jedes Dokument der Datenbank gegenüber jedem der anderen Dokumente der Datenbank ausgewertet wird. Die Auswertung besteht darin, daß zunächst jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n von einem Dokument der Datenbank (z. B. D1i) mit der ihr entsprechenden von der gemeinsamen Häufig­ keitszahl bereinigten Gewichtung der Zeichenfolge n von dem Dokument der Datenbank, das verglichen wird (z. B. D2i), multipliziert wird. Danach werden diese Produkte summiert und bilden somit eine "Summierung der Produkte".
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich­ tung der Zeichenfolge n in dem ersten Dokument der Daten­ bank wird dann quadriert (z. B. D1i**2). Diese quadrierten Glieder werden summiert. Dann wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem zweiten Dokument der Datenbank, das mit dem ersten Dokument der Datenbank verglichen wird, quadriert (z. B. D2i**2) . Diese quadrierten Glieder werden summiert. An­ schließend werden diese Summen miteinander multipliziert und bilden somit ein "Produkt aus den Summierungen".
Die Auswertungspunktzahl des ersten Dokuments der Datenbank im Vergleich zu dem zweiten Dokument der Datenbank ist schließlich die "Summierung der Produkte", dividiert durch die Quadratwurzel des "Produkts aus den Summierungen".
Es wird für jedes Dokument der Datenbank im Vergleich zu jedem der anderen Dokumente der Datenbank eine Auswertungs­ punktzahl errechnet. Der Benutzer definiert den Schwellen­ wert, der von der Punktzahl erreicht werden muß, damit die beiden Dokumente, die miteinander verglichen werden, als ähnlich gelten. Ähnliche Dokumente werden dann in gleiche Kategorien in bezug auf Sprache oder Inhalt sortiert.
Die obengenannten Beispiele für die bei der Identifikation von Sprachen anfallenden Verarbeitungsschritte können auch zur Beschreibung der Verarbeitungsschritte, die bei diesem Algorithmus für das Sortieren von Dokumenten einer Datenbank anfallen, Anwendung finden.
Die Forschung konzentriert sich bei der Textverarbeitung gegenwärtig auf die inhaltsbezogene (d. h. linguistische) Analyse. Die vorliegende Erfindung konzentriert sich einzig und allein auf eine Analyse zur Mustererkennung (d. h. nichtlinguistische Analyse). Es werden bei der vorliegenden Erfindung keinerlei zusätzliche Informationen, die die Syntax, Semantik oder Grammatik betreffen, benötigt. Die Vorzüge bei der Verwendung einer Analyse von Zeichenfolgen n für die Identifikation von Inhalten sind bis heute noch nicht in vollem Umfange erkannt worden.
Die Identifikationsmethode für Inhalte gemäß dieser Erfin­ dung funktioniert in jeder beliebigen Sprache gleich leicht (jedoch in jeweils nur einer Sprache). Das System kann von jemandem, der die Sprache des Textes nicht lesen kann, gestartet werden und erfordert keine spezielle Schulung. Verstümmelter Text (also Text, der Fehler enthält) ist für das System unschädlich. Der Benutzer setzt eine Schwelle zur Bewertung, ob Dokumente ähnlich sind. Nicht informative gemeinsame Häufigkeitszahlen werden automatisch aus den Dokumenten herausgerechnet.
Es können Veränderungen und Variationen bei den im einzelnen beschriebenen Ausführungsarten, insbesondere bei der zur Implementierung dieser Erfindung benutzten Programmier­ sprache und der spezifischen Formel für die Punktzahl zur Auswertung der Übereinstimmung, die sich aus den Ge­ wichtungen der Zeichenfolgen n ableitet, vorgenommen werden; der Schutzumfang der Erfindung, der nur durch den inhaltlichen Umfang der beigefügten Ansprüche eingeschränkt werden darf, bleibt davon unberührt.
Beansprucht wird:
Tabelle 1
Referenz grönländische Sprache: NANOK_NUANE_ISSIGTUNE
Tabelle 2
Referenz hawaiische Sprache: I_HELE_MAI_NEI_AU_E_HAI
Tabelle 3
Gemeinsame Häufigkeitsgewichtungen für 2er-Zeichenfolgen in den Referenzdokumenten
Tabelle 3a
Von der gemeinsamen Häufigkeitszahl bereinigte Gewichtungen für das grönländische Referenzdokument
Tabelle 3b
Von der gemeinsamen Häufigkeitszahl bereinigte Gewichtungen für das hawaiische Referenzdokument
Tabelle 4
Nicht identifiziertes Dokument: MARTSIME_NANUT

Claims (26)

1. Verfahren zur Bestimmung der Sprache eines bestimmten Textes, bestehend aus folgenden Verarbeitungsschritten:
  • a) Zerlegen dieses Textinhalts in eine Vielzahl von Zeichen­ folgen n, von denen jede Zeichenfolge n den Inhalt von n aufeinanderfolgenden Zeichen-/Leerzeichenstellen dieses Textinhalts enthält, wobei n einen Wert von wenigstens Eins hat;
  • b) Vergleichen jeder dieser Zeichenfolgen n mit Zeichenvorräten aus einer Vielzahl von Zeichenfolgen n, worin jeder Zeichen­ vorrat aus Zeichenfolgen n eine unterschiedliche Sprache darstellt; und
  • c) Identifizieren der Sprache dieses Textinhalts als in der Sprache eines bestimmten Zeichenvorrats aus Zeichenfolgen n geschrieben, wenn der Abgleichungsprozentsatz bei Schritt b) für einen bestimmten Zeichenvorrat aus Zeichenfolgen n wenigstens gleich dem für diesen Zeichenvorrat aus Zeichen­ folgen n vorgeschriebenen Wert ist und größer als der Abgleichungsprozentsatz bei Schritt (b) für die anderen Zeichenvorräte aus Zeichenfolgen n ist.
2. Verfahren zum Identifizieren eines Dokuments, bestehend aus folgenden Verarbeitungsschritten;
  • a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen­ folge n aus wenigstens einem aufeinanderfolgenden Dokumen­ tenelement besteht;
  • b) Zerlegen eines nicht identifizierten Dokuments, das maschinenlesbares Format hat, in eine Vielzahl von Zeichen­ folgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
  • c) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
  • d) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (b),
  • e) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus dieser Vielzahl von Bezugsdatenfeldern ergibt;
  • f) Vergleichen jeder Zeichenfolge n des nicht identifizierten Dokuments mit jeder Zeichenfolge n dieser Bezugsdatenfelder, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen diesem nicht identifi­ zierten Dokument und jedem dieser Bezugsdatenfelder an­ geben; und
  • g) Identifizieren des nicht identifizierten Dokuments als wenigstens einem Dokument aus der Vielzahl der in Schritt (a) aufgelisteten Referenzdokumente ähnlich, wenn eine Auswertungspunktzahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert für die Bezugsdaten­ felder ist.
3. Verfahren nach Anspruch 2, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;
  • a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Referenzdokument vorkommen; und
  • b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n dieses Referenzdokuments.
4. Verfahren nach Anspruch 3, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Referenzdokuments wie folgt durch­ geführt wird;
  • a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Referenzdokument;
  • b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt­ zahl der Zeichenfolgen n in dem Referenzdokument; und
  • c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als die Gewichtung dieser Zeichenfolge n.
5. Verfahren nach Anspruch 4, bei dem der Verarbeitungs­ schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;
  • a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Referenzdokumente vorkommen;
  • b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Referenzdokumente darstellt;
  • c) Dividieren jeder Summe von Schritt (b) durch die Gesamt­ anzahl der Referenzdokumente; und
  • d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Referenzdokumente.
6. Verfahren nach Anspruch 5, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des nicht identifizierten Dokuments wie folgt durchgeführt wird;
  • a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem nicht identifizierten Dokument;
  • b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt­ zahl der Zeichenfolgen n in dem nicht identifizierten Dokument;
  • c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
  • d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre­ chenden Zeichenfolge n als Gewichtung für diese Zeichen­ folge n.
7. Verfahren nach Anspruch 6, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer­ tungspunktzahlen wie folgt durchgeführt wird;
  • a) Multiplizieren der Gewichtung einer Zeichenfolge n in dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in einem der Bezugsdaten­ felder;
  • b) Wiederholen von Schritt (a) , bis die Gewichtung jeder Zeichenfolge aus dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n, falls vorhanden, in dem Bezugsdatenfeld multipliziert ist;
  • c) Summierung der Produkte aus den Schritten (a) und (b);
  • d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem nicht identifizierten Dokument;
  • e) Summieren der Quadratzahlen von den Gewichtungen des nicht identifizierten Dokuments von Schritt (d);
  • f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
  • g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
  • h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
  • i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
  • j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein­ stimmung des nicht identifizierten Dokuments mit dem Referenzdokument von Schritt (a) zu errechnen; und
  • k) Wiederholen der Schritte (a) bis (j) für die Vielzahl der Referenzdokumente, um eine Punktzahl für die Überein­ stimmung des nicht identifizierten Dokuments mit der Viel­ zahl der Referenzdokumente zu errechnen.
8. Verfahren nach Anspruch 7, bei dem der vorgenannte Verarbeitungsschritt des Zerlegens wie folgt durchgeführt wird;
  • a) Begrenzen der zulässigen Dokumentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen;
  • b) Ersetzen der vom Benutzer definierten Dokumentenelement­ strings, die aus wenigstens einem Dokumentenelement bestehen, durch vom Benutzer definierte Elementstrings, die aus wenigstens einem Dokumentenelement bestehen; und
  • c) Löschen der vom Benutzer definierten Dokumentenelement­ strings.
9. Verfahren nach Anspruch 8, bei dem der vorgenannte Verarbeitungsschritt der Begrenzung der zulässigen Doku­ mentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen derart durchgeführt wird, daß die zu­ lässigen Dokumentenelemente auf Buchstaben aus einer Viel­ zahl von Sprachen beschränkt werden.
10. Das Verfahren nach Anspruch 9, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung eines nicht iden­ tifizierten Dokuments zur Identifizierung der Sprache dieses nicht identifizierten Dokuments führt.
11. Verfahren nach Anspruch 9, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung eines nicht iden­ tifizierten Dokuments zur Identifizierung des Inhalts dieses nicht identifizierten Dokuments führt.
12. Verfahren zum Wiederauffinden von Dokumenten, bestehend aus folgenden Verarbeitungsschritten;
  • a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen­ folge n aus wenigstens einem aufeinanderfolgenden Dokumen­ tenelement besteht;
  • b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
  • c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Bezugsdatenfelder von Schritt (a) ergibt;
  • d) Zerlegen einer Abfrage, die maschinenlesbares Format hat, in eine Vielzahl von Zeichenfolgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
  • e) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (d);
  • f) Vergleichen jeder Zeichenfolge n der Abfrage von Schritt (d) mit den Zeichenfolgen n von jedem Datenfeld aus der Vielzahl der Bezugsdatenfelder von Schritt (a) , um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen der Abfrage und jedem Dokument aus der Vielzahl der Referenzdokumente angeben; und
  • g) Identifizieren einer Vielzahl von Referenzdokumenten, die der Abfrage ähnlich sind, wenn eine Auswertungspunkt­ zahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert ist.
13. Verfahren nach Anspruch 12, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;
  • a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Referenzdokument vorkommen; und
  • b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n dieses Referenzdokuments.
14. Verfahren nach Anspruch 13, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Referenzdokuments wie folgt durch­ geführt wird;
  • a) Zählen der Häufigkeit des Vorkommens jeder Zeichenfolge n in dem Referenzdokument;
  • b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt­ zahl der Zeichenfolgen n in dem Referenzdokument; und
  • c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.
15. Verfahren nach Anspruch 14, bei dem der Verarbeitungs­ schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;
  • a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Referenzdokumente vorkommen;
  • b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Referenzdokumente darstellt;
  • c) Dividieren jeder Summe von Schritt (b) durch die Gesamt­ anzahl der Referenzdokumente; und
  • d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Referenzdokumente.
16. Verfahren nach Anspruch 15, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n der Abfrage wie folgt durchgeführt wird;
  • a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in der Abfrage;
  • b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt­ zahl der Zeichenfolgen n in der Abfrage;
  • c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
  • d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre­ chenden Zeichenfolge n als Gewichtung für diese Zeichen­ folge n.
17. Verfahren nach Anspruch 16, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer­ tungspunktzahlen wie folgt durchgeführt wird;
  • a) Multiplizieren der Gewichtung einer Zeichenfolge n in der Abfrage mit der Gewichtung der entsprechenden Zeichen­ folge n in einem der Bezugsdatenfelder;
  • b) Wiederholen von Schritt (a) , bis alle Gewichtungen der Zeichenfolgen n aus der Abfrage mit den Gewichtungen der entsprechenden Zeichenfolgen n in dem Bezugsdatenfeld multipliziert sind;
  • c) Summierung der Produkte aus den Schritten (a) und (b);
  • d) Quadrieren der Gewichtung jeder Zeichenfolge n in der Abfrage;
  • e) Summieren der Quadratzahlen von den Gewichtungen der Abfrage von Schritt (d);
  • f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
  • g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
  • h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
  • i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
  • j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein­ stimmung der Abfrage mit der Referenzinformation von Schritt (a) zu errechnen; und
  • k) Wiederholen der Schritte (a) bis (j) für jedes Dokument aus der Vielzahl der Referenzdokumente, um eine Punktzahl für die Übereinstimmung der Abfrage mit jedem Dokument aus der Vielzahl der Referenzdokumente zu errechnen.
18. Verfahren nach Anspruch 17, bei dem der vorgenannte Verarbeitungsschritt des Analysierens wie folgt durchgeführt wird;
  • a) Begrenzen der zulässigen Dokumentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen;
  • b) Ersetzen der vom Benutzer definierten Dokumentenelement­ strings, die aus wenigstens einem Dokumentenelement bestehen, durch vom Benutzer definierte Elementstrings, die aus wenigstens einem Dokumentenelement bestehen; und
  • c) Löschen der vom Benutzer definierten Dokumentenelement­ strings.
19. Verfahren nach Anspruch 18, bei dem der vorgenannte Verarbeitungsschritt der Begrenzung der zulässigen Doku­ mentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen derart durchgeführt wird, daß die zulässigen Dokumentenelemente auf Buchstaben aus einer Vielzahl von Sprachen beschränkt werden.
20. Verfahren nach Anspruch 19, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung einer Vielzahl von Referenzdokumenten als der Abfrage ähnlich, die maschinenlesbares Format hat, dadurch erfolgt, daß eine Vielzahl von Referenzdokumenten als mit der Sprache dieser Abfrage übereinstimmend identifiziert wird.
21. Verfahren nach Anspruch 19, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung einer Vielzahl von Referenzdokumenten als der Abfrage ähnlich dadurch erfolgt, daß eine Vielzahl von Referenzdokumenten als mit dem Inhalt dieser Abfrage übereinstimmend identifiziert wird.
22. Verfahren zum Sortieren von Dokumenten, bestehend aus folgenden Verarbeitungsschritten;
  • a) Anlegen eines Datenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Dokumenten, die maschinen­ lesbares Format haben, wobei jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Informationselement besteht;
  • b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a);
  • c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Datenfelder ergibt;
  • d) Vergleichen jedes Datenfeldes mit allen anderen Datenfel­ dern, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen jedem dieser Datenfelder angeben; und
  • e) Sortieren dieser Dokumente nach Kategorien, basierend auf den Auswertungspunktzahlen von Schritt (d) und einer vom Benutzer definierbaren Toleranz.
23. Verfahren nach Anspruch 22, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Datenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;
  • a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Dokument vorkommen; und
  • b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a).
24. Verfahren nach Anspruch 23, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Datenfeldes wie folgt durchgeführt wird;
  • a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Dokument;
  • b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt­ zahl der Zeichenfolgen n in dem Dokument; und
  • c) Zuordnen jedes Quotienten von Schritt (b) zu der entspre­ chenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.
25. Verfahren nach Anspruch 24, bei dem der Verarbeitungs­ schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;
  • a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Dokumente vorkommen;
  • b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Dokumente darstellt;
  • c) Dividieren jeder Summe durch die Gesamtanzahl der Dokumente; und
  • d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Dokumente.
26. Verfahren nach Anspruch 25, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer­ tungspunktzahlen wie folgt durchgeführt wird;
  • a) Multiplizieren der Gewichtung einer Zeichenfolge n in einem Dokument aus der Vielzahl der Dokumente mit der Gewichtung der entsprechenden Zeichenfolge n in einem anderen Dokument aus der Vielzahl der Dokumente;
  • b) Wiederholen von Schritt (a) , bis jede Gewichtung der Zeichenfolge n in dem ersten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in dem zweiten Dokument multipliziert ist;
  • c) Summierung der Produkte aus den Schritten (a) und (b);
  • d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem ersten Dokument;
  • e) Summieren der Quadratzahlen von den Gewichtungen des ersten Dokuments in Schritt (d);
  • f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem zweiten Dokument von Schritt (a);
  • g) Summieren der Quadratzahlen von den Gewichtungen des zweiten Dokuments in Schritt (f);
  • h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
  • i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
  • j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein­ stimmung des ersten Dokuments mit dem zweiten Dokument von Schritt (a) zu errechnen; und
  • k) Wiederholen der Schritte (a) bis (j) für jedes Dokument, um eine Punktzahl für die Übereinstimmung jedes Dokuments mit jedem Dokument aus der Vielzahl der Dokumente zu errechnen.
DE4232507A 1992-08-20 1992-09-29 Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten Ceased DE4232507A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US93252292A 1992-08-20 1992-08-20

Publications (1)

Publication Number Publication Date
DE4232507A1 true DE4232507A1 (de) 1994-02-24

Family

ID=25462436

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4232507A Ceased DE4232507A1 (de) 1992-08-20 1992-09-29 Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten

Country Status (6)

Country Link
US (1) US5418951A (de)
JP (1) JP3095552B2 (de)
DE (1) DE4232507A1 (de)
FR (1) FR2694984B1 (de)
GB (1) GB9220404D0 (de)
NL (1) NL194809C (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10028624B4 (de) * 1999-06-09 2007-07-05 Ricoh Co., Ltd. Verfahren und Vorrichtung zur Dokumentenbeschaffung

Families Citing this family (431)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US6243071B1 (en) * 1993-11-03 2001-06-05 Apple Computer, Inc. Tool set for navigating through an electronic book
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5754850A (en) * 1994-05-11 1998-05-19 Realselect, Inc. Real-estate method and apparatus for searching for homes in a search pool for exact and close matches according to primary and non-primary selection criteria
JP3438947B2 (ja) * 1994-06-03 2003-08-18 新日鉄ソリューションズ株式会社 情報検索装置
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
US5708804A (en) * 1994-07-25 1998-01-13 International Business Machines Corp. Apparatus and method therefor of intelligently searching for information in a personal communications device
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US5778371A (en) * 1994-09-13 1998-07-07 Kabushiki Kaisha Toshiba Code string processing system and method using intervals
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
US5864683A (en) 1994-10-12 1999-01-26 Secure Computing Corporartion System for providing secure internetwork by connecting type enforcing secure computers to external network for limiting access to data based on user and process access rights
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
DE69624755T2 (de) * 1995-05-22 2003-04-24 Matsushita Electric Ind Co Ltd Informationssuchgerät für das Suchen von Text, um Zeichenfolgen wiederaufzufinden, die mit einem Schlüsselwort übereinstimmen
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
JPH0981574A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 検索集合表示画面を利用したデータベース検索法およびシステム
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5794237A (en) * 1995-11-13 1998-08-11 International Business Machines Corporation System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking
JP3674119B2 (ja) * 1995-11-29 2005-07-20 株式会社日立製作所 類似文書検索方法
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5787420A (en) * 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5913024A (en) 1996-02-09 1999-06-15 Secure Computing Corporation Secure server utilizing separate protocol stacks
US6081798A (en) * 1996-04-24 2000-06-27 International Business Machines Corp. Object oriented case-based reasoning framework mechanism
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US5765149A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Modified collection frequency ranking method
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US6745194B2 (en) * 2000-08-07 2004-06-01 Alta Vista Company Technique for deleting duplicate records referenced in an index of a database
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US5909680A (en) * 1996-09-09 1999-06-01 Ricoh Company Limited Document categorization by word length distribution analysis
US6144934A (en) * 1996-09-18 2000-11-07 Secure Computing Corporation Binary filter using pattern recognition
US6072942A (en) * 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
AU4495597A (en) 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5842217A (en) * 1996-12-30 1998-11-24 Intel Corporation Method for recognizing compound terms in a document
US5774888A (en) * 1996-12-30 1998-06-30 Intel Corporation Method for characterizing a document set using evaluation surrogates
US5778363A (en) * 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
US6415319B1 (en) 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US6977574B1 (en) * 1997-02-14 2005-12-20 Denso Corporation Stick-type ignition coil having improved structure against crack or dielectric discharge
TW421750B (en) 1997-03-14 2001-02-11 Omron Tateisi Electronics Co Language identification device, language identification method and storage media recorded with program of language identification
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
CA2242065C (en) 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
US5978797A (en) * 1997-07-09 1999-11-02 Nec Research Institute, Inc. Multistage intelligent string comparison method
US6016546A (en) * 1997-07-10 2000-01-18 International Business Machines Corporation Efficient detection of computer viruses and other data traits
US6760746B1 (en) * 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
US6094651A (en) * 1997-08-22 2000-07-25 International Business Machines Corporation Discovery-driven exploration of OLAP data cubes
WO1999012108A1 (en) * 1997-09-04 1999-03-11 British Telecommunications Public Limited Company Methods and/or systems for selecting data sets
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
JP3488063B2 (ja) * 1997-12-04 2004-01-19 株式会社エヌ・ティ・ティ・データ 情報分類方法、装置及びシステム
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6112172A (en) * 1998-03-31 2000-08-29 Dragon Systems, Inc. Interactive searching
US5991714A (en) * 1998-04-22 1999-11-23 The United States Of America As Represented By The National Security Agency Method of identifying data type and locating in a file
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
JP3622503B2 (ja) 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
US6397205B1 (en) 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6732149B1 (en) * 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
AU6363500A (en) * 1999-07-22 2001-02-13 Silicon Valley Bank Method and system for providing information responsive to a user
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
US6289350B1 (en) 1999-08-20 2001-09-11 Newsgems Llc System and method for structured news release generation and distribution
AU6791900A (en) * 1999-08-20 2001-03-19 Newsgems Llc System and method for structured news release generation and distribution
US8214386B2 (en) * 1999-08-20 2012-07-03 Newgems Llc System and method for structured news release generation and distribution
US6370535B1 (en) 1999-08-20 2002-04-09 Newsgems Llc System and method for structured news release generation and distribution
US6785810B1 (en) * 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
EP2448155A3 (de) 1999-11-10 2014-05-07 Pandora Media, Inc. Internetradio und rundfunkverfahren
US7711738B1 (en) * 1999-11-15 2010-05-04 West Services, Inc. Method, system and computer-readable medium for accessing and retrieving court records, items and documents
US6714944B1 (en) 1999-11-30 2004-03-30 Verivita Llc System and method for authenticating and registering personal background data
AU2212801A (en) * 1999-12-07 2001-06-18 Qjunction Technology, Inc. Natural english language search and retrieval system and method
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US20010049707A1 (en) * 2000-02-29 2001-12-06 Tran Bao Q. Systems and methods for generating intellectual property
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8706618B2 (en) 2005-09-29 2014-04-22 Ebay Inc. Release of funds based on criteria
GB2377059A (en) 2000-03-17 2002-12-31 Ebay Inc Method and apparatus for facilitating online payment transactions in a network based transaction facility using multiple payment instruments
US7499875B1 (en) 2000-03-17 2009-03-03 Ebay Inc. Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US7139743B2 (en) * 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6711558B1 (en) * 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US7251665B1 (en) * 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US8352331B2 (en) 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7617184B2 (en) 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US6519557B1 (en) 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US20020052783A1 (en) * 2000-06-26 2002-05-02 Turek David G. Method and apparatus for establishing a customized electronic site
GB2380581A (en) * 2000-07-11 2003-04-09 Launch Media Inc Online playback system with community bias
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
GB2366940B (en) * 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
US6895438B1 (en) 2000-09-06 2005-05-17 Paul C. Ulrich Telecommunication-based time-management system and method
US20060074727A1 (en) 2000-09-07 2006-04-06 Briere Daniel D Method and apparatus for collection and dissemination of information over a computer network
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
AU2001295283B2 (en) * 2000-10-17 2007-03-22 Telstra Corporation Limited An information retrieval system
US6704449B1 (en) 2000-10-19 2004-03-09 The United States Of America As Represented By The National Security Agency Method of extracting text from graphical images
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
US8515959B2 (en) 2000-11-06 2013-08-20 International Business Machines Corporation Method and apparatus for maintaining and navigating a non-hierarchical personal spatial file system
US7099671B2 (en) * 2001-01-16 2006-08-29 Texas Instruments Incorporated Collaborative mechanism of enhanced coexistence of collocated wireless networks
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7272857B1 (en) 2001-04-20 2007-09-18 Jpmorgan Chase Bank, N.A. Method/system for preventing identity theft or misuse by restricting access
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US6826576B2 (en) 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6768991B2 (en) * 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US7272594B1 (en) 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
JP3452558B2 (ja) * 2001-09-25 2003-09-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
AU2003210393A1 (en) * 2002-02-27 2003-09-09 Michael Rik Frans Brands A data integration and knowledge management solution
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
DE10213468A1 (de) * 2002-03-26 2003-10-09 Abb Research Ltd Verfahren und System zur Informationssuche in multilingualen Wissensdatenbanken mit automatischer Übersetzung der Suchergebnisse
DE10213348A1 (de) * 2002-03-26 2003-10-09 Abb Research Ltd System und Verfahren zur Informationssuche in multilingualen Wissensdatenbanken unter Verwendung eines multilingualen Fachvokabulars
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
NL1020670C2 (nl) * 2002-05-24 2003-11-25 Oce Tech Bv Het bepalen van een semantische afbeelding.
US7010522B1 (en) * 2002-06-17 2006-03-07 At&T Corp. Method of performing approximate substring indexing
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US7711844B2 (en) * 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US7284009B2 (en) * 2002-12-13 2007-10-16 Sun Microsystems, Inc. System and method for command line prediction
US7401063B2 (en) * 2002-12-16 2008-07-15 General Electric Company Process for semi-automatic maintenance of a knowledge base using tagged examples
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7756847B2 (en) * 2003-03-03 2010-07-13 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
US10521857B1 (en) 2003-05-12 2019-12-31 Symantec Corporation System and method for identity-based fraud detection
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
EP1627331B1 (de) 2003-05-23 2017-09-20 IP Reservoir, LLC Intelligenter datenspeicher und entsprechende bearbeitung unter benutzung von fpga -geräten
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
JP4678712B2 (ja) * 2003-07-31 2011-04-27 株式会社リコー 言語識別装置、プログラム及び記録媒体
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
KR20060120029A (ko) * 2003-09-10 2006-11-24 뮤직매치, 인크. 뮤직을 구매하고 플레이하는 시스템 및 방법
US7644076B1 (en) * 2003-09-12 2010-01-05 Teradata Us, Inc. Clustering strings using N-grams
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
GB2411014A (en) * 2004-02-11 2005-08-17 Autonomy Corp Ltd Automatic searching for relevant information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
EP1672531A3 (de) 2004-12-14 2008-10-15 International Business Machines Corporation Verfahren und Vorrichtung zur Erstellung von Textdokumenten
US7844961B2 (en) * 2004-12-22 2010-11-30 Sap Ag Automatic field linking
US20060142993A1 (en) * 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
EP1859378A2 (de) * 2005-03-03 2007-11-28 Washington University Verfahren und vorrichtung zur durchführung einer biosequenz-ähnlichkeitssuche
JP4314204B2 (ja) * 2005-03-11 2009-08-12 株式会社東芝 文書管理方法、システム及びプログラム
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
US7805291B1 (en) 2005-05-25 2010-09-28 The United States Of America As Represented By The Director National Security Agency Method of identifying topic of text using nouns
US20070150468A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Preprocessing Content to Determine Relationships
US20070150483A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Network Service for Providing Related Content
US20070150457A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Enabling One-Click Searching Based on Elements Related to Displayed Content
US20070162396A1 (en) * 2005-06-13 2007-07-12 Inform Technologies, Llc Determining Advertising Placement on Preprocessed Content
US7451135B2 (en) 2005-06-13 2008-11-11 Inform Technologies, Llc System and method for retrieving and displaying information relating to electronic documents available from an informational network
US20070150721A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Disambiguation for Preprocessing Content to Determine Relationships
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1952280B8 (de) * 2005-10-11 2016-11-30 Ureveal, Inc. System, verfahren und computerprogrammprodukt für suche und analyse auf konzeptbasis
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US9275129B2 (en) 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US20070208733A1 (en) * 2006-02-22 2007-09-06 Copernic Technologies, Inc. Query Correction Using Indexed Content on a Desktop Indexer Program
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US7840482B2 (en) * 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context
US20080086274A1 (en) * 2006-08-10 2008-04-10 Chamberlain Roger D Method and Apparatus for Protein Sequence Alignment Using FPGA Devices
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2067119A2 (de) * 2006-09-08 2009-06-10 Exbiblio B.V. Optische scanner, zum beispiel tragbare optische scanner
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
US8326819B2 (en) * 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7890549B2 (en) * 2007-04-30 2011-02-15 Quantum Leap Research, Inc. Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
US8014959B2 (en) * 2007-05-07 2011-09-06 Sparta, Inc. Population of background suppression lists from limited data in agent detection systems
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
US8638363B2 (en) 2009-02-18 2014-01-28 Google Inc. Automatically capturing information, such as capturing information using a document-aware device
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10229453B2 (en) * 2008-01-11 2019-03-12 Ip Reservoir, Llc Method and system for low latency basket calculation
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US9081853B2 (en) * 2008-04-03 2015-07-14 Graham Holdings Company Information display system based on user profile data with assisted and explicit profile modification
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090265385A1 (en) * 2008-04-18 2009-10-22 Beland Paula M Insurance document imaging and processing system
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8374986B2 (en) * 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
EP2370946A4 (de) 2008-12-15 2012-05-30 Exegy Inc Verfahren und vorrichtung zur hochgeschwindigkeitsverarbeitung von finanzmarkttiefendaten
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9245033B2 (en) 2009-04-02 2016-01-26 Graham Holdings Company Channel sharing
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US20110202484A1 (en) * 2010-02-18 2011-08-18 International Business Machines Corporation Analyzing parallel topics from correlated documents
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10037568B2 (en) 2010-12-09 2018-07-31 Ip Reservoir, Llc Method and apparatus for managing orders in financial markets
US8478740B2 (en) 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8868567B2 (en) * 2011-02-02 2014-10-21 Microsoft Corporation Information retrieval using subject-aware document ranker
US8612367B2 (en) 2011-02-04 2013-12-17 Microsoft Corporation Learning similarity function for rare queries
US8719257B2 (en) 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US20130024184A1 (en) * 2011-06-13 2013-01-24 Trinity College Dublin Data processing system and method for assessing quality of a translation
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10198776B2 (en) 2012-09-21 2019-02-05 Graham Holdings Company System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9323767B2 (en) 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
US10133802B2 (en) 2012-10-23 2018-11-20 Ip Reservoir, Llc Method and apparatus for accelerated record layout detection
EP2912579B1 (de) 2012-10-23 2020-08-19 IP Reservoir, LLC Verfahren und vorrichtung zur beschleunigten formatübersetzung von daten in einem begrenzten datenformat
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9934283B2 (en) * 2013-03-08 2018-04-03 Google Llc Social annotations for enhanced search results
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10176256B1 (en) 2013-12-23 2019-01-08 BroadbandTV, Corp Title rating and improvement process and system
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
US9600770B1 (en) * 2014-02-13 2017-03-21 Emergent Systems Corporation Method for determining expertise of users in a knowledge management system
GB2541577A (en) 2014-04-23 2017-02-22 Ip Reservoir Llc Method and apparatus for accelerated data translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
DE212015000194U1 (de) 2014-08-06 2017-05-31 Apple Inc. Verkleinerte Benutzeroberflächen für Batteriemanagement
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
EP3373122B1 (de) 2014-09-02 2022-04-06 Apple Inc. Schnittstellen mit reduzierter grösse zur verwaltung von alarmen
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
EP3560135A4 (de) 2016-12-22 2020-08-05 IP Reservoir, LLC Rohrleitungen zum hardware-beschleunigten maschinellen lernen
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11455298B2 (en) 2019-02-06 2022-09-27 Parsons Corporation Goal-directed semantic search
US20230080508A1 (en) * 2021-08-30 2023-03-16 Kyocera Document Solutions Inc. Method and system for obtaining similarity rates between electronic documents
US20230092124A1 (en) * 2021-08-30 2023-03-23 Kyocera Document Solutions Inc. Method and system for searching electronic documents based on their similarity rates
US20230409823A1 (en) * 2022-06-16 2023-12-21 The Bank Of Nova Scotia System and Method for Reviewing and Evaluating Discrepancies Between Two or More Documents

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5293466A (en) * 1990-08-03 1994-03-08 Qms, Inc. Method and apparatus for selecting interpreter for printer command language based upon sample of print job transmitted to printer
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5150425A (en) * 1991-08-30 1992-09-22 Eastman Kodak Company Character recognition method using correlation search

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10028624B4 (de) * 1999-06-09 2007-07-05 Ricoh Co., Ltd. Verfahren und Vorrichtung zur Dokumentenbeschaffung

Also Published As

Publication number Publication date
FR2694984A1 (fr) 1994-02-25
JP3095552B2 (ja) 2000-10-03
NL194809B (nl) 2002-11-01
NL9201684A (nl) 1994-03-16
NL194809C (nl) 2003-03-04
US5418951A (en) 1995-05-23
FR2694984B1 (fr) 1994-10-21
GB9220404D0 (en) 1992-11-11
JPH06110948A (ja) 1994-04-22

Similar Documents

Publication Publication Date Title
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE102005051617B4 (de) Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE112013000981T5 (de) Einheit, Programm und Verfahren zum Analysieren von Textdokumenten
CH712988B1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
EP2221735A2 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
DE19726592C2 (de) Informationserkennungs-Vorrichtung
DE112019006523T5 (de) Satzstrukturvektorisierungsvorrichtung, satzstrukturvektorisierungsverfahren und satzstrukturvektorisierungsprogramm
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
Xuanjing et al. Language-independent Text Categorization
EP1170678B1 (de) Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
Purandare et al. Improving word sense discrimination with gloss augmented feature vectors
DE202022104673U1 (de) System zur Rückverfolgbarkeit von sozialen Netzwerken
DE102016217191A1 (de) Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8131 Rejection