DE4232507A1

DE4232507A1 - Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten

Info

Publication number: DE4232507A1
Application number: DE4232507A
Authority: DE
Inventors: Marc Damashek
Original assignee: US Department of Health and Human Services
Current assignee: US Department of Health and Human Services
Priority date: 1992-08-20
Filing date: 1992-09-29
Publication date: 1994-02-24
Also published as: FR2694984A1; JP3095552B2; NL194809B; NL9201684A; NL194809C; US5418951A; FR2694984B1; GB9220404D0; JPH06110948A

Description

Anwendungsgebiet der Erfindung

Diese Erfindung bezieht sich auf ein Dokumentationssystem, insbesondere auf ein Dokumentationssystem, das in der Lage ist, Volltext-Recherchen durchzuführen, ohne daß dabei schlüsselwort- oder kontextbezogene Informationen erforder lich sind. Diese Methode kann dazu benutzt werden, um Dokumente ihrem Inhalt oder ihrer Sprache nach zu kenn zeichnen, wiederaufzufinden und zu sortieren. Die Methode ist ebenfalls brauchbar zum Kennzeichnen, Wiederauffinden und Sortieren jeder beliebigen Form von Kommunikation, wie zum Beispiel von akustischen Signalen (z. B. gesprochene Sprache) und grafischen Symbolen (z. B. Bilder), die in maschinenlesbarem Format dargestellt werden können.

Beschreibung des bisherigen einschlägigen Standes der Technik

In dem Artikel "DARPA Eyes Smart Text Sifters" (augenfreund liche Textsichter DARPA) von R. Colin Johnson, der in der Electronic Engineering Times (Elektronik-Times) vom 17. Fe bruar 1992 auf Seite 35 ff. veröffentlicht wurde, wurde darauf hingewiesen, daß die Forschung intensive Bemühungen darauf verwendet, bessere Wege bei der Suche von Textdaten banken zu finden, um den Benutzer interessierende Dokumente wiederaufzufinden. Es wurde darauf verwiesen, daß dabei der Erzielung größerer Erfolge mehrere fundamentale Probleme entgegenstehen.

Ein Verfahren, die Suchvorgänge zu erleichtern, bestand darin, eine spezielle Hardware bereitzustellen, mit der die Informationen schneller verarbeitet werden können. Das Problem bei diesem Lösungsweg liegt darin, daß die Verbesserungen bei der Verarbeitungsgeschwindigkeit nicht Schritt gehalten haben mit der raschen Entwicklung, mit der Datenbankinformationen zugenommen haben.

Es wurde festgestellt, daß ein grundlegender theoretischer Durchbruch notwendig sei, um die Möglichkeiten, Informationen aus großen Datenbanken wiederzufinden, zu verbessern.

Die herkömmlichen Systeme der Informationswiedergewinnung basieren immer noch auf der Verwendung von Schlüsselwörtern oder Satzteilen mit Operationssymbolen (wie z. B. und, oder, nicht), um interessierende Dokumente zu identifizieren. Das Problem bei diesem Verfahren besteht darin, daß die Dokumente oftmals ein Synonym des Schlüsselwortes und nicht das Schlüsselwort selbst enthalten (z. B. Wagen anstelle von Auto) oder aber eine gebeugte Form des Schlüsselwortes aufweisen (z. B. suchend anstelle von suchen). Solche Systeme reagieren typischerweise sensibel auf Orthographiefehler oder auf Fehler bei der Datenüber tragung bei der Eingabe. Auch sind die Operationssymbole manchmal schwierig zu verwenden. Weitere Probleme ergeben sich bei der Kennzeichnung der richtigen Schlüsselwörter, bei der Kennzeichnung der richtigen Synonyme und beim Wiederauffinden von entweder unvollständigen, umfangreichen und/oder systemfremden Dokumenten. Es ist hierbei typisch, daß eine umfassende Synonymliste benutzt wird, um diesen Problemen zu begegnen. Bei dieser Methode wird jedoch der Speicherplatzbedarf größer und die Verarbeitungszeit langsamer.

Ein anderes Problem bei Suchvorgängen mit Schlüsselwörtern besteht darin, daß die Bedeutung des Schlüsselwortes gewöhn lich von dem Sinnzusammenhang abhängt, in dem es gebraucht wird. Deshalb ist ohne Angaben zu dem gewünschten Kontext des Schlüsselwortes die Gefahr groß, nicht gewünschte Dokumente zu selektieren. Bei den früheren Lösungswegen zum Wiederauffinden von Dokumenten hat man versucht, diesem Problem dadurch entgegenzutreten, daß der Suchvorgang mit textabhängigen Informationen ergänzt wurde, wobei man sich solcher Techniken wie Kontextvektoren, konzeptioneller grafischer Darstellungen, semantischer Netze und Inferenz netze bediente. Durch diese Techniken wird ebenfalls der Speicherplatzbedarf größer und die Verarbeitungszeit lang samer. Die Ergänzung mit textabhängigen Informationen ist zudem eine Aufgabe, die einen erheblichen Zeitaufwand durch einen ausgebildeten Anwender erfordert.

In dem Artikel "Global Text Matching for Information Retrieval" (Gesamttextvergleich zur Informationswieder gewinnung) von G. Salton und C. Buckley, der in Science (Wissenschaft), Ausgabe 253 vom 30. August 1991, Seiten 1012-1015, veröffentlicht wurde, wird festgestellt, daß Textanalyse unter Verwendung von Synonymen mühsam und Textanalyse unter Verwendung einer wissensbasierten Methode kompliziert sei. In demselben Artikel wird festgestellt, daß das Verstehen des Textes auf dem Sinnzusammenhang und dem Erkennen von Textteilen (d. h. Textabschnitten, Absätzen oder Sätzen) basieren muß.

In dem Artikel "Developments in Automatic Text Retrieval" (Fortschritte bei der automatischen Textwiedergewinnung) von G. Salton, der in Science (Wissenschaft), Ausgabe 253 vom 30. August 1991, Seiten 974-980, veröffentlicht wurde, wird der gegenwärtige Stand bei der Wiedergewinnung von Dokumenten zusammengefaßt. Es wird darauf hingewiesen, daß Textanalyse problematisch sei, da es erforderlich ist, aus großen Datenbanken nur Dokumente, die von Interesse sind, herausfinden zu können. Die übliche Lösung dieses Problems bestand darin, daß Inhaltskennzeichen gebildet wurden. Dies geschah deshalb, weil die Bedeutung eines Wortes durch Nachschlagen in einem Wörterbuch nicht zutreffend festgelegt werden kann, ohne daß dabei dem Sinnzusammenhang, in dem das Wort gebraucht wird, Rechnung getragen wird. Es wird erwähnt, daß die Wörter im Text auch zur Kontextidentifikation herangezogen werden können. Solche Dokumentationssysteme werden als Volltext-Dokumen tationssysteme bezeichnet.

In dem Artikel "N-gram Statistics for Natural Language Understanding and Text Processing" (Statistik der Zeichen zahlen n zum Verstehen und zur Textverarbeitung von natür licher Sprache) von C. Suen, der in IEEE Transactions On Pattern Analysis and Machine Intelligence (Vorgänge bei der Musteranalyse und der Rechnerintelligenz von IEEE) , Ausgabe PAMI-1 Nr. 2 von April 1979, veröffentlicht wurde, wurden zwei Methoden der Verarbeitung natürlicher Sprache beschrieben, wobei bei der einen Schlüsselwörter und ein Wörterbuch und bei der anderen Zeichenzahlen n verwendet wurden. Bei der Lösung mit Schlüsselwörtern werden Wörter miteinander verglichen. Bei der Lösung mit Zeichenzahlen n werden Buchstabenfolgen miteinander verglichen. Der Ver gleich von Buchstabenfolgen ist schneller und erfordert weniger Speicherplatz als die Methode mit Schlüsselwörtern und Wörterbuch.

In dem US-Patent Nr. 5.020.019 mit der Bezeichnung "Document Retrieval System" (Dokumentationssystem) ist ein System beschrieben, das Dokumente sucht, indem es Schlüsselwörter mit einer Lerneigenschaft verwendet, und das es dem Benutzer ermöglicht, den einzelnen Schlüssel wörtern als Reaktion auf das Ergebnis eines vorangegangenen Suchvorgangs Gewichtungen zuzuordnen. Bei der vorliegenden Erfindung wird keine Lösung mit Schlüsselwörtern verwendet.

In dem US-Patent Nr. 4.985.863 mit der Bezeichnung "Document Storage and Retrieval" (Speicherung und Wieder auffindung von Dokumenten) ist eine Methode beschrieben, nach der Dokumente abschnittsweise gespeichert werden. Zum Wiederfinden ähnlicher Dokumente werden hierbei Text abschnitte und nicht Schlüsselwörter verwendet. Bei der vorliegenden Erfindung erfolgt die Lösung nicht mit Hilfe von Schlüsselwörtern oder Aufteilungen in Abschnitten.

In dem US-Patent Nr. 4.849.898 mit der Bezeichnung "Method and Apparatus to Identify the Relation of Meanings Between Words in Text Expressions" (Methode und Einrichtung zur Kennzeichnung der Beziehung von Bedeutungen zwischen Wörtern in sprachlichen Ausdrücken) ist eine Methode be schrieben, bei der eine buchstabensemantische Analyse der Schlüsselwörter und Wörter aus einem Dokument benutzt wird, um herauszufinden, ob diese Wörter die gleiche Be deutung haben. Diese Methode wird angewandt, um Dokumente oder Teile von Dokumenten wiederzufinden, die das gleiche Thema wie die Schlüsselwörter beinhalten. Bei der vorlie genden Erfindung wird keine semantische Analyse verwendet.

In dem US-Patent Nr. 4.823.306 mit der Bezeichnung "Text Search System" (Textsuchsystem) wird eine Methode beschrie ben, bei der Synonyme von Schlüsselwörtern gebildet werden. Dabei werden jedem Synonym unterschiedliche Werte zuge wiesen, um den Suchvorgang zu leiten. Bei der vorliegenden Erfindung werden keine Synonyme gebildet.

In dem US-Patent Nr. 4.775.956 mit der Bezeichnung "Method and System for Information Storing and Retrieval Using Word Stems and Derivative Pattern Codes Representing Families of Affixes" (Methode und System zur Informations speicherung und -wiedergewinnung unter Verwendung von Wortstämmen und abgeleiteten Mustercodes, die Affix-Familien darstellen) wird eine Methode beschrieben, bei der eine allgemeine Menge von Affixen verwendet wird, die dazu benutzt werden, um jeden Schlüsselwortstamm zu verändern. Diese Methode reduziert den Bedarf an Speicher platz, der sonst dazu benötigt würde, um die Synonyme jedes Schlüsselworts zu speichern. Bei der vorliegenden Erfindung werden keine Schlüsselwortstämme verändert.

In dem US-Patent Nr. 4.358.824 mit der Bezeichnung "Office Correspondence Storage and Retrieval System" (System zum Speichern und Wiederauffinden von Bürokorrespondenz) wird eine Methode beschrieben, bei der die Dokumente zu Kurz referaten gekürzt werden, indem die in jedem Dokument verwendeten Schlüsselwörter erfaßt werden. Die Schlüssel wörter werden dann dazu herangezogen, um nach den Dokumenten, die von Interesse sind, zu suchen. Bei der vorliegenden Erfindung wird nicht der Text der gespeicherten Dokumente durch Kurzreferate aus Schlüsselwörtern ersetzt.

Zusammenfassung der Erfindung

Eine Aufgabe der Erfindung besteht darin, eine Methode zur Identifizierung der Sprache, in der ein bestimmtes Dokument geschrieben ist, zu liefern.

Eine weitere Aufgabe der Erfindung besteht darin, eine Methode zu liefern, mit deren Hilfe Dokumente in einer bestimmten Sprache dem Inhalt nach aus einer Datenbank herausgesucht werden können.

Eine weitere Aufgabe der Erfindung ist es, eine Methode zu liefern, mit deren Hilfe Dokumente in einer Datenbank ihrer Sprache nach sortiert werden können.

Eine weitere Aufgabe der Erfindung ist es, eine Methode zu liefern, mit deren Hilfe Dokumente in einer Datenbank ihrem Inhalt nach sortiert werden können.

Diese Aufgaben werden durch eine neuartige Lösungsmöglich keit bei der Identifikation, beim Wiederauffinden und beim Sortieren von Dokumenten gelöst. Der Begriff Dokumente bezieht sich auf maschinenlesbaren Text, gesprochene Sprache oder Graphiken. Bei der vorliegenden Erfindung wird anstelle der üblichen schlüsselwort- oder kontextbezogenen Methode eine Mustererkennungstechnik verwendet, die auf Vergleichen von Zeichenfolgen n zwischen den Dokumenten beruht. Durch Herausrechnen der Häufigkeitszahl beim Vergleich zwischen den Dokumenten einer Datenbank wird eine sensitive Selektion der Dokumente ermöglicht, während gleichzeitig der Speicher platzbedarf (im Vergleich zu den Methoden mittels Schlüssel wort und Wörterbuch) verringert und die Leistung erhöht wird. Der Benutzer kann die Schwelle setzen, die dazu dient, herauszufinden, ob Dokumente ähnlich sind.

Kurze Beschreibung der Zeichnungen

Abb. 1 ist ein Ablaufdiagramm des Sprachenidentifi zierungsalgorithmus.

Abb. 2 ist ein Ablaufdiagramm des Identifizierungs algorithmus für Sprache und Inhalt.

Tabelle 1 ist ein Beispiel eines Referenzdokuments für die grönländische Sprache, das alle einzelnen 2er-Zeichen folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge und die Gewichtung jeder 2er-Zeichenfolge zeigt.

Tabelle 2 ist ein Beispiel eines Referenzdokuments für die hawaiische Sprache, das alle einzelnen 2er-Zeichen folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge und die Gewichtung jeder 2er-Zeichenfolge zeigt.

Tabelle 3 ist eine Liste aller einzelnen 2er-Zeichenfolgen aus den Referenzdokumenten in Tabelle 1 und Tabelle 2, der Gewichtung für jede 2er-Zeichenfolge und der gemeinsamen Häufigkeitsgewichtung, die jede 2er-Zeichenfolge in den Referenzdokumenten aufweist.

Tabelle 3a ist eine Liste der von der gemeinsamen Häufig keitszahl bereinigten Gewichtungen für jede einzelne 2er- Zeichenfolge in dem grönländischen Referenzdokument.

Tabelle 3b ist eine Liste der von der gemeinsamen Häufig keitszahl bereinigten Gewichtungen für jede einzelne 2er- Zeichenfolge in dem hawaiischen Referenzdokument.

Tabelle 4 ist ein Beispiel für eine nicht identifizierte Sprache, das alle einzelnen 2er-Zeichenfolgen, die Häufig keit des Vorkommens jeder 2er-Zeichenfolge, die Gewichtung jeder 2er-Zeichenfolge und die von der Häufigkeitszahl bereinigte Gewichtung jeder 2er-Zeichenfolge zeigt.

Abb. 3 zeigt die Auswertung des nicht identifizierten Textes in Tabelle 4 gegenüber dem grönländischen Referenz dokument in Tabelle 1.

Abb. 4 ist ein Ablaufdiagramm für den Suchalgorithmus nach Sprache und Inhalt und

Abb. 5 ein Ablaufdiagramm für den Datenbank-Sortier algorithmus nach Sprache und Inhalt.

Beschreibung der bevorzugten Ausführungsarten

Diese Erfindung beschreibt ein Verfahren zum Kennzeichnen, Suchen und Sortieren von Dokumenten. Mit diesem Verfahren wird ein sensitives, schnelles und wirtschaftliches Ver fahren für die Identifikation einer Sprache, die Identi fikation des Inhalts, das Wiederauffinden und das Sortieren von Dokumenten geschaffen. In dieser Patentschrift und den anschließenden Patentansprüchen wird der Begriff Dokument in bezug auf eine Informationsmenge in maschinen lesbarem Format benutzt. Das Dokument kann aus Text, gesprochener Sprache oder Graphiken bestehen.

Das Verfahren dieser Erfindung kann leicht an jede beliebige Programmiersprache oder in Hardware implementiert werden, so daß so schwierige Aufgaben wie die Identifizierung der Inhalte von Dokumenten, sogar wenn diese Dokumente in Sprachen, die sich der Begriffsschrift bedienen, wie zum Beispiel Japanisch, abgefaßt sind, bewältigt werden können. Dieses System kann auch dazu benutzt werden, um Dokumente in einer Datenbank in gleiche Kategorien zu sortieren, ohne daß eine vorherige Identifikation der Kategorien oder der darin enthaltenen Dokumente erforder lich ist.

Anstatt auf Schlüsselwörter, Synonymtabellen oder text abhängige Informationen zu vertrauen, werden die Aufgaben dieser Erfindung mit Hilfe eines Mustererkennungsverfahrens gelöst. Die Erfindung geht von der Hypothese aus, daß Dokumente, die in Sprache und/oder Inhalt gleich sind, gleich aussehen, daß sie die Tendenz haben, viele der gleichen Zeichenfolgen n zu enthalten (also aufeinander folgendes Auftreten von Zeichen n). Sie sehen nicht nur hinsichtlich der Schlüsselwörter, sondern hinsichtlich aller benutzten Wörter gleich aus. Diese Hypothese läßt die ziemlich erstaunliche Schlußfolgerung zu, daß zuver lässig dadurch auf den Inhalt eines Dokuments geschlossen werden kann, daß die darin enthaltenen Zeichenfolgen n gezählt werden und das Ergebnis dieser Operation mit den gezählten Zeichenfolgen n, die in einem anderen ("Referenz-") Dokument vorkommen, verglichen wird.

Dieser Ausführungsweg erlaubt Vereinfachungen im Suchalgo rithmus, der zur Identifizierung einschlägiger Dokumente benutzt wird. Aus diesen Vereinfachungen ergibt sich die Möglichkeit, Dokumente unabhängig von der Sprache, in der sie abgefaßt sind, klassifizieren zu können. Es wird zudem eine hohe Fehlerquote ("Verstümmelung") im Original text toleriert. Die höchstzulässige Fehlerquote bei unähnlichen Sprachen ist höher als die höchstzulässige Fehlerquote bei ähnlichen Sprachen. Zum Beispiel kann die höchstzu lässige Fehlerquote bei einem Text in Suaheli im Vergleich mit einem schwedischen Text bis zu 25% betragen, ohne zu fehlerhaften Ergebnissen zu führen, während die höchst zulässige Fehlerquote bei einem russischen Text im Vergleich mit einem tschechischen Text nur bis zu 15% betragen darf, um nicht zu fehlerhaften Ergebnissen zu führen.

Abb. 1 stellt einen Sprachenidentifizierungsalgorithmus dar. Der erste Schritt besteht darin, den Text, der in einer nicht identifizierten Sprache abgefaßt ist, in Zeichenfolgen n zu zerlegen. Zeichenfolgen n sind auf einanderfolgend vorkommende Zeichen n, wobei n eine belie bige positive ganze Zahl größer als Null ist. Mittelmäßig lange Zeichenfolgen n (d. h. n < 3) sind üblicherweise informativer als kürzere Zeichenfolgen n, da sie meistens Informationen über die Wortstämme der in dem Text vorkommen den Wörter enthalten. Der zweite Schritt besteht darin, die Häufigkeit des Vorkommens der Zeichenfolgen n in dem nicht identifizierten Text mit der Häufigkeit des Vorkommens genau der gleichen Zeichenfolgen n in dem Text mit bekannten Sprachen zu vergleichen. Der nicht identifizierte Text wird dann als in der Sprache des Textes geschrieben iden tifiziert, mit dem der nicht identifizierte Text ab besten vergleichbar ist.

Die zulässigen Zeichen in den Zeichenfolgen n werden vom Benutzer festgelegt. Beispielsweise können die Bestandteile der Zeichenfolgen n für eine bestimmte Sprache auf die Buchstaben des Alphabets von gewünschten Sprachen und ein Leerzeichen (d. h. "_") beschränkt werden. Kleine Buchstaben können in Großbuchstaben umgewandelt werden, und mehrfache Leerzeichen können auf ein einziges Leer zeichen reduziert werden, um die Gesamtzahl der möglichen Zeichenfolgen n zu reduzieren. Die Zeichensetzung kann ebenfalls ignoriert werden, um den Speicherplatzbedarf zu minimieren und die Leistung zu erhöhen. Es können auch Zeichenketten ausgeschlossen oder durch ein vom Benutzer gewähltes Zeichen oder eine Zeichenkette ersetzt werden.

Abb. 2 stellt einen Algorithmus dar, der zum Identi fizieren der Sprache oder des Inhalts eines Dokuments benutzt wird. Der Festlegung des Algorithmus folgt zur Veranschaulichung ein einfaches Beispiel der damit ver bundenen wichtigsten Schritte.

Als Referenzdokumente werden bekannte Textbeispiele unter schiedlicher Sprachen und Inhalte erfaßt. Hinsichtlich der Form, die diese Referenzdokumente haben können, besteht keine Einschränkung. Es können Textproben aus jeder belie bigen Quelle benutzt werden. Die Anzahl der Referenzdoku mente und der in diesen Dokumenten enthaltenen Zeichen folgen n muß statistisch bedeutsam sein. Es wurde durch Versuche herausgefunden, daß zur Identifikation von Sprachen etwa zehn Dokumente mit je etwa eintausend Zeichen ein statistisch signifikanter Stichprobenumfang sind. Zur Identifikation von Inhalten in einer bestimmten Sprache, welche eine feinere Unterscheidung als die Identifikation von Sprachen darstellt, sind etwa fünfzig Dokumente mit je etwa eintausend Zeichen ein statistisch signifikanter Stichprobenumfang.

Die Referenzdokumente werden in Zeichenfolgen n analysiert. Dies geschieht dadurch, daß für jedes einzelne Referenz dokument eine gesonderte Liste aller jeweiligen Zeichen folgen n, die in dem Referenzdokument vorkommen, erstellt wird (wobei n üblicherweise auf einen Wert festgelegt wird, der sinnvoll ist, zum Beispiel n = 5). Das nicht identifizierte Dokument wird ebenfalls in eine Liste der einzelnen Zeichenfolgen n analysiert.

Jeder einzelnen Zeichenfolge n werden Gewichtungen zuge ordnet. Die Gewichtung richtet sich nach der relativen Häufigkeit des Vorkommens der jeweiligen Zeichenfolge n in dem entsprechenden Referenzdokument (d. h. der Anzahl der Male, die eine Zeichenfolge n in einem bestimmten Referenzdokument vorkommt, dividiert durch die Gesamtzahl der Häufigkeit des Vorkommens aller Zeichenfolgen n in diesem Referenzdokument). Es werden jeder Zeichenfolge n in jedem Referenzdokument und jeder Zeichenfolge n in dem nicht identifizierten Dokument Gewichtungen zugeordnet.

Danach wird die gemeinsame Häufigkeitszahl, die sich aus den Referenzdokumenten ergibt, sowohl aus den Referenzdoku menten als auch aus dem nicht identifizierten Dokument herausgerechnet. Dies geschieht dadurch, daß zunächst die in den Referenzdokumenten enthaltenen einzelnen Zeichen folgen n aufgelistet werden. Als zweites wird jeder ein zelnen Zeichenfolge n der Referenzdokumente eine gemein same Häufigkeitsgewichtung zugeordnet, die auf ihrer mittleren relativen Häufigkeit des Vorkommens basiert (d. h. die Summe aus den Einzelgewichtungen der jeweiligen Zeichenfolge n aus allen Referenzdokumenten, dividiert durch die Gesamtanzahl der Referenzdokumente) . Danach wird die gemeinsame Häufigkeitsgewichtung jeder Zeichenfolge n von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Referenzdokument und von der Gewichtung der ihr entsprechenden Zeichenfolge n in dem nicht identifizierten Dokument subtrahiert.

Das nicht identifizierte Dokument wird dann mit jedem der Referenzdokumente verglichen. Dies geschieht durch Auswertung des nicht identifizierten Dokuments gegenüber jedem der Referenzdokumente. Die Punktzahl für das nicht identifizierte Dokument in bezug auf ein Referenzdokument gibt den Grad der Ähnlichkeit zwischen beiden Dokumenten an.

Die Auswertung des nicht identifizierten Dokuments bedingt zuerst, wie oben angegeben, die Subtraktion der sich aus den Referenzdokumenten ergebenden gemeinsamen Häufigkeits gewichtung von der Gewichtung der ihr entsprechenden Zeichenfolge n in dem nicht identifizierten Dokument. Kommt eine Zeichenfolge n in dem nicht identifizierten Dokument, jedoch nicht in den Referenzdokumenten vor, so ist die gemeinsame Häufigkeitsgewichtung für diese Zeichenfolge n gleich Null. Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n des nicht identifizierten Dokuments (mit Ui bezeichnet) wird dann mit der von der gemeinsamen Häufigkeitszahl bereinigten Gewichtung der ihr entsprechenden Zeichenfolge n in einem bestimmten Referenzdokument (mit Ri bezeichnet) multipliziert. Diese Produkte werden sodann summiert (also "Summierung der Produkte").

Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich tung einer Zeichenfolge n in dem Referenzdokument wird danach quadriert (also Ri**2) . Diese quadrierten Glieder werden dann summiert. Danach wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n in dem nicht identifizierten Dokument quadriert (also Ui**2) . Diese quadrierten Glieder werden ebenfalls summiert. Anschließend werden diese beiden Summen miteinander multi pliziert und bilden somit ein "Produkt aus den Summierungen".

Die Punktzahl des nicht identifizierten Dokuments in bezug auf ein bestimmtes Referenzdokument ist schließlich die "Summierung der Produkte", dividiert durch die Quadrat wurzel des "Produkts aus den Summierungen".

Das nicht identifizierte Dokument wird gegenüber jedem der Referenzdokumente mit einer Punktzahl bewertet. Der Benutzer kann die Punktzahl-Schwelle festlegen, die er forderlich sein soll, damit ein Dokument als einem Referenz dokument hinsichtlich Sprache oder Inhalt ähnlich identi fiziert wird. Wenn eine vom Benutzer festgelegte Schwelle verwendet wird, kann es möglich sein, daß ein nicht iden tifiziertes Dokument nicht als mit irgendeinem der Referenz dokumente ähnlich identifiziert wird. Der Benutzer kann es vermeiden, eine solche Schwelle setzen zu müssen, wenn er zuläßt, daß das nicht identifizierte Dokument mit dem jenigen Referenzdokument identifiziert wird, das die höchste Punktzahl erreichte.

Die folgenden Beispiele veranschaulichen die numerischen Verarbeitungsschritte, die zu der Erfindung gehören. Diese Beispiele sind lediglich als beispielhaft für die einzelnen Schritte des Algorithmus anzusehen und dürfen nicht als die beanspruchte Erfindung einschränkend betrachtet werden.

Tabelle 1 zeigt ein Referenzdokument für die grönländische Sprache (nämlich "Nanok nunane issigtune"). Eine Vorver arbeitung des Beispiels ist nicht erforderlich. In diesem Beispiel werden Zweier-Zeichenfolgen benutzt. Um die Anzahl der möglichen 2er-Zeichenfolgen zu verringern, werden die kleinen Buchstaben in Großbuchstaben umgewandelt, und mehrfache Leerzeichen werden auf ein einziges Leer zeichen (d. h. "_") reduziert. Das grönländische Referenz dokument wird somit zu "NANOK_NUNANE_ISSIGTUNE".

In Tabelle 1 sind alle einzelnen 2er-Zeichenfolgen für das grönländische Referenzdokument aufgelistet. Diese sind NA, AN, NO, OK, K_, _N, NU, UN, NE, E_, _I, IS, SS, SI, IG, GT, TU. Jeder dieser 2er-Zeichenfolgen wird eine Ge wichtung zugeordnet. Man erhält die Gewichtung einer 2er- Zeichenfolge, indem man die Häufigkeit des Vorkommens der jeweiligen 2er-Zeichenfolge durch die Gesamtzahl der in dem Referenzdokument vorkommenden (möglicherweise nicht einmaligen) 2er-Zeichenfolgen dividiert (d. h. die Gewichtung der 2er-Zeichenfolge NA ist 2 : 21 = 0,095).

Tabelle 2 zeigt ein Referenzdokument für die hawaiische Sprache (nämlich "I hele mai nei au e hai") . Alle Referenz dokumente sind unter Anwendung der gleichen Struktur der Zeichenfolge n zu analysieren (d. h. 2er-Zeichenfolgen in diesem Beispiel) . Um die Zahl der möglichen 2er-Zeichen folgen zu verringern, werden wiederum die kleinen Buchstaben in Großbuchstaben umgewandelt und mehrfache Leerzeichen auf ein einziges Leerzeichen reduziert. Das hawaiische Referenzdokument wird somit zu "I_HELE_MAI_NEI_AU_E_HAI".

In Tabelle 2 sind alle einzelnen 2er-Zeichenfolgen für das hawaiische Referenzdokument aufgelistet. Diese sind I_, _H, HE, EL, LE, E_, _M, MA, AI, _N, NE, EI, _A, AU, U_, _E, HA. Jeder 2er-Zeichenfolge wird auf die gleiche Weise wie weiter oben für das grönländische Referenzdoku ment beschrieben eine Gewichtung zugeordnet (d. h. die Gewichtung der 2er-Zeichenfolge I_ ist 3 : 22 = 0,136).

Es besteht keine Notwendigkeit, daß die Anzahl der in den Referenzdokumenten enthaltenen Zeichenfolgen n gleich ist. Der Algorithmus erfordert keine Vorverarbeitung der Dokumente. Sogar die Umwandlung in Großbuchstaben und die Reduzierung mehrfacher Leerzeichen auf ein einziges Leerzeichen sind für eine einwandfreie Wirkungsweise dieser Erfindung nicht erforderlich. Diese Maßnahmen dienen ledig lich dem Zweck, die Leistung zu erhöhen und den Speicher platzbedarf zu reduzieren.

Die gemeinsame Häufigkeitszahl, die sich aus den Referenz dokumenten ergibt, wird nun herausgerechnet. Dies geschieht dadurch, daß zunächst alle einzelnen 2er-Zeichenfolgen in sämtlichen Referenzdokumenten, wie in Tabelle 3 gezeigt, aufgelistet werden (also NA, AN, NO, OK, K_, _N, NU, UN, NE, E_, _I, IS, SS, SI, IG, GT, TU, I_, _H, HE, EL, LE, _M, MA, AI, EI, _A, AU, U_, _E, HA). Danach werden die gemeinsamen Häufigkeitsgewichtungen für jede einzelne 2er- Zeichenfolge dadurch ermittelt, daß die Summe der Gewich tungen für jede 2er-Zeichenfolge aus allen Referenzen durch die Gesamtanzahl der Referenzdokumente dividiert wird. Beispielsweise ist die gemeinsame Häufigkeitsgewich tung für die 2er-Zeichenfolge NE (0,095+0,045) : 2 = 0,070, während die gemeinsame Häufigkeitsgewichtung für die 2er-Zeichenfolge NA (0,095+0) : 2 = 0,048 ist. Die 2er-Zeichenfolge NA hat in dem grönländischen Referenz dokument eine Gewichtung von 0,095, während sie in dem hawaiischen Referenzdokument eine Gewichtung von 0 hat, da sie in dem hawaiischen Referenzdokument nicht vorkommt.

Die gemeinsame Häufigkeitsgewichtung drückt die durchschnitt liche Verteilung einer bestimmten 2er-Zeichenfolge auf jedes der Referenzdokumente aus. Diese gemeinsame Häufig keitszahl wird sowohl aus den Referenzdokumenten als auch aus dem nicht identifizierten Dokument herausgerechnet, um ein Dokument besser von dem anderen unterscheiden zu können. Die gemeinsame Häufigkeitszahl wird aus der Gewich tung einer 2er-Zeichenfolge in einem Dokument herausgerech net, indem die gemeinsame Häufigkeitsgewichtung von der Gewichtung der entsprechenden 2er-Zeichenfolge in diesem Dokument subtrahiert wird. Zum Beispiel ist die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der 2er-Zeichenfolge NE in dem grönländischen Referenzdokument 0,095-0,070 = 0,025. Die von der gemeinsamen Häufigkeits zahl bereinigte Gewichtung der 2er-Zeichenfolge NE in dem hawaiischen Referenzdokument beträgt 0,045-0,070 = -0,025. Durch den Verarbeitungsschritt des Herausrechnens der gemeinsamen Häufigkeitszahl wird die Leistung gesteigert und das Verfahren der Identifizierung von Dokumenten er leichtert.

In Tabelle 3 ist auch die gemeinsame Häufigkeitsgewichtung jeder einzelnen 2er-Zeichenfolge aus den Referenzdokumenten aufgeführt. Diese gemeinsamen Häufigkeitsgewichtungen werden dann aus der Gewichtung der entsprechenden 2er- Zeichenfolge in jedem Referenzdokument und aus dem nicht identifizierten Dokument herausgerechnet. In Tabelle 3a sind die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen für die einzelnen 2er-Zeichenfolgen in Grön ländisch aufgelistet, während in Tabelle 3b die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen für die einzelnen 2er-Zeichenfolgen in Hawaiisch aufgelistet sind. Die von der gemeinsamen Häufigkeitszahl bereinigten Gewichtungen eines bestimmten Referenzdokuments werden dann dazu benutzt, um eine Punktzahl für die Übereinstimmung des Referenzdokuments mit einem nicht identifizierten Dokument zu errechnen.

Tabelle 4 zeigt ein Beispiel für einen Text, der in einer nicht identifizierten Sprache geschrieben ist (nämlich "Martsime nanut"). Der nicht identifizierte Text ist in die gleiche Struktur der Zeichenfolgen n wie die Referenz dokumente (d. h. 2er-Zeichenfolgen) zu analysieren. Um die Anzahl der möglichen 2er-Zeichenfolgen zu verringern, werden wiederum die kleinen Buchstaben in Großbuchstaben umgewandelt und mehrfache Leerzeichen auf ein einziges Leerzeichen reduziert. Das nicht identifizierte Dokument wird somit zu "MARTSIME_NANUT".

Sämtliche einzelnen 2er-Zeichenfolgen in dem nicht identi fizierten Dokument, wie in Tabelle 4 aufgeführt, lauten MA, AR, RT, TS, SI, IM, ME, E_, _N, NA, AN, NU, UT. Jeder 2er-Zeichenfolge wird eine Gewichtung zugeordnet. Die Gewichtung einer 2er-Zeichenfolge wird wiederum dadurch ermittelt, daß die Häufigkeit des Vorkommens dieser 2er- Zeichenfolge durch die Gesamtzahl der in dem nicht identi fizierten Text enthaltenen 2er-Zeichenfolgen dividiert wird (d. h. die Gewichtung von MA in dem unidentifizierten Text ist 1 : 13 = 0,077). Danach werden die Häufigkeits gewichte der Referenzdokumente von den dazugehörigen 2er- Zeichenfolgen in den nicht identifizierten Dokumenten subtrahiert (siehe Tabelle 4).

In Abb. 3 wird eine Punktzahl, die die Übereinstimmung des nicht identifizierten Textes mit dem grönländischen Referenzdokument ausdrückt, errechnet. Die Gleichung für diese Berechnung lautet wie folgt:

worin Ui die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung einer 2er-Zeichenfolge in dem nicht identifi zierten Text und Ri die von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der entsprechenden 2er-Zeichenfolge in dem grönländischen Referenzdokument ausdrückt, welches mit dem nicht identifizierten Dokument verglichen wird.

Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich tung der 2er-Zeichenfolgen in dem nicht identifizierten Text wird mit der ihr entsprechenden, von der gemeinsamen Häufigkeitszahl bereinigten Gewichtung in dem grönländischen Referenzdokument multipliziert. Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem grönländischen Referenzdokument wird danach quadriert. Diese quadrierten Glieder werden dann summiert. Danach wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem nicht identifizierten Dokument quadriert. Diese quadrierten Glieder werden dann summiert. Diese Summen werden miteinander multipliziert und bilden ein "Produkt aus den Summierungen".

Die Punktzahl des nicht identifizierten Dokuments in bezug auf das grönländische Referenzdokument ist schließlich die "Summierung der Produkte", dividiert durch die Quadrat wurzel des "Produkts aus den Summierungen". Das Ergebnis, wie in Abb. 3 gezeigt, ist eine Punktzahl, die die Ähnlichkeit zwischen dem nicht identifizierten Text und dem grönländischen Referenzdokument ausdrückt.

Eine Punktzahl, die die Ähnlichkeit ausdrückt, wird für jedes Referenzdokument errechnet. Das Dokument kann entweder als dem Referenzdokument ähnlich, das die höchste Punktzahl erreichte, oder aber als dem Referenzdokument ähnlich identifiziert werden, das eine Punktzahl erreichte, die eine vom Benutzer gewählte Schwelle überschreitet. Bei der letzteren Möglichkeit wird eine Identifikation nicht erzwungen (das heißt, das nicht identifizierte Dokument kann gegebenenfalls nicht als einem der Referenzdokumente ähnlich identifiziert werden). Ebenso kann das nicht identi fizierte Dokument bei der letzteren Möglichkeit gegebenen falls als mehreren Referenzdokumenten ähnlich identifiziert werden, falls diese Referenzdokumente eine Punktzahl er reichen, die die vom Benutzer gewählte Schwelle überschreitet.

Gewisse Suchwörter in einer bestimmten Sprache, wie beispiels weise "is", "the", "and", "with", "for" usw. im Englischen, die zur Identifikation der Sprache geeignet sind, sind normalerweise zur Identifikation des Inhalts wertlos. Diese Erfindung löst die Aufgabe, Unterschiede zwischen den Dokumenten in bezug auf den Inhalt herauszufinden, dadurch, daß die gemeinsame Häufigkeitszahl unter den Dokumenten herausgerechnet wird.

Das Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus den Dokumenten ergibt, beinhaltet, daß der Mittel wert der Häufigkeit des Vorkommens für jede Zeichenfolge n in allen Dokumenten errechnet wird und dann diese Mittel werte von der Häufigkeit des Vorkommens für jede entspre chende Zeichenfolge n in jedem Dokument subtrahiert werden. Das Herausrechnen der gemeinsamen Häufigkeitszahl verein facht die Aufgabe herauszufinden, ob ein Dokument einem anderen Dokument ähnlich ist. Die Sensitivität in bezug auf die Inhaltsbestimmung wird ohne jedes menschliche Zutun unabhängig von der Sprache des Dokuments erreicht. Der Benutzer kann wiederum eine Schwelle setzen, um fest zulegen, wann sich die Dokumente bezüglich des Inhalts ähnlich sind.

Dieser Algorithmus arbeitet in jeder beliebigen Sprache gleich gut, die Identifikation des Inhalts funktioniert jedoch nur, wenn Dokumente miteinander verglichen werden, die in einer gemeinsamen Sprache abgefaßt sind (oder in mehreren eng miteinander verwandten Sprachen). Dies liegt darin begründet, weil der Inhalt mit dem von den Zeichen folgen n erstellten Muster in Zusammenhang steht. Das von den Zeichenfolgen n erstellte Muster wird durch die Sprache des Dokuments gesteuert.

Die Identifikation des Inhalts kann in Sprachen, die relativ wenige Buchstaben haben, wie zum Beispiel Englisch, ebenso problemlos durchgeführt werden wie in Sprachen, die viele Schriftzeichen haben, wie zum Beispiel Sprachen mit Begriffs schrift (z. B. Japanisch). Ohne theoretisieren zu wollen, wird die Ansicht vertreten, daß die vorteilhaften Wirkungen dieser Erfindung realisiert sind, da der Inhalt eines Dokuments mit Hilfe der verwendeten Zeichenfolgen n aus gewertet wird. Die Identifikation des Inhalts wird so eine Frage der Festlegung, wie ähnlich die Dokumente in bezug auf die verwendeten Zeichenfolgen n sind.

Abb. 4 stellt den Algorithmus dar, der dazu benutzt wird, um die Dokumente aus einer Datenbank wiederaufzufinden. Die Dokumente sind in bezug auf eine gewünschte Sprache oder einen gewünschten Inhalt wiederauffindbar.

Eine Datenbank enthält üblicherweise zahlreiche Dokumente, die viele Inhalte betreffen und in unterschiedlichen Sprachen abgefaßt sind. Es besteht keine Notwendigkeit, daß diese Dokumente irgendeine bestimmte Form haben müssen. Für jedes Dokument der Datenbank wird ein Datenfeld mit den Zeichenfolgen n angelegt. Dies geschieht dadurch, daß für jedes Dokument der Datenbank eine Liste mit den ein zelnen Zeichenfolgen n, die in diesem Dokument vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens einer Zeichenfolge n in einem bestimmten Dokument bestimmt (d. h. die Anzahl der Male, die eine Zeichenfolge n in einem bestimmten Dokument vor kommt, dividiert durch die Gesamtzahl der Häufigkeit des Vorkommens aller Zeichenfolgen n in diesem Dokument). Die Gewichtungen werden dann jeder Zeichenfolge n in jedem Dokument der Datenbank zugeordnet.

Die gemeinsame Häufigkeitszahl, die sich aus allen Doku menten der Datenbank ergibt, wird dann bei den Dokumenten der Datenbank und der Abfrage herausgerechnet. Dies geschieht dadurch, daß zunächst alle einzelnen Zeichenfolgen n in allen Dokumenten aufgelistet werden. Als zweites wird jeder einzelnen Zeichenfolge n eine gemeinsame Häufigkeits gewichtung zugeordnet, die auf ihrer mittleren relativen Häufigkeit des Vorkommens basiert. Die gemeinsame Häufig keitsgewichtung für jede Zeichenfolge n wird danach von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Dokument der Datenbank und von der Gewichtung der ihr entsprechenden Zeichenfolge n in der Abfrage subtrahiert.

Die Abfrage wird vom Benutzer vorgeschlagen. Die Abfrage beinhaltet die Art des Dokuments, das der Benutzer aus der Datenbank heraussuchen möchte (d. h. Dokumente ähn lichen Inhalts oder gleicher Sprache) . Hinsichtlich der Form, die die Abfrage haben muß, gibt es keine Erforder nisse.

Es ist zu beachten, daß eine Abfrage zu einem interessieren den Thema dazu führt, daß Dokumente zu dem Thema herausge sucht werden, die in der Sprache der Abfrage geschrieben sind. Dokumente zu diesem Thema, die in einer anderen Sprache als der der Abfrage geschrieben sind, werden normalerweise nicht gefunden. Dies liegt darin begründet, daß unterschiedliche Sprachen üblicherweise unterschied liche Zeichenfolgen n verwenden, um das gleiche Thema darzustellen.

Die Abfrage wird anschließend in Zeichenfolgen n analysiert. Dies geschieht dadurch, daß eine Liste aller einzelnen Zeichenfolgen n, die in der Abfrage vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n in der Abfrage werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens dieser Zeichenfolge n in der Abfrage bestimmt. Danach werden die gemeinsamen Häufig keitsgewichtungen von den entsprechenden 2er-Zeichenfolgen in der Abfrage subtrahiert. Die Abfrage wird dann mit jedem Dokument der Datenbank verglichen, wobei die Abfrage gegenüber jedem Dokument der Datenbank ausgewertet wird.

Die Auswertungspunktzahl erhält man dadurch, daß zunächst jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich tung einer Zeichenfolge n in der Abfrage (z. B. Qi) mit der von der gemeinsamen Häufigkeitszahl bereinigten Gewich tung der ihr entsprechenden Zeichenfolge n in einem be stimmten Dokument der Datenbank (z. B. Di) multipliziert wird. Diese Produkte werden dann summiert (also "Summierung der Produkte").

Danach wird jede Zeichenfolge n in dem Dokument der Daten bank quadriert (z. B. Di**2). Diese quadrierten Glieder werden dann summiert. Anschließend wird jede Zeichenfolge n in der Abfrage quadriert (z. B. Qi**2). Diese quadrierten Glieder werden dann summiert. Danach werden diese Summen miteinander multipliziert und bilden so ein "Produkt aus den Summie rungen".

Die Auswertungspunktzahl des Dokuments der Datenbank in bezug auf die Abfrage ist schließlich die "Summierung der Produkte", dividiert durch die Quadratwurzel des "Produkts aus den Summierungen".

Es wird für jedes Dokument der Datenbank eine Auswertungs punktzahl in bezug auf die Abfrage errechnet. Der Benutzer definiert die Schwellen-Punktzahl, die benutzt wird, um zu ermitteln, ob ein Dokument der Datenbank der Abfrage hinsichtlich Sprache oder Inhalt ähnelt.

Die obengenannten Beispiele für die bei der Identifikation von Sprachen anfallenden Verarbeitungsschritte können auch für die Beschreibung der Verarbeitungsschritte ange wandt werden, die bei diesem Algorithmus anfallen, mit dessen Hilfe die Dokumente aus einer Datenbank herausge sucht werden.

Zeichenfolgen n können ebenfalls dazu benutzt werden, um die Probleme zu lösen, die mit dem Sortieren von Doku menten in einer Datenbank nach Kategorien, die gleiche Dokumente enthalten, verbunden sind. Der Algorithmus der vorliegenden Erfindung bedarf keinerlei Anleitung durch den Benutzer und über die oben beschriebene hinaus keiner weiteren Vorverarbeitung bei der Datenbank. Die Datenbank kann nach Sprach- oder Inhaltskategorien sortiert werden. Die Dokumente können leicht mit Querverweisen auf verschie dene Kategorien versehen werden (d. h. ein Dokument kann sowohl nach einer bestimmten Sprachkategorie als auch nach einer bestimmten Inhaltskategorie sortiert werden).

Abb. 5 stellt den Algorithmus dar, der benutzt wird, um Dokumente einer Datenbank nach Kategorien zu sortieren. Die Dokumente können in bezug auf eine Sprache oder einen Inhalt sortiert werden. Eine Datenbank enthält üblicher weise zahlreiche Dokumente. Diese Dokumente können sich mit verschiedenen Themen befassen und können in unterschied lichen Sprachen geschrieben sein. Es besteht keine Not wendigkeit, daß diese Dokumente irgendeine bestimmte Form haben müssen.

Für jedes Dokument einer Datenbank wird ein Datenfeld mit den Zeichenfolgen n angelegt. Dies geschieht dadurch, daß für jedes Dokument der Datenbank eine gesonderte Liste mit den einzelnen Zeichenfolgen n, die in diesem Dokument vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n werden Gewichtungen zugeordnet. Die Gewichtung wird durch die Häufigkeit des Vorkommens dieser Zeichenfolge n in dem bestimmten Dokument bestimmt. Die Gewichtungen werden dann jeder Zeichenfolge n in jedem Dokument der Datenbank zugeordnet.

Die gemeinsame Häufigkeitszahl, die sich aus den Dokumenten der Datenbank ergibt, wird dann bei jedem Dokument der Datenbank herausgerechnet. Dies geschieht dadurch, daß zunächst die einzelnen Zeichenfolgen n, die in den Doku menten vorkommen, aufgelistet werden (d. h. hierbei werden die getrennten Dokumente der Datenbank vorübergehend als ein großes Dokument angesehen, wobei dann die einzelnen Zeichenfolgen n, die in diesem einen Dokument vorkommen, aufgelistet werden). Als zweites wird jeder Zeichenfolge n eine gemeinsame Häufigkeitsgewichtung zugeordnet, die auf der Häufigkeit des Vorkommens basiert (d. h. die Gesamt zahl der Häufigkeit des Vorkommens dieser bestimmten Zeichen folge n in allen Dokumenten der Datenbank, dividiert durch die Gesamtzahl der einzelnen Zeichenfolgen n in allen Dokumenten der Datenbank). Jede gemeinsame Häufigkeits gewichtung wird durch die Gesamtanzahl der Dokumente der Datenbank dividiert. Danach wird die gemeinsame Häufigkeits gewichtung jeder Zeichenfolge n von der Gewichtung der ihr entsprechenden Zeichenfolge n in jedem Dokument der Datenbank subtrahiert.

Anschließend wird jedes Dokument der Datenbank mit jedem der anderen Dokumente der Datenbank verglichen. Dies ge schieht dadurch, daß jedes Dokument der Datenbank gegenüber jedem der anderen Dokumente der Datenbank ausgewertet wird. Die Auswertung besteht darin, daß zunächst jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n von einem Dokument der Datenbank (z. B. D1i) mit der ihr entsprechenden von der gemeinsamen Häufig keitszahl bereinigten Gewichtung der Zeichenfolge n von dem Dokument der Datenbank, das verglichen wird (z. B. D2i), multipliziert wird. Danach werden diese Produkte summiert und bilden somit eine "Summierung der Produkte".

Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich tung der Zeichenfolge n in dem ersten Dokument der Daten bank wird dann quadriert (z. B. D1i**2). Diese quadrierten Glieder werden summiert. Dann wird jede von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n in dem zweiten Dokument der Datenbank, das mit dem ersten Dokument der Datenbank verglichen wird, quadriert (z. B. D2i**2) . Diese quadrierten Glieder werden summiert. An schließend werden diese Summen miteinander multipliziert und bilden somit ein "Produkt aus den Summierungen".

Die Auswertungspunktzahl des ersten Dokuments der Datenbank im Vergleich zu dem zweiten Dokument der Datenbank ist schließlich die "Summierung der Produkte", dividiert durch die Quadratwurzel des "Produkts aus den Summierungen".

Es wird für jedes Dokument der Datenbank im Vergleich zu jedem der anderen Dokumente der Datenbank eine Auswertungs punktzahl errechnet. Der Benutzer definiert den Schwellen wert, der von der Punktzahl erreicht werden muß, damit die beiden Dokumente, die miteinander verglichen werden, als ähnlich gelten. Ähnliche Dokumente werden dann in gleiche Kategorien in bezug auf Sprache oder Inhalt sortiert.

Die obengenannten Beispiele für die bei der Identifikation von Sprachen anfallenden Verarbeitungsschritte können auch zur Beschreibung der Verarbeitungsschritte, die bei diesem Algorithmus für das Sortieren von Dokumenten einer Datenbank anfallen, Anwendung finden.

Die Forschung konzentriert sich bei der Textverarbeitung gegenwärtig auf die inhaltsbezogene (d. h. linguistische) Analyse. Die vorliegende Erfindung konzentriert sich einzig und allein auf eine Analyse zur Mustererkennung (d. h. nichtlinguistische Analyse). Es werden bei der vorliegenden Erfindung keinerlei zusätzliche Informationen, die die Syntax, Semantik oder Grammatik betreffen, benötigt. Die Vorzüge bei der Verwendung einer Analyse von Zeichenfolgen n für die Identifikation von Inhalten sind bis heute noch nicht in vollem Umfange erkannt worden.

Die Identifikationsmethode für Inhalte gemäß dieser Erfin dung funktioniert in jeder beliebigen Sprache gleich leicht (jedoch in jeweils nur einer Sprache). Das System kann von jemandem, der die Sprache des Textes nicht lesen kann, gestartet werden und erfordert keine spezielle Schulung. Verstümmelter Text (also Text, der Fehler enthält) ist für das System unschädlich. Der Benutzer setzt eine Schwelle zur Bewertung, ob Dokumente ähnlich sind. Nicht informative gemeinsame Häufigkeitszahlen werden automatisch aus den Dokumenten herausgerechnet.

Es können Veränderungen und Variationen bei den im einzelnen beschriebenen Ausführungsarten, insbesondere bei der zur Implementierung dieser Erfindung benutzten Programmier sprache und der spezifischen Formel für die Punktzahl zur Auswertung der Übereinstimmung, die sich aus den Ge wichtungen der Zeichenfolgen n ableitet, vorgenommen werden; der Schutzumfang der Erfindung, der nur durch den inhaltlichen Umfang der beigefügten Ansprüche eingeschränkt werden darf, bleibt davon unberührt.

Beansprucht wird:

Tabelle 1

Referenz grönländische Sprache: NANOK_NUANE_ISSIGTUNE

Tabelle 2

Referenz hawaiische Sprache: I_HELE_MAI_NEI_AU_E_HAI

Tabelle 3

Gemeinsame Häufigkeitsgewichtungen für 2er-Zeichenfolgen in den Referenzdokumenten

Tabelle 3a

Von der gemeinsamen Häufigkeitszahl bereinigte Gewichtungen für das grönländische Referenzdokument

Tabelle 3b

Von der gemeinsamen Häufigkeitszahl bereinigte Gewichtungen für das hawaiische Referenzdokument

Tabelle 4

Nicht identifiziertes Dokument: MARTSIME_NANUT

Claims

1. Verfahren zur Bestimmung der Sprache eines bestimmten Textes, bestehend aus folgenden Verarbeitungsschritten:

a) Zerlegen dieses Textinhalts in eine Vielzahl von Zeichen folgen n, von denen jede Zeichenfolge n den Inhalt von n aufeinanderfolgenden Zeichen-/Leerzeichenstellen dieses Textinhalts enthält, wobei n einen Wert von wenigstens Eins hat;
b) Vergleichen jeder dieser Zeichenfolgen n mit Zeichenvorräten aus einer Vielzahl von Zeichenfolgen n, worin jeder Zeichen vorrat aus Zeichenfolgen n eine unterschiedliche Sprache darstellt; und
c) Identifizieren der Sprache dieses Textinhalts als in der Sprache eines bestimmten Zeichenvorrats aus Zeichenfolgen n geschrieben, wenn der Abgleichungsprozentsatz bei Schritt b) für einen bestimmten Zeichenvorrat aus Zeichenfolgen n wenigstens gleich dem für diesen Zeichenvorrat aus Zeichen folgen n vorgeschriebenen Wert ist und größer als der Abgleichungsprozentsatz bei Schritt (b) für die anderen Zeichenvorräte aus Zeichenfolgen n ist.

2. Verfahren zum Identifizieren eines Dokuments, bestehend aus folgenden Verarbeitungsschritten;

a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen folge n aus wenigstens einem aufeinanderfolgenden Dokumen tenelement besteht;
b) Zerlegen eines nicht identifizierten Dokuments, das maschinenlesbares Format hat, in eine Vielzahl von Zeichen folgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
c) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
d) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (b),
e) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus dieser Vielzahl von Bezugsdatenfeldern ergibt;
f) Vergleichen jeder Zeichenfolge n des nicht identifizierten Dokuments mit jeder Zeichenfolge n dieser Bezugsdatenfelder, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen diesem nicht identifi zierten Dokument und jedem dieser Bezugsdatenfelder an geben; und
g) Identifizieren des nicht identifizierten Dokuments als wenigstens einem Dokument aus der Vielzahl der in Schritt (a) aufgelisteten Referenzdokumente ähnlich, wenn eine Auswertungspunktzahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert für die Bezugsdaten felder ist.

3. Verfahren nach Anspruch 2, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;

a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Referenzdokument vorkommen; und
b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n dieses Referenzdokuments.

4. Verfahren nach Anspruch 3, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Referenzdokuments wie folgt durch geführt wird;

a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Referenzdokument;
b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Referenzdokument; und
c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als die Gewichtung dieser Zeichenfolge n.

5. Verfahren nach Anspruch 4, bei dem der Verarbeitungs schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;

a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Referenzdokumente vorkommen;
b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Referenzdokumente darstellt;
c) Dividieren jeder Summe von Schritt (b) durch die Gesamt anzahl der Referenzdokumente; und
d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Referenzdokumente.

6. Verfahren nach Anspruch 5, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des nicht identifizierten Dokuments wie folgt durchgeführt wird;

a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem nicht identifizierten Dokument;
b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem nicht identifizierten Dokument;
c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre chenden Zeichenfolge n als Gewichtung für diese Zeichen folge n.

7. Verfahren nach Anspruch 6, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer tungspunktzahlen wie folgt durchgeführt wird;

a) Multiplizieren der Gewichtung einer Zeichenfolge n in dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in einem der Bezugsdaten felder;
b) Wiederholen von Schritt (a) , bis die Gewichtung jeder Zeichenfolge aus dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n, falls vorhanden, in dem Bezugsdatenfeld multipliziert ist;
c) Summierung der Produkte aus den Schritten (a) und (b);
d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem nicht identifizierten Dokument;
e) Summieren der Quadratzahlen von den Gewichtungen des nicht identifizierten Dokuments von Schritt (d);
f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung des nicht identifizierten Dokuments mit dem Referenzdokument von Schritt (a) zu errechnen; und
k) Wiederholen der Schritte (a) bis (j) für die Vielzahl der Referenzdokumente, um eine Punktzahl für die Überein stimmung des nicht identifizierten Dokuments mit der Viel zahl der Referenzdokumente zu errechnen.

8. Verfahren nach Anspruch 7, bei dem der vorgenannte Verarbeitungsschritt des Zerlegens wie folgt durchgeführt wird;

a) Begrenzen der zulässigen Dokumentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen;
b) Ersetzen der vom Benutzer definierten Dokumentenelement strings, die aus wenigstens einem Dokumentenelement bestehen, durch vom Benutzer definierte Elementstrings, die aus wenigstens einem Dokumentenelement bestehen; und
c) Löschen der vom Benutzer definierten Dokumentenelement strings.

9. Verfahren nach Anspruch 8, bei dem der vorgenannte Verarbeitungsschritt der Begrenzung der zulässigen Doku mentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen derart durchgeführt wird, daß die zu lässigen Dokumentenelemente auf Buchstaben aus einer Viel zahl von Sprachen beschränkt werden.

10. Das Verfahren nach Anspruch 9, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung eines nicht iden tifizierten Dokuments zur Identifizierung der Sprache dieses nicht identifizierten Dokuments führt.

11. Verfahren nach Anspruch 9, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung eines nicht iden tifizierten Dokuments zur Identifizierung des Inhalts dieses nicht identifizierten Dokuments führt.

12. Verfahren zum Wiederauffinden von Dokumenten, bestehend aus folgenden Verarbeitungsschritten;

a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen folge n aus wenigstens einem aufeinanderfolgenden Dokumen tenelement besteht;
b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Bezugsdatenfelder von Schritt (a) ergibt;
d) Zerlegen einer Abfrage, die maschinenlesbares Format hat, in eine Vielzahl von Zeichenfolgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
e) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (d);
f) Vergleichen jeder Zeichenfolge n der Abfrage von Schritt (d) mit den Zeichenfolgen n von jedem Datenfeld aus der Vielzahl der Bezugsdatenfelder von Schritt (a) , um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen der Abfrage und jedem Dokument aus der Vielzahl der Referenzdokumente angeben; und
g) Identifizieren einer Vielzahl von Referenzdokumenten, die der Abfrage ähnlich sind, wenn eine Auswertungspunkt zahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert ist.

13. Verfahren nach Anspruch 12, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;

14. Verfahren nach Anspruch 13, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Referenzdokuments wie folgt durch geführt wird;

a) Zählen der Häufigkeit des Vorkommens jeder Zeichenfolge n in dem Referenzdokument;
b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Referenzdokument; und
c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.

15. Verfahren nach Anspruch 14, bei dem der Verarbeitungs schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;

16. Verfahren nach Anspruch 15, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n der Abfrage wie folgt durchgeführt wird;

a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in der Abfrage;
b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in der Abfrage;
c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre chenden Zeichenfolge n als Gewichtung für diese Zeichen folge n.

17. Verfahren nach Anspruch 16, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer tungspunktzahlen wie folgt durchgeführt wird;

a) Multiplizieren der Gewichtung einer Zeichenfolge n in der Abfrage mit der Gewichtung der entsprechenden Zeichen folge n in einem der Bezugsdatenfelder;
b) Wiederholen von Schritt (a) , bis alle Gewichtungen der Zeichenfolgen n aus der Abfrage mit den Gewichtungen der entsprechenden Zeichenfolgen n in dem Bezugsdatenfeld multipliziert sind;
c) Summierung der Produkte aus den Schritten (a) und (b);
d) Quadrieren der Gewichtung jeder Zeichenfolge n in der Abfrage;
e) Summieren der Quadratzahlen von den Gewichtungen der Abfrage von Schritt (d);
f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung der Abfrage mit der Referenzinformation von Schritt (a) zu errechnen; und
k) Wiederholen der Schritte (a) bis (j) für jedes Dokument aus der Vielzahl der Referenzdokumente, um eine Punktzahl für die Übereinstimmung der Abfrage mit jedem Dokument aus der Vielzahl der Referenzdokumente zu errechnen.

18. Verfahren nach Anspruch 17, bei dem der vorgenannte Verarbeitungsschritt des Analysierens wie folgt durchgeführt wird;

19. Verfahren nach Anspruch 18, bei dem der vorgenannte Verarbeitungsschritt der Begrenzung der zulässigen Doku mentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen derart durchgeführt wird, daß die zulässigen Dokumentenelemente auf Buchstaben aus einer Vielzahl von Sprachen beschränkt werden.

20. Verfahren nach Anspruch 19, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung einer Vielzahl von Referenzdokumenten als der Abfrage ähnlich, die maschinenlesbares Format hat, dadurch erfolgt, daß eine Vielzahl von Referenzdokumenten als mit der Sprache dieser Abfrage übereinstimmend identifiziert wird.

21. Verfahren nach Anspruch 19, bei dem der vorgenannte Verarbeitungsschritt der Identifizierung einer Vielzahl von Referenzdokumenten als der Abfrage ähnlich dadurch erfolgt, daß eine Vielzahl von Referenzdokumenten als mit dem Inhalt dieser Abfrage übereinstimmend identifiziert wird.

22. Verfahren zum Sortieren von Dokumenten, bestehend aus folgenden Verarbeitungsschritten;

a) Anlegen eines Datenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Dokumenten, die maschinen lesbares Format haben, wobei jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Informationselement besteht;
b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a);
c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Datenfelder ergibt;
d) Vergleichen jedes Datenfeldes mit allen anderen Datenfel dern, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen jedem dieser Datenfelder angeben; und
e) Sortieren dieser Dokumente nach Kategorien, basierend auf den Auswertungspunktzahlen von Schritt (d) und einer vom Benutzer definierbaren Toleranz.

23. Verfahren nach Anspruch 22, bei dem der vorgenannte Verarbeitungsschritt des Anlegens eines Datenfeldes mit Zeichenfolgen n wie folgt durchgeführt wird;

a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Dokument vorkommen; und
b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a).

24. Verfahren nach Anspruch 23, bei dem der vorgenannte Verarbeitungsschritt der Zuordnung einer Gewichtung zu jeder Zeichenfolge n des Datenfeldes wie folgt durchgeführt wird;

a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Dokument;
b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Dokument; und
c) Zuordnen jedes Quotienten von Schritt (b) zu der entspre chenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.

25. Verfahren nach Anspruch 24, bei dem der Verarbeitungs schritt des Herausrechnens der gemeinsamen Häufigkeitszahl wie folgt durchgeführt wird;

a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Dokumente vorkommen;
b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Dokumente darstellt;
c) Dividieren jeder Summe durch die Gesamtanzahl der Dokumente; und
d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Dokumente.

26. Verfahren nach Anspruch 25, bei dem der vorgenannte Vergleichsschritt zur Erstellung einer Liste mit Auswer tungspunktzahlen wie folgt durchgeführt wird;

a) Multiplizieren der Gewichtung einer Zeichenfolge n in einem Dokument aus der Vielzahl der Dokumente mit der Gewichtung der entsprechenden Zeichenfolge n in einem anderen Dokument aus der Vielzahl der Dokumente;
b) Wiederholen von Schritt (a) , bis jede Gewichtung der Zeichenfolge n in dem ersten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in dem zweiten Dokument multipliziert ist;
c) Summierung der Produkte aus den Schritten (a) und (b);
d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem ersten Dokument;
e) Summieren der Quadratzahlen von den Gewichtungen des ersten Dokuments in Schritt (d);
f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem zweiten Dokument von Schritt (a);
g) Summieren der Quadratzahlen von den Gewichtungen des zweiten Dokuments in Schritt (f);
h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung des ersten Dokuments mit dem zweiten Dokument von Schritt (a) zu errechnen; und
k) Wiederholen der Schritte (a) bis (j) für jedes Dokument, um eine Punktzahl für die Übereinstimmung jedes Dokuments mit jedem Dokument aus der Vielzahl der Dokumente zu errechnen.