DE4232507A1 - Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten - Google Patents
Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von DokumentenInfo
- Publication number
- DE4232507A1 DE4232507A1 DE4232507A DE4232507A DE4232507A1 DE 4232507 A1 DE4232507 A1 DE 4232507A1 DE 4232507 A DE4232507 A DE 4232507A DE 4232507 A DE4232507 A DE 4232507A DE 4232507 A1 DE4232507 A1 DE 4232507A1
- Authority
- DE
- Germany
- Prior art keywords
- document
- string
- documents
- strings
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
Diese Erfindung bezieht sich auf ein Dokumentationssystem,
insbesondere auf ein Dokumentationssystem, das in der Lage
ist, Volltext-Recherchen durchzuführen, ohne daß dabei
schlüsselwort- oder kontextbezogene Informationen erforder
lich sind. Diese Methode kann dazu benutzt werden, um
Dokumente ihrem Inhalt oder ihrer Sprache nach zu kenn
zeichnen, wiederaufzufinden und zu sortieren. Die Methode
ist ebenfalls brauchbar zum Kennzeichnen, Wiederauffinden
und Sortieren jeder beliebigen Form von Kommunikation,
wie zum Beispiel von akustischen Signalen (z. B. gesprochene
Sprache) und grafischen Symbolen (z. B. Bilder), die in
maschinenlesbarem Format dargestellt werden können.
In dem Artikel "DARPA Eyes Smart Text Sifters" (augenfreund
liche Textsichter DARPA) von R. Colin Johnson, der in der
Electronic Engineering Times (Elektronik-Times) vom 17. Fe
bruar 1992 auf Seite 35 ff. veröffentlicht wurde, wurde
darauf hingewiesen, daß die Forschung intensive Bemühungen
darauf verwendet, bessere Wege bei der Suche von Textdaten
banken zu finden, um den Benutzer interessierende Dokumente
wiederaufzufinden. Es wurde darauf verwiesen, daß dabei
der Erzielung größerer Erfolge mehrere fundamentale Probleme
entgegenstehen.
Ein Verfahren, die Suchvorgänge zu erleichtern, bestand
darin, eine spezielle Hardware bereitzustellen, mit der
die Informationen schneller verarbeitet werden können.
Das Problem bei diesem Lösungsweg liegt darin, daß die
Verbesserungen bei der Verarbeitungsgeschwindigkeit nicht
Schritt gehalten haben mit der raschen Entwicklung, mit der
Datenbankinformationen zugenommen haben.
Es wurde festgestellt, daß ein grundlegender theoretischer
Durchbruch notwendig sei, um die Möglichkeiten, Informationen
aus großen Datenbanken wiederzufinden, zu verbessern.
Die herkömmlichen Systeme der Informationswiedergewinnung
basieren immer noch auf der Verwendung von Schlüsselwörtern
oder Satzteilen mit Operationssymbolen (wie z. B. und,
oder, nicht), um interessierende Dokumente zu identifizieren.
Das Problem bei diesem Verfahren besteht darin, daß die
Dokumente oftmals ein Synonym des Schlüsselwortes und
nicht das Schlüsselwort selbst enthalten (z. B. Wagen
anstelle von Auto) oder aber eine gebeugte Form des
Schlüsselwortes aufweisen (z. B. suchend anstelle von
suchen). Solche Systeme reagieren typischerweise sensibel
auf Orthographiefehler oder auf Fehler bei der Datenüber
tragung bei der Eingabe. Auch sind die Operationssymbole
manchmal schwierig zu verwenden. Weitere Probleme ergeben
sich bei der Kennzeichnung der richtigen Schlüsselwörter,
bei der Kennzeichnung der richtigen Synonyme und beim
Wiederauffinden von entweder unvollständigen, umfangreichen
und/oder systemfremden Dokumenten. Es ist hierbei typisch,
daß eine umfassende Synonymliste benutzt wird, um diesen
Problemen zu begegnen. Bei dieser Methode wird jedoch der
Speicherplatzbedarf größer und die Verarbeitungszeit
langsamer.
Ein anderes Problem bei Suchvorgängen mit Schlüsselwörtern
besteht darin, daß die Bedeutung des Schlüsselwortes gewöhn
lich von dem Sinnzusammenhang abhängt, in dem es gebraucht
wird. Deshalb ist ohne Angaben zu dem gewünschten Kontext
des Schlüsselwortes die Gefahr groß, nicht gewünschte
Dokumente zu selektieren. Bei den früheren Lösungswegen
zum Wiederauffinden von Dokumenten hat man versucht, diesem
Problem dadurch entgegenzutreten, daß der Suchvorgang
mit textabhängigen Informationen ergänzt wurde, wobei man
sich solcher Techniken wie Kontextvektoren, konzeptioneller
grafischer Darstellungen, semantischer Netze und Inferenz
netze bediente. Durch diese Techniken wird ebenfalls der
Speicherplatzbedarf größer und die Verarbeitungszeit lang
samer. Die Ergänzung mit textabhängigen Informationen
ist zudem eine Aufgabe, die einen erheblichen Zeitaufwand
durch einen ausgebildeten Anwender erfordert.
In dem Artikel "Global Text Matching for Information
Retrieval" (Gesamttextvergleich zur Informationswieder
gewinnung) von G. Salton und C. Buckley, der in Science
(Wissenschaft), Ausgabe 253 vom 30. August 1991, Seiten
1012-1015, veröffentlicht wurde, wird festgestellt, daß
Textanalyse unter Verwendung von Synonymen mühsam und
Textanalyse unter Verwendung einer wissensbasierten Methode
kompliziert sei. In demselben Artikel wird festgestellt,
daß das Verstehen des Textes auf dem Sinnzusammenhang und
dem Erkennen von Textteilen (d. h. Textabschnitten, Absätzen
oder Sätzen) basieren muß.
In dem Artikel "Developments in Automatic Text Retrieval"
(Fortschritte bei der automatischen Textwiedergewinnung)
von G. Salton, der in Science (Wissenschaft), Ausgabe 253
vom 30. August 1991, Seiten 974-980, veröffentlicht wurde,
wird der gegenwärtige Stand bei der Wiedergewinnung von
Dokumenten zusammengefaßt. Es wird darauf hingewiesen,
daß Textanalyse problematisch sei, da es erforderlich ist,
aus großen Datenbanken nur Dokumente, die von Interesse
sind, herausfinden zu können. Die übliche Lösung dieses
Problems bestand darin, daß Inhaltskennzeichen gebildet
wurden. Dies geschah deshalb, weil die Bedeutung eines
Wortes durch Nachschlagen in einem Wörterbuch nicht
zutreffend festgelegt werden kann, ohne daß dabei dem
Sinnzusammenhang, in dem das Wort gebraucht wird, Rechnung
getragen wird. Es wird erwähnt, daß die Wörter im Text
auch zur Kontextidentifikation herangezogen werden können.
Solche Dokumentationssysteme werden als Volltext-Dokumen
tationssysteme bezeichnet.
In dem Artikel "N-gram Statistics for Natural Language
Understanding and Text Processing" (Statistik der Zeichen
zahlen n zum Verstehen und zur Textverarbeitung von natür
licher Sprache) von C. Suen, der in IEEE Transactions
On Pattern Analysis and Machine Intelligence (Vorgänge
bei der Musteranalyse und der Rechnerintelligenz von IEEE) ,
Ausgabe PAMI-1 Nr. 2 von April 1979, veröffentlicht wurde,
wurden zwei Methoden der Verarbeitung natürlicher Sprache
beschrieben, wobei bei der einen Schlüsselwörter und ein
Wörterbuch und bei der anderen Zeichenzahlen n verwendet
wurden. Bei der Lösung mit Schlüsselwörtern werden Wörter
miteinander verglichen. Bei der Lösung mit Zeichenzahlen n
werden Buchstabenfolgen miteinander verglichen. Der Ver
gleich von Buchstabenfolgen ist schneller und erfordert
weniger Speicherplatz als die Methode mit Schlüsselwörtern
und Wörterbuch.
In dem US-Patent Nr. 5.020.019 mit der Bezeichnung
"Document Retrieval System" (Dokumentationssystem) ist
ein System beschrieben, das Dokumente sucht, indem es
Schlüsselwörter mit einer Lerneigenschaft verwendet,
und das es dem Benutzer ermöglicht, den einzelnen Schlüssel
wörtern als Reaktion auf das Ergebnis eines vorangegangenen
Suchvorgangs Gewichtungen zuzuordnen. Bei der vorliegenden
Erfindung wird keine Lösung mit Schlüsselwörtern verwendet.
In dem US-Patent Nr. 4.985.863 mit der Bezeichnung
"Document Storage and Retrieval" (Speicherung und Wieder
auffindung von Dokumenten) ist eine Methode beschrieben,
nach der Dokumente abschnittsweise gespeichert werden.
Zum Wiederfinden ähnlicher Dokumente werden hierbei Text
abschnitte und nicht Schlüsselwörter verwendet. Bei der
vorliegenden Erfindung erfolgt die Lösung nicht mit Hilfe
von Schlüsselwörtern oder Aufteilungen in Abschnitten.
In dem US-Patent Nr. 4.849.898 mit der Bezeichnung
"Method and Apparatus to Identify the Relation of Meanings
Between Words in Text Expressions" (Methode und Einrichtung
zur Kennzeichnung der Beziehung von Bedeutungen zwischen
Wörtern in sprachlichen Ausdrücken) ist eine Methode be
schrieben, bei der eine buchstabensemantische Analyse
der Schlüsselwörter und Wörter aus einem Dokument benutzt
wird, um herauszufinden, ob diese Wörter die gleiche Be
deutung haben. Diese Methode wird angewandt, um Dokumente
oder Teile von Dokumenten wiederzufinden, die das gleiche
Thema wie die Schlüsselwörter beinhalten. Bei der vorlie
genden Erfindung wird keine semantische Analyse verwendet.
In dem US-Patent Nr. 4.823.306 mit der Bezeichnung "Text
Search System" (Textsuchsystem) wird eine Methode beschrie
ben, bei der Synonyme von Schlüsselwörtern gebildet werden.
Dabei werden jedem Synonym unterschiedliche Werte zuge
wiesen, um den Suchvorgang zu leiten. Bei der vorliegenden
Erfindung werden keine Synonyme gebildet.
In dem US-Patent Nr. 4.775.956 mit der Bezeichnung
"Method and System for Information Storing and Retrieval
Using Word Stems and Derivative Pattern Codes Representing
Families of Affixes" (Methode und System zur Informations
speicherung und -wiedergewinnung unter Verwendung von
Wortstämmen und abgeleiteten Mustercodes, die Affix-Familien
darstellen) wird eine Methode beschrieben, bei der eine
allgemeine Menge von Affixen verwendet wird, die dazu
benutzt werden, um jeden Schlüsselwortstamm zu verändern.
Diese Methode reduziert den Bedarf an Speicher
platz, der sonst dazu benötigt würde, um die Synonyme
jedes Schlüsselworts zu speichern. Bei der vorliegenden
Erfindung werden keine Schlüsselwortstämme verändert.
In dem US-Patent Nr. 4.358.824 mit der Bezeichnung "Office
Correspondence Storage and Retrieval System" (System zum
Speichern und Wiederauffinden von Bürokorrespondenz) wird
eine Methode beschrieben, bei der die Dokumente zu Kurz
referaten gekürzt werden, indem die in jedem Dokument
verwendeten Schlüsselwörter erfaßt werden. Die Schlüssel
wörter werden dann dazu herangezogen, um nach den Dokumenten,
die von Interesse sind, zu suchen. Bei der vorliegenden
Erfindung wird nicht der Text der gespeicherten Dokumente
durch Kurzreferate aus Schlüsselwörtern ersetzt.
Eine Aufgabe der Erfindung besteht darin, eine Methode
zur Identifizierung der Sprache, in der ein bestimmtes
Dokument geschrieben ist, zu liefern.
Eine weitere Aufgabe der Erfindung besteht darin, eine
Methode zu liefern, mit deren Hilfe Dokumente in einer
bestimmten Sprache dem Inhalt nach aus einer Datenbank
herausgesucht werden können.
Eine weitere Aufgabe der Erfindung ist es, eine Methode
zu liefern, mit deren Hilfe Dokumente in einer Datenbank
ihrer Sprache nach sortiert werden können.
Eine weitere Aufgabe der Erfindung ist es, eine Methode
zu liefern, mit deren Hilfe Dokumente in einer Datenbank
ihrem Inhalt nach sortiert werden können.
Diese Aufgaben werden durch eine neuartige Lösungsmöglich
keit bei der Identifikation, beim Wiederauffinden und beim
Sortieren von Dokumenten gelöst. Der Begriff Dokumente
bezieht sich auf maschinenlesbaren Text, gesprochene Sprache
oder Graphiken. Bei der vorliegenden Erfindung wird anstelle
der üblichen schlüsselwort- oder kontextbezogenen Methode
eine Mustererkennungstechnik verwendet, die auf Vergleichen
von Zeichenfolgen n zwischen den Dokumenten beruht. Durch
Herausrechnen der Häufigkeitszahl beim Vergleich zwischen
den Dokumenten einer Datenbank wird eine sensitive Selektion
der Dokumente ermöglicht, während gleichzeitig der Speicher
platzbedarf (im Vergleich zu den Methoden mittels Schlüssel
wort und Wörterbuch) verringert und die Leistung erhöht
wird. Der Benutzer kann die Schwelle setzen, die dazu
dient, herauszufinden, ob Dokumente ähnlich sind.
Abb. 1 ist ein Ablaufdiagramm des Sprachenidentifi
zierungsalgorithmus.
Abb. 2 ist ein Ablaufdiagramm des Identifizierungs
algorithmus für Sprache und Inhalt.
Tabelle 1 ist ein Beispiel eines Referenzdokuments für
die grönländische Sprache, das alle einzelnen 2er-Zeichen
folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge
und die Gewichtung jeder 2er-Zeichenfolge zeigt.
Tabelle 2 ist ein Beispiel eines Referenzdokuments für
die hawaiische Sprache, das alle einzelnen 2er-Zeichen
folgen, die Häufigkeit des Vorkommens jeder 2er-Zeichenfolge
und die Gewichtung jeder 2er-Zeichenfolge zeigt.
Tabelle 3 ist eine Liste aller einzelnen 2er-Zeichenfolgen
aus den Referenzdokumenten in Tabelle 1 und Tabelle 2,
der Gewichtung für jede 2er-Zeichenfolge und der gemeinsamen
Häufigkeitsgewichtung, die jede 2er-Zeichenfolge in den
Referenzdokumenten aufweist.
Tabelle 3a ist eine Liste der von der gemeinsamen Häufig
keitszahl bereinigten Gewichtungen für jede einzelne 2er-
Zeichenfolge in dem grönländischen Referenzdokument.
Tabelle 3b ist eine Liste der von der gemeinsamen Häufig
keitszahl bereinigten Gewichtungen für jede einzelne 2er-
Zeichenfolge in dem hawaiischen Referenzdokument.
Tabelle 4 ist ein Beispiel für eine nicht identifizierte
Sprache, das alle einzelnen 2er-Zeichenfolgen, die Häufig
keit des Vorkommens jeder 2er-Zeichenfolge, die Gewichtung
jeder 2er-Zeichenfolge und die von der Häufigkeitszahl
bereinigte Gewichtung jeder 2er-Zeichenfolge zeigt.
Abb. 3 zeigt die Auswertung des nicht identifizierten
Textes in Tabelle 4 gegenüber dem grönländischen Referenz
dokument in Tabelle 1.
Abb. 4 ist ein Ablaufdiagramm für den Suchalgorithmus
nach Sprache und Inhalt und
Abb. 5 ein Ablaufdiagramm für den Datenbank-Sortier
algorithmus nach Sprache und Inhalt.
Diese Erfindung beschreibt ein Verfahren zum Kennzeichnen,
Suchen und Sortieren von Dokumenten. Mit diesem Verfahren
wird ein sensitives, schnelles und wirtschaftliches Ver
fahren für die Identifikation einer Sprache, die Identi
fikation des Inhalts, das Wiederauffinden und das Sortieren
von Dokumenten geschaffen. In dieser Patentschrift und
den anschließenden Patentansprüchen wird der Begriff
Dokument in bezug auf eine Informationsmenge in maschinen
lesbarem Format benutzt. Das Dokument kann aus Text,
gesprochener Sprache oder Graphiken bestehen.
Das Verfahren dieser Erfindung kann leicht an jede beliebige
Programmiersprache oder in Hardware implementiert werden,
so daß so schwierige Aufgaben wie die Identifizierung
der Inhalte von Dokumenten, sogar wenn diese Dokumente
in Sprachen, die sich der Begriffsschrift bedienen, wie
zum Beispiel Japanisch, abgefaßt sind, bewältigt werden
können. Dieses System kann auch dazu benutzt werden, um
Dokumente in einer Datenbank in gleiche Kategorien zu
sortieren, ohne daß eine vorherige Identifikation der
Kategorien oder der darin enthaltenen Dokumente erforder
lich ist.
Anstatt auf Schlüsselwörter, Synonymtabellen oder text
abhängige Informationen zu vertrauen, werden die Aufgaben
dieser Erfindung mit Hilfe eines Mustererkennungsverfahrens
gelöst. Die Erfindung geht von der Hypothese aus, daß
Dokumente, die in Sprache und/oder Inhalt gleich sind,
gleich aussehen, daß sie die Tendenz haben, viele der
gleichen Zeichenfolgen n zu enthalten (also aufeinander
folgendes Auftreten von Zeichen n). Sie sehen nicht nur
hinsichtlich der Schlüsselwörter, sondern hinsichtlich
aller benutzten Wörter gleich aus. Diese Hypothese läßt
die ziemlich erstaunliche Schlußfolgerung zu, daß zuver
lässig dadurch auf den Inhalt eines Dokuments geschlossen
werden kann, daß die darin enthaltenen Zeichenfolgen n
gezählt werden und das Ergebnis dieser Operation mit den
gezählten Zeichenfolgen n, die in einem anderen ("Referenz-")
Dokument vorkommen, verglichen wird.
Dieser Ausführungsweg erlaubt Vereinfachungen im Suchalgo
rithmus, der zur Identifizierung einschlägiger Dokumente
benutzt wird. Aus diesen Vereinfachungen ergibt sich die
Möglichkeit, Dokumente unabhängig von der Sprache, in
der sie abgefaßt sind, klassifizieren zu können. Es wird
zudem eine hohe Fehlerquote ("Verstümmelung") im Original
text toleriert. Die höchstzulässige Fehlerquote bei unähnlichen
Sprachen ist höher als die höchstzulässige Fehlerquote
bei ähnlichen Sprachen. Zum Beispiel kann die höchstzu
lässige Fehlerquote bei einem Text in Suaheli im Vergleich
mit einem schwedischen Text bis zu 25% betragen, ohne zu
fehlerhaften Ergebnissen zu führen, während die höchst
zulässige Fehlerquote bei einem russischen Text im Vergleich
mit einem tschechischen Text nur bis zu 15% betragen
darf, um nicht zu fehlerhaften Ergebnissen zu führen.
Abb. 1 stellt einen Sprachenidentifizierungsalgorithmus
dar. Der erste Schritt besteht darin, den Text, der in
einer nicht identifizierten Sprache abgefaßt ist, in
Zeichenfolgen n zu zerlegen. Zeichenfolgen n sind auf
einanderfolgend vorkommende Zeichen n, wobei n eine belie
bige positive ganze Zahl größer als Null ist. Mittelmäßig
lange Zeichenfolgen n (d. h. n < 3) sind üblicherweise
informativer als kürzere Zeichenfolgen n, da sie meistens
Informationen über die Wortstämme der in dem Text vorkommen
den Wörter enthalten. Der zweite Schritt besteht darin,
die Häufigkeit des Vorkommens der Zeichenfolgen n in dem
nicht identifizierten Text mit der Häufigkeit des Vorkommens
genau der gleichen Zeichenfolgen n in dem Text mit bekannten
Sprachen zu vergleichen. Der nicht identifizierte Text
wird dann als in der Sprache des Textes geschrieben iden
tifiziert, mit dem der nicht identifizierte Text ab besten vergleichbar
ist.
Die zulässigen Zeichen in den Zeichenfolgen n werden vom
Benutzer festgelegt. Beispielsweise können die Bestandteile
der Zeichenfolgen n für eine bestimmte Sprache auf die
Buchstaben des Alphabets von gewünschten Sprachen und
ein Leerzeichen (d. h. "_") beschränkt werden. Kleine
Buchstaben können in Großbuchstaben umgewandelt werden,
und mehrfache Leerzeichen können auf ein einziges Leer
zeichen reduziert werden, um die Gesamtzahl der möglichen
Zeichenfolgen n zu reduzieren. Die Zeichensetzung kann
ebenfalls ignoriert werden, um den Speicherplatzbedarf
zu minimieren und die Leistung zu erhöhen. Es können auch
Zeichenketten ausgeschlossen oder durch ein vom Benutzer
gewähltes Zeichen oder eine Zeichenkette ersetzt werden.
Abb. 2 stellt einen Algorithmus dar, der zum Identi
fizieren der Sprache oder des Inhalts eines Dokuments
benutzt wird. Der Festlegung des Algorithmus folgt zur
Veranschaulichung ein einfaches Beispiel der damit ver
bundenen wichtigsten Schritte.
Als Referenzdokumente werden bekannte Textbeispiele unter
schiedlicher Sprachen und Inhalte erfaßt. Hinsichtlich
der Form, die diese Referenzdokumente haben können, besteht
keine Einschränkung. Es können Textproben aus jeder belie
bigen Quelle benutzt werden. Die Anzahl der Referenzdoku
mente und der in diesen Dokumenten enthaltenen Zeichen
folgen n muß statistisch bedeutsam sein. Es wurde durch
Versuche herausgefunden, daß zur Identifikation von Sprachen
etwa zehn Dokumente mit je etwa eintausend Zeichen ein
statistisch signifikanter Stichprobenumfang sind. Zur
Identifikation von Inhalten in einer bestimmten Sprache,
welche eine feinere Unterscheidung als die Identifikation
von Sprachen darstellt, sind etwa fünfzig Dokumente mit
je etwa eintausend Zeichen ein statistisch signifikanter
Stichprobenumfang.
Die Referenzdokumente werden in Zeichenfolgen n analysiert.
Dies geschieht dadurch, daß für jedes einzelne Referenz
dokument eine gesonderte Liste aller jeweiligen Zeichen
folgen n, die in dem Referenzdokument vorkommen, erstellt
wird (wobei n üblicherweise auf einen Wert festgelegt
wird, der sinnvoll ist, zum Beispiel n = 5). Das nicht
identifizierte Dokument wird ebenfalls in eine Liste der
einzelnen Zeichenfolgen n analysiert.
Jeder einzelnen Zeichenfolge n werden Gewichtungen zuge
ordnet. Die Gewichtung richtet sich nach der relativen
Häufigkeit des Vorkommens der jeweiligen Zeichenfolge n
in dem entsprechenden Referenzdokument (d. h. der Anzahl
der Male, die eine Zeichenfolge n in einem bestimmten
Referenzdokument vorkommt, dividiert durch die Gesamtzahl
der Häufigkeit des Vorkommens aller Zeichenfolgen n in
diesem Referenzdokument). Es werden jeder Zeichenfolge n
in jedem Referenzdokument und jeder Zeichenfolge n in dem
nicht identifizierten Dokument Gewichtungen zugeordnet.
Danach wird die gemeinsame Häufigkeitszahl, die sich aus
den Referenzdokumenten ergibt, sowohl aus den Referenzdoku
menten als auch aus dem nicht identifizierten Dokument
herausgerechnet. Dies geschieht dadurch, daß zunächst
die in den Referenzdokumenten enthaltenen einzelnen Zeichen
folgen n aufgelistet werden. Als zweites wird jeder ein
zelnen Zeichenfolge n der Referenzdokumente eine gemein
same Häufigkeitsgewichtung zugeordnet, die auf ihrer
mittleren relativen Häufigkeit des Vorkommens basiert
(d. h. die Summe aus den Einzelgewichtungen der jeweiligen
Zeichenfolge n aus allen Referenzdokumenten, dividiert
durch die Gesamtanzahl der Referenzdokumente) . Danach wird
die gemeinsame Häufigkeitsgewichtung jeder Zeichenfolge n
von der Gewichtung der ihr entsprechenden Zeichenfolge n
in jedem Referenzdokument und von der Gewichtung der ihr
entsprechenden Zeichenfolge n in dem nicht identifizierten
Dokument subtrahiert.
Das nicht identifizierte Dokument wird dann mit jedem
der Referenzdokumente verglichen. Dies geschieht durch
Auswertung des nicht identifizierten Dokuments gegenüber
jedem der Referenzdokumente. Die Punktzahl für das nicht
identifizierte Dokument in bezug auf ein Referenzdokument
gibt den Grad der Ähnlichkeit zwischen beiden Dokumenten
an.
Die Auswertung des nicht identifizierten Dokuments bedingt
zuerst, wie oben angegeben, die Subtraktion der sich aus
den Referenzdokumenten ergebenden gemeinsamen Häufigkeits
gewichtung von der Gewichtung der ihr entsprechenden
Zeichenfolge n in dem nicht identifizierten Dokument.
Kommt eine Zeichenfolge n in dem nicht identifizierten
Dokument, jedoch nicht in den Referenzdokumenten vor,
so ist die gemeinsame Häufigkeitsgewichtung für diese
Zeichenfolge n gleich Null. Jede von der gemeinsamen
Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n
des nicht identifizierten Dokuments (mit Ui bezeichnet)
wird dann mit der von der gemeinsamen Häufigkeitszahl
bereinigten Gewichtung der ihr entsprechenden Zeichenfolge n
in einem bestimmten Referenzdokument (mit Ri bezeichnet)
multipliziert. Diese Produkte werden sodann summiert (also
"Summierung der Produkte").
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich
tung einer Zeichenfolge n in dem Referenzdokument wird
danach quadriert (also Ri**2) . Diese quadrierten Glieder
werden dann summiert. Danach wird jede von der gemeinsamen
Häufigkeitszahl bereinigte Gewichtung einer Zeichenfolge n
in dem nicht identifizierten Dokument quadriert (also
Ui**2) . Diese quadrierten Glieder werden ebenfalls summiert.
Anschließend werden diese beiden Summen miteinander multi
pliziert und bilden somit ein "Produkt aus den Summierungen".
Die Punktzahl des nicht identifizierten Dokuments in bezug
auf ein bestimmtes Referenzdokument ist schließlich die
"Summierung der Produkte", dividiert durch die Quadrat
wurzel des "Produkts aus den Summierungen".
Das nicht identifizierte Dokument wird gegenüber jedem
der Referenzdokumente mit einer Punktzahl bewertet. Der
Benutzer kann die Punktzahl-Schwelle festlegen, die er
forderlich sein soll, damit ein Dokument als einem Referenz
dokument hinsichtlich Sprache oder Inhalt ähnlich identi
fiziert wird. Wenn eine vom Benutzer festgelegte Schwelle
verwendet wird, kann es möglich sein, daß ein nicht iden
tifiziertes Dokument nicht als mit irgendeinem der Referenz
dokumente ähnlich identifiziert wird. Der Benutzer kann
es vermeiden, eine solche Schwelle setzen zu müssen, wenn
er zuläßt, daß das nicht identifizierte Dokument mit dem
jenigen Referenzdokument identifiziert wird, das die höchste
Punktzahl erreichte.
Die folgenden Beispiele veranschaulichen die numerischen
Verarbeitungsschritte, die zu der Erfindung gehören. Diese
Beispiele sind lediglich als beispielhaft für die einzelnen
Schritte des Algorithmus anzusehen und dürfen nicht als
die beanspruchte Erfindung einschränkend betrachtet werden.
Tabelle 1 zeigt ein Referenzdokument für die grönländische
Sprache (nämlich "Nanok nunane issigtune"). Eine Vorver
arbeitung des Beispiels ist nicht erforderlich. In diesem
Beispiel werden Zweier-Zeichenfolgen benutzt. Um die Anzahl
der möglichen 2er-Zeichenfolgen zu verringern, werden
die kleinen Buchstaben in Großbuchstaben umgewandelt,
und mehrfache Leerzeichen werden auf ein einziges Leer
zeichen (d. h. "_") reduziert. Das grönländische Referenz
dokument wird somit zu "NANOK_NUNANE_ISSIGTUNE".
In Tabelle 1 sind alle einzelnen 2er-Zeichenfolgen für
das grönländische Referenzdokument aufgelistet. Diese sind
NA, AN, NO, OK, K_, _N, NU, UN, NE, E_, _I, IS, SS, SI,
IG, GT, TU. Jeder dieser 2er-Zeichenfolgen wird eine Ge
wichtung zugeordnet. Man erhält die Gewichtung einer 2er-
Zeichenfolge, indem man die Häufigkeit des Vorkommens
der jeweiligen 2er-Zeichenfolge durch die Gesamtzahl der
in dem Referenzdokument vorkommenden (möglicherweise nicht
einmaligen) 2er-Zeichenfolgen dividiert (d. h. die Gewichtung
der 2er-Zeichenfolge NA ist 2 : 21 = 0,095).
Tabelle 2 zeigt ein Referenzdokument für die hawaiische
Sprache (nämlich "I hele mai nei au e hai") . Alle Referenz
dokumente sind unter Anwendung der gleichen Struktur der
Zeichenfolge n zu analysieren (d. h. 2er-Zeichenfolgen
in diesem Beispiel) . Um die Zahl der möglichen 2er-Zeichen
folgen zu verringern, werden wiederum die kleinen Buchstaben
in Großbuchstaben umgewandelt und mehrfache Leerzeichen
auf ein einziges Leerzeichen reduziert. Das hawaiische
Referenzdokument wird somit zu "I_HELE_MAI_NEI_AU_E_HAI".
In Tabelle 2 sind alle einzelnen 2er-Zeichenfolgen für
das hawaiische Referenzdokument aufgelistet. Diese sind
I_, _H, HE, EL, LE, E_, _M, MA, AI, _N, NE, EI, _A, AU,
U_, _E, HA. Jeder 2er-Zeichenfolge wird auf die gleiche
Weise wie weiter oben für das grönländische Referenzdoku
ment beschrieben eine Gewichtung zugeordnet (d. h. die
Gewichtung der 2er-Zeichenfolge I_ ist 3 : 22 = 0,136).
Es besteht keine Notwendigkeit, daß die Anzahl der in
den Referenzdokumenten enthaltenen Zeichenfolgen n gleich
ist. Der Algorithmus erfordert keine Vorverarbeitung der
Dokumente. Sogar die Umwandlung in Großbuchstaben und
die Reduzierung mehrfacher Leerzeichen auf ein einziges
Leerzeichen sind für eine einwandfreie Wirkungsweise dieser
Erfindung nicht erforderlich. Diese Maßnahmen dienen ledig
lich dem Zweck, die Leistung zu erhöhen und den Speicher
platzbedarf zu reduzieren.
Die gemeinsame Häufigkeitszahl, die sich aus den Referenz
dokumenten ergibt, wird nun herausgerechnet. Dies geschieht
dadurch, daß zunächst alle einzelnen 2er-Zeichenfolgen
in sämtlichen Referenzdokumenten, wie in Tabelle 3 gezeigt,
aufgelistet werden (also NA, AN, NO, OK, K_, _N, NU, UN,
NE, E_, _I, IS, SS, SI, IG, GT, TU, I_, _H, HE, EL, LE,
_M, MA, AI, EI, _A, AU, U_, _E, HA). Danach werden die
gemeinsamen Häufigkeitsgewichtungen für jede einzelne 2er-
Zeichenfolge dadurch ermittelt, daß die Summe der Gewich
tungen für jede 2er-Zeichenfolge aus allen Referenzen
durch die Gesamtanzahl der Referenzdokumente dividiert
wird. Beispielsweise ist die gemeinsame Häufigkeitsgewich
tung für die 2er-Zeichenfolge NE (0,095+0,045) : 2 =
0,070, während die gemeinsame Häufigkeitsgewichtung für
die 2er-Zeichenfolge NA (0,095+0) : 2 = 0,048 ist. Die
2er-Zeichenfolge NA hat in dem grönländischen Referenz
dokument eine Gewichtung von 0,095, während sie in dem
hawaiischen Referenzdokument eine Gewichtung von 0 hat,
da sie in dem hawaiischen Referenzdokument nicht vorkommt.
Die gemeinsame Häufigkeitsgewichtung drückt die durchschnitt
liche Verteilung einer bestimmten 2er-Zeichenfolge auf
jedes der Referenzdokumente aus. Diese gemeinsame Häufig
keitszahl wird sowohl aus den Referenzdokumenten als auch
aus dem nicht identifizierten Dokument herausgerechnet,
um ein Dokument besser von dem anderen unterscheiden zu
können. Die gemeinsame Häufigkeitszahl wird aus der Gewich
tung einer 2er-Zeichenfolge in einem Dokument herausgerech
net, indem die gemeinsame Häufigkeitsgewichtung von der
Gewichtung der entsprechenden 2er-Zeichenfolge in diesem
Dokument subtrahiert wird. Zum Beispiel ist die von der
gemeinsamen Häufigkeitszahl bereinigte Gewichtung der
2er-Zeichenfolge NE in dem grönländischen Referenzdokument
0,095-0,070 = 0,025. Die von der gemeinsamen Häufigkeits
zahl bereinigte Gewichtung der 2er-Zeichenfolge NE in dem
hawaiischen Referenzdokument beträgt 0,045-0,070 = -0,025.
Durch den Verarbeitungsschritt des Herausrechnens der
gemeinsamen Häufigkeitszahl wird die Leistung gesteigert
und das Verfahren der Identifizierung von Dokumenten er
leichtert.
In Tabelle 3 ist auch die gemeinsame Häufigkeitsgewichtung
jeder einzelnen 2er-Zeichenfolge aus den Referenzdokumenten
aufgeführt. Diese gemeinsamen Häufigkeitsgewichtungen
werden dann aus der Gewichtung der entsprechenden 2er-
Zeichenfolge in jedem Referenzdokument und aus dem nicht
identifizierten Dokument herausgerechnet. In Tabelle 3a
sind die von der gemeinsamen Häufigkeitszahl bereinigten
Gewichtungen für die einzelnen 2er-Zeichenfolgen in Grön
ländisch aufgelistet, während in Tabelle 3b die von der
gemeinsamen Häufigkeitszahl bereinigten Gewichtungen für
die einzelnen 2er-Zeichenfolgen in Hawaiisch aufgelistet
sind. Die von der gemeinsamen Häufigkeitszahl bereinigten
Gewichtungen eines bestimmten Referenzdokuments werden
dann dazu benutzt, um eine Punktzahl für die Übereinstimmung
des Referenzdokuments mit einem nicht identifizierten
Dokument zu errechnen.
Tabelle 4 zeigt ein Beispiel für einen Text, der in einer
nicht identifizierten Sprache geschrieben ist (nämlich
"Martsime nanut"). Der nicht identifizierte Text ist in
die gleiche Struktur der Zeichenfolgen n wie die Referenz
dokumente (d. h. 2er-Zeichenfolgen) zu analysieren. Um
die Anzahl der möglichen 2er-Zeichenfolgen zu verringern,
werden wiederum die kleinen Buchstaben in Großbuchstaben
umgewandelt und mehrfache Leerzeichen auf ein einziges
Leerzeichen reduziert. Das nicht identifizierte Dokument
wird somit zu "MARTSIME_NANUT".
Sämtliche einzelnen 2er-Zeichenfolgen in dem nicht identi
fizierten Dokument, wie in Tabelle 4 aufgeführt, lauten
MA, AR, RT, TS, SI, IM, ME, E_, _N, NA, AN, NU, UT. Jeder
2er-Zeichenfolge wird eine Gewichtung zugeordnet. Die
Gewichtung einer 2er-Zeichenfolge wird wiederum dadurch
ermittelt, daß die Häufigkeit des Vorkommens dieser 2er-
Zeichenfolge durch die Gesamtzahl der in dem nicht identi
fizierten Text enthaltenen 2er-Zeichenfolgen dividiert wird
(d. h. die Gewichtung von MA in dem unidentifizierten
Text ist 1 : 13 = 0,077). Danach werden die Häufigkeits
gewichte der Referenzdokumente von den dazugehörigen 2er-
Zeichenfolgen in den nicht identifizierten Dokumenten
subtrahiert (siehe Tabelle 4).
In Abb. 3 wird eine Punktzahl, die die Übereinstimmung
des nicht identifizierten Textes mit dem grönländischen
Referenzdokument ausdrückt, errechnet. Die Gleichung für
diese Berechnung lautet wie folgt:
worin Ui die von der gemeinsamen Häufigkeitszahl bereinigte
Gewichtung einer 2er-Zeichenfolge in dem nicht identifi
zierten Text und Ri die von der gemeinsamen Häufigkeitszahl
bereinigte Gewichtung der entsprechenden 2er-Zeichenfolge
in dem grönländischen Referenzdokument ausdrückt, welches
mit dem nicht identifizierten Dokument verglichen wird.
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich
tung der 2er-Zeichenfolgen in dem nicht identifizierten
Text wird mit der ihr entsprechenden, von der gemeinsamen
Häufigkeitszahl bereinigten Gewichtung in dem grönländischen
Referenzdokument multipliziert. Jede von der gemeinsamen
Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n
in dem grönländischen Referenzdokument wird danach quadriert.
Diese quadrierten Glieder werden dann summiert. Danach
wird jede von der gemeinsamen Häufigkeitszahl bereinigte
Gewichtung der Zeichenfolge n in dem nicht identifizierten
Dokument quadriert. Diese quadrierten Glieder werden dann
summiert. Diese Summen werden miteinander multipliziert
und bilden ein "Produkt aus den Summierungen".
Die Punktzahl des nicht identifizierten Dokuments in bezug
auf das grönländische Referenzdokument ist schließlich
die "Summierung der Produkte", dividiert durch die Quadrat
wurzel des "Produkts aus den Summierungen". Das Ergebnis,
wie in Abb. 3 gezeigt, ist eine Punktzahl, die die
Ähnlichkeit zwischen dem nicht identifizierten Text und
dem grönländischen Referenzdokument ausdrückt.
Eine Punktzahl, die die Ähnlichkeit ausdrückt, wird für
jedes Referenzdokument errechnet. Das Dokument kann entweder
als dem Referenzdokument ähnlich, das die höchste Punktzahl
erreichte, oder aber als dem Referenzdokument ähnlich
identifiziert werden, das eine Punktzahl erreichte, die
eine vom Benutzer gewählte Schwelle überschreitet. Bei
der letzteren Möglichkeit wird eine Identifikation nicht
erzwungen (das heißt, das nicht identifizierte Dokument
kann gegebenenfalls nicht als einem der Referenzdokumente
ähnlich identifiziert werden). Ebenso kann das nicht identi
fizierte Dokument bei der letzteren Möglichkeit gegebenen
falls als mehreren Referenzdokumenten ähnlich identifiziert
werden, falls diese Referenzdokumente eine Punktzahl er
reichen, die die vom Benutzer gewählte Schwelle überschreitet.
Gewisse Suchwörter in einer bestimmten Sprache, wie beispiels
weise "is", "the", "and", "with", "for" usw. im Englischen,
die zur Identifikation der Sprache geeignet sind, sind
normalerweise zur Identifikation des Inhalts wertlos.
Diese Erfindung löst die Aufgabe, Unterschiede zwischen
den Dokumenten in bezug auf den Inhalt herauszufinden,
dadurch, daß die gemeinsame Häufigkeitszahl unter den
Dokumenten herausgerechnet wird.
Das Herausrechnen der gemeinsamen Häufigkeitszahl, die
sich aus den Dokumenten ergibt, beinhaltet, daß der Mittel
wert der Häufigkeit des Vorkommens für jede Zeichenfolge n
in allen Dokumenten errechnet wird und dann diese Mittel
werte von der Häufigkeit des Vorkommens für jede entspre
chende Zeichenfolge n in jedem Dokument subtrahiert werden.
Das Herausrechnen der gemeinsamen Häufigkeitszahl verein
facht die Aufgabe herauszufinden, ob ein Dokument einem
anderen Dokument ähnlich ist. Die Sensitivität in bezug
auf die Inhaltsbestimmung wird ohne jedes menschliche
Zutun unabhängig von der Sprache des Dokuments erreicht.
Der Benutzer kann wiederum eine Schwelle setzen, um fest
zulegen, wann sich die Dokumente bezüglich des Inhalts
ähnlich sind.
Dieser Algorithmus arbeitet in jeder beliebigen Sprache
gleich gut, die Identifikation des Inhalts funktioniert
jedoch nur, wenn Dokumente miteinander verglichen werden,
die in einer gemeinsamen Sprache abgefaßt sind (oder in
mehreren eng miteinander verwandten Sprachen). Dies liegt
darin begründet, weil der Inhalt mit dem von den Zeichen
folgen n erstellten Muster in Zusammenhang steht. Das
von den Zeichenfolgen n erstellte Muster wird durch die
Sprache des Dokuments gesteuert.
Die Identifikation des Inhalts kann in Sprachen, die relativ
wenige Buchstaben haben, wie zum Beispiel Englisch, ebenso
problemlos durchgeführt werden wie in Sprachen, die viele
Schriftzeichen haben, wie zum Beispiel Sprachen mit Begriffs
schrift (z. B. Japanisch). Ohne theoretisieren zu wollen,
wird die Ansicht vertreten, daß die vorteilhaften Wirkungen
dieser Erfindung realisiert sind, da der Inhalt eines
Dokuments mit Hilfe der verwendeten Zeichenfolgen n aus
gewertet wird. Die Identifikation des Inhalts wird so
eine Frage der Festlegung, wie ähnlich die Dokumente in
bezug auf die verwendeten Zeichenfolgen n sind.
Abb. 4 stellt den Algorithmus dar, der dazu benutzt
wird, um die Dokumente aus einer Datenbank wiederaufzufinden.
Die Dokumente sind in bezug auf eine gewünschte Sprache
oder einen gewünschten Inhalt wiederauffindbar.
Eine Datenbank enthält üblicherweise zahlreiche Dokumente,
die viele Inhalte betreffen und in unterschiedlichen Sprachen
abgefaßt sind. Es besteht keine Notwendigkeit, daß diese
Dokumente irgendeine bestimmte Form haben müssen. Für
jedes Dokument der Datenbank wird ein Datenfeld mit den
Zeichenfolgen n angelegt. Dies geschieht dadurch, daß
für jedes Dokument der Datenbank eine Liste mit den ein
zelnen Zeichenfolgen n, die in diesem Dokument vorkommen,
erstellt wird. Jeder einzelnen Zeichenfolge n werden
Gewichtungen zugeordnet. Die Gewichtung wird durch die
Häufigkeit des Vorkommens einer Zeichenfolge n in einem
bestimmten Dokument bestimmt (d. h. die Anzahl der Male,
die eine Zeichenfolge n in einem bestimmten Dokument vor
kommt, dividiert durch die Gesamtzahl der Häufigkeit des
Vorkommens aller Zeichenfolgen n in diesem Dokument).
Die Gewichtungen werden dann jeder Zeichenfolge n in jedem
Dokument der Datenbank zugeordnet.
Die gemeinsame Häufigkeitszahl, die sich aus allen Doku
menten der Datenbank ergibt, wird dann bei den Dokumenten
der Datenbank und der Abfrage herausgerechnet. Dies geschieht
dadurch, daß zunächst alle einzelnen Zeichenfolgen n in
allen Dokumenten aufgelistet werden. Als zweites wird
jeder einzelnen Zeichenfolge n eine gemeinsame Häufigkeits
gewichtung zugeordnet, die auf ihrer mittleren relativen
Häufigkeit des Vorkommens basiert. Die gemeinsame Häufig
keitsgewichtung für jede Zeichenfolge n wird danach von
der Gewichtung der ihr entsprechenden Zeichenfolge n in
jedem Dokument der Datenbank und von der Gewichtung der
ihr entsprechenden Zeichenfolge n in der Abfrage subtrahiert.
Die Abfrage wird vom Benutzer vorgeschlagen. Die Abfrage
beinhaltet die Art des Dokuments, das der Benutzer aus
der Datenbank heraussuchen möchte (d. h. Dokumente ähn
lichen Inhalts oder gleicher Sprache) . Hinsichtlich der
Form, die die Abfrage haben muß, gibt es keine Erforder
nisse.
Es ist zu beachten, daß eine Abfrage zu einem interessieren
den Thema dazu führt, daß Dokumente zu dem Thema herausge
sucht werden, die in der Sprache der Abfrage geschrieben
sind. Dokumente zu diesem Thema, die in einer anderen
Sprache als der der Abfrage geschrieben sind, werden
normalerweise nicht gefunden. Dies liegt darin begründet,
daß unterschiedliche Sprachen üblicherweise unterschied
liche Zeichenfolgen n verwenden, um das gleiche Thema
darzustellen.
Die Abfrage wird anschließend in Zeichenfolgen n analysiert.
Dies geschieht dadurch, daß eine Liste aller einzelnen
Zeichenfolgen n, die in der Abfrage vorkommen, erstellt
wird. Jeder einzelnen Zeichenfolge n in der Abfrage werden
Gewichtungen zugeordnet. Die Gewichtung wird durch die
Häufigkeit des Vorkommens dieser Zeichenfolge n in der
Abfrage bestimmt. Danach werden die gemeinsamen Häufig
keitsgewichtungen von den entsprechenden 2er-Zeichenfolgen
in der Abfrage subtrahiert. Die Abfrage wird dann mit
jedem Dokument der Datenbank verglichen, wobei die Abfrage
gegenüber jedem Dokument der Datenbank ausgewertet wird.
Die Auswertungspunktzahl erhält man dadurch, daß zunächst
jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich
tung einer Zeichenfolge n in der Abfrage (z. B. Qi) mit
der von der gemeinsamen Häufigkeitszahl bereinigten Gewich
tung der ihr entsprechenden Zeichenfolge n in einem be
stimmten Dokument der Datenbank (z. B. Di) multipliziert
wird. Diese Produkte werden dann summiert (also "Summierung
der Produkte").
Danach wird jede Zeichenfolge n in dem Dokument der Daten
bank quadriert (z. B. Di**2). Diese quadrierten Glieder
werden dann summiert. Anschließend wird jede Zeichenfolge n
in der Abfrage quadriert (z. B. Qi**2). Diese quadrierten Glieder werden
dann summiert. Danach werden diese Summen miteinander
multipliziert und bilden so ein "Produkt aus den Summie
rungen".
Die Auswertungspunktzahl des Dokuments der Datenbank in
bezug auf die Abfrage ist schließlich die "Summierung
der Produkte", dividiert durch die Quadratwurzel des
"Produkts aus den Summierungen".
Es wird für jedes Dokument der Datenbank eine Auswertungs
punktzahl in bezug auf die Abfrage errechnet. Der Benutzer
definiert die Schwellen-Punktzahl, die benutzt wird, um
zu ermitteln, ob ein Dokument der Datenbank der Abfrage
hinsichtlich Sprache oder Inhalt ähnelt.
Die obengenannten Beispiele für die bei der Identifikation
von Sprachen anfallenden Verarbeitungsschritte können
auch für die Beschreibung der Verarbeitungsschritte ange
wandt werden, die bei diesem Algorithmus anfallen, mit
dessen Hilfe die Dokumente aus einer Datenbank herausge
sucht werden.
Zeichenfolgen n können ebenfalls dazu benutzt werden,
um die Probleme zu lösen, die mit dem Sortieren von Doku
menten in einer Datenbank nach Kategorien, die gleiche
Dokumente enthalten, verbunden sind. Der Algorithmus der
vorliegenden Erfindung bedarf keinerlei Anleitung durch
den Benutzer und über die oben beschriebene hinaus keiner
weiteren Vorverarbeitung bei der Datenbank. Die Datenbank
kann nach Sprach- oder Inhaltskategorien sortiert werden.
Die Dokumente können leicht mit Querverweisen auf verschie
dene Kategorien versehen werden (d. h. ein Dokument kann
sowohl nach einer bestimmten Sprachkategorie als auch
nach einer bestimmten Inhaltskategorie sortiert werden).
Abb. 5 stellt den Algorithmus dar, der benutzt wird,
um Dokumente einer Datenbank nach Kategorien zu sortieren.
Die Dokumente können in bezug auf eine Sprache oder einen
Inhalt sortiert werden. Eine Datenbank enthält üblicher
weise zahlreiche Dokumente. Diese Dokumente können sich
mit verschiedenen Themen befassen und können in unterschied
lichen Sprachen geschrieben sein. Es besteht keine Not
wendigkeit, daß diese Dokumente irgendeine bestimmte Form
haben müssen.
Für jedes Dokument einer Datenbank wird ein Datenfeld
mit den Zeichenfolgen n angelegt. Dies geschieht dadurch,
daß für jedes Dokument der Datenbank eine gesonderte Liste
mit den einzelnen Zeichenfolgen n, die in diesem Dokument
vorkommen, erstellt wird. Jeder einzelnen Zeichenfolge n
werden Gewichtungen zugeordnet. Die Gewichtung wird durch
die Häufigkeit des Vorkommens dieser Zeichenfolge n in
dem bestimmten Dokument bestimmt. Die Gewichtungen werden
dann jeder Zeichenfolge n in jedem Dokument der Datenbank
zugeordnet.
Die gemeinsame Häufigkeitszahl, die sich aus den Dokumenten
der Datenbank ergibt, wird dann bei jedem Dokument der
Datenbank herausgerechnet. Dies geschieht dadurch, daß
zunächst die einzelnen Zeichenfolgen n, die in den Doku
menten vorkommen, aufgelistet werden (d. h. hierbei werden
die getrennten Dokumente der Datenbank vorübergehend als
ein großes Dokument angesehen, wobei dann die einzelnen
Zeichenfolgen n, die in diesem einen Dokument vorkommen,
aufgelistet werden). Als zweites wird jeder Zeichenfolge n
eine gemeinsame Häufigkeitsgewichtung zugeordnet, die
auf der Häufigkeit des Vorkommens basiert (d. h. die Gesamt
zahl der Häufigkeit des Vorkommens dieser bestimmten Zeichen
folge n in allen Dokumenten der Datenbank, dividiert durch
die Gesamtzahl der einzelnen Zeichenfolgen n in allen
Dokumenten der Datenbank). Jede gemeinsame Häufigkeits
gewichtung wird durch die Gesamtanzahl der Dokumente der
Datenbank dividiert. Danach wird die gemeinsame Häufigkeits
gewichtung jeder Zeichenfolge n von der Gewichtung der
ihr entsprechenden Zeichenfolge n in jedem Dokument der
Datenbank subtrahiert.
Anschließend wird jedes Dokument der Datenbank mit jedem
der anderen Dokumente der Datenbank verglichen. Dies ge
schieht dadurch, daß jedes Dokument der Datenbank gegenüber
jedem der anderen Dokumente der Datenbank ausgewertet
wird. Die Auswertung besteht darin, daß zunächst jede
von der gemeinsamen Häufigkeitszahl bereinigte Gewichtung
der Zeichenfolge n von einem Dokument der Datenbank (z. B.
D1i) mit der ihr entsprechenden von der gemeinsamen Häufig
keitszahl bereinigten Gewichtung der Zeichenfolge n von
dem Dokument der Datenbank, das verglichen wird (z. B. D2i),
multipliziert wird. Danach werden diese Produkte summiert
und bilden somit eine "Summierung der Produkte".
Jede von der gemeinsamen Häufigkeitszahl bereinigte Gewich
tung der Zeichenfolge n in dem ersten Dokument der Daten
bank wird dann quadriert (z. B. D1i**2). Diese quadrierten
Glieder werden summiert. Dann wird jede von der gemeinsamen
Häufigkeitszahl bereinigte Gewichtung der Zeichenfolge n
in dem zweiten Dokument der Datenbank, das mit dem ersten
Dokument der Datenbank verglichen wird, quadriert (z. B.
D2i**2) . Diese quadrierten Glieder werden summiert. An
schließend werden diese Summen miteinander multipliziert
und bilden somit ein "Produkt aus den Summierungen".
Die Auswertungspunktzahl des ersten Dokuments der Datenbank
im Vergleich zu dem zweiten Dokument der Datenbank ist
schließlich die "Summierung der Produkte", dividiert durch
die Quadratwurzel des "Produkts aus den Summierungen".
Es wird für jedes Dokument der Datenbank im Vergleich zu
jedem der anderen Dokumente der Datenbank eine Auswertungs
punktzahl errechnet. Der Benutzer definiert den Schwellen
wert, der von der Punktzahl erreicht werden muß, damit
die beiden Dokumente, die miteinander verglichen werden,
als ähnlich gelten. Ähnliche Dokumente werden dann in
gleiche Kategorien in bezug auf Sprache oder Inhalt sortiert.
Die obengenannten Beispiele für die bei der Identifikation
von Sprachen anfallenden Verarbeitungsschritte können
auch zur Beschreibung der Verarbeitungsschritte, die bei
diesem Algorithmus für das Sortieren von Dokumenten einer
Datenbank anfallen, Anwendung finden.
Die Forschung konzentriert sich bei der Textverarbeitung
gegenwärtig auf die inhaltsbezogene (d. h. linguistische)
Analyse. Die vorliegende Erfindung konzentriert sich einzig
und allein auf eine Analyse zur Mustererkennung (d. h.
nichtlinguistische Analyse). Es werden bei der vorliegenden
Erfindung keinerlei zusätzliche Informationen, die die
Syntax, Semantik oder Grammatik betreffen, benötigt. Die
Vorzüge bei der Verwendung einer Analyse von Zeichenfolgen n
für die Identifikation von Inhalten sind bis heute noch
nicht in vollem Umfange erkannt worden.
Die Identifikationsmethode für Inhalte gemäß dieser Erfin
dung funktioniert in jeder beliebigen Sprache gleich leicht
(jedoch in jeweils nur einer Sprache). Das System kann
von jemandem, der die Sprache des Textes nicht lesen kann,
gestartet werden und erfordert keine spezielle Schulung.
Verstümmelter Text (also Text, der Fehler enthält) ist
für das System unschädlich. Der Benutzer setzt eine Schwelle
zur Bewertung, ob Dokumente ähnlich sind. Nicht informative
gemeinsame Häufigkeitszahlen werden automatisch aus den
Dokumenten herausgerechnet.
Es können Veränderungen und Variationen bei den im einzelnen
beschriebenen Ausführungsarten, insbesondere bei der zur
Implementierung dieser Erfindung benutzten Programmier
sprache und der spezifischen Formel für die Punktzahl
zur Auswertung der Übereinstimmung, die sich aus den Ge
wichtungen der Zeichenfolgen n ableitet, vorgenommen werden;
der Schutzumfang der Erfindung, der nur durch den inhaltlichen
Umfang der beigefügten Ansprüche eingeschränkt werden darf,
bleibt davon unberührt.
Beansprucht wird:
Claims (26)
1. Verfahren zur Bestimmung der Sprache eines bestimmten
Textes, bestehend aus folgenden Verarbeitungsschritten:
- a) Zerlegen dieses Textinhalts in eine Vielzahl von Zeichen folgen n, von denen jede Zeichenfolge n den Inhalt von n aufeinanderfolgenden Zeichen-/Leerzeichenstellen dieses Textinhalts enthält, wobei n einen Wert von wenigstens Eins hat;
- b) Vergleichen jeder dieser Zeichenfolgen n mit Zeichenvorräten aus einer Vielzahl von Zeichenfolgen n, worin jeder Zeichen vorrat aus Zeichenfolgen n eine unterschiedliche Sprache darstellt; und
- c) Identifizieren der Sprache dieses Textinhalts als in der Sprache eines bestimmten Zeichenvorrats aus Zeichenfolgen n geschrieben, wenn der Abgleichungsprozentsatz bei Schritt b) für einen bestimmten Zeichenvorrat aus Zeichenfolgen n wenigstens gleich dem für diesen Zeichenvorrat aus Zeichen folgen n vorgeschriebenen Wert ist und größer als der Abgleichungsprozentsatz bei Schritt (b) für die anderen Zeichenvorräte aus Zeichenfolgen n ist.
2. Verfahren zum Identifizieren eines Dokuments, bestehend
aus folgenden Verarbeitungsschritten;
- a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen folge n aus wenigstens einem aufeinanderfolgenden Dokumen tenelement besteht;
- b) Zerlegen eines nicht identifizierten Dokuments, das maschinenlesbares Format hat, in eine Vielzahl von Zeichen folgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
- c) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
- d) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (b),
- e) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus dieser Vielzahl von Bezugsdatenfeldern ergibt;
- f) Vergleichen jeder Zeichenfolge n des nicht identifizierten Dokuments mit jeder Zeichenfolge n dieser Bezugsdatenfelder, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen diesem nicht identifi zierten Dokument und jedem dieser Bezugsdatenfelder an geben; und
- g) Identifizieren des nicht identifizierten Dokuments als wenigstens einem Dokument aus der Vielzahl der in Schritt (a) aufgelisteten Referenzdokumente ähnlich, wenn eine Auswertungspunktzahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert für die Bezugsdaten felder ist.
3. Verfahren nach Anspruch 2, bei dem der vorgenannte
Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes
mit Zeichenfolgen n wie folgt durchgeführt wird;
- a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Referenzdokument vorkommen; und
- b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n dieses Referenzdokuments.
4. Verfahren nach Anspruch 3, bei dem der vorgenannte
Verarbeitungsschritt der Zuordnung einer Gewichtung zu
jeder Zeichenfolge n des Referenzdokuments wie folgt durch
geführt wird;
- a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Referenzdokument;
- b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Referenzdokument; und
- c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als die Gewichtung dieser Zeichenfolge n.
5. Verfahren nach Anspruch 4, bei dem der Verarbeitungs
schritt des Herausrechnens der gemeinsamen Häufigkeitszahl
wie folgt durchgeführt wird;
- a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Referenzdokumente vorkommen;
- b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Referenzdokumente darstellt;
- c) Dividieren jeder Summe von Schritt (b) durch die Gesamt anzahl der Referenzdokumente; und
- d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Referenzdokumente.
6. Verfahren nach Anspruch 5, bei dem der vorgenannte
Verarbeitungsschritt der Zuordnung einer Gewichtung zu
jeder Zeichenfolge n des nicht identifizierten Dokuments
wie folgt durchgeführt wird;
- a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem nicht identifizierten Dokument;
- b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem nicht identifizierten Dokument;
- c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
- d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre chenden Zeichenfolge n als Gewichtung für diese Zeichen folge n.
7. Verfahren nach Anspruch 6, bei dem der vorgenannte
Vergleichsschritt zur Erstellung einer Liste mit Auswer
tungspunktzahlen wie folgt durchgeführt wird;
- a) Multiplizieren der Gewichtung einer Zeichenfolge n in dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in einem der Bezugsdaten felder;
- b) Wiederholen von Schritt (a) , bis die Gewichtung jeder Zeichenfolge aus dem nicht identifizierten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n, falls vorhanden, in dem Bezugsdatenfeld multipliziert ist;
- c) Summierung der Produkte aus den Schritten (a) und (b);
- d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem nicht identifizierten Dokument;
- e) Summieren der Quadratzahlen von den Gewichtungen des nicht identifizierten Dokuments von Schritt (d);
- f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
- g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
- h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
- i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
- j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung des nicht identifizierten Dokuments mit dem Referenzdokument von Schritt (a) zu errechnen; und
- k) Wiederholen der Schritte (a) bis (j) für die Vielzahl der Referenzdokumente, um eine Punktzahl für die Überein stimmung des nicht identifizierten Dokuments mit der Viel zahl der Referenzdokumente zu errechnen.
8. Verfahren nach Anspruch 7, bei dem der vorgenannte
Verarbeitungsschritt des Zerlegens wie folgt durchgeführt
wird;
- a) Begrenzen der zulässigen Dokumentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen;
- b) Ersetzen der vom Benutzer definierten Dokumentenelement strings, die aus wenigstens einem Dokumentenelement bestehen, durch vom Benutzer definierte Elementstrings, die aus wenigstens einem Dokumentenelement bestehen; und
- c) Löschen der vom Benutzer definierten Dokumentenelement strings.
9. Verfahren nach Anspruch 8, bei dem der vorgenannte
Verarbeitungsschritt der Begrenzung der zulässigen Doku
mentenelemente auf eine vom Benutzer definierte Menge von
Dokumentenelementen derart durchgeführt wird, daß die zu
lässigen Dokumentenelemente auf Buchstaben aus einer Viel
zahl von Sprachen beschränkt werden.
10. Das Verfahren nach Anspruch 9, bei dem der vorgenannte
Verarbeitungsschritt der Identifizierung eines nicht iden
tifizierten Dokuments zur Identifizierung der Sprache
dieses nicht identifizierten Dokuments führt.
11. Verfahren nach Anspruch 9, bei dem der vorgenannte
Verarbeitungsschritt der Identifizierung eines nicht iden
tifizierten Dokuments zur Identifizierung des Inhalts
dieses nicht identifizierten Dokuments führt.
12. Verfahren zum Wiederauffinden von Dokumenten, bestehend
aus folgenden Verarbeitungsschritten;
- a) Anlegen eines Bezugsdatenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Referenzdokumenten, die maschinenlesbares Format haben, wobei jede Zeichen folge n aus wenigstens einem aufeinanderfolgenden Dokumen tenelement besteht;
- b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a),
- c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Bezugsdatenfelder von Schritt (a) ergibt;
- d) Zerlegen einer Abfrage, die maschinenlesbares Format hat, in eine Vielzahl von Zeichenfolgen n, von denen jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Dokumentenelement besteht;
- e) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (d);
- f) Vergleichen jeder Zeichenfolge n der Abfrage von Schritt (d) mit den Zeichenfolgen n von jedem Datenfeld aus der Vielzahl der Bezugsdatenfelder von Schritt (a) , um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen der Abfrage und jedem Dokument aus der Vielzahl der Referenzdokumente angeben; und
- g) Identifizieren einer Vielzahl von Referenzdokumenten, die der Abfrage ähnlich sind, wenn eine Auswertungspunkt zahl in Schritt (f) wenigstens gleich einem vom Benutzer definierten Wert ist.
13. Verfahren nach Anspruch 12, bei dem der vorgenannte
Verarbeitungsschritt des Anlegens eines Bezugsdatenfeldes
mit Zeichenfolgen n wie folgt durchgeführt wird;
- a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Referenzdokument vorkommen; und
- b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n dieses Referenzdokuments.
14. Verfahren nach Anspruch 13, bei dem der vorgenannte
Verarbeitungsschritt der Zuordnung einer Gewichtung zu
jeder Zeichenfolge n des Referenzdokuments wie folgt durch
geführt wird;
- a) Zählen der Häufigkeit des Vorkommens jeder Zeichenfolge n in dem Referenzdokument;
- b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Referenzdokument; und
- c) Zuordnen jedes in Schritt (b) errechneten Quotienten zu der entsprechenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.
15. Verfahren nach Anspruch 14, bei dem der Verarbeitungs
schritt des Herausrechnens der gemeinsamen Häufigkeitszahl
wie folgt durchgeführt wird;
- a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Referenzdokumente vorkommen;
- b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Referenzdokumente darstellt;
- c) Dividieren jeder Summe von Schritt (b) durch die Gesamt anzahl der Referenzdokumente; und
- d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Referenzdokumente.
16. Verfahren nach Anspruch 15, bei dem der vorgenannte
Verarbeitungsschritt der Zuordnung einer Gewichtung zu
jeder Zeichenfolge n der Abfrage wie folgt durchgeführt
wird;
- a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in der Abfrage;
- b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in der Abfrage;
- c) Subtrahieren der gemeinsamen Häufigkeitsgewichtung der entsprechenden Zeichenfolge n von jedem Quotienten in Schritt (b) und
- d) Zuordnung des Ergebnisses von Schritt (c) zu der entspre chenden Zeichenfolge n als Gewichtung für diese Zeichen folge n.
17. Verfahren nach Anspruch 16, bei dem der vorgenannte
Vergleichsschritt zur Erstellung einer Liste mit Auswer
tungspunktzahlen wie folgt durchgeführt wird;
- a) Multiplizieren der Gewichtung einer Zeichenfolge n in der Abfrage mit der Gewichtung der entsprechenden Zeichen folge n in einem der Bezugsdatenfelder;
- b) Wiederholen von Schritt (a) , bis alle Gewichtungen der Zeichenfolgen n aus der Abfrage mit den Gewichtungen der entsprechenden Zeichenfolgen n in dem Bezugsdatenfeld multipliziert sind;
- c) Summierung der Produkte aus den Schritten (a) und (b);
- d) Quadrieren der Gewichtung jeder Zeichenfolge n in der Abfrage;
- e) Summieren der Quadratzahlen von den Gewichtungen der Abfrage von Schritt (d);
- f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem Bezugsdatenfeld von Schritt (a);
- g) Summieren der Quadratzahlen von den Gewichtungen des Bezugsdatenfeldes von Schritt (f);
- h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
- i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
- j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung der Abfrage mit der Referenzinformation von Schritt (a) zu errechnen; und
- k) Wiederholen der Schritte (a) bis (j) für jedes Dokument aus der Vielzahl der Referenzdokumente, um eine Punktzahl für die Übereinstimmung der Abfrage mit jedem Dokument aus der Vielzahl der Referenzdokumente zu errechnen.
18. Verfahren nach Anspruch 17, bei dem der vorgenannte
Verarbeitungsschritt des Analysierens wie folgt durchgeführt
wird;
- a) Begrenzen der zulässigen Dokumentenelemente auf eine vom Benutzer definierte Menge von Dokumentenelementen;
- b) Ersetzen der vom Benutzer definierten Dokumentenelement strings, die aus wenigstens einem Dokumentenelement bestehen, durch vom Benutzer definierte Elementstrings, die aus wenigstens einem Dokumentenelement bestehen; und
- c) Löschen der vom Benutzer definierten Dokumentenelement strings.
19. Verfahren nach Anspruch 18, bei dem der vorgenannte
Verarbeitungsschritt der Begrenzung der zulässigen Doku
mentenelemente auf eine vom Benutzer definierte Menge von
Dokumentenelementen derart durchgeführt wird, daß die
zulässigen Dokumentenelemente auf Buchstaben aus einer
Vielzahl von Sprachen beschränkt werden.
20. Verfahren nach Anspruch 19, bei dem der vorgenannte
Verarbeitungsschritt der Identifizierung einer Vielzahl
von Referenzdokumenten als der Abfrage ähnlich, die
maschinenlesbares Format hat, dadurch erfolgt, daß eine
Vielzahl von Referenzdokumenten als mit der Sprache dieser
Abfrage übereinstimmend identifiziert wird.
21. Verfahren nach Anspruch 19, bei dem der vorgenannte
Verarbeitungsschritt der Identifizierung einer Vielzahl
von Referenzdokumenten als der Abfrage ähnlich dadurch
erfolgt, daß eine Vielzahl von Referenzdokumenten als
mit dem Inhalt dieser Abfrage übereinstimmend identifiziert
wird.
22. Verfahren zum Sortieren von Dokumenten, bestehend
aus folgenden Verarbeitungsschritten;
- a) Anlegen eines Datenfeldes mit Zeichenfolgen n für jedes Dokument aus einer Vielzahl von Dokumenten, die maschinen lesbares Format haben, wobei jede Zeichenfolge n aus wenigstens einem aufeinanderfolgenden Informationselement besteht;
- b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a);
- c) Herausrechnen der gemeinsamen Häufigkeitszahl, die sich aus der Vielzahl der Datenfelder ergibt;
- d) Vergleichen jedes Datenfeldes mit allen anderen Datenfel dern, um eine Liste mit Auswertungspunktzahlen zu erstellen, die den Ähnlichkeitsgrad zwischen jedem dieser Datenfelder angeben; und
- e) Sortieren dieser Dokumente nach Kategorien, basierend auf den Auswertungspunktzahlen von Schritt (d) und einer vom Benutzer definierbaren Toleranz.
23. Verfahren nach Anspruch 22, bei dem der vorgenannte
Verarbeitungsschritt des Anlegens eines Datenfeldes mit
Zeichenfolgen n wie folgt durchgeführt wird;
- a) Auflisten aller einzelnen Zeichenfolgen n, die in dem entsprechenden Dokument vorkommen; und
- b) Zuordnen einer Gewichtung zu jeder Zeichenfolge n von Schritt (a).
24. Verfahren nach Anspruch 23, bei dem der vorgenannte
Verarbeitungsschritt der Zuordnung einer Gewichtung zu
jeder Zeichenfolge n des Datenfeldes wie folgt durchgeführt
wird;
- a) Zählen der Häufigkeit des Vorkommens jeder einzelnen Zeichenfolge n in dem Dokument;
- b) Dividieren jeder Zahl von Schritt (a) durch die Gesamt zahl der Zeichenfolgen n in dem Dokument; und
- c) Zuordnen jedes Quotienten von Schritt (b) zu der entspre chenden Zeichenfolge n als Gewichtung dieser Zeichenfolge n.
25. Verfahren nach Anspruch 24, bei dem der Verarbeitungs
schritt des Herausrechnens der gemeinsamen Häufigkeitszahl
wie folgt durchgeführt wird;
- a) Erstellen einer Liste der einzelnen Zeichenfolgen n, die in der Vielzahl der Dokumente vorkommen;
- b) Bildung einer Summe für jede Zeichenfolge n, die die Summierung der Gewichtungen für diese Zeichenfolge n aus der Vielzahl der Dokumente darstellt;
- c) Dividieren jeder Summe durch die Gesamtanzahl der Dokumente; und
- d) Subtrahieren dieses Quotienten von Schritt (c) von der Gewichtung der ihm entsprechenden Zeichenfolge n in jedem Dokument aus der Vielzahl der Dokumente.
26. Verfahren nach Anspruch 25, bei dem der vorgenannte
Vergleichsschritt zur Erstellung einer Liste mit Auswer
tungspunktzahlen wie folgt durchgeführt wird;
- a) Multiplizieren der Gewichtung einer Zeichenfolge n in einem Dokument aus der Vielzahl der Dokumente mit der Gewichtung der entsprechenden Zeichenfolge n in einem anderen Dokument aus der Vielzahl der Dokumente;
- b) Wiederholen von Schritt (a) , bis jede Gewichtung der Zeichenfolge n in dem ersten Dokument mit der Gewichtung der entsprechenden Zeichenfolge n in dem zweiten Dokument multipliziert ist;
- c) Summierung der Produkte aus den Schritten (a) und (b);
- d) Quadrieren der Gewichtung jeder Zeichenfolge n in dem ersten Dokument;
- e) Summieren der Quadratzahlen von den Gewichtungen des ersten Dokuments in Schritt (d);
- f) Quadrieren der Gewichtung jeder Zeichenfolge n in dem zweiten Dokument von Schritt (a);
- g) Summieren der Quadratzahlen von den Gewichtungen des zweiten Dokuments in Schritt (f);
- h) Multiplizieren der Summe aus Schritt (e) mit der Summe aus Schritt (g);
- i) Bildung der Quadratwurzel aus dem Produkt von Schritt (h);
- j) Dividieren der Summe von Schritt (c) durch die in Schritt (i) errechnete Zahl, um eine Punktzahl für die Überein stimmung des ersten Dokuments mit dem zweiten Dokument von Schritt (a) zu errechnen; und
- k) Wiederholen der Schritte (a) bis (j) für jedes Dokument, um eine Punktzahl für die Übereinstimmung jedes Dokuments mit jedem Dokument aus der Vielzahl der Dokumente zu errechnen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93252292A | 1992-08-20 | 1992-08-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4232507A1 true DE4232507A1 (de) | 1994-02-24 |
Family
ID=25462436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4232507A Ceased DE4232507A1 (de) | 1992-08-20 | 1992-09-29 | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten |
Country Status (6)
Country | Link |
---|---|
US (1) | US5418951A (de) |
JP (1) | JP3095552B2 (de) |
DE (1) | DE4232507A1 (de) |
FR (1) | FR2694984B1 (de) |
GB (1) | GB9220404D0 (de) |
NL (1) | NL194809C (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10028624B4 (de) * | 1999-06-09 | 2007-07-05 | Ricoh Co., Ltd. | Verfahren und Vorrichtung zur Dokumentenbeschaffung |
Families Citing this family (431)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
US5537586A (en) * | 1992-04-30 | 1996-07-16 | Individual, Inc. | Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US6243071B1 (en) * | 1993-11-03 | 2001-06-05 | Apple Computer, Inc. | Tool set for navigating through an electronic book |
US5548507A (en) * | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5754850A (en) * | 1994-05-11 | 1998-05-19 | Realselect, Inc. | Real-estate method and apparatus for searching for homes in a search pool for exact and close matches according to primary and non-primary selection criteria |
JP3438947B2 (ja) * | 1994-06-03 | 2003-08-18 | 新日鉄ソリューションズ株式会社 | 情報検索装置 |
US5752051A (en) * | 1994-07-19 | 1998-05-12 | The United States Of America As Represented By The Secretary Of Nsa | Language-independent method of generating index terms |
US5708804A (en) * | 1994-07-25 | 1998-01-13 | International Business Machines Corp. | Apparatus and method therefor of intelligently searching for information in a personal communications device |
JP2729356B2 (ja) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
US5778371A (en) * | 1994-09-13 | 1998-07-07 | Kabushiki Kaisha Toshiba | Code string processing system and method using intervals |
US5687364A (en) * | 1994-09-16 | 1997-11-11 | Xerox Corporation | Method for learning to infer the topical content of documents based upon their lexical content |
US5826241A (en) | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
WO1996010795A1 (en) * | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
US5864683A (en) | 1994-10-12 | 1999-01-26 | Secure Computing Corporartion | System for providing secure internetwork by connecting type enforcing secure computers to external network for limiting access to data based on user and process access rights |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
DE69624755T2 (de) * | 1995-05-22 | 2003-04-24 | Matsushita Electric Ind Co Ltd | Informationssuchgerät für das Suchen von Text, um Zeichenfolgen wiederaufzufinden, die mit einem Schlüsselwort übereinstimmen |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
JPH0981574A (ja) * | 1995-09-14 | 1997-03-28 | Fujitsu Ltd | 検索集合表示画面を利用したデータベース検索法およびシステム |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5794237A (en) * | 1995-11-13 | 1998-08-11 | International Business Machines Corporation | System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking |
JP3674119B2 (ja) * | 1995-11-29 | 2005-07-20 | 株式会社日立製作所 | 類似文書検索方法 |
US5826260A (en) * | 1995-12-11 | 1998-10-20 | International Business Machines Corporation | Information retrieval system and method for displaying and ordering information based on query element contribution |
US5787420A (en) * | 1995-12-14 | 1998-07-28 | Xerox Corporation | Method of ordering document clusters without requiring knowledge of user interests |
US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5913024A (en) | 1996-02-09 | 1999-06-15 | Secure Computing Corporation | Secure server utilizing separate protocol stacks |
US6081798A (en) * | 1996-04-24 | 2000-06-27 | International Business Machines Corp. | Object oriented case-based reasoning framework mechanism |
US5794236A (en) * | 1996-05-29 | 1998-08-11 | Lexis-Nexis | Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US5765149A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Modified collection frequency ranking method |
US5765150A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US6745194B2 (en) * | 2000-08-07 | 2004-06-01 | Alta Vista Company | Technique for deleting duplicate records referenced in an index of a database |
US5913185A (en) * | 1996-08-19 | 1999-06-15 | International Business Machines Corporation | Determining a natural language shift in a computer document |
US6009382A (en) * | 1996-08-19 | 1999-12-28 | International Business Machines Corporation | Word storage table for natural language determination |
US6023670A (en) * | 1996-08-19 | 2000-02-08 | International Business Machines Corporation | Natural language determination using correlation between common words |
US5909680A (en) * | 1996-09-09 | 1999-06-01 | Ricoh Company Limited | Document categorization by word length distribution analysis |
US6144934A (en) * | 1996-09-18 | 2000-11-07 | Secure Computing Corporation | Binary filter using pattern recognition |
US6072942A (en) * | 1996-09-18 | 2000-06-06 | Secure Computing Corporation | System and method of electronic mail filtering using interconnected nodes |
AU4495597A (en) | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6002998A (en) * | 1996-09-30 | 1999-12-14 | International Business Machines Corporation | Fast, efficient hardware mechanism for natural language determination |
US5842217A (en) * | 1996-12-30 | 1998-11-24 | Intel Corporation | Method for recognizing compound terms in a document |
US5774888A (en) * | 1996-12-30 | 1998-06-30 | Intel Corporation | Method for characterizing a document set using evaluation surrogates |
US5778363A (en) * | 1996-12-30 | 1998-07-07 | Intel Corporation | Method for measuring thresholded relevance of a document to a specified topic |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US6977574B1 (en) * | 1997-02-14 | 2005-12-20 | Denso Corporation | Stick-type ignition coil having improved structure against crack or dielectric discharge |
TW421750B (en) | 1997-03-14 | 2001-02-11 | Omron Tateisi Electronics Co | Language identification device, language identification method and storage media recorded with program of language identification |
JP3173411B2 (ja) * | 1997-03-17 | 2001-06-04 | 富士ゼロックス株式会社 | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 |
US6415250B1 (en) * | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
CA2242065C (en) | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
US5978797A (en) * | 1997-07-09 | 1999-11-02 | Nec Research Institute, Inc. | Multistage intelligent string comparison method |
US6016546A (en) * | 1997-07-10 | 2000-01-18 | International Business Machines Corporation | Efficient detection of computer viruses and other data traits |
US6760746B1 (en) * | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6029167A (en) * | 1997-07-25 | 2000-02-22 | Claritech Corporation | Method and apparatus for retrieving text using document signatures |
US6003029A (en) * | 1997-08-22 | 1999-12-14 | International Business Machines Corporation | Automatic subspace clustering of high dimensional data for data mining applications |
US6094651A (en) * | 1997-08-22 | 2000-07-25 | International Business Machines Corporation | Discovery-driven exploration of OLAP data cubes |
WO1999012108A1 (en) * | 1997-09-04 | 1999-03-11 | British Telecommunications Public Limited Company | Methods and/or systems for selecting data sets |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
JP3488063B2 (ja) * | 1997-12-04 | 2004-01-19 | 株式会社エヌ・ティ・ティ・データ | 情報分類方法、装置及びシステム |
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6112172A (en) * | 1998-03-31 | 2000-08-29 | Dragon Systems, Inc. | Interactive searching |
US5991714A (en) * | 1998-04-22 | 1999-11-23 | The United States Of America As Represented By The National Security Agency | Method of identifying data type and locating in a file |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
JP3622503B2 (ja) | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
US6169969B1 (en) * | 1998-08-07 | 2001-01-02 | The United States Of America As Represented By The Director Of The National Security Agency | Device and method for full-text large-dictionary string matching using n-gram hashing |
US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
US6397205B1 (en) | 1998-11-24 | 2002-05-28 | Duquesne University Of The Holy Ghost | Document categorization and evaluation via cross-entrophy |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US8037168B2 (en) | 1999-07-15 | 2011-10-11 | Esdr Network Solutions Llc | Method, product, and apparatus for enhancing resolution services, registration services, and search services |
US7188138B1 (en) | 1999-03-22 | 2007-03-06 | Eric Schneider | Method, product, and apparatus for resource identifier registration and aftermarket services |
US9141717B2 (en) | 1999-03-22 | 2015-09-22 | Esdr Network Solutions Llc | Methods, systems, products, and devices for processing DNS friendly identifiers |
USRE43690E1 (en) | 1999-03-22 | 2012-09-25 | Esdr Network Solutions Llc | Search engine request method, product, and apparatus |
US6338082B1 (en) | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US6658151B2 (en) * | 1999-04-08 | 2003-12-02 | Ricoh Co., Ltd. | Extracting information from symbolically compressed document images |
US6732149B1 (en) * | 1999-04-09 | 2004-05-04 | International Business Machines Corporation | System and method for hindering undesired transmission or receipt of electronic messages |
US6901402B1 (en) * | 1999-06-18 | 2005-05-31 | Microsoft Corporation | System for improving the performance of information retrieval-type tasks by identifying the relations of constituents |
AU6363500A (en) * | 1999-07-22 | 2001-02-13 | Silicon Valley Bank | Method and system for providing information responsive to a user |
US20020023123A1 (en) * | 1999-07-26 | 2002-02-21 | Justin P. Madison | Geographic data locator |
US6289350B1 (en) | 1999-08-20 | 2001-09-11 | Newsgems Llc | System and method for structured news release generation and distribution |
AU6791900A (en) * | 1999-08-20 | 2001-03-19 | Newsgems Llc | System and method for structured news release generation and distribution |
US8214386B2 (en) * | 1999-08-20 | 2012-07-03 | Newgems Llc | System and method for structured news release generation and distribution |
US6370535B1 (en) | 1999-08-20 | 2002-04-09 | Newsgems Llc | System and method for structured news release generation and distribution |
US6785810B1 (en) * | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
USRE44207E1 (en) | 1999-09-01 | 2013-05-07 | Esdr Network Solutions Llc | Network resource access method, product, and apparatus |
US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
US6529902B1 (en) * | 1999-11-08 | 2003-03-04 | International Business Machines Corporation | Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling |
EP2448155A3 (de) | 1999-11-10 | 2014-05-07 | Pandora Media, Inc. | Internetradio und rundfunkverfahren |
US7711738B1 (en) * | 1999-11-15 | 2010-05-04 | West Services, Inc. | Method, system and computer-readable medium for accessing and retrieving court records, items and documents |
US6714944B1 (en) | 1999-11-30 | 2004-03-30 | Verivita Llc | System and method for authenticating and registering personal background data |
AU2212801A (en) * | 1999-12-07 | 2001-06-18 | Qjunction Technology, Inc. | Natural english language search and retrieval system and method |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US20010049707A1 (en) * | 2000-02-29 | 2001-12-06 | Tran Bao Q. | Systems and methods for generating intellectual property |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8706618B2 (en) | 2005-09-29 | 2014-04-22 | Ebay Inc. | Release of funds based on criteria |
GB2377059A (en) | 2000-03-17 | 2002-12-31 | Ebay Inc | Method and apparatus for facilitating online payment transactions in a network based transaction facility using multiple payment instruments |
US7499875B1 (en) | 2000-03-17 | 2009-03-03 | Ebay Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US8095508B2 (en) * | 2000-04-07 | 2012-01-10 | Washington University | Intelligent data storage and processing using FPGA devices |
US7139743B2 (en) * | 2000-04-07 | 2006-11-21 | Washington University | Associative database scanning and information retrieval using FPGA devices |
US7177798B2 (en) * | 2000-04-07 | 2007-02-13 | Rensselaer Polytechnic Institute | Natural language interface using constrained intermediate dictionary of results |
US6711558B1 (en) * | 2000-04-07 | 2004-03-23 | Washington University | Associative database scanning and information retrieval |
US7251665B1 (en) * | 2000-05-03 | 2007-07-31 | Yahoo! Inc. | Determining a known character string equivalent to a query string |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US8352331B2 (en) | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7617184B2 (en) | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US7035864B1 (en) * | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
US6519557B1 (en) | 2000-06-06 | 2003-02-11 | International Business Machines Corporation | Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity |
US20020052783A1 (en) * | 2000-06-26 | 2002-05-02 | Turek David G. | Method and apparatus for establishing a customized electronic site |
GB2380581A (en) * | 2000-07-11 | 2003-04-09 | Launch Media Inc | Online playback system with community bias |
US20070027672A1 (en) * | 2000-07-31 | 2007-02-01 | Michel Decary | Computer method and apparatus for extracting data from web pages |
US6618717B1 (en) * | 2000-07-31 | 2003-09-09 | Eliyon Technologies Corporation | Computer method and apparatus for determining content owner of a website |
GB2366940B (en) * | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
US6895438B1 (en) | 2000-09-06 | 2005-05-17 | Paul C. Ulrich | Telecommunication-based time-management system and method |
US20060074727A1 (en) | 2000-09-07 | 2006-04-06 | Briere Daniel D | Method and apparatus for collection and dissemination of information over a computer network |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
AUPR082400A0 (en) * | 2000-10-17 | 2000-11-09 | Telstra R & D Management Pty Ltd | An information retrieval system |
AU2001295283B2 (en) * | 2000-10-17 | 2007-03-22 | Telstra Corporation Limited | An information retrieval system |
US6704449B1 (en) | 2000-10-19 | 2004-03-09 | The United States Of America As Represented By The National Security Agency | Method of extracting text from graphical images |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
GB2368670A (en) * | 2000-11-03 | 2002-05-08 | Envisional Software Solutions | Data acquisition system |
US8515959B2 (en) | 2000-11-06 | 2013-08-20 | International Business Machines Corporation | Method and apparatus for maintaining and navigating a non-hierarchical personal spatial file system |
US7099671B2 (en) * | 2001-01-16 | 2006-08-29 | Texas Instruments Incorporated | Collaborative mechanism of enhanced coexistence of collocated wireless networks |
US7406529B2 (en) * | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
US6625600B2 (en) * | 2001-04-12 | 2003-09-23 | Telelogue, Inc. | Method and apparatus for automatically processing a user's communication |
US7272857B1 (en) | 2001-04-20 | 2007-09-18 | Jpmorgan Chase Bank, N.A. | Method/system for preventing identity theft or misuse by restricting access |
US7574513B2 (en) | 2001-04-30 | 2009-08-11 | Yahoo! Inc. | Controllable track-skipping |
US7536413B1 (en) | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
US7627588B1 (en) | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
US6970881B1 (en) | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
US6826576B2 (en) | 2001-05-07 | 2004-11-30 | Microsoft Corporation | Very-large-scale automatic categorizer for web content |
US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
USRE46973E1 (en) | 2001-05-07 | 2018-07-31 | Ureveal, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US6768991B2 (en) * | 2001-05-15 | 2004-07-27 | Networks Associates Technology, Inc. | Searching for sequences of character data |
US7272594B1 (en) | 2001-05-31 | 2007-09-18 | Autonomy Corporation Ltd. | Method and apparatus to link to a related document |
JP3452558B2 (ja) * | 2001-09-25 | 2003-09-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム |
US7716330B2 (en) | 2001-10-19 | 2010-05-11 | Global Velocity, Inc. | System and method for controlling transmission of data packets over an information network |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
AU2003210393A1 (en) * | 2002-02-27 | 2003-09-09 | Michael Rik Frans Brands | A data integration and knowledge management solution |
US8589413B1 (en) | 2002-03-01 | 2013-11-19 | Ixreveal, Inc. | Concept-based method and system for dynamically analyzing results from search engines |
DE10213468A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | Verfahren und System zur Informationssuche in multilingualen Wissensdatenbanken mit automatischer Übersetzung der Suchergebnisse |
DE10213348A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | System und Verfahren zur Informationssuche in multilingualen Wissensdatenbanken unter Verwendung eines multilingualen Fachvokabulars |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7020338B1 (en) * | 2002-04-08 | 2006-03-28 | The United States Of America As Represented By The National Security Agency | Method of identifying script of line of text |
US7305483B2 (en) | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7093023B2 (en) * | 2002-05-21 | 2006-08-15 | Washington University | Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto |
NL1020670C2 (nl) * | 2002-05-24 | 2003-11-25 | Oce Tech Bv | Het bepalen van een semantische afbeelding. |
US7010522B1 (en) * | 2002-06-17 | 2006-03-07 | At&T Corp. | Method of performing approximate substring indexing |
RU2251737C2 (ru) * | 2002-10-18 | 2005-05-10 | Аби Софтвер Лтд. | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании |
US7711844B2 (en) * | 2002-08-15 | 2010-05-04 | Washington University Of St. Louis | TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks |
US20040117366A1 (en) * | 2002-12-12 | 2004-06-17 | Ferrari Adam J. | Method and system for interpreting multiple-term queries |
US7284009B2 (en) * | 2002-12-13 | 2007-10-16 | Sun Microsystems, Inc. | System and method for command line prediction |
US7401063B2 (en) * | 2002-12-16 | 2008-07-15 | General Electric Company | Process for semi-automatic maintenance of a knowledge base using tagged examples |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7111000B2 (en) * | 2003-01-06 | 2006-09-19 | Microsoft Corporation | Retrieval of structured documents |
US7756847B2 (en) * | 2003-03-03 | 2010-07-13 | Koninklijke Philips Electronics N.V. | Method and arrangement for searching for strings |
US10521857B1 (en) | 2003-05-12 | 2019-12-31 | Symantec Corporation | System and method for identity-based fraud detection |
US10572824B2 (en) | 2003-05-23 | 2020-02-25 | Ip Reservoir, Llc | System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines |
EP1627331B1 (de) | 2003-05-23 | 2017-09-20 | IP Reservoir, LLC | Intelligenter datenspeicher und entsprechende bearbeitung unter benutzung von fpga -geräten |
US7734627B1 (en) * | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
JP4678712B2 (ja) * | 2003-07-31 | 2011-04-27 | 株式会社リコー | 言語識別装置、プログラム及び記録媒体 |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
KR20060120029A (ko) * | 2003-09-10 | 2006-11-24 | 뮤직매치, 인크. | 뮤직을 구매하고 플레이하는 시스템 및 방법 |
US7644076B1 (en) * | 2003-09-12 | 2010-01-05 | Teradata Us, Inc. | Clustering strings using N-grams |
US7359851B2 (en) * | 2004-01-14 | 2008-04-15 | Clairvoyance Corporation | Method of identifying the language of a textual passage using short word and/or n-gram comparisons |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7602785B2 (en) | 2004-02-09 | 2009-10-13 | Washington University | Method and system for performing longest prefix matching for network address lookup using bloom filters |
GB2411014A (en) * | 2004-02-11 | 2005-08-17 | Autonomy Corp Ltd | Automatic searching for relevant information |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US7428528B1 (en) | 2004-03-31 | 2008-09-23 | Endeca Technologies, Inc. | Integrated application for manipulating content in a hierarchical data-driven search and navigation system |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7478081B2 (en) * | 2004-11-05 | 2009-01-13 | International Business Machines Corporation | Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system |
US20060117252A1 (en) * | 2004-11-29 | 2006-06-01 | Joseph Du | Systems and methods for document analysis |
US20060155530A1 (en) * | 2004-12-14 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for generation of text documents |
EP1672531A3 (de) | 2004-12-14 | 2008-10-15 | International Business Machines Corporation | Verfahren und Vorrichtung zur Erstellung von Textdokumenten |
US7844961B2 (en) * | 2004-12-22 | 2010-11-30 | Sap Ag | Automatic field linking |
US20060142993A1 (en) * | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
EP1859378A2 (de) * | 2005-03-03 | 2007-11-28 | Washington University | Verfahren und vorrichtung zur durchführung einer biosequenz-ähnlichkeitssuche |
JP4314204B2 (ja) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
US7805291B1 (en) | 2005-05-25 | 2010-09-28 | The United States Of America As Represented By The Director National Security Agency | Method of identifying topic of text using nouns |
US20070150468A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Preprocessing Content to Determine Relationships |
US20070150483A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Network Service for Providing Related Content |
US20070150457A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Enabling One-Click Searching Based on Elements Related to Displayed Content |
US20070162396A1 (en) * | 2005-06-13 | 2007-07-12 | Inform Technologies, Llc | Determining Advertising Placement on Preprocessed Content |
US7451135B2 (en) | 2005-06-13 | 2008-11-11 | Inform Technologies, Llc | System and method for retrieving and displaying information relating to electronic documents available from an informational network |
US20070150721A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Disambiguation for Preprocessing Content to Determine Relationships |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP1952280B8 (de) * | 2005-10-11 | 2016-11-30 | Ureveal, Inc. | System, verfahren und computerprogrammprodukt für suche und analyse auf konzeptbasis |
US8019752B2 (en) | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US7702629B2 (en) * | 2005-12-02 | 2010-04-20 | Exegy Incorporated | Method and device for high performance regular expression pattern matching |
US7676485B2 (en) * | 2006-01-20 | 2010-03-09 | Ixreveal, Inc. | Method and computer program product for converting ontologies into concept semantic networks |
US9275129B2 (en) | 2006-01-23 | 2016-03-01 | Symantec Corporation | Methods and systems to efficiently find similar and near-duplicate emails and files |
US7954114B2 (en) | 2006-01-26 | 2011-05-31 | Exegy Incorporated | Firmware socket module for FPGA-based pipeline processing |
US20070208733A1 (en) * | 2006-02-22 | 2007-09-06 | Copernic Technologies, Inc. | Query Correction Using Indexed Content on a Desktop Indexer Program |
US8019763B2 (en) * | 2006-02-27 | 2011-09-13 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
US7636703B2 (en) * | 2006-05-02 | 2009-12-22 | Exegy Incorporated | Method and apparatus for approximate pattern matching |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
JP4251652B2 (ja) * | 2006-06-09 | 2009-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索装置、検索プログラムおよび検索方法 |
US7921046B2 (en) | 2006-06-19 | 2011-04-05 | Exegy Incorporated | High speed processing of financial information using FPGA devices |
US7840482B2 (en) * | 2006-06-19 | 2010-11-23 | Exegy Incorporated | Method and system for high speed options pricing |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8856145B2 (en) * | 2006-08-04 | 2014-10-07 | Yahoo! Inc. | System and method for determining concepts in a content item using context |
US20080086274A1 (en) * | 2006-08-10 | 2008-04-10 | Chamberlain Roger D | Method and Apparatus for Protein Sequence Alignment Using FPGA Devices |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
EP2067119A2 (de) * | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optische scanner, zum beispiel tragbare optische scanner |
US8078625B1 (en) * | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
US8326819B2 (en) * | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8676802B2 (en) * | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7890549B2 (en) * | 2007-04-30 | 2011-02-15 | Quantum Leap Research, Inc. | Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users |
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
US8014959B2 (en) * | 2007-05-07 | 2011-09-06 | Sparta, Inc. | Population of background suppression lists from limited data in agent detection systems |
US10762080B2 (en) * | 2007-08-14 | 2020-09-01 | John Nicholas and Kristin Gross Trust | Temporal document sorter and method |
US8638363B2 (en) | 2009-02-18 | 2014-01-28 | Google Inc. | Automatically capturing information, such as capturing information using a document-aware device |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10229453B2 (en) * | 2008-01-11 | 2019-03-12 | Ip Reservoir, Llc | Method and system for low latency basket calculation |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US9081853B2 (en) * | 2008-04-03 | 2015-07-14 | Graham Holdings Company | Information display system based on user profile data with assisted and explicit profile modification |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090265385A1 (en) * | 2008-04-18 | 2009-10-22 | Beland Paula M | Insurance document imaging and processing system |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8374986B2 (en) * | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
EP2370946A4 (de) | 2008-12-15 | 2012-05-30 | Exegy Inc | Verfahren und vorrichtung zur hochgeschwindigkeitsverarbeitung von finanzmarkttiefendaten |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US9245033B2 (en) | 2009-04-02 | 2016-01-26 | Graham Holdings Company | Channel sharing |
US9245243B2 (en) * | 2009-04-14 | 2016-01-26 | Ureveal, Inc. | Concept-based analysis of structured and unstructured data using concept inheritance |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110202484A1 (en) * | 2010-02-18 | 2011-08-18 | International Business Machines Corporation | Analyzing parallel topics from correlated documents |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10037568B2 (en) | 2010-12-09 | 2018-07-31 | Ip Reservoir, Llc | Method and apparatus for managing orders in financial markets |
US8478740B2 (en) | 2010-12-16 | 2013-07-02 | Microsoft Corporation | Deriving document similarity indices |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8868567B2 (en) * | 2011-02-02 | 2014-10-21 | Microsoft Corporation | Information retrieval using subject-aware document ranker |
US8612367B2 (en) | 2011-02-04 | 2013-12-17 | Microsoft Corporation | Learning similarity function for rare queries |
US8719257B2 (en) | 2011-02-16 | 2014-05-06 | Symantec Corporation | Methods and systems for automatically generating semantic/concept searches |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US20130024184A1 (en) * | 2011-06-13 | 2013-01-24 | Trinity College Dublin | Data processing system and method for assessing quality of a translation |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP2013069157A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9130778B2 (en) | 2012-01-25 | 2015-09-08 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using frequency spectra of character strings |
US8954519B2 (en) | 2012-01-25 | 2015-02-10 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using character histograms |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US10650452B2 (en) | 2012-03-27 | 2020-05-12 | Ip Reservoir, Llc | Offload processing of data packets |
US9990393B2 (en) | 2012-03-27 | 2018-06-05 | Ip Reservoir, Llc | Intelligent feed switch |
US10121196B2 (en) | 2012-03-27 | 2018-11-06 | Ip Reservoir, Llc | Offload processing of data packets containing financial market data |
US11436672B2 (en) | 2012-03-27 | 2022-09-06 | Exegy Incorporated | Intelligent switch for processing financial market data |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10198776B2 (en) | 2012-09-21 | 2019-02-05 | Graham Holdings Company | System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9323767B2 (en) | 2012-10-01 | 2016-04-26 | Longsand Limited | Performance and scalability in an intelligent data operating layer system |
US10133802B2 (en) | 2012-10-23 | 2018-11-20 | Ip Reservoir, Llc | Method and apparatus for accelerated record layout detection |
EP2912579B1 (de) | 2012-10-23 | 2020-08-19 | IP Reservoir, LLC | Verfahren und vorrichtung zur beschleunigten formatübersetzung von daten in einem begrenzten datenformat |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9934283B2 (en) * | 2013-03-08 | 2018-04-03 | Google Llc | Social annotations for enhanced search results |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10176256B1 (en) | 2013-12-23 | 2019-01-08 | BroadbandTV, Corp | Title rating and improvement process and system |
WO2015107659A1 (ja) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | 検索装置 |
US9600770B1 (en) * | 2014-02-13 | 2017-03-21 | Emergent Systems Corporation | Method for determining expertise of users in a knowledge management system |
GB2541577A (en) | 2014-04-23 | 2017-02-22 | Ip Reservoir Llc | Method and apparatus for accelerated data translation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
DE212015000194U1 (de) | 2014-08-06 | 2017-05-31 | Apple Inc. | Verkleinerte Benutzeroberflächen für Batteriemanagement |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
EP3373122B1 (de) | 2014-09-02 | 2022-04-06 | Apple Inc. | Schnittstellen mit reduzierter grösse zur verwaltung von alarmen |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
EP3560135A4 (de) | 2016-12-22 | 2020-08-05 | IP Reservoir, LLC | Rohrleitungen zum hardware-beschleunigten maschinellen lernen |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11455298B2 (en) | 2019-02-06 | 2022-09-27 | Parsons Corporation | Goal-directed semantic search |
US20230080508A1 (en) * | 2021-08-30 | 2023-03-16 | Kyocera Document Solutions Inc. | Method and system for obtaining similarity rates between electronic documents |
US20230092124A1 (en) * | 2021-08-30 | 2023-03-23 | Kyocera Document Solutions Inc. | Method and system for searching electronic documents based on their similarity rates |
US20230409823A1 (en) * | 2022-06-16 | 2023-12-21 | The Bank Of Nova Scotia | System and Method for Reviewing and Evaluating Discrepancies Between Two or More Documents |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US5031206A (en) * | 1987-11-30 | 1991-07-09 | Fon-Ex, Inc. | Method and apparatus for identifying words entered on DTMF pushbuttons |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5293466A (en) * | 1990-08-03 | 1994-03-08 | Qms, Inc. | Method and apparatus for selecting interpreter for printer command language based upon sample of print job transmitted to printer |
US5182708A (en) * | 1990-12-11 | 1993-01-26 | Ricoh Corporation | Method and apparatus for classifying text |
US5276741A (en) * | 1991-05-16 | 1994-01-04 | Trw Financial Systems & Services, Inc. | Fuzzy string matcher |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5150425A (en) * | 1991-08-30 | 1992-09-22 | Eastman Kodak Company | Character recognition method using correlation search |
-
1992
- 1992-09-28 GB GB929220404A patent/GB9220404D0/en active Pending
- 1992-09-29 NL NL9201684A patent/NL194809C/nl not_active IP Right Cessation
- 1992-09-29 DE DE4232507A patent/DE4232507A1/de not_active Ceased
- 1992-10-02 FR FR9211714A patent/FR2694984B1/fr not_active Expired - Fee Related
- 1992-10-15 JP JP04301549A patent/JP3095552B2/ja not_active Expired - Fee Related
-
1994
- 1994-09-30 US US08/316,495 patent/US5418951A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10028624B4 (de) * | 1999-06-09 | 2007-07-05 | Ricoh Co., Ltd. | Verfahren und Vorrichtung zur Dokumentenbeschaffung |
Also Published As
Publication number | Publication date |
---|---|
FR2694984A1 (fr) | 1994-02-25 |
JP3095552B2 (ja) | 2000-10-03 |
NL194809B (nl) | 2002-11-01 |
NL9201684A (nl) | 1994-03-16 |
NL194809C (nl) | 2003-03-04 |
US5418951A (en) | 1995-05-23 |
FR2694984B1 (fr) | 1994-10-21 |
GB9220404D0 (en) | 1992-11-11 |
JPH06110948A (ja) | 1994-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4232507A1 (de) | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE60029845T2 (de) | System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung | |
DE19721198C2 (de) | Statistisches Sprachmodell für flektierende Sprachen | |
DE102005051617B4 (de) | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69432575T2 (de) | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung | |
DE60304331T2 (de) | Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache | |
DE69911842T2 (de) | Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium | |
DE2541204C3 (de) | Einrichtung zur Fehlerkorrektur | |
DE2640537A1 (de) | Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen | |
DE69934195T2 (de) | Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
DE112013000981T5 (de) | Einheit, Programm und Verfahren zum Analysieren von Textdokumenten | |
CH712988B1 (de) | Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust. | |
EP2221735A2 (de) | Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem | |
DE19726592C2 (de) | Informationserkennungs-Vorrichtung | |
DE112019006523T5 (de) | Satzstrukturvektorisierungsvorrichtung, satzstrukturvektorisierungsverfahren und satzstrukturvektorisierungsprogramm | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
Xuanjing et al. | Language-independent Text Categorization | |
EP1170678B1 (de) | Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze | |
DE10112587A1 (de) | Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element | |
Purandare et al. | Improving word sense discrimination with gloss augmented feature vectors | |
DE202022104673U1 (de) | System zur Rückverfolgbarkeit von sozialen Netzwerken | |
DE102016217191A1 (de) | Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8131 | Rejection |