DE10028624A1 - Verfahren und Vorrichtung zur Dokumentenbeschaffung - Google Patents

Verfahren und Vorrichtung zur Dokumentenbeschaffung

Info

Publication number
DE10028624A1
DE10028624A1 DE10028624A DE10028624A DE10028624A1 DE 10028624 A1 DE10028624 A1 DE 10028624A1 DE 10028624 A DE10028624 A DE 10028624A DE 10028624 A DE10028624 A DE 10028624A DE 10028624 A1 DE10028624 A1 DE 10028624A1
Authority
DE
Germany
Prior art keywords
count
documents
document
strings
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10028624A
Other languages
English (en)
Other versions
DE10028624B4 (de
Inventor
Yasushi Ogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP11162068A external-priority patent/JP2000348059A/ja
Priority claimed from JP36036999A external-priority patent/JP4077128B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE10028624A1 publication Critical patent/DE10028624A1/de
Application granted granted Critical
Publication of DE10028624B4 publication Critical patent/DE10028624B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

Ein Verfahren zur Dokumentenbeschaffung beinhaltet die Schritte der Unterteilung einer Suchzeichenfolge in partielle Zeichenfolgen, das Auswählen eines Dokuments oder mehrerer Dokumente von einer Vielzahl gespeicherter Dokumente, derartig, dass das eine Dokument oder die mehreren Dokumente jeweils alle partiellen Zeichenfolgen enthalten, die Berechnung jeweiliger Ränge der partiellen Zeichenfolgen für jedes der Anzahl Dokumente und die Berechnung eines Rangs der Suchzeichenfolge von den jeweiligen Rängen der partiellen Zeichenfolgen für jedes der Anzahldokumente.

Description

Die vorliegende Erfindung betrifft im allgemeinen eine Vorrichtung, ein Verfahren und Spei­ chermedium mit einem darin enthaltenen Programm sowie ein Programm zur Dokumentensu­ che, Dokumentenbeschaffung (insbesondere bzw. Dokumentenwiedergewinnung, Dokumenten­ abruf).
Dokumentenbeschaffungstechniken (Dokumenten-"Retrieval"-Techniken) beschaffen Doku­ mente, die eine Suchzeichenfolge enthalten, von einer Dokumenten-Datenbank. Eine derartige Dokumentenbeschaffungstechnik ist ein Wahrscheinlich-Relevanz-Beschaffungsschema ("likely­ relevance retrieval scheme"), das Dokumente beschafft (sucht, lokalisiert und/oder abruft), die Zeichenfolgen enthalten, die einer Suchzeichenfolge ähnlich sind.
Die Wahrscheinlich-Relevanz-Beschaffungstechnik bzw. die Beschaffungstechnik, die auf einer wahrscheinlichen Relevanz basiert, ist zum Beispiel in der japanischen offengelegten Patentan­ meldung Nr. 11-85776 offenbart. Diese Technik berechnet Rangordnungen bzw. Rangord­ nungspunkte partieller Zeichenfolgen, die Teile einer Suchzeichenfolge sind, und zwar basie­ rend auf der Häufigkeit des Auftretens und sucht nach der Suchzeichenfolge in dem Dokument, in dem die erhaltenen Rangpunkte bzw. Rangordnungspunkte verwendet werden.
Ein anderes Beispiel der Wahrscheinlich-Relevanz-Beschaffungstechnik findet man in "Deve­ lopment and Evaluation of Full-Document-Based Retrieval System" 'Retrieval Express'", Proceedings of the Third Annual Meeting of the Association for Natural Language Processing, Seiten 361-364, März 1997. Diese Technik erhält die Häufigkeit des Auftretens einer Suchzei­ chenfolge in einem Dokument, in dem alle Positionen eines derartigen Auftretens in dem Dokument, basierend auf dem Auftreten von partiellen Zeichenfolgen erhalten werden und berechnet eine Rangordnung der Suchzeichenfolgen bezüglich des Dokuments. Die Technik, die in der obigen offengelegten Patentanmeldung offenbart ist, sucht jedoch lediglich nach einer Suchzeichenfolge in einem einzelnen Dokument und kann nicht verwendet werden, um ein Dokument wiederzubeschaffen, das eine Suchzeichenfolge von einer Vielzahl von Dokumenten enthält.
Weiter werden je länger die Suchzeichenfolge ist, desto größer die Anzahl der partiellen Zeichenfolgen, die bei der Suche zu berücksichtigen sind. Ebenso ist je länger die Suchzeichen­ folge ist, desto größer die Anzahl der Dokumentsegmente, die zur Berechnung der Rangpunkte ("ranking scores") zu verarbeiten sind. Dies führt zu einer Zunahme in der Beschaffungszeit. Wenn zum Beispiel eine Suchzeichenfolge "ABCDEF" lautet (jeder Großbuchstabe stellt ein einziges japanisches Zeichen zum Zwecke der Erläuterung dar) und partielle Zeichenfolgen, die jeweils aus zwei Zeichen bestehen, als eine Einheit bei der Verarbeitung verwendet werden, kann man fünf partielle Zeichenfolgen, d. h. "AB", "BC", "CD", "DE" und "EF" extrahieren. Wenn im allgemeinen eine Suchzeichenfolge aus m-Zeichen besteht und n-Zeichen eine Verar­ beitungseinheit bilden, kann man (m - n + 1) partielle Zeichenfolge extrahieren. Da der Rangpunkt bei jeder Position zu berechnen ist, wo wenigstens eine extrahierte partielle Zei­ chenfolge erscheint, nimmt die Anzahl der Positionen, für die eine Berechnung erforderlich ist, mit der Anzahl der partiellen Zeichenfolgen zu.
Ein Rangpunkt partieller Zeichenfolgen in dem Dokument wird basierend auf der Häufigkeit des Auftretens der partiellen Zeichenfolge in dem Dokument berechnet. Für manche der partiellen Zeichenfolgen, die in dem Dokument erscheinen, kann gelten, dass sie nicht durch die Suchzeichenfolge getragen werden. Dennoch werden diese für die Rangpunkte mitgezählt. Dies reduziert die Genauigkeit der Suche. Zum Beispiel kann die Suchzeichenfolge "ABCDEF" nur einmal bei einem gegebenen Dokument erscheinen und eine andere Zeichenfolge "WXYZEF", die eine vollständig unterschiedliche Bedeutung hat, kann mehrere Male in diesem Dokument erscheinen. In einem derartigen Fall erscheint die partielle Suchzeichenfolge "EF" so häufig, wie die Anzahl des Auftretens von "ABCDEF" plus die Anzahl des Auftretens von "WXYZEF". Infolgedessen wird der Rangpunkt der partiellen Zeichenfolge "EF" letzt­ endlich unangemessen hoch, obwohl die Suchzeichenfolge nur selten auftritt, was zu einem unangemessen hohen Rangpunkt für die Suchzeichenfolge führt.
Ein anderes Problem liegt darin, dass die Suche nicht durchgeführt werden kann, falls die Länge einer Suchzeichenfolge kürzer als eine Verarbeitungseinheit ist. Dies liegt daran, dass die Suchzeichenfolge nicht in partielle Zeichenfolgen unterteilt werden kann, die die Länge der Verarbeitungseinheit haben. Falls zum Beispiel die Suchzeichenfolge "B" ist und zwei Zeichen eine Verarbeitungseinheit bilden, kann die Suche gemäß diesem Verfahren nicht durchgeführt werden, da die Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Die Technik, die in "Development and Evaluation of Full-Document-Based Retrieval System 'Retrieval Express"', Proceedings of the Third Annual Meeting of the Association for Natural Language Processing, Seiten 361-364, März 1997 offenbart ist, hat dasselbe Problem, wie die Technik in der obigen offengelegten Patentanmeldung. Das heißt, der Umfang der Berechnung zum Zählen von Auftreteereignissen einer Suchzeichenfolge in einem Dokument nimmt mit der Länge der Suchzeichenfolge zu, was zu einer Verlängerung einer Verarbeitungszeit für die Dokumentbeschaffung führt. Je größer die Anzahl der Auftreteereignisse einer Suchzeichenfol­ ge, desto auffälliger ist die Zunahme der Verarbeitungszeit der Dokumentbeschaffung.
Aufgabe der Erfindung ist es, eine Vorrichtung, ein Verfahren, ein Programm und ein Spei­ cherprodukt mit dem Programm bereitzustellen, bei dem ein Beschaffungsschema eingesetzt wird, das ein Dokument schnell mit hoher Geschwindigkeit beschaffen kann.
Vorstehende Aufgabe wird durch die Gegenstände der unabhängigen Ansprüche gelöst. Vor­ teilhafte Weiterbildungen gehen aus den Unteransprüchen hervor.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Computerlast der Auswahl eines Dokuments und der Berechnung von Rangpunkten reduziert wird, wodurch eine Hochge­ schwindigkeitsverarbeitung erzielt wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, das frei von einem Einfluss von anderen Zeichenfolgen ist, die für eine Suchzeichenfolge nicht relevant sind, wodurch die Beschaf­ fungsgenauigkeit verbessert wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Computerlast zum Erzielen bzw. Erfassung von Positionen des Auftretens einer Suchzeichenfolge reduziert werden kann, wodurch eine Dokumentbeschaffung mit hoher Geschwindigkeit erzielt wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Anzahl der Rangpunktsuch­ vorgänge bzw. Rang relevante Suchvorgänge reduziert werden kann, wodurch die Suchge­ schwindigkeit erhöht wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, das ein Dokument selbst dann beschaffen kann, wenn die Länge einer Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Berechnungslast für die Berechnung der Rangpunkt reduziert wird, wodurch eine Beschaffung mit hoher Geschwindig­ keit erzielt wird.
Vorteilhaft wird ein Verfahren zur Dokumentbeschaffung bereitgestellt, das die Schritt der Unterteilung einer Suchzeichenfolge in partielle Zeichenfolgen, die Auswahl eines Dokuments oder mehrerer Dokumente aus einer Vielzahl bzw. Anzahl von gespeicherten bzw. registrierten Dokumenten, so dass das eine Dokument oder die mehreren Dokumente jeweils alle partiellen Zeichenfolgen enthalten, die Berechnung jeweiliger Punkte bzw. Rangpunkte der jeweiligen Zeichenfolgen für jedes des einen Dokuments oder der mehreren Dokumente und die Berech­ nung eines Rangpunkts bzw. Punkts der Suchzeichenfolge von den jeweiligen Punkten bzw. Rangpunkten der partiellen Zeichenfolgen für jedes Dokument des einen Dokuments oder der mehreren Dokumente umfasst.
"Ein Dokument oder mehrere Dokumente" werden hierin auch kurz als "Anzahl von Doku­ menten" bezeichnet, wobei es sich dabei um ein einzelnes Dokument oder mehrere oder viele Dokumente handeln kann.
Bei dem oben beschriebenen Verfahren werden das eine Dokument oder die mehreren Doku­ mente, die partielle Zeichenfolgen enthalten, die der Suchzeichenfolge ähneln, vor der Berech­ nung der Punkte bzw. der Rangpunkte ausgewählt. Aufgrund dieses Filterungsprozesses wird die Hochgeschwindigkeits-Dokumentbeschaffung erzielt, um ein Dokument aus der Vielzahl von gespeicherten Dokumenten zu beschaffen.
Vorteilhaft ist ein Verfahren derartig, dass der Schritt des Unterteilens die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich im allgemeinen nicht überlappen und die eine volle Länge der Suchzeichenfolge abdecken.
Bei dem oben beschriebenen Verfahren kann die Berechnungslast der Auswahl des einen Dokuments oder von mehreren Dokumenten und der Berechnung von Punkten bzw. Rängen reduziert werden, wodurch einen Beschaffung von Dokumenten mit hoher Geschwindigkeit erzielt wird.
Vorteilhaft ist das beschriebene Verfahren derartig, dass der Schritt der Berechnung jeweiliger Rangpunkte bzw. Punkte für die partiellen Zeichenfolgen die Schritte enthält, wonach ein erster Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten, zweite Zählwerte erhalten werden, die jeweils anzeigen, wie viele Male eine entsprechende Folge der partiellen Zeichenfolgen bei einem gegebenen Dokument des einen Dokuments oder mehreren Dokumente erscheint, der kleinste der zweiten Zählwerte bzw. Zählungen erhalten wird und ein Rangpunkt bzw. Punkt der gegebenen einen Zeichenfolge der partiellen Zeichenfolgen für das gegebene eine Dokument des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem kleins­ ten der zweiten Zählwerte derartig erhalten wird, dass der Punkt bzw. Rangpunkt der gegebe­ nen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der Zunahme des kleinsten der zweiten Zählwerte zunimmt.
Vorteilhaft kann der Anschluss eines irrelevanten Auftretens partieller Zeichenfolgen reduziert werden, wenn Ränge bzw. Punkte berechnet werden, wodurch die Beschaffungsgenauigkeit verbessert wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren derartig, dass der Schritt der Berechnung jeweiliger Punkte bzw. Rangpunkte der partiellen Zeichenfolgen die Schritte enthält, wonach ein erster Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Zeichenfolge der partiellen Zeichenfolgen enthalten, wonach ein zweiter Zählwert erhalten wird, der anzeigt, wie viele Male die Suchzeichenfolge in einem gegebenen Dokument des einen Dokuments oder der mehreren Dokumente erscheint, und wonach ein Punkt bzw. ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen für das gegebene eine Dokument des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten wird, dass der Punkt bzw. Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der Zunahme des zweiten Zählwertes abnimmt.
Der Einfluss eines irrelevanten Auftretens partieller Zeichenfolgen innerhalb eines Dokuments kann beseitigt werden, wenn Punkte berechnet werden, wodurch die Beschaffungsgenauigkeit verbessert wird.
Vorteilhaft ist das oben beschriebene Verfahren derartig, dass der Schritt der Erzielung eines zweiten Zählwerts weiter einen Schritt enthält, wonach eine obere Grenze auf den zweiten Zählwert platziert wird bzw. der zweite Zählwert mit einer oberen Grenze versehen wird.
Bei dem oben beschriebenen Verfahren kann die Berechnungslast bei der Detektion von Positionen der Suchzeichenfolge reduziert werden, wodurch eine Beschaffung eines Dokuments mit hoher Geschwindigkeit unterstützt wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren dergestalt, dass der Schritt der Auswahl eines Dokuments oder mehrere Dokumente das eine Dokument oder mehrere Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zeichenfolgen die Schritte enthält, wonach ein erster Zählwert anzeigt, wie viele der registrierten Dokumente die Suchzeichenfolge enthalten, ein zweiter Zählwert anzeigt, wie viele Male eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument des einen Dokuments oder der mehreren Dokumente erscheint und ein Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen für das gegebene eine Doku­ ment des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten wird, dass der Rangpunkt bzw. Punkt der gegebenen einen Zeichenfolge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und der Zunahme des zweiten Zählwertes zunimmt.
Bei dem oben beschriebenen Verfahren kann der Einfluss von irrelevanten Auftreteereignissen der partiellen Zeichenfolgen über unterschiedliche Dokumente beseitigt werden, wodurch zur verbesserten Genauigkeit der Dokumentbeschaffung beigetragen wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren derartig, dass der Schritt der Auswahl eines Dokuments oder mehrerer Dokumente das eine Dokument oder die mehreren Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkte bzw. Punkte der partiellen Zeichenfolgen die Schritte enthält, wonach ein erster Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten, eine Grenze von dem ersten Zählwert berechnet wird, ein zweiter Zählwert erhalten wird, der anzeigt, wie viele Male die Suchzeichenfolge in einem gegebenen Dokument des einen Dokuments oder der mehreren Dokumente erscheint, während ein oberes Ende des zweiten Zählwertes auf die Grenze beschränkt wird, und ein Rangpunkt bzw. ein Punkt einer gegebenen einen Folge der partiellen Zeichenfolgen für das gegebene eine Doku­ ment des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten wird, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der Zunahme des zweiten Zählwertes zunimmt.
Bei dem oben beschriebenen Verfahren kann der Einfluss irrelevanter Auftreteereignisse der partiellen Zeichenfolgen beseitigt werden und die Berechnungslast von Detektionspositionen der Suchzeichenfolge kann reduziert werden, wodurch dazu beigetragen wird, eine Beschaffung eines Dokuments genau und mit hoher Geschwindigkeit zu erzielen.
Vorteilhaft beinhaltet ein Verfahren zur Dokumentbeschaffung die Schritte, wonach jeweilige Indizes für Dokumente bereitgestellt werden, wobei jeder der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden, und jeweilige Positionen davon in dem entsprechenden Dokument auflistet, die partiellen Zeichenfolgen ausgewählt werden, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist, ein Dokument oder mehrere Dokumente von den Dokumenten ausgewählt werden, so dass das eine Dokument oder die mehreren Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten, die jeweiligen Rangpunkte der ausgewählten partiellen Zeichenfolgen für jedes des einen Dokuments oder der mehreren Dokumente berech­ net wird und ein Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausge­ wählten partiellen Zeichenfolgen für jedes Dokument des einen oder der mehreren Dokumente berechnet wird.
Bei dem oben beschriebenen Verfahren kann eine geeignete Dokumentenbeschaffung selbst dann erzielt werden, wenn die Suchzeichenfolge kürzer als die Länge der partiellen Zeichenfol­ ge ist.
Bei der folgenden Beschreibung von Ausführungsformen werden weitere Merkmale offenbart, wobei Merkmale unterschiedlicher Ausführungsformen kombiniert werden können.
Fig. 1 ist ein Blockdiagramm einer Dokumentbeschaffungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung;
Fig. 2A und 2B sind erläuternde Zeichnungen, die gespeicherte Dokumente zeigen;
Fig. 3 ist ein Blockdiagramm einer Systemkonfiguration, die die Dokumentbeschaf­ fungsvorrichtung der Fig. 1 realisiert;
Fig. 4 ist ein Flussdiagramm eines Prozesses zum Berechnung von Rangfolgen für mehrere Dokumente, wobei der Prozess durch die Dokumentbeschaffungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung durch­ geführt wird;
Fig. 5 ist ein Flussdiagramm eines Prozesses der Berechnung eines Rangordnungs­ punktes bzw. einer Rangordnung, die bei einem Schritt S3 der Fig. 4 durchge­ führt wird;
Fig. 6 ist ein Flussdiagramm eines Prozesses der Berechnung eines Rangordnungs­ punktes bzw. eines Rangpunktes entsprechend der zweiten Ausführungsform der vorliegenden Erfindung;
Fig. 7 ist ein Flussdiagramm eines Prozesses der Berechnung eins Rangpunktes bzw. eines Rangordnungspunktes gemäß der dritten Ausführungsform der vorliegen­ den Erfindung;
Fig. 8 ist ein Flussdiagramm eines Prozesses zum Erzielen eines Auftretungsereignis- Zählwertes einer Suchzeichenfolge mit einer oberen Grenze gemäß der vierten Ausführungsform der vorliegenden Erfindung;
Fig. 9 ist ein Flussdiagramm eines Prozesses zur Berechnung der Rangordnungspunkte einer Vielzahl von Dokumenten gemäß der fünften Ausführungsform der vorlie­ genden Erfindung;
Fig. 10 ist ein Flussdiagramm eines Prozesses der Berechnung von Rangpunkten bzw. Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der sechsten Ausführungsform der vorliegenden Erfindung;
Fig. 11A bis 11C sind erläuternde Zeichnungen, die Beispiele von Dokumenten und ein Beispiel einer entsprechenden Indexeinheit zeigen;
Fig. 12 ist ein Flussdiagramm eines Prozesses zum Berechnen von Rangpunkten bzw. Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der siebten Ausführungsform der vorliegenden Erfindung;
Fig. 13 ist ein Blockdiagramm der Dokumentbeschaffungsvorrichtung gemäß der achten Ausführungsform der vorliegenden Erfindung; und
Fig. 14 ist ein Flussdiagramm eines Prozesses der Auswahl partieller Zeichenfolgen, die sich nicht überlappen und die eine volle Länge einer Suchzeichenfolge abdecken.
Im folgenden werden die Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
Fig. 1 ist ein Blockdiagramm einer Dokumentbeschaffungsvorrichtung 1 gemäß einer ersten Ausführungsform der vorliegenden Erfindung. Die Dokumentbeschaffungsvorrichtung 1 beinhaltet eine Textunterteilungseinheit 2, eine Indexeinheit 3, eine Dokumentauswahleinheit 4 und eine Rangberechnungseinheit 5.
Die Textunterteilungseinheit 2 unterteilt einen Text in partielle Zeichenfolgen, wo der Text ein gespeichertes Dokument sein kann oder eine Suchzeichenfolge sein kann. Die Indexeinheit 3 speichert darin Information über partielle Zeichenfolgen, die durch Unterteilen eines gespei­ cherten Dokuments erhalten werden. Die Dokumentauswahleinheit 4 verwendet partielle Zeichenfolgen, die durch Unterteilen einer Suchzeichenfolge erhalten werden, um ein Doku­ ment auszuwählen, für das eine Rangordnung zu berechnen ist. Die Rangberechnungseinheit 5 verwendet partielle Zeichenfolgen, die durch Unterteilen der Suchzeichenfolge erhalten werden, um einen Rangordnungspunkt des Dokuments zu berechnen, das durch die Dokument­ auswahleinheit 4 ausgewählt wird. Die Textunterteilungseinheit 2 führt einen Unterteilungs­ schritt durch und die Dokumentauswahleinheit 4 führt einen Dokumentauswahlschritt durch. Weiter führt die Rangberechnungseinheit 5 einen Rangberechnungsschritt durch. Details eines jeden Schritts werden später beschrieben.
Wenn ein Dokument, das zu Speichern bzw. zu Registrieren ist, bereitgestellt wird, unterteilt die Textunterteilungseinheit 2 das Dokument in partielle Zeichenfolgen. Die Information über das Auftreten partieller Zeichenfolgen wird in der Indexeinheit 3 gespeichert.
Im folgenden wird ein Prozess, der durch die Dokumentbeschaffungsvorrichtung 1 durchge­ führt wird, detailliert beschrieben.
Die Fig. 2A und 2B sind erläuternde Zeichnungen, die gespeicherte Dokumente zeigen. Jede der Fig. 2A und 2B zeigt ein gespeichertes Dokument. Bei jedem gespeicherten Dokument zeigen Nummern bzw. Zahlen, die links gezeigt sind, die Zahl der Zeichen an, die von dem Beginn eines Dokuments zu einer Position einer entsprechenden Zeichenfolge gezählt wurden. In einem Dokument der Fig. 2A, beginnt die Zeichenfolge "ABCD" bei dem elften Zeichen von Beginn des Dokuments an und "EF" wird bei dem 20. Zeichen und bei dem 60. Zeichen von Beginn an gefunden. Weiter erscheint die Zeichenfolge "ABCDEF" beim 31. Zeichen von Beginn an. Wenn Zeichenfolgen mit zwei Zeichen als eine Einheit zur Verarbei­ tung verwendet werden, werden nur zwei Zeichen-Zeichenfolgen von einem Dokument extra­ hiert und die extrahierten Zeichenfolgen werden in der Indexeinheit 3 zusammen mit ihren Positionen und ihrem Auftreten aufgezeichnet (Zeichenzählung von Beginn des Dokuments an).
Fig. 2C stellt eine erläuternde Zeichnung dar, die den Inhalt der Indexeinheit 3 zeigt. Zum Beispiel hat das Dokument, das in Fig. 2A gezeigt ist, die Zeichenfolge "AB", die bei dem 11. Zeichen und bei dem 31. Zeichen von Beginn an auftritt, und hat die Zeichenfolge "BC", die bei dem 12. Zeichen und bei dem 32. Zeichen von Anfang an beginnt aufzutreten, so dass diese Auftreteereignisse in dem Dokument in der Indexeinheit 3 aufgezeichnet werden, wie in Fig. 2C gezeigt ist. Die Indexeinheit 3 zeichnet nicht nur die Positionen des Auftretens auf, sondern zeichnet ebenso Dokumentidentifizierer zum Identifizieren von Dokumenten, die relevant für die aufgezeichneten Auftreteereignisse sind, auf. Weiter werden die Anzahl der Auftreteereignisse ebenso aufgezeichnet. Wie in Fig. 2C gezeigt ist, wird die Zeichenfolge "AB" als "{1, 2, (11, 31)}" aufgezeichnet, was anzeigt, dass die Zeichenfolge "AB" zweimal auftritt (die Anzahl der Auftreteereignisse = 2) in dem Dokument der Fig. 2A mit dem Dokumentidentifizierer 1. Diese Auftreteereignisse werden bei dem 11. Zeichen und bei dem 31. Zeichen von Beginn an gefunden.
Wenn eine Suchzeichenfolge zum Zweck der Dokumentbeschaffung bereitgestellt wird, unter­ teilt die Textunterteilungseinheit 2 die Suchzeichenfolge in partielle Zeichenfolgen. Die Doku­ mentauswahleinheit 4 wählt ein Dokument oder Dokumente aus, für das bzw. für die eine Rangordnung zu berechnen ist, wo eine derartige Auswahl in Hinblick auf die partiellen Zeichenfolgen durchgeführt wird. Die Rangberechnungseinheit 5 berechnet eine Rangordnung für jedes der ausgewählten Dokumente, in dem die partiellen Zeichenfolgen verwendet werden, wobei dadurch Dokumentbeschaffungsergebnisse bereitgestellt werden.
Die Dokumentauswahleinheit 4 wählt eines oder mehrere Dokumente aus, in dem die Doku­ mente identifiziert werden, die alle partiellen Zeichenfolgen der Suchzeichenfolge enthalten. Alternativ können Dokumente, die die Suchzeichenfolge selbst enthalten, ausgewählt werden, oder Dokumente, die gewisse geeignete Bedingungen erfüllen, können ausgewählt werden.
Die Rangberechnungseinheit 5 berechnet einen Rangordnungspunkt (kurz: "Rangpunkt") der Suchzeichenfolge bezüglich eines jeden der ausgewählten Dokumente. Der Rangordnungspunkt der Suchzeichenfolge wird basierend auf Rangordnungspunkte der partiellen Zeichenfolgen erhalten. Hier können die Rangordnungen der partiellen Zeichenfolgen berechnet werden, indem ein Verfahren verwendet wird, das in der Fachwelt als ein tf-Verfahren, ein tf.idf- Verfahren oder dergleichen bekannt ist, die typischerweise bei der Datenbeschaffung verwendet werden. Zum Beispiel wird hierbei auf W. B. Frakes Ed., "Information Retrieval Data Structu­ res & Algorithms", Prentice Hall, 1992 und insbesondere auf Section 14 des Dokuments verwiesen. Um einen Rangordnungspunkt der Suchzeichenfolge von den Rangordnungspunkten der partiellen Zeichenfolgen zu erhalten, kann man eine Summe, einen Mittelwert, ein Maxi­ mum usw. der Suchzeichenfolgen der partiellen Zeichenfolgen erhalten.
Die Berechnung der Rangordnungspunkte wird unter Bezugnahme auf die Indexeinheit 3 beschrieben, die in Fig. 2C gezeigt ist.
Wenn eine Suchzeichenfolge "ABCDEF" bereitgestellt wird, extrahiert die Textunterteilungs­ einheit 2 partielle Zeichenfolgen "AB", "BC", "CD", "DE" und "EF". Dann wählt die Dokumentauswahleinheit 4 ein Dokument oder Dokumente aus, das bzw. die alle partiellen Zeichenfolgen von einer Vielzahl von registrierten Dokumenten enthalten. In diesem Beispiel erfüllt nur das Dokument der Fig. 2A die geforderte Bedingung. In dem Stand der Technik werden Dokumente, die wenigstens eines der partiellen Zeichenfolgen enthalten, ausgewählt. Ein derartiges Schema nach dem Stand der Technik würde also das Dokument der Fig. 2B in diesem Beispiel auswählen, wohingegen die vorliegende Erfindung sich nicht für die Auswahl des Dokuments 2B entscheidet.
Nach der Auswahl eines Dokuments oder von Dokumenten berechnet die Rangberechnungsein­ heit 5 ein Rangordnungspunkt bezüglich eines jeden der ausgewählten Dokumente, in dem die partiellen Zeichenfolgen verwendet werden. Im folgenden wird auf die Rangordnungspunkte der partiellen Zeichenfolgen Bezug genommen, als ob sie wie folgt berechnet werden:
SCORE(n) = tf(n) . (1 + Log2(N/df(n)) (1)
wobei SCORE(n) ein Rangordnungspunkt der partiellen Zeichenfolge (n) ist und tf(n) die Anzahl der Auftretungsereignisse der partiellen Zeichenfolgen in dem relevanten Dokument ist. Weiter zeigt N die Anzahl der gespeicherten Dokumente an (die in diesem Beispiel zwei beträgt) und df(n) zeigt die Anzahl der gespeicherten Dokumente an, die die partielle Zeichen­ folgen enthalten. Im folgenden wird df(n) als Dokumenthäufigkeit bezeichnet. Bei dieser Ausführungsform wird der Rangordnungspunkt für das Dokument als eine Summe der Rang­ ordnungspunkte der partiellen Zeichenfolgen, die in dem Dokument enthalten sind, erzielt. Bezüglich des Dokuments der Fig. 2A wird der Rangordnungspunkt SCORE(AB) der partiel­ len Zeichenfolge "AB" durch Substituieren von 2 für tf(AB) und von 2 für df(AB) in der Gleichung (1) erhalten. In diesem Fall beträgt SCORE(AB) 2. Weiter werden SCORE(BC) = 4, SCORE(CD) = 4, SCORE(DE) = 1 und SCORE(EF) = 3 erhalten.
Dementsprechend erhält man SCORE(ABCDEF) wie folgt:
SCORE(ABCDEF) = SCORE(AB) + SCORE(BC) + SCORE(CD) + SCORE(DE) + SCORE(EF) = 14
Dies ist der Rangordnungspunkt der Rufzeichenfolge "ABCDEF" bezüglich des Dokuments der Fig. 2A.
Fig. 3 ist ein Blockdiagramm einer Systemkonfiguration, die die Dokumentbeschaffungsvor­ richtung 1 realisiert.
Die Dokumentbeschaffungsvorrichtung 1 beinhaltet eine CPU 11, ein ROM 12, ein RAM 13, einen Bus 14, eine Festplatte 15, ein CD-ROM-Laufwerk 16, eine Ausgabevorrichtung 17, eine Eingabevorrichtung 18 und eine Kommunikationssteuervorrichtung 20. Die CPU 11 kümmert sich um verschiedene Ausführungen und die zentrale Steuerung verschiedener Elemente. Das ROM 12 ist ein Nur-Lesespeicher, der darin BIOS-Programme und dergleichen speichert. Das RAM 13 speichert darin Daten und liefert einen Arbeitsbereich für die CPU 11. Der Bus 14 stellt eine Verbindung zwischen der CPU 11, dem ROM 12 und dem RAM 13 her. Der Bus 14 ist ebenso über Schnittstellen und/oder Steuerschaltungen (nicht gezeigt) mit der Festplatte 15, dem CD-ROM-Laufwerk 16, der Ausgabevorrichtung 17, wie zum Beispiel eine CRT- Anzeige, eine LCD-Anzeige oder einen Drucker, die Eingabevorrichtung 18, wie zum Beispiel eine Tastatur und eine Maus und die Kommunikationssteuervorrichtung 20 verbunden, die mit einem Netzwerk 21 verbunden ist.
Programme, um die Dokumentbeschaffungsvorrichtung 1 zu veranlassen, eine Verarbeitung entsprechend der vorliegenden Erfindung auszuführen, sind in einer CD-ROM 19 gespeichert, die als ein Speichermedium für die vorliegende Erfindung dient. Die CD-ROM 19 wird in das CD-ROM-Laufwerk 16 eingeführt und die Programme werden in die Festplatte 15 geladen und installiert. Mit den Programmen, die in der Festplatte 15 gespeichert sind, ist die Dokumentbe­ schaffungsvorrichtung 1 bereit, verschiedene Prozesse der vorliegenden Erfindung auszuführen. Es werden nämlich die verschiedenen Einheiten, die in Fig. 1 gezeigt sind, als Prozesse verkörpert, die durch die CPU 11 durchgeführt werden, die die Programme ausführt. Die Indexeinheit 3 ist als eine Datenbank in der Festplatte 15 eingebaut.
Das Speichermedium der vorliegenden Erfindung ist nicht auf eine CD-ROM beschränkt, sondern es kann sich um jeden Typ von Speichermedium, wie zum Beispiel CD-RW, CD-R, DVD, FD oder MO handeln. Das Programm kann von dem Netzwerk 19, wie zum Beispiel Internet über die Kommunikationssteuervorrichtung heruntergeladen werden und kann auf der Festplatte 15 installiert werden. In diesem Fall wird eine Speichervorrichtung, die darin die Programme auf der Übertragungsseite des Netzwerkes 19 speichert, als das Speichermedium der vorliegenden Erfindung angesehen. Die Programme können auf einem vorbestimmten Betriebssystem arbeiten.
Fig. 4 ist ein Flussdiagramm eines Prozesses der Berechnung von Anordnungspunkten für eine Vielzahl von Dokumenten, wo der Prozess durch die Computerbeschaffungsvorrichtung 1 gemäß der ersten Ausführungsform der vorliegenden Erfindung durchgeführt wird. Das Flussdiagramm der Fig. 4 ist unter der Verwendung von Schreibweisen der C-Sprache gezeigt.
In einem Schritt S1 werden sowohl der Arrayindex m als auch der Dokumentidentifizierer DocId auf 1 gesetzt.
Bei einem Schritt S2 wird eine Suche nach einem Dokument durchgeführt, das alle partiellen Zeichenfolgen enthält und die kleinste Dokumenten-ID aufweist, die nicht kleiner als DocId ist. Falls ein derartiges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf die erhaltenen Dokumenten-ID gesetzt und das Verfahren geht zu einem Schritt S3 über. Ansonsten wird das Verfahren beendet.
Im Schritt S3 wird ein Rangordnungspunkt für das Dokument mit dem Dokumentidentifizierer DocId berechnet. Der erhaltene Rangordnungspunkt wird in der Struktur, die der C-Sprache ähnlich ist und die den Dokumentenidentifizierer und den Rangpunkt als seine Elemente aufweist, gespeichert.
In einem Schritt S4 werden der Dokumentenidentifizierer DocId jeweils um eins erhöht. Dann geht das Verfahren zu dem Schritt S2 zurück.
Fig. 5 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes, die bei dem Schritt S3 der Fig. 4 durchgeführt wird. In einem Schritt S11 wird ein Parameter n zum Anzeigen einer partiellen Zeichenfolge auf eins gesetzt und ein Rangpunkt ("score") wird auf null gesetzt.
In dem Schritt S12 wird die Gleichung (1) unter Bezugnahme auf eine Zeichenfolge str[n] berechnet und zu dem Rangpunkt ("score") hinzugefügt.
In einem Schritt S13 wird eine Überprüfung dahingehend durchgeführt, ob n gleich num ist. Hier ist num die Anzahl aller partieller Zeichenfolgen einer Suchzeichenfolge. Falls n gleich num ist, wird das Verfahren beendet. Ansonsten geht das Verfahren zu einem Schritt S14 über.
Bei dem Schritt S14 wird n um eins erhöht. Dann kehrt das Verfahren zum Schritt S12 zurück.
Im folgenden wird eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der zweiten Ausführungsform wird auf dieselben Elemente wie jene der ersten Ausfüh­ rungsform durch dieselben Bezugszeichen Bezug genommen und eine Beschreibung davon wird weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der zweiten Ausführungsform unterscheidet sich von jener der ersten Ausführungsform nur in den Operationen der Rang-Berechnungseinheit 5. Bei der ersten Ausführungsform berechnet die Rang-Berechnungseinheit 5 einen Rangordnungs­ punkt einer partiellen Zeichenfolge bezüglich eines ausgewählten Dokuments in Hinblick auf die Anzahl der Auftretensereignisse der partiellen Zeichenfolge in dem Dokument. Diese partielle Zeichenfolge kann in dem Dokument in einem Kontext auftreten, der keine semanti­ sche Relevanz hinsichtlich der Suchzeichenfolge aufweist und ein derartiges irrelevantes Auftreten beeinträchtigt den erzielten Rangordnungspunkt, wodurch sich eine weniger genaue Suche ergibt.
Bei dem Beispiel der Fig. 2A ist es wahrscheinlich, dass die Zeichenfolge "EF", die bei dem 20. Zeichen und bei dem 60. Zeichen auftritt, keine Relevanz hinsichtlich der Suchzeichenfolge hat. Da die Zeichenfolge "EF" dreimal in dem Dokument auftritt, wird jedoch SCORE(EF) einfach als 3 berechnet. Hinsichtlich der Relevanz der Suchzeichenfolge "ABCDEF" kann dieser Rangpunkt zu hoch sein.
Bei der zweiten Ausführungsform wählt die Dokumentbeschaffungsvorrichtung 1 einen mini­ malen Auftretungsereignis-Zählwerten von jeweiligen partiellen Zeichenfolgen aus, die in dem Dokument erscheinen, und substituiert den ausgewählten minimalen Auftretungsereignis- Zählwert für die Auftretungsereignis-Zählwerte der partiellen Zeichenfolgen beim Berechnen der Rangordnungspunkte. In dem Beispiel der Fig. 2A beträgt ein minimaler Auftretungser­ eignis-Zählwert 1, d. h. die Anzahl der Auftretungsereignisse einer partiellen Zeichenfolge "DE", so dass der minimale Auftretungsereignis-Zählwert 1 für die Auftretungsereignis- Zählwerte der anderen partiellen Zeichenfolgen "AB", "BC", "CD" und "EF" zum Zwecke der Berechnung der Rangordnungspunkte substituiert wird. Infolgedessen werden SCORE(AB) = 1, SCORE(BC) = 2, SCORE(CD) = 2, SCORE(DE) = 1 und SCORE(EF) = 1 erhalten, wodurch SCORE(ABCDEF) = 7 erzeugt wird.
Fig. 6 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes entsprechend der zweiten Ausführungsform der vorliegenden Erfindung. Die Schritte bis auf den Schritt der Berechnung eines Rangordnungspunktes sind dieselben, wie jene der ersten Ausführungsform, wie in Fig. 4 gezeigt ist.
In dem Schritt S11 der Fig. 6 wird ein Parameter n zum Anzeigen einer partiellen Zeichenfol­ ge auf 1 gesetzt und ein Parameter mintf zum Erzielen eines minimalen Auftretungsereignis- Zählwertes wird auf eine sehr große Zahl bzw. größtmögliche Zahl gesetzt.
In einem Schritt S12 wird mintf auf den kleinsten Wert von mintf und einem Auftretungsereig­ nis-Zählwert einer Zeichenfolge str[n] gesetzt.
Bei einem Schritt S13 wird eine Überprüfung durchgeführt, ob n gleich num ist. Wie zuvor ist num die Anzahl aller partieller Zeichenfolgen einer Suchzeichenfolge. Falls n nicht gleich num ist, geht das Verfahren zu einem Schritt S14 über, wo n um 1 erhöht wird, wobei danach eine Prozedur folgt, wo zu dem Schritt S12 zurückgegangen wird. Falls n gleich num ist, dann bedeutet dies, dass mintf gleich den minimalen Auftretungsereignis-Zählwert ist, so dass das Verfahren zu einem nächsten Schritt übergeht.
Bei einem Schritt S15 wird n auf 1 gesetzt und ein Zählpunkt wird auf 0 gesetzt.
Bei einem Schritt S16 wird die Gleichung (1), bei der tf(n) durch mintf ersetzt wird, unter Bezugnahme auf eine Zeichenfolge str[n] berechnet und zu dem Zählpunkt zugefügt.
Bei einem Schritt S17 wird eine Überprüfung dahingehend durchgeführt, ob n gleich num ist. Falls n gleich num ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zu dem Schritt S18 über.
Bei dem Schritt S18 wird n um 1 erhöht. Dann geht das Verfahren zu dem Schritt S16 zurück.
Gemäß der zweiten Ausführungsform wird der Einfluss irrelevanter Auftretungsereignisse von partiellen Zeichenfolgen von dem Rangordnungspunkt der Suchzeichenfolge beseitigt, wenn derartige Auftretungsereignisse in einem Kontext bzw. Zusammenhang stattfinden, der keine Relevanz bezüglich der Suchzeichenfolge hat. Dies verbessert die Beschaffungsgenauigkeit.
Im folgenden wird eine dritte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der dritten Ausführungsform werden dieselben Elemente, wie jene der zweiten Ausfüh­ rungsform durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird weggelassen. Die Dokumentbeschaffungsvorrichtung 1 der dritten Ausführungsform unter­ scheidet sich von jener der zweiten Ausführungsform dahingehend, dass die dritte Ausführungs­ form ein Schema verwendet, dass sich von der zweiten Ausführungsform hinsichtlich der Beseitigung des Einflusses von irrelevanten Auftretungsereignissen von partiellen Zeichenfol­ gen unterscheidet.
Um den Einfluss irrelevanter Auftretungsereignisse von partiellen Zeichenfolgen zu beseitigen, wird die Anzahl der Auftretungsereignisse der Suchzeichenfolge bezüglich eines ausgewählten Dokuments erhalten und wird dann als ein Ersatz bzw. Substitut für Auftretungs-Zählwerte der partiellen Zeichenfolgen zum Zwecke der Erzielung von Rangordnungspunkten verwendet. Der Auftretungszählwert der Suchzeichenfolge wird erhalten, indem alle Positionen überprüft werden, wo die Suchzeichenfolge bei dem ausgewählten Dokument auftritt.
Um die Positionen von Erscheinungen der Suchzeichenfolge zu erhalten, kann ein herkömmli­ ches Verfahren verwendet werden das Positionen partieller Zeichenfolge miteinander abgleicht bzw. in Übereinstimmung bringt. Zum Beispiel eine Technik, die auf Seite 839 in Chuichi Kikuchi "A Fast Full-Text Search Method for Japanese Text Database", Transactions of the Institute of Electronics, Information and Communication Engineers, Band J75-D-I, Nr. 9, Seiten 836-846, 1992 offenbart ist, verwendet werden.
Bezüglich des Beispieles des Dokuments der Fig. 2A kann von dem Index der Fig. 2C gewährleistet werden, dass die Suchzeichenfolge "ABCDEF" nur einmal bei dem von Beginn an 31. Zeichen auftritt. Basierend auf diesem Fund, werden die Auftretungsereignis-Zählwerte der partiellen Zeichenfolgen "AB", "BC", "CD", "DE" und "EF" auf 1 gesetzt, was der Auftretungsereignis-Zählwert der Suchzeichenfolge ist. Der Rangordnungspunkt, der infolge dieser Prozedur erhalten wird, ist derselbe wie jener der zweiten Ausführungsform. Das heißt SCORE(ABCDEF) gleich 7 wird erhalten.
Fig. 7 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes gemäß der dritten Ausführungsform der vorliegenden Erfindung. Schritte anders als der Schritt zur Berechnung eines Rangordnungspunktes sind dieselben wie jene bei der ersten Ausfüh­ rungsform, wie in Fig. 4 gezeigt ist.
In dem Schritt S11 der Fig. 7 wird die Anzahl der Auftretungsereignisse einer Suchzeichen­ folge erhalten. Der erhaltene Auftretungsereignis-Zählwert wird auf wordtf festgelegt.
Bei dem Schritt S12 wird ein Parameter n zum Anzeigen einer partiellen Zeichenfolge auf 1 gesetzt und ein Rangpunkt wird auf 0 gesetzt.
Bei dem Schritt S13 wird die Gleichung (1), bei der tf(n) durch wordtf ersetzt wird, unter Bezugnahme auf eine Zeichenfolge str[n] berechnet und zu dem Rangpunkt addiert.
Bei dem Schritt S14 wird eine Überprüfung durchgeführt, ob n gleich num ist. Falls n gleich num ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zu einem Schritt S15 über.
Bei dem Schritt S15 wird n um 1 erhöht. Dann geht das Verfahren zu dem Schritt S13 zurück.
Gemäß der dritten Ausführungsform wird der Einfluss irrelevanter Auftretungsereignisse partieller Zeichenfolgen von dem Rangordnungspunkt der Suchzeichenfolge beseitigt, wenn derartige Auftretungsereignisse in Kontexten bzw. Zusammenhängen stattfinden, die keine Relevanz hinsichtlich der Suchzeichenfolge haben. Dies verbessert die Beschaffungsgenauig­ keit.
Im folgenden wird eine vierte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der vierten Ausführungsform werden dieselben Elemente wie jene der dritten Ausführungs­ form mit den selben Bezugszeichen bezeichnet und deren Beschreibung wird weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der vierten Ausführungsform unterscheidet sich von jener der dritten Ausführungsform in den folgenden Aspekten. Bei der dritten Ausführungsform erzielt die Rangpunkt-Berechnungseinheit 5 den Auftretungsereignis-Zählwert der Suchzeichen­ folge beim ausgewählten Dokument durch Überprüfen aller Positionen, wo die Suchzeichenfol­ ge in dem Dokument auftritt.
Wenn die Suchzeichenfolge lang ist und häufig auftritt, ist jedoch die Berechnungslast zum Erzielen aller Auftretepositionen verbietend hoch, was zu einer länglichen Beschaffungszeit zum Beschaffen eines Dokuments führt.
Bei der vierten Ausführungsform der vorliegenden Erfindung wird die obere Grenze auf den Auftretungsereignis-Zählwert einer Suchzeichenfolge gesetzt. Falls der Auftretungsereignis- Zählwert einer Suchzeichenfolge in einem Dokument unterhalb der oberen Grenze liegt, wird dieser Zählwert als die Anzahl der Auftretungsereignisse der Suchzeichenfolge verwendet. Falls der Auftretungsereignis-Zählwert einer Suchzeichenfolge die obere Grenze überschreitet, wird die obere Grenze als ein Ersatz bzw. Substitut für den Auftretungsereignis-Zählwert verwendet. In diesem Fall besteht kein Erfordernis, den gesamten Weg zur Überprüfung aller Erschei­ nungspositionen der Suchzeichenfolge zu gehen, und es genügt, falls das Zählen gestoppt wird, wenn der Zählwert die obere Grenze erreicht.
Fig. 8 ist ein Flussdiagramm eines Prozesses zum Erzielen des Auftretungsereignis-Zählwerts einer Suchzeichenfolge mit einer oberen Grenze gemäß der vierten Ausführungsform der vorliegenden Erfindung.
Bei der dritten Ausführungsform wird der Auftretungsereignis-Zählwert einer Suchzeichenfolge einfach durch Zählen aller Auftretungsereignisse der Suchzeichenfolge beim Schritt S11 der Fig. 7 erhalten. Bei der vierten Ausführungsform wird der Auftretungsereigniszählwert wie folgt erhalten.
In einem Schritt S21 wird wordtf auf 0 gesetzt.
In einem Schritt S22 wird nach einem neuen Auftretungsereignis der Suchzeichenfolge gesucht. Falls sie gefunden wird, geht das Verfahren zum Schritt S23. Ansonsten kommt das Verfahren zu einem Ende.
In dem Schritt S23 wird der Auftretungsereignis-Zählwert wordtf um 1 erhöht.
In dem Schritt S24 wird eine Überprüfung dahingehend durchgeführt, ob wordtf gleich L ist, wo die Anzahl L eine obere Grenze des Auftretungsereignis-Zählwerts festlegt. Falls dies so ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zurück zu dem Schritt S22.
Gemäß der vierten Ausführungsform der vorliegenden Erfindung wird die Berechnungslast zum Überprüfen aller Ereignispositionen einer Suchzeichenfolge im Vergleich zu dem Fall der dritten Ausführungsform reduziert, wodurch eine schnellere Dokumentbeschaffung erzielt wird.
Im folgenden wird eine fünfte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der fünften Ausführungsform werden die gleichen Elemente, wie jene der dritten Ausfüh­ rungsform durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der fünften Ausführungsform unterscheidet sich von jener der dritten Ausführungsform in den folgenden Aspekten. Bei der dritten Ausführungsform erzielt die Rangberechnungseinheit 5 einen Auftretungsereignis-Zählwert einer Suchzeichenfol­ ge bei einem ausgewählten Dokument und verwendet den erzielten Auftretungsereignis- Zählwert als einen Ersatz bzw. ein Substitut für die Auftretungsereignis-Zählwerte partieller Zeichenfolgen, um Rangordnungspunkte zu erzielen. Auf diese Art und Weise kann der Einfluss irrelevanter Auftretungsereignisse von partiellen Zeichenfolgen von dem Rangord­ nungspunkt der Suchzeichenfolge beseitigt werden, wenn die partiellen Zeichenfolgen außer­ halb eines Kontexts für die Suchzeichenfolge erscheinen.
Bei der dritten Ausführungsform wird der Rangordnungspunkt einer Suchzeichenfolge von den Rangordnungspunkten partieller Zeichenfolgen abgeleitet, die wiederum basierend auf der Anzahl der gespeicherten Dokumente abgeleitet werden, die die partiellen Zeichenfolgen enthalten. Infolgedessen kann das Vorhandensein eines irrelevanten Dokuments den Rangord­ nungspunkt beeinträchtigen, wenn das irrelevante Dokument eine bestimmte partielle Zeichen­ folge aufweist, ohne eine Suchzeichenfolge zu enthalten. Mit anderen Worten wird der Einfluss eines irrelevanten Auftretens von Suchzeichenfolgen nicht vollständig bei der dritten Ausfüh­ rungsform beseitigt.
Bei dem Beispiel des Dokuments der Fig. 2A wird SCORE(AB) so berechnet, dass es gleich 1 ist, da die Anzahl der Dokumente, die die Zeichenfolge "AB" enthalten, 2 ist, wenn der Auftretungsereignis-Zählwert der Zeichenfolge "AB" in dem Dokument der Fig. 2A auf die Anzahl der Auftretungsereignisse der Suchzeichenfolge festgelegt wird. Das Dokument der Fig. 2B ist jedoch irrelevant, da dieses Dokument nicht die Suchzeichenfolge "ABCDEF" enthält. In diesem Fall wird deshalb das Vorhandensein eines irrelevanten Dokuments, das ein anderer Typ eines irrelevanten Auftretens von partiellen Zeichenfolgen ist, den Rangordnungs­ punkt der Suchzeichenfolge beeinträchtigen.
In Hinblick darauf verwendet die fünfte Ausführungsform der vorliegenden Erfindung die Anzahl der Dokumente mit einer Suchzeichenfolge darin als die Anzahl der Dokumente, die eine gegebene partielle Zeichenfolge enthalten, und zwar für den Zweck der Berechnung eines Rangordnungspunktes der gegebenen partiellen Zeichenfolge. In dem Beispiel des Dokuments der Fig. 2A und 2B wird die Anzahl der gespeicherten Dokumente, die die Zeichenfolge "AB" enthalten, gleich 1 gesetzt, wobei die Anzahl der Dokumente ist, die die Suchzeichenfol­ ge "ABCDEF" enthalten. Infolgedessen wird SCORE(AB) 2. Weiter wird SCORE(BC) = 2. SCORE(CD) = 2, SCORE(DE) = 2 und SCORE(EF) = 2 erhalten, wodurch SCORE(ABCDEF) = 10 wird.
Fig. 9 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der fünften Ausführungsform der vorliegenden Erfin­ dung.
Bei einem Schritt S101 der Fig. 9 wird die Anzahl der Dokumente, die die Suchzeichenfolge enthalten, erhalten. Der erhaltene Dokumentenzählwert wird in einem Parameter worddf festgelegt.
Bei einem Schritt S102 werden ein Arrayindex m und ein Dokumentenidentifizierer DocId auf 1 gesetzt.
Bei einem Schritt S103 wird eine Suche nach einem Dokument durchgeführt, das die Suchzei­ chenfolge enthält und das die kleinste Dokument-ID nicht kleiner als DocId enthält. Falls ein derartiges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf die erzielte Dokumenten-ID gesetzt und das Verfahren geht zu dem Schritt S104 über. Ansonsten kommt das Verfahren zu einem Ende.
Bei dem Schritt S104 wird ein Rangordnungspunkt, das den Dokumentidentifizierer DocId aufweist, berechnet. Hier wird bei der Gleichung (1), die zur Berechnung eines Rangordnungs­ punktes bei dem Schritt S104 verwendet wird, df(str[n]) durch worddf ersetzt. Der erzielte Rangpunkt wird in der Struktur, die der C-Sprache ähnlich ist und die den Dokumentidentifizie­ rer und den Rangpunkt als Elemente aufweist, gespeichert.
Bei dem Schritt S105 werden der Arrayindex m und der Dokumentidentifizierer DocId jeweils um 1 erhöht. Dann geht das Verfahren zu dem Schritt S103 zurück.
Gemäß der fünften Ausführungsform der vorliegenden Erfindung wird der Einfluss irrelevanter Auftretungsereignisse partieller Zeichenfolgen im wesentlichen von dem Rangordnungspunkt einer Rufzeichenfolge bezüglich eines ausgewählten Dokuments beseitigt, wenn die partiellen Zeichenfolgen außerhalb eines Kontexts in dem ausgewählten Dokument oder sogar außerhalb eines Kontexts in anderen gespeicherten Dokumenten erscheinen. Dies verbessert die Beschaf­ fungsgenauigkeit.
Bei dieser Ausführungsform sind die Rangordnungspunkte der partiellen Zeichenfolgen jeweils gleich einem Rangordnungspunkt, der unter Verwendung der Anzahl der Dokumente erhalten wurde, die die Suchzeichenfolge darin aufweisen, und der Anzahl der Auftretungsereignisse der Suchzeichenfolge. Deswegen besteht kein Bedürfnis danach, alle Rangordnungspunkte der partiellen Zeichenfolgen zu berechnen und sie mit dem Ziel zu kombinieren, den Rangord­ nungspunkt der Suchzeichenfolge zu erzeugen. Alternativ wird der Rangordnungspunkt der Suchzeichenfolge direkt von der Anzahl der Dokumente abgeleitet, die die Suchzeichenfolge darin und die Anzahl der Auftretungsereignisse der Suchzeichenfolge aufweisen. Dies ermög­ licht die Reduktion bei der Berechnungslast, wodurch eine Wahrscheinlich-Relevanz- Dokumentsbeschaffung mit hoher Geschwindigkeit erzielt wird.
Im folgenden wird eine sechste Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der sechsten Ausführungsform wird auf die gleichen Elemente wie bei der vierten Ausfüh­ rungsform durch dieselben Bezugszeichen Bezug genommen und eine Beschreibung davon wird weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der sechsten Ausführungsform unterscheidet sich von jener der vierten Ausführungsform in den folgenden Aspekten. Bei der vierten Ausführungs­ form wird eine obere Grenze für die Anzahl der Auftretungsereignisse einer Suchzeichenfolge mit dem Ziel der Beschleunigung der Dokumentbeschaffungsgeschwindigkeit gesetzt.
Durch die Deckelung bzw. durch das Setzen einer Obergrenze kann jedoch die Beschaffungsge­ nauigkeit verschlechtert werden, da ein derartiger Deckel zu einem anderen Rangordnungspunkt führt, als jener, der ohne eine obere Grenze erzielt werden würde. Das Ausmaß, mit dem sich der Rangordnungspunkt aufgrund des Platzierens einer oberen Grenze ändert, hängt von der Anzahl der Dokumente ab, die die Suchzeichenfolge enthalten. Wenn die Gleichung (1) zur Berechnung einer Rangordnungsfolge verwendet wird, so ist der Unterschied des Rangord­ nungspunktes, der durch das Platzieren einer oberen Grenze verursacht wird, um so größer, je kleiner die Anzahl der Dokumente ist, die die Suchzeichenfolge enthalten. Im Hinblick darauf ist es vorzuziehen, dass die obere Grenze dynamisch entsprechend der Anzahl der Dokumente geändert wird, die die Suchzeichenfolge darin aufweisen, und zwar mit dem Ziel, den Einfluss der Platzierung eines Deckels bzw. Setzens einer Obergrenze zu reduzieren. Zum Beispiel kann eine obere Grenze Lx zur Verwendung in dem Fall der Anzahl von Dokumenten mit einer Suchzeichenfolge darin, die x ist (x 1) wie folgt berechnet werden:
Lx = L1(1 + log2(N/x))/(1 + log2N) (2)
wobei L1 eine obere Grenze ist, die in dem Fall verwendet wird, dass die Anzahl der Doku­ mente, die eine Suchzeichenfolge aufweisen, 1 ist. Gemäß der Gleichung (2) ist die obere Grenze um so größer, je kleiner die Anzahl der Dokumente ist, die die Suchzeichenfolge darin aufweisen. Das heißt, je kleiner der Unterschied des Rangordnungspunktes ist, der durch das Setzen der oberen Grenze verursacht wird, desto geringer ist die Anzahl der Dokumente, die die Suchzeichenfolge darin aufweisen. Mit anderen Worten wird die Reduktion bei der Beschaf­ fungsgenauigkeit aufgrund des Einführens einer oberen Grenze verbessert. Bemerkenswert ist, dass die Gleichung (2) nur ein Beispiel ist und jede Formel verwendet werden kann, solange eine obere Grenze mit einer Zunahme in der Anzahl der Dokumente zunimmt, die eine Such­ zeichenfolge darin aufweisen.
Fig. 10 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der sechsten Ausführungsform der vorliegenden Erfin­ dung.
Mit einem Schritt S111 der Fig. 10 wird die Anzahl der Dokumente, die die Suchzeichenfolge enthalten, erhalten. Der erhaltene Dokumentzählwert wird in einem Parameter worddt festge­ legt.
In einem Schritt S112 wird die obere Grenze Lx erhalten, indem die Gleichung (2) verwendet wird, bei der worddf für x substituiert werden.
Bei einem Schritt S113 werden ein Arrayindex m und ein Dokumentidentifizierer DocId beide auf 1 gesetzt.
Beim Schritt S114 wird eine Suche nach einem Dokument durchgeführt, das die Suchzeichen­ folge enthält und die kleinste Dokument-ID nicht kleiner als DocId aufweist. Falls ein derarti­ ges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf die erzielte Dokumenten-ID gesetzt und das Verfahren geht zu dem Schritt S115 über. Ansonsten kommt das Verfahren zu einem Ende.
Bei dem Schritt S115 wird ein Rangordnungspunkt für das Dokument, das den Dokumenteni­ dentifizierer DocId aufweist, berechnet. Hier werden die Schritte S11 bis S15 der Fig. 7 bei dem Schritt S115 ausgeführt, wobei bei der Gleichung des Schrittes S13 df(str[n]) durch worddf ersetzt worden ist und wordtf durch die obere Grenze Lx begrenzt worden ist.
Bei dem Schritt S116 werden der Arrayindex m und der Dokumentenidentifizierer DocId jeweils um 1 erhöht. Dann kehrt das Verfahren zu dem Schritt S103 zurück.
Im folgenden wird eine siebte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der siebten Ausführungsform werden dieselben Elemente wie jene der ersten Ausführungs­ form durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird weggelas­ sen.
Die Dokumentenbeschaffungsvorrichtung 1 der siebten Ausführungsform unterscheidet sich von jener der ersten Ausführungsform in den folgenden Aspekten. Wenn bei der ersten Ausfüh­ rungsform eine Suchzeichenfolge kürzer als die Länge (d. h. die Anzahl der Zeichen) einer partiellen Zeichenfolge ist, die als eine Verarbeitungseinheit dient, kann die Textunterteilungs­ einheit 2 die Suchzeichenfolge nicht in partielle Zeichenfolgen unterteilen, was zu einer Situation führt, bei der eine Dokumentbeschaffung scheitert. Wenn zum Beispiel eine Suchzei­ chenfolge "A" ist und zwei Zeichen eine Verarbeitungseinheit bilden, kann keine Beschaffung durchgeführt werden, da die Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Wenn die Suchzeichenfolge kürzer als eine Verarbeitungseinheit ist, wird ein Verfahren bei der siebten Ausführungsform der vorliegenden Erfindung wie folgt verwendet.
  • 1. Die Textunterteilungseinheit 2 extrahiert alle partiellen Zeichenfolgen von der Indexeinheit 3, so dass diese partiellen Zeichenfolgen mit dem selben Zeichen bzw. mit den selben Zeichen beginnen, wie dies bei der Suchzeichenfolge der Fall ist.
  • 2. Die Dokumentauswahleinheit 4 identifiziert ein Dokument oder mehrere Dokumente, die wenigstens eine der partiellen Suchzeichenfolgen enthalten, die durch die Textunterteilungsein­ heit 2 extrahiert werden.
  • 3. Die Rangberechnungseinheit 5 berechnet Rangordnungspunkte der Dokumente, die durch die Dokumentauswahleinheit 4 ausgewählt werden, indem die partiellen Zeichenfolgen verwen­ det werden, die durch die Textunterteilungseinheit 2 extrahiert werden.
Fig. 11A bis 11C sind erläuternde Zeichnungen, die Beispiele von Dokumenten und ein Beispiel einer entsprechenden Indexeinheit zeigen. Das obige Verfahren wird weiter im Detail unter Bezugnahme auf die Fig. 11A bis 11C beschrieben.
Wenn eine Verarbeitungseinheit aus zwei Zeichen besteht, wird die Indexeinheit 3 Inhalte aufweisen, wie in Fig. 11C gezeigt ist und zwar bezüglich des Dokuments der Fig. 11A und des Dokuments der Fig. 11B. Hier ist das Datenformat der Indexeinheit 3, die in Fig. 11C gezeigt ist, dasselbe, wie jenes der Indexeinheit 3, das in Fig. 2C gezeigt ist. Im folgenden wird das Verfahren des Beschaffungsprozesses unter Bezugnahme auf ein Beispiel beschrieben, bei dem "Y" als eine Suchzeichenfolge gegeben ist.
Die Textunterteilungseinheit 2 extrahiert drei partielle Zeichenfolgen "YI", "YK" und "YB" als partielle Zeichenfolgen, die dasselbe Zeichen am Beginn davon als die Suchzeichenfolge aufweisen. Die Dokumentauswahleinheit 4 wählt das Dokument der Fig. 11A und das Doku­ ment der Fig. 11B aus, da sie wenigstens eines der extrahierten partiellen Zeichenfolgen enthalten. Dann berechnet die Rangberechnungseinheit 5 Rangordnungspunkte der ausgewähl­ ten Dokumente, in dem die partiellen Zeichenfolgen verwendet werden, die durch die Textun­ terteilungseinheit 2 extrahiert wurden.
Wenn die Rangordnungspunkte berechnet werden, leitet die Rangberechnungseinheit 5 einen Rangordnungspunkt der Suchzeichenfolge bezüglich eines ausgewählten Dokuments von Rangordnungspunkten der partiellen Zeichenfolgen innerhalb des ausgewählten Dokuments ab. Dies wird zum Beispiel erzielt, indem die Summe der Rangordnungspunkte der partiellen Zeichenfolgen berechnet wird. Wenn die Rangordnungspunkte der partiellen Zeichenfolgen basierend auf der Gleichung (1) berechnet wird, wird man SCORE(YI) = 0, SCORE(YK) = 2 und SCORE(YB) = 2 erhalten, wodurch SCORE(Y) = 4 erzielt wird.
Fig. 12 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der siebten Ausführungsform der vorliegenden Erfin­ dung.
Im Schritt S121 werden sowohl ein Arrayindex m als auch ein Dokumentenidentifizierer DocId auf 1 gesetzt.
Im Schritt S122 wird eine Suche nach einem Dokument durchgeführt, das wenigstens eine partielle Zeichenfolge enthält und dessen kleinste Dokument-ID nicht kleiner als DocId ist. Hier werden die partiellen Zeichenfolgen als jene festgelegt, die mit dem bzw. den selben Zeichen beginnen, wie dies bei der Suchzeichenfolge der Fall ist. Falls ein derartiges Dokument gefun­ den wird, wird der Dokumentenidentifizierer DocId auf die erzielte Dokumenten-ID festgelegt und das Verfahren geht zu einem Schritt S122 über. Ansonsten kommt das Verfahren zu einem Ende.
In dem Schritt S123 wird ein Rangordnungspunkt für das Dokument berechnet, das den Doku­ mentenidentifizierer DocId aufweist. Der erzielte Rangpunkt wird mit der Struktur, die eine der C-Sprache ähnliche Struktur aufweist und die den Dokumentenidentifizierer und den Rangpunkt als ihre Elemente aufweist. In einem Schritt S124 werden der Arrayindex m und der Dokumentenidentifizierer DocId jeweils um 1 erhöht. Dann kehrt das Verfahren zu dem Schritt S122 zurück.
Indem dem oben beschriebenen Verfahren gefolgt wird, kann man ein Dokument selbst dann beschaffen, wenn eine Suchzeichenfolge eine kürzere Länge als eine Verarbeitungseinheit aufweist.
Bei der Berechnung von Rangordnungspunkten kann ein Dokumenten-Zählwert, der die Anzahl der Dokumente, die eine Suchzeichenfolge aufweisen, in derselben Art und Weise wie bei der dritten Ausführungsform der vorliegenden Erfindung verwendet werden. Bei dem Beispiel der Fig. 11A und 11B gibt es zwei Dokumente, die die Zeichenfolge "Y" aufweisen. Bezüglich des Dokumentes 11A ist deshalb SCORE(YI) = 0, SCORE(YK) = 1 und SCORE(YB) = 1, was dazu führt, dass SCORE(Y) 2 ist. Dieser Berechnungsprozess kann die Beschaffungsge­ nauigkeit verbessern, da er die Anzahl der Dokumente, die die Suchzeichenfolge aufweisen, zum Zwecke der Berechnung der Rangordnungspunkte verwendet. Weiter kann die Rangbe­ rechnungseinheit 5 die Anzahl der Auftretungsereignisse der Suchzeichenfolge in dem Doku­ ment zum Zwecke der Berechnung der Rangordnungspunkte verwenden. In dem Dokument der Fig. 11A erscheint die Suchzeichenfolge "Y" zweimal, wie durch Aufaddieren der Auftre­ tungsereignis-Zählwerte von "YI", "YK" und "YB", die in Fig. 11C gezeigt sind, berechnet wird. Da die Anzahl der Dokumente, die "Y" enthalten, 2 ist, wird SCORE(Y) als 2 berechnet. Bei diesem Verfahren wird die Gleichung (1) für eine geringere Anzahl von Malen bzw. mit einer geringeren Häufigkeit berechnet als bei den vorhergehenden Verfahren, wodurch die Dokumentbeschaffung beschleunigt wird.
Im folgenden wird die achte Ausführungsform der vorliegenden Erfindung beschrieben.
Fig. 13 ist ein Blockdiagramm der Dokumentbeschaffungsvorrichtung 1A entsprechend einer achten Ausführungsform der vorliegenden Erfindung.
Die Textunterteilungseinheit 2 unterteilt einen Text in partielle Zeichenstrings, wobei der Text ein gespeichertes Dokument oder eine Suchzeichenfolge sein kann. Die Indexeinheit 3 speichert Information über partielle Zeichenfolgen, die durch Unterteilen eines gespeicherten Dokuments erhalten werden. Eine Auswahleinheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfol­ gen aus, die für Dokumentbeschaffungszwecke zu verwenden sind, wo eine derartige Auswahl aus den partiellen Zeichenfolgen, die durch Unterteilen der Suchzeichenfolge erhalten wurden, getroffen wird. Die Dokumentauswahleinheit 4 verwendet partielle Zeichenfolgen, die durch eine Auswahleinheit 6 für partielle Zeichenfolgen ausgewählt wurden, um ein Dokument auszuwählen, für das ein Rangordnungspunkt zu berechnen ist. Die Rangberechnungseinheit 5 verwendet die partiellen Zeichenfolgen, die durch die Auswahleinheit 6 für partielle Zeichen­ folgen ausgewählt wurden, um einen Rangordnungspunkt des Dokuments zu berechnen, der durch die Dokumentauswahleinheit 4 ausgewählt wurde. Die Textunterteilungseinheit 2 führt einen Unterteilungsschritt aus und die Dokumentauswahleinheit 4 führt einen Dokumentaus­ wahlschritt aus. Weiter führt die Rangberechnungseinheit 5 einen Rangberechnungsschritt durch und die Auswahleinheit 6 für partielle Zeichenfolgen führt einen Auswahlschritt für partielle Zeichenfolgen aus.
Die Speicherung der Dokumente ist dieselbe, wie die bei der ersten Ausführungsform.
Wenn eine Suchzeichenfolge für den Zweck der Dokumentbeschaffung bereitgestellt wird, unterteilt die Textunterteilungseinheit 2 die Suchzeichenfolge in partielle Zeichenfolgen. Die Auswahleinheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfolgen aus allen partiellen Zeichenfolgen aus, die durch Unterteilen der Suchzeichenfolge erhalten wurden, so dass die ausgewählten partiellen Zeichenfolgen für die Dokumentbeschaffungszwecke zu verwenden sind. Die Dokumentauswahleinheit 4 wählt ein Dokument oder Dokumente aus, für die ein Rangordnungspunkt zu berechnen ist, wobei eine derartige Auswahl in Hinblick auf die ausgewählten partiellen Zeichenfolgen getroffen wird. Die Rangberechnungseinheit 5 berechnet einen Rangordnungspunkt für jedes ausgewählte Dokument, in dem die ausgewählten partiellen Zeichenfolgen verwendet werden, wodurch Dokumentbeschaffungsergebnisse bereitgestellt werden.
Die Textunterteilungseinheit 2, die Dokumentauswahleinheit 4 und die Rangberechnungseinheit 5 funktionieren im wesentlichen genauso, wie bei der ersten Ausführungsform. Die Auswahl­ einheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfolgen so wenig wie möglich, jedoch ausreichend, um die volle Länge der Suchzeichenfolge abzudecken aus, wobei eine derartige Auswahl von allen partiellen Zeichenfolgen, die durch die Textunterteilungseinheit 2 unterteilt wurden, die die Suchzeichenfolge unterteilt, durchgeführt wird. Um die partiellen Zeichenfolgen nicht mehr als notwendig auszuwählen, um die volle Länge der Suchzeichenfolge abzudecken, wählt die Auswahleinheit 6 für die partielle Zeichenfolge partielle Zeichenfolgen eine nach der anderen von Anfang der Suchzeichenfolge aus, so dass sie sich nicht miteinander überlappen. Falls die partiellen Zeichenfolgen, die ausgewählt sind, so dass sie sich nicht miteinander überlappen, nicht die volle Länge der Suchzeichenfolge abdecken können, wird zusätzlich eine partielle Zeichenfolge, die einem Endabschnitt der Suchzeichenfolge entspricht, ausgewählt.
Wenn eine Suchzeichenfolge "ABCDEF" zum Beispiel bereitgestellt wird, extrahiert die Textunterteilungseinheit 2 fünf partielle Suchzeichenfolgen "AB", "BC", "CD", "DE" und "EF". In diesem Fall wählt die Auswahleinheit 6 für die partielle Suchzeichenfolge drei der fünf Folgen "AB", "CD" und "EF" aus, während die anderen beiden Zeichenfolgen "BC" und "DE" ausgelassen werden. Wenn eine Suchzeichenfolge "BCDEF" auf der anderen Seite lautet, werden zwei partielle Zeichenfolgen "BC" und "DE" zuerst gewählt. Keine weiteren partiellen Zeichenfolgen können ohne Überlapp ausgewählt werden, jedoch sind die ausge­ wählten zwei partiellen Zeichenfolgen nicht dazu in der Lage, die volle Länge der Suchzeichen­ folge abzudecken (d. h. sie können nicht das letzte Zeichen der Suchzeichenfolge abdecken). In diesem Fall wird eine andere partielle Suchzeichenfolge "EF" zusätzlich ausgewählt. Infolgedessen werden drei partielle Zeichenfolgen "BC", "DE" und "EF" von der Suchzei­ chenfolge "BCDEF" ausgewählt.
Ausgewählte partielle Zeichenfolgen sind immer weniger als alle partiellen Zeichenfolgen. Wenn eine Suchzeichenfolge aus m-Zeichen besteht, ist die Anzahl der ausgewählten partiellen Zeichenfolgen gleich der kleinsten ganzen Zahl, nicht kleiner als m/n. Falls nämlich n gleich 2 und m gleich 3 ist, ist die kleinste ganze Zahl, die nicht kleiner als 3/2 ist, 2. Falls n gleich 2 ist und m gleich 4 ist, ist die kleinste ganze Zahl, die nicht kleiner als 4/2 ist, 2. Falls n gleich 2 und m gleich 5 ist, ist die kleinste ganze Zahl, die nicht kleiner als 5/2 ist, 3. Diese Zahl der ausgewählten partiellen Zeichenfolgen ist kleiner als (m - n + 1), das ist die Zahl der partiellen Zeichenfolgen, die bei der japanischen offengelegten Patentanmeldung Nr. 11/85776 verwendet wird. In dieser Art und Weise kann die achte Ausführungsform der vorliegenden Erfindung die Berechnungslast zum Auswählen von Dokumenten und Berechnen von Rangord­ nungspunkten reduzieren, wodurch eine Dokumentenbeschaffung mit hoher Geschwindigkeit erzielt wird.
Fig. 14 ist ein Flussdiagramm eines Prozesses zum Auswählen partieller Zeichenfolgen, der nicht die volle Länge einer Suchzeichenfolge überlappt und abdeckt.
Bei einem Schritt S201 wird ein Parameter s auf 1 gesetzt. Dieser Parameter zeigt eine Startpo­ sition einer partiellen Zeichenfolge an.
Bei einem Schritt S202 wird s plus sublen berechnet. Die sich ergebende sum (Summe) wird in einem Parameter e festgelegt. Hier ist sublen eine Länge von partiellen Zeichenfolgen, d. h. eine Länge einer Verarbeitungseinheit. Der Parameter e zeigt die Position an, die als nächstes einer Endposition der partiellen Zeichenfolge folgt, und zwar beginnend bei der Position s.
Bei einem Schritt S203 wird eine Überprüfung dahingehend durchgeführt, ob e größer als len plus 1 ist, wobei len die Länge einer Suchzeichenfolge ist. Falls dies nicht so ist, geht das Verfahren zu einem Schritt S204 über.
In dem Schritt S204 wird eine partielle Zeichenfolge mit der Startposition s als eine der par­ tiellen Zeichenfolge für den Beschaffungszweck ausgewählt.
In dem Schritt S205 wird eine Überprüfung dahingehend durchgeführt, ob e gleich len plus 1 ist. Falls dies so ist, kommt das Verfahren zu einem Ende.
In dem Schritt S206 wird die Startposition s auf e festgelegt. Dann geht das Verfahren zu dem Schritt S202 zurück.
Falls die Überprüfung bei dem Schritt S203 findet, dass e größer ist als len plus 1 ist, geht das Verfahren zu einem Schritt S207 über.
In dem Schritt S207 wird eine partielle Zeichenfolge mit einer Startposition (len - sublen + 1) als eine der partiellen Zeichenfolgen für ein Beschaffungszweck ausgewählt. Dann kommt das Verfahren zu einem Ende.
Bemerkenswert ist, dass die achte Ausführungsform der vorliegenden Erfindung in derselben Art und Weise modifiziert werden kann, wie die erste Ausführungsform modifiziert worden ist, um die zweite bis siebte Ausführungsform, wie zuvor beschrieben wurde, bereitzustellen.
Bemerkenswert ist weiter, dass, obwohl die erste bis achte Ausführungsform unter Bezugnahme auf eine bestimmte Kombination von Merkmalen der vorliegenden Erfindung beschrieben wurde, verschiedene andere Kombinationen gemacht werden können, um Variationen der jeweiligen Ausführungsformen bereitzustellen.
Weiter ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt, sondern verschiedene Variationen und Modifikationen können durchgeführt werden, ohne vom Umfa 00990 00070 552 001000280000000200012000285910087900040 0002010028624 00004 00871ng der Erfindung abzuweichen.
Die vorliegende Erfindung basiert auf der prioritätsbegründenden japanischen Patentanmeldung Nr. 11-360369, die am 20. Dezember 1999 beim Japanischen Patentamt eingereicht wurde und deren gesamter Inhalt hiermit durch Bezugnahme aufgenommen wird.
Ein Verfahren zur Dokumentenbeschaffung beinhaltet die Schritte der Unterteilung einer Suchzeichenfolge in partielle Zeichenfolgen, das Auswählen eines Dokuments oder mehrerer Dokumente von einer Vielzahl gespeicherter Dokumenten derartig, dass das eine Dokument oder die mehren Dokumente jeweils alle partiellen Zeichenfolgen enthalten, die Berechnung jeweiliger Ränge der partiellen Zeichenfolgen für jedes der Anzahl Dokumente und die Berech­ nung eines Rangs der Suchzeichenfolge von den jeweiligen Rängen der partiellen Zeichenfolgen für jedes der Anzahldokumente.

Claims (36)

1. Verfahren zur Dokumentenbeschaffung, dadurch gekennzeichnet, dass es die folgenden Schritte umfasst:
eine Suchzeichenfolge wird in partielle Zeichenfolgen unterteilt;
eine Anzahl Dokumente wird aus einer Vielzahl von gespeicherten Dokumenten derartig ausgewählt, dass jedes der Dokumente der Anzahl Dokumente alle partielle Zeichenfolgen enthält;
jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes der Anzahl Dokumente werden berechnet; und
ein Rangpunkt der Suchzeichenfolge wird von den jeweiligen Rangpunkten der partiel­ len Zeichenfolgen für jedes der Anzahl Dokumente berechnet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt zum Unterteilen die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich überlappen.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Unterteilung die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich im allgemeinen nicht überlappen und die eine volle Länge der Suchzeichenfolge abdecken.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte umfasst:
ein erster Zählerwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene der partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählerwert wird erhalten, der anzeigt, wie viele Male die gegebene eine Zeichenfolge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl von Dokumenten erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge­ gebene eine Dokument der Anzahl von Dokumenten von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und der Zunahme des zweiten Zählwer­ tes zunimmt.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte umfasst:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Zeichenfolge der partiellen Zeichenfolgen enthalten;
zweite Zählwerte werden erhalten, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
ein kleinster Zählwert der zweiten Zählwerte wird erhalten; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge­ gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten der zweiten Zählwerte erhalten, so dass der Rangpunkt der gegebenen einen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählerwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei­ nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge­ gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhalten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfol­ gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass der Schritt der Erzielung eines zweiten Zählwerts weiter ein Schritt beinhaltet, eine obere Grenze für den zweiten Zählwert festzulegen.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Auswählens einer Anzahl von Dokumenten die Anzahl von Dokumenten auswählt, wobei jedes die Suchzei­ chenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zei­ chenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig eine Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhal­ ten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
9. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Auswählens einer Anzahl von Dokumenten die Anzahl von Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkt der partiellen Suchzeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
von dem ersten Zählwert wird eine Grenze berechnet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei­ nem gegebenen Dokument der Anzahl von Dokumenten erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
ein Rangpunkt eines gegebenen der partiellen Zeichenfolgen wird für das gegebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolge zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
10. Verfahren zur Dokumentenbeschaffung, gekennzeichnet durch die folgenden Schritte:
jeweilige Indizes für Dokumente werden bereitgestellt, wobei jedes der jeweiligen Indi­ zes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und jeweilige Positionen dafür in dem entsprechenden Dokument auflistet;
die partiellen Zeichenfolgen werden ausgewählt, die mit einer Zeichenfolge starten, die identisch mit einer Suchzeichenfolge ist;
eine Anzahl Dokumente wird aus den Dokumenten derartig ausgewählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten;
jeweilige Rangpunkte der ausgewählten partiellen Zeichenfolgen werden für jedes Do­ kument der Anzahl Dokumente berechnet; und
ein Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen werden für jedes Dokument der Anzahl Dokumente berechnet.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der Schritt der Berechnung jeweiliger Rangpunkte der ausgewählten partiellen Zeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen anzeigt;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die gegebene Zeichenfolge der ausgewählten Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente er­ scheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen Zeichenfolge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der Schritt der Berechnung jeweiliger Rangpunkte der ausgewählten partiellen Zeichenfolgen die folgenden Schritte umfasst:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei­ nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, so dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
13. Vorrichtung zur Dokumentbeschaffung, gekennzeichnet durch folgendes:
eine Unterteilungseinheit (2), die eine Suchzeichenfolge in partielle Zeichenfolgen un­ terteilt;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von einer Vielzahl ge­ speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Unterteilungseinheit (2) die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die einander überlappen.
15. Vorrichtung nach Anspruch 14, die weiter eine Auswahleinheit (6) für partielle Zeichen­ folgen umfasst, die die partiellen Zeichenfolgen auswählt, die im allgemeinen nicht überlappen und die die volle Länge der Suchzeichenfolge abdecken, wobei die ausgewählten partiellen Zeichenfolgen aufeinander folgend berechnet werden, um die jeweiligen Rangpunkte der ausgewählten partiellen Zeichenfolgen zu berechnen.
16. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein­ heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichen­ folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
17. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein­ heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele Doku­ mente der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthal­ ten;
eine zweite Einrichtung, die zweite Zählwerte erhält, die anzeigen, wie häufig eine ent­ sprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimaleinrichtung, um den kleinsten der zweiten Zählwerte zu erhalten; und
eine Rangeinrichtung, die einen Rang der gegebenen Folge der partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleins­ ten der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiel­ len Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste der zweiten Zählwerte zunimmt.
18. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein­ heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Zeichenfolge der partiellen Zei­ chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
19. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, dass die zweite Einrichtung zum Erzielen eines zweiten Zählwertes weiter eine Festlegeinrichtung zum Festlegen einer oberen Grenze des zweiten Zählwerts enthält.
20. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Dokumentauswahl­ einheit (4) die Anzahl Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält und wobei die Rangberechnungseinheit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichenfol­ gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der gegebenen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
21. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Dokumentauswahl­ einheit (4) die Anzahl Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und die Rangberechnungseinheit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungseinrichtung, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
eine Rangeinrichtung, die einen Rangpunkt einer gegebenen Folge der partiellen Zei­ chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
22. Vorrichtung zur Dokumentenbeschaffung, dadurch gekennzeichnet, dass sie folgendes umfasst:
eine Textunterteilungseinheit (2), die jeweilige Indizes für Dokumente bereitstellt, wo­ bei jeder Index der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und ihre jeweiligen Positionen in dem entsprechenden Dokument auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolge enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Ränge der ausgewählten partiellen Zei­ chenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rang­ punkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
23. Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, dass die Rangberechnungsein­ heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal­ ten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rang für die gegebene Folge der ausgewählten partiel­ len Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
24. Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, dass die Rangberechnungsein­ heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthält;
eine zweite Einrichtung, die eine zweite Folge erhält, die anzeigt, wie häufig die Such­ zeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
25. Programm und/oder Computer lesbares Aufzeichnungsmedium, das das Programm enthält, wobei das Programm den Computer veranlasst, eine Dokumentbeschaffung durchzufüh­ ren und das Programm dadurch gekennzeichnet ist, dass es folgendes umfasst:
eine Unterteilungs-Kodeeinheit, die eine Zeichenfolge in partielle Zeichenfolgen unterteilt;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von einer Vielzahl ge­ speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Ränge der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
26. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25, dadurch gekennzeichnet, dass die Unterteilungs-Kodeeinheit die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich miteinander überlappen.
27. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 26 beansprucht, dadurch gekennzeichnet, dass das Programm weiter eine Auswahl-Kodeeinheit für partielle Zeichenfolgen umfasst, die partielle Zeichenfolgen auswählt, die im allgemeinen sich nicht überlappen und die eine volle Länge der Suchzeichenfolge abdecken, wobei die ausgewählten partiellen Zeichenfolgen darauf folgend verwendet werden, um jeweilige Rang­ punkte der ausgewählten partiellen Zeichenfolgen zu berechnen.
28. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25 beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei­ chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
29. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25 beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthält;
eine zweite Kodeeinheit, die zweite Zählwerte erhält, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einen gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimum-Kodeeinheit, die einen kleinsten Zählwert der zweiten Zählwerte erhält; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der partiellen Zeichenfol­ gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten Zählwert der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
30. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge­ speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei­ chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert, abnimmt und wenn der zweite Zählwert zunimmt.
31. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 30 beansprucht, dadurch gekennzeichnet, dass die zweite Kodeeinheit zum Erhalten eines zweiten Kodewerts weiter eine Festlegungs-Kodeeinheit enthält, die eine obere Grenze für den zweiten Zählwert festlegt.
32. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25, dadurch gekennzeichnet, dass die Dokumentauswahl-Kodeeinheit die Anzahl Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und wobei die Rangberechnungs- Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge­ speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei­ chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
33. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25 beansprucht, dadurch gekennzeichnet, dass die Dokumentauswahl-Kodeeinheit die Anzahl Dokumente, von denen jedes die Suchzeichenfolge enthält, auswählt und die Rangberechnungs- Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge­ speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungs-Kodeeinheit, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwertes auf die Grenze beschränkt ist; und
eine Rang-Kodeeinheit, die einen Rang einer gegebenen Folge der partiellen Zeichen­ folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rang der gegebenen Folge der partiellen Zeichenfol­ gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
34. Programm und/oder Computer lesbares Aufzeichnungsmedium mit dem Programm darin, wobei das Programm einen Computer veranlasst, eine Dokumentenbeschaffung durchzu­ führen und das Programm durch folgendes gekennzeichnet ist:
eine Textunterteilungs-Kodeeinheit, die jeweilige Indizes für Dokumente bereitstellt, wobei jeder der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden werden und die jeweiligen Positionen in dem entsprechenden Dokument davon auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Folgen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rängen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen.
35. Programm und/oder Computer lesbares Aufzeichnungsmedium mit dem Programm nach Anspruch 34, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge­ speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal­ ten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
36. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 34 beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinrichtung, die einen ersten Zählwert enthält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
DE10028624A 1999-06-09 2000-06-09 Verfahren und Vorrichtung zur Dokumentenbeschaffung Expired - Lifetime DE10028624B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP11-162068 1999-06-09
JP11162068A JP2000348059A (ja) 1999-06-09 1999-06-09 文書検索方法
JP36036999A JP4077128B2 (ja) 1999-12-20 1999-12-20 文書検索装置、文書検索方法および記憶媒体
JP11-360369 1999-12-20

Publications (2)

Publication Number Publication Date
DE10028624A1 true DE10028624A1 (de) 2001-05-23
DE10028624B4 DE10028624B4 (de) 2007-07-05

Family

ID=26487988

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10028624A Expired - Lifetime DE10028624B4 (de) 1999-06-09 2000-06-09 Verfahren und Vorrichtung zur Dokumentenbeschaffung

Country Status (4)

Country Link
US (1) US6546383B1 (de)
CN (1) CN1156779C (de)
DE (1) DE10028624B4 (de)
FR (1) FR2797067B1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10048478A1 (de) * 2000-09-29 2002-04-25 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen sowie zugehörige Speichereinheit

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356604B1 (en) * 2000-04-18 2008-04-08 Claritech Corporation Method and apparatus for comparing scores in a vector space retrieval process
JP4342753B2 (ja) 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
US7702666B2 (en) * 2002-06-06 2010-04-20 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
US7010522B1 (en) * 2002-06-17 2006-03-07 At&T Corp. Method of performing approximate substring indexing
JP4538449B2 (ja) * 2003-03-03 2010-09-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文字列検索の方法および設備
US7069037B2 (en) * 2003-04-11 2006-06-27 Qualcomm, Inc. System and method for fluid power control of a reverse link communication
JP2008146602A (ja) * 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
CN102124459B (zh) * 2007-06-14 2013-06-12 谷歌股份有限公司 词典词和短语确定
JP2009037359A (ja) * 2007-07-31 2009-02-19 Hitachi Ltd データ登録検索方法、データ登録検索プログラムおよびデータベースシステム
JP5177649B2 (ja) * 2008-05-21 2013-04-03 株式会社リコー 現像装置、プロセスユニット及び画像形成装置
US8543574B2 (en) * 2009-06-05 2013-09-24 Microsoft Corporation Partial-matching for web searches
JP5424269B2 (ja) * 2010-09-10 2014-02-26 株式会社日立製作所 局所対応抽出装置及び局所対応抽出方法
US9043198B1 (en) 2012-04-13 2015-05-26 Google Inc. Text suggestion
JP6026036B1 (ja) * 2016-04-08 2016-11-16 株式会社Ubic データ分析システム、その制御方法、プログラム、及び、記録媒体

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
JP3280045B2 (ja) * 1991-06-21 2002-04-30 株式会社シマノ 自転車用フロントデイレーラー
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5369605A (en) * 1993-07-07 1994-11-29 Dell Usa, L.P. Incremental search content addressable memory for increased data compression efficiency
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5845049A (en) * 1996-03-27 1998-12-01 Board Of Regents, The University Of Texas System Neural network system with N-gram term weighting method for molecular sequence classification and motif identification
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
WO1998008169A1 (en) * 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6075470A (en) * 1998-02-26 2000-06-13 Research In Motion Limited Block-wise adaptive statistical data compressor
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
US5991714A (en) * 1998-04-22 1999-11-23 The United States Of America As Represented By The National Security Agency Method of identifying data type and locating in a file
US6360010B1 (en) * 1998-08-12 2002-03-19 Lucent Technologies, Inc. E-mail signature block segmentation
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10048478A1 (de) * 2000-09-29 2002-04-25 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen sowie zugehörige Speichereinheit
DE10048478C2 (de) * 2000-09-29 2003-05-28 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen

Also Published As

Publication number Publication date
CN1277398A (zh) 2000-12-20
DE10028624B4 (de) 2007-07-05
FR2797067B1 (fr) 2005-07-29
US6546383B1 (en) 2003-04-08
FR2797067A1 (fr) 2001-02-02
CN1156779C (zh) 2004-07-07

Similar Documents

Publication Publication Date Title
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
DE10028624A1 (de) Verfahren und Vorrichtung zur Dokumentenbeschaffung
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
DE69833238T2 (de) System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE19922974A1 (de) Verfahren und Vorrichtung zur Bearbeitung eines Dokuments
DE112012003249T5 (de) System, Verfahren und Programm zum Abrufen von Informationen
DE102005008803A1 (de) Verfahren und Computereinheit zum Ermitteln von Computer-Servicenamen
DE102019107591A1 (de) Anzeigesystem, programm und speichermedium
DE10034694A1 (de) Verfahren zum Vergleichen von Suchprofilen
WO2010078859A1 (de) Verfahren und system zum ermitteln einer ähnlichkeit von dokumenten
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
WO2011044865A1 (de) Verfahren zum bestimmen einer ähnlichkeit von objekten
DE112020003024T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE60119686T2 (de) System und Methode zum rechnerbasierten Suchen nach relevanten Texten
EP2423830A1 (de) Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
DE60106209T2 (de) Prozess zum Extrahieren von Schlüsselwörtern
EP4133384A1 (de) Verfahren und computersystem zur bestimmung der relevanz eines textes
EP1324219A1 (de) Verfahren zum kategoriegestützten Suchen nach Informationsobjekten in den Informationspools und System zum Auffinden solcher Informationsobjekte
DE102004036500A1 (de) Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs, Elektronische Suchmaschine zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R071 Expiry of right