DE60209572T2 - Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung - Google Patents
Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung Download PDFInfo
- Publication number
- DE60209572T2 DE60209572T2 DE60209572T DE60209572T DE60209572T2 DE 60209572 T2 DE60209572 T2 DE 60209572T2 DE 60209572 T DE60209572 T DE 60209572T DE 60209572 T DE60209572 T DE 60209572T DE 60209572 T2 DE60209572 T2 DE 60209572T2
- Authority
- DE
- Germany
- Prior art keywords
- data
- metadata
- essence
- format
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Klassifizierung, Organisation und Strukturierung verschiedener Datentypen, zur Benutzung z.B. für Datensortierung, Datenspeicherung oder Datenabruf.
- Allgemeiner Stand der Technik
- Die Kapazität digitaler Speichermedien wie etwa Festplatten oder mehrmals beschreibbare optische Datenträger zur persönlichen Aufzeichnung von Video- und anderen Daten wächst kontinuierlich. Dies führt zu neuen Konzepten wie z.B. dem sogenannten Homeserver, bei dem es sich um eine zentrale Speichereinrichtung mit großer Kapazität zum Aufzeichnen beliebiger Arten von Daten zu Hause handelt. Solche Anwendungen erfordern außerdem neue Arten der Organisation der aufgezeichneten Daten, der Suche nach Inhalt und des Zugriffs aus spezifische Aufzeichnungen.
- Für diesen Zweck kann man Daten über Daten, die häufig als Metadaten bezeichnet werden, benutzen. Verschiedene Industriegruppen und Normengesellschaften haben Metadatennormen für verschiedene Zwecke und Anwendungen entwickelt. In Multimedia-Anwendungen sind Metadaten in der Regel Daten über audiovisuelle (AV)-Daten, wobei diese AV-Daten häufig als „Essenz" bezeichnet werden. Ein Datenbasisverwaltungssystem (DBMS), das in der Lage sein soll, korrekt mit Daten verschiedener Datentypen umzugehen, erfordert jedoch eine Definition von Datentypen und ein Verfahren zur Unterscheidung zwischen ihnen.
- Erfindung
- Die Erfindung basiert auf der Erkennung der im folgenden beschriebenen Tatsachen:
In Einrichtungen, die ein DBMS für den Umgang mit ankommenden Daten, einschließlich ankommender Metadaten, bereitstellen, ist es notwendig, die ankommenden Daten und insbesondere ankommende Metadaten zu klassifizieren, da für verschiedene Arten von Metadaten unterschiedliche Verarbeitung notwendig ist. Zum Beispiel eignet sich eine Textabfrage nicht für Metadaten, die ein Bild in dem wohlbekannten GIF-Format (Graphics Interchange Format) enthalten. - Das durch die Erfindung zu lösende Problem besteht darin, die Daten automatisch zu klassifizieren, so daß ein DBMS das Ergebnis der Klassifizierung für den korrekten Datenumgang verwenden kann. Dieses Problem wird durch das in Anspruch 1 offengelegte Verfahren und durch die in Anspruch 5 offengelegte Vorrichtung gelöst. Die Ausgabe einer solchen Vorrichtung kann zum Beispiel zu einem DBMS geleitet werden.
- Gemäß der Erfindung können Metadaten als Datensätze definiert werden, die aus zwei Teilen bestehen, nämlich einem ersten Teil, der eine Verknüpfung ist, wobei die Verknüpfung zu einem Referenzdatensatz zeigt, und einem zweiten Teil, bei dem es sich um beliebige Daten handelt, die auf die Verknüpfung verweisen. Im folgenden wird der erste Teil als MD_LINK und der zweite Teil als MD_LOAD bezeichnet. Jeder Datenposten, der nicht mindestens ein MD_LINK und ein diesbezügliches MD_LOAD enthält, wird als Essenz definiert. Metadaten treten häufig zusammen mit anderen Metadaten oder anderer Essenz, kombiniert in einer logischen Entität wie z.B. einer Datei oder einer Festplatte, auf. Eine solche Mischung verschiedener Arten von Essenz und Metadaten wird im folgenden als Behälter bezeichnet. Populäre Beispiele für solche Behälter sind HTML-Dateien (Hypertext Markup Language) oder PDF-Dateien (Portable Document Format).
- Ferner ist gemäß der Erfindung eine weitere Art von Klassifizierung möglich. Daten können eine Interpretation durch die Einrichtung erfordern, bevor sie benutzt werden können. In diesem Fall werden die Daten als physische Daten definiert, wenn bei der Einrichtung ein Verfahren zur Interpretation definiert ist, und andernfalls als abstrakte Daten. Wenn z.B. ein Bild im GIF-Format gespeichert ist und die Einrichtung das GIF-Format interpretieren und es als ein Bild anzeigen kann, wird es als physische Daten klassifiziert. Wenn die Einrichtung das GIF-Format nicht interpretieren kann, werden die Daten als abstrakte Daten klassifiziert. Weitere Beispiele für abstrakte Daten sind Textdateien und andere Dateien, die nicht durch die Einrichtung interpretiert werden können.
- Die oben definierten beiden Typen der Klassifizierung schließen sich nicht aus, sondern ergänzen sich. Ferner ist die beschriebene Klassifizierung von Daten nicht absolut, sondern systemabhängig, und deshalb nur lokal relevant. Vorteilhafterweise ermöglicht diese Klassifizierung es der Einrichtung, korrekt mit verschiedenen Datentypen umzugehen, zwischen Metadaten, Essenz, Behälter, physischen Daten und abstrakten Daten zu unterscheiden und somit ein verallgemeinertes Zugriffsverfahren auf die Datentypen zu gestatten. Mit diesem Wissen kann die Einrichtung z.B. entscheiden, welcher Datenabfragetyp zu verwenden ist, wie Daten zu interpretieren sind und ob bestimmte Daten für eine bestimmte Abfrage ignoriert werden können.
- Im folgenden Text und in den jeweiligen abhängigen Ansprüchen werden vorteilhafte zusätzliche Ausführungsformen der Erfindung offengelegt.
- Zeichnungen
- Beispielhafte Ausführungsformen der Erfindung werden mit Bezugnahme auf die beigefügten Zeichnungen beschrieben. Es zeigen:
-
1 die beiden Systeme oder Dimensionen der Datenklassifizierung; -
2 ein Beispiel für einen Behälter, der Essenz und Metadaten enthält; -
3 ein Beispiel für abstrakte Metadaten; -
4 ein Beispiel für physische Metadaten; -
5 ein beispielhaftes Flußdiagramm für das Verfahren gemäß der Erfindung. - Beispielhafte Ausführungsformen
- Gemäß der Erfindung können die beiden Typen oder Systeme der Klassifizierung wie in
1 gezeigt als zwei Dimensionen verstanden werden. Ein Datenposten kann entweder Essenz E oder Metadaten M und entweder physische Daten PD oder abstrakte Daten AD sein. Die möglichen Datentypen sind deshalb physische Essenz PE, physische Metadaten PM, abstrakte Essenz AE oder abstrakte Metadaten AM. Ein Datenposten kann ferner außerdem ein Behälter C sein, wenn er andere Datenposten enthält. - Die Klassifizierung von Daten ist nicht absolut, sondern vom Standpunkt der Einrichtung aus gesehen subjektiv und deshalb nur innerhalb eines Systems, z.B. DBMS, relevant. Es kann geschehen, daß z.B. ein System eine Verknüpfung interpretieren kann, während ein anderes System dieselbe Verknüpfung nicht interpretieren kann. Deshalb kann es geschehen, daß z.B. ein System bestimmte Daten als Metadaten, die aus MD_LOAD und MD_LINK bestehen, klassifiziert, während ein anderes System dieselben Daten als Essenz klassifiziert, weil es die Verknüpfung nicht interpretieren kann. Ein anderes Beispiel ist, daß z.B. ein System eine mit MPEG Audiolayer 3 oder MP3 codierte Datei wiedergeben kann, während ein anderes System das MP3-Format nicht interpretieren kann. In diesem Fall klassifiziert das erste System eine MP3-codierte Datei als physische Daten, aber das zweite System klassifiziert dieselbe Datei als abstrakte Daten.
- Text ist als abstrakte Daten anzusehen, weil Text immer ein Format zum Sichern von Daten ist. Formatierter Text kann eine direkte physische Repräsentation von Daten, z.B. das PDF-Format, repräsentieren. Die Formatinformationen repräsentieren nur Hilfsinformationen, d.h. wenn Formatinformationen aus einer PDF-Datei extrahiert werden, verbleibt der reine Text, der die Hauptinformationen darstellt. Wenn der Text extrahiert wird, gehen die Hauptinformationen verloren. Aufgrund des Umstands, daß der Text die Hauptinformationen repräsentiert, wird auch formatierter Text als abstrakte Daten betrachtet.
- Eine Einrichtung gemäß Anspruch 5 führt beim Empfangen von Daten an ihrem Eingang die folgende Prozedur aus:
Wenn die Daten mehr als einen Datenposten enthalten, kann die Ausgabe folgendermaßen lauten: „Daten sind ein Behälter". Später werden weitere Einzelheiten angegeben. Die Klassifizierung kann hier aufhören oder kann auf bestimmte oder alle Blätter des hierarchisch strukturierten Datenbaums in dem Behälter erweitert werden. Wenn Daten Metadaten sind, kann die Ausgabe folgendermaßen lauten: „Daten sind Metadaten". - Andernfalls kann die Ausgabe folgendermaßen lauten: „Daten sind Essenz". Wenn Daten physische Daten sind, kann eine zusätzliche Ausgabe folgendermaßen lauten: „Daten sind physische Daten".
- Andernfalls kann, wenn Daten abstrakte Daten sind, eine zusätzliche Ausgabe folgendermaßen lauten: „Daten sind abstrakte Daten". Vorteilhafterweise kann die Einrichtung den Typ physischer Daten erkennen und ausgeben, z.B. „Daten sind ein Farbbild (24 Bit) mit der Auflösung x = 200 Pixel und y = 400 Pixel".
- Wenn das Datenformat der Einrichtung unbekannt ist und deshalb die Einrichtung die Daten nicht als Behälter, Metadaten, Essenz, abstrakte Daten oder physische Daten klassifizieren kann, kann die Ausgabe eine beliebige Ausgabe des Vorgabetyps sein, z.B. „Datentyp ist unbekannt" oder „Daten sind Essenz und abstrakte Daten".
- Zusätzlich ist es hilfreich, wenn die Einrichtung erkennt, ob es sich bei Daten um Text handelt oder nicht:
Wenn es sich bei den Daten um abstrakte Daten und Text handelt, kann die Ausgabe zusätzlich folgendermaßen lauten: „Daten sind Text". - Dies läßt sich durch Suchen nach bekanten Wörtern, z.B. aus einem elektronischen Wörterbuch, oder durch Suchen nach Gruppen von durch Leerzeichen getrennten Zeichen implementieren.
- Wenn die Eingangsdaten ein Behälter sind, kann eine zusätzliche Ausgabe folgendermaßen lauten: „Daten sind ein Behälter, d.h. es sind weitere Metadaten oder Essenz enthalten". Wahlweise können die folgenden genauen Einzelheiten erwähnt werden: „Der Behälter ENTHÄLT mindestens 1 Metadaten und 1 Essenz", oder „der Behälter ENTHÄLT überhaupt keine Metadaten" oder sogar „der Behälter ENTHÄLT genau N Metadatenposten", wobei N die Menge an in dem Behälter enthaltenen Metadaten ist.
- Wenn die Einrichtung das Format der analysierten Daten erkennen kann, kann sie zusätzlich folgendes ausgeben: „Datenformat ist X". „X" ist das Format. Beispiele für „X" können z.B. „HTML" oder „JPEG" sein.
-
2 zeigt ein Beispiel für eine Datei, die eine Kombination von Essenz und Metadaten im wohlbekannten HTML-Format enthält. Im folgenden wird die Klassifizierung aller Elemente gemäß der Erfindung beschrieben. - Als erstes erkennt die Einrichtung, daß die erste Zeile <html> ist, und daß deshalb die Datei HTML-formatiert sein sollte. Es wird angenommen, daß die Einrichtung das HTML-Format interpretieren kann und deshalb Posten mit „href"-Attributen in HTML-Dateien als Verknüpfungen interpretiert. Da HTML-formatierte Dateien gewöhnlich eine hierarchische Struktur enthalten, werden zuerst die Blattelemente des Hierarchiebaums analysiert. Das erste Element aus
2
<title>This is the title</title>
wird als Essenz klassifiziert, weil keine Verknüpfung an das Element angebunden ist. - Das Element <a href=http://www.w3c.org>W3C HOME</a> wird als Metadaten klassifiziert, wobei die Zeichenkette „W3C HOME" die Essenz oder MD_LOAD ist und die Zeichenkette „href=://w3c.org" die diesbezügliche Verknüpfung oder MD_LINK ist.
- Das nächste Blattelement
<p>This is a paragraph</p>
enthält keine Verknüpfung und wird deshalb als Essenz klassifiziert. - Das nächste Blattelement
<img src ="image.gif">
wird auch als Essenz klassifiziert, weil es nur eine Verknüpfung ist, d.h. es enthält kein MD_LINK mit diesbezüglichem MD_LOAD. Deshalb kann es sich nicht um Metadaten handeln. Der Zweck dieser Verknüpfung ist der Verweis auf weitere Essenz, nämlich die Bilddaten. - Wenn alle Elemente der ersten Ebene der Hierarchie analysiert wurden, wird die nächste Ebene untersucht. Das Element
<head>
<title>This is the title</title>
</head>
wird als Essenz klassifiziert, weil es keine Verknüpfung enthält, sondern nur ein Element, wobei das Element Essenz ist. - Das Element
<a href=http://www.w3c.org>
<img src="image.gif">
</a>
wird als Metadaten klassifiziert, wobei <img src="image.gif"> der MD_LOAD-Teil und das „href"-Attribut die diesbezügliche Verknüpfung ist. - Das nächste Element
<body>
...
</body>
wird als Behälter klassifiziert, weil es Metadatenposten und Essenzposten miteinander gruppiert. - Als letztes wird das Element
<html>
...
</html>
auch als Behälter klassifiziert. Es gruppiert ein Essenz-Element, nämlich das <head>-Element, und einen Behälter, nämlich das <body>-Element miteinander. -
3 zeigt ein Beispiel für abstrakte Metadaten. Mehrere Datenposten3R ,3M werden in einer Dateneinheit3C gruppiert. Die Dateneinheit3C könnte z.B. eine HTML-Datei sein. Für einen der Datenposten hat die Einrichtung erkannt, daß er eine Verknüpfung3L enthält, was dadurch symbolisiert wird, daß der Cursor von einem Pfeil zu einer Hand wechselt, wenn auf den Text3E gezeigt wird. Da der Text3E und die Verknüpfung3L zusammengehören und es sich bei dem Text3E um Essenz handelt, bilden sie einen Metadatenposten3M , und die Verknüpfung3L ist eine Metadatenverknüpfung, die auf eine Referenz3REF außerhalb der Dateneinheit3C zeigt. Da die Essenz3E des Metadatenpostens3M Text ist und es sich bei Text um abstrakte Daten handelt, ist der Metadatenposten3M ein abstrakter Metadatenposten. Die übrigen Datenposten3R in der Dateneinheit3C sind etwaiger Text und ein Bild. Die Dateneinheit3C ist ein Behälter, da sie mindestens einen Metadatenposten3M und weitere übrige Datenposten3R enthält. -
4 zeigt ein Beispiel für physische Metadaten. Mehrere Datenposten4R ,4M sind in einer Dateneinheit4C enthalten, wobei es sich bei der Einheit4C z.B. um eine HTML-Datei handelt. In diesem Fall hat die Einrichtung erkannt, daß das Bild4E mit einer Verknüpfung4L assoziiert ist, was dadurch symbolisiert wird, daß der Cursor von einem Pfeil zu einer Hand wechselt. Die Verknüpfung4L zeigt auf eine Referenz4REF außerhalb der Dateneinheit4C . Da das Bild4E und die Verknüpfung4L zusammengehören, bilden sie einen Metadatenposten4M , wobei es sich bei dem Bild4E um die Essenz dieser Metadaten handelt. Die Essenz4E ist z.B. ein JPEG-formatiertes Bild und kann in der HTML-Datei z.B. als <img src=Anton.jpg width=108 height=73> referenziert werden. Da die Einrichtung sie anzeigen kann, ist sie physische Daten und der Metadatenposten4M ist physische Metadaten. Die Dateneinheit4C ist ein Behälter, weil er mindestens einen Metadatenposten4M und andere Posten4R enthält. -
5 zeigt ein beispielhaftes Flußdiagramm des erfindungsgemäßen Verfahrens. Der Zweck der Erfindung ist das Klassifizieren verschiedener Arten ankommender Daten IN. Die ankommenden Daten IN werden analysiert und ein erster Entscheidungsblock D1 entscheidet, ob das Format der ankommenden Daten erkannt werden kann. Wenn nicht, wird als Ausgabe „Unbekannt" angezeigt und die Klassifizierung endet in einem Endzustand EX. Wenn das Format bekannt ist (z.B. HTML), kann ein zweiter Entscheidungsblock D2 entscheiden, ob die ankommenden Daten unklassifizierte Elemente enthalten. Wenn die Antwort „Ja" ist, wird der nächste unklassifizierte Datenposten genommen und zu einem dritten Entscheidungsblock D3 geleitet. Dieser Entscheidungsblock D3 kann entscheiden, ob es sich bei den Datenposten um einen Behälter C, Metadaten M oder Essenz E handelt. Die Entscheidung ist „Behälter", wenn der Datenposten einen weiteren Datenposten enthält, der bereits als Metadaten klassifiziert wurde. Die Entscheidung ist „Metadaten", wenn der Datenposten eine Verknüpfung mit Essenz mit Bezug auf diese Verknüpfung enthält. In allen anderen Fällen ist die Entscheidung „Essenz". Die im dritten Entscheidungsblock D3 getroffene Entscheidung wird am Ausgang angezeigt. Wenn der analysierte Datenposten ein Behälter C ist, kehrt die Prozedur wieder zu dem zweiten Entscheidungsblock D2 zurück, andernfalls wird in einen vierten Entscheidungsblock D4 eingetreten. Der vierte Entscheidungsblock D4 entscheidet, ob die Einrichtung den Datenposten interpretieren kann, so daß er dem Benutzer weitere Informationen offenlegen kann, z.B. ein anzeigbares Bild. Wenn die Antwort „Ja" ist, wird am Ausgang angezeigt, daß es sich bei dem Datenposten um physische Daten PD handelt, und andernfalls abstrakte Daten AD. Falls es sich bei dem Datenposten um physische Daten PD handelt, kann die Formaterkennung implizit in dem vierten Entscheidungsblock D4 stattgefunden haben. Ein fünfter Entscheidungsblock D5 kann dann Formateinzelheiten erkennen und entscheiden, ob das erkannte Format angezeigt werden soll, und wenn dies der Fall ist, kann das Format F1, ..., F3 am Ausgang angezeigt werden. Falls es sich bei dem Datenposten um abstrakte Daten AD handelt, kann ein sechster Entscheidungsblock D6 entscheiden, ob die Daten Text enthalten. Wenn dies der Fall ist, wird dies am Ausgang angezeigt. Wenn es sich bei dem Datenposten um abstrakte Daten AD und nicht um Text handelt, wird keine weitere Anzeige erzeugt. Die Prozedur wird dann von dem zweiten Entscheidungsblock D2 aus, der entscheidet, ob weitere unklassifizierte Elemente enthalten sind, aus wiederholt. Wenn dies nicht der Fall ist, wurde dieser Datenposten vollständig klassifiziert und es wird in den Endzustand EX eingetreten. Diese Ausführungsform der Erfindung analysiert alle Hierarchieebenen und Blattelemente der Behälter, andere Ausführungsformen können aber nur einen Teil der Hierarchieebenen oder Blattelemente von Behältern analysieren. - Vorteilhafterweise kann das beschriebene Verfahren zur Datenklassifizierung in Einrichtungen zum Datensortieren, zur Datenspeicherung z.B. DBMS, oder Datenabruf z.B. Browser, verwendet werden. Das beschriebene Verfahren kann benutzt werden, wenn verschiedene Klassen von Daten verschiedene Verarbeitung erfordern, z.B. verschiedene Suchalgorithmen, verschiedene Speichermethoden oder -bereiche, verschiedene Kompressionsverfahren oder verschiedene Präsentationsverfahren.
- Die Erfindung kann in einer separaten Einrichtung implementiert werden, die ankommende Daten in bezug auf ihr Format, ihren Inhalt und in bezug auf andere Daten, z.B. Verknüpfung, klassifiziert und die Informationen über Daten bereitstellt. Diese Informationen sind besonders notwendig, wenn es zu erkennen ist, ob diese Daten Verknüpfungen enthalten oder diese Daten spezielle Abfragemethoden erfordern.
- Die Einrichtung kann Teil einer anderen Einrichtung oder als Hardware oder Software, z.B. als Anwendung oder Plugin in einem PC realisiert werden. Ferner kann sie z.B. über das Internet oder über andere Quellen aktualisiert werden, so daß mehr und mehr Formate erkannt werden, so daß diese Einrichtung sich selbst aktualisiert und immer effizienter wird.
Claims (5)
- Verfahren zur automatischen Erkennung von Datentypen für die datentypabhängige Verarbeitung durch eine technische Einrichtung, wobei es sich bei den Datentypen um physische Essenz (PE), physische Metadaten (PM), abstrakte Essenz (AE) oder abstrakte Metadaten (AM) handelt, gekennzeichnet durch a) Empfangen ankommender Datenposten (IN), wobei ein Datenposten entweder als Metadaten (M), die als Datensätze definiert sind, die aus einer auf einen Referenzdatensatz zeigenden Verknüpfung und aus etwaigen auf die Verknüpfung verweisenden Daten bestehen, oder als Essenzdaten (E), wenn keine Verknüpfung angebunden ist, klassifiziert werden kann: und wobei ein Datenposten entweder als physische Daten (PD), die als für physische Repräsentation verwendete Daten definiert sind, oder als abstrakte Daten (AD) klassifiziert werden kann; b) Analysieren (D1) der ankommenden Daten, wenn das Format der Daten erkannt werden kann; c) Nach der Erkennung des Formats, Verwenden des erkannten Formats zur Auswertung (D3), ob die ankommenden Daten – nur Metadaten (M), – nur Essenz (E), – eine Mischung oder einen Behälter (C) der Metadaten (M) und Essenz (E) enthalten, d) Auswerten (D4), ob die technische Einrichtung in der Lage ist, die Essenz (E) und die Metadaten (M) zum Beispiel zur Wiedergabe einer physischen Repräsentation der Daten zu interpretieren, um so anzuzeigen, daß es sich bei dem Datenposten um physische Daten (PD) handelt, und andernfalls um anzuzeigen, daß es sich bei dem Datenposten um abstrakte Daten (AD) handelt; e) Zuführen des Ergebnisses der ersten Auswertung und des Ergebnisses der zweiten Auswertung der technischen Einrichtung für datentypabhängige Verarbeitung der Daten.
- Verfahren nach Anspruch 1, wobei für durch die technische Einrichtung interpretierbare Daten (PD) außerdem angezeigt wird, ob der Formattyp der Daten einer von mehreren spezifizierten Formattypen (F1, ..., F3) ist.
- Verfahren nach einem der Ansprüche 1–2, wobei für nicht durch die technische Einrichtung interpretierbare Daten (AD) außerdem angezeigt wird, ob es sich um Text handelt.
- Verfahren nach einem der Ansprüche 1–3, wobei die technische Einrichtung eine Datensortiereinrichtung, ein Datenbasisverwaltungssystem oder ein Dateninhalts-Browser ist.
- Vorrichtung zur automatischen Erkennung von Datentypen für datentypabhängige Verarbeitung, die so ausgelegt ist, daß sie das Verfahren nach einem der Ansprüche 1–4 ausführt.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01131036A EP1324216A1 (de) | 2001-12-28 | 2001-12-28 | Maschine zur Klassifizierung von Daten |
EP01131036 | 2001-12-28 | ||
PCT/EP2002/014266 WO2003056454A1 (en) | 2001-12-28 | 2002-12-14 | Method and apparatus for automatic detection of data types for data type dependent processing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60209572D1 DE60209572D1 (de) | 2006-04-27 |
DE60209572T2 true DE60209572T2 (de) | 2006-08-24 |
Family
ID=8179717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60209572T Expired - Lifetime DE60209572T2 (de) | 2001-12-28 | 2002-12-14 | Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung |
Country Status (9)
Country | Link |
---|---|
US (1) | US7359917B2 (de) |
EP (2) | EP1324216A1 (de) |
JP (1) | JP4438413B2 (de) |
KR (1) | KR100934537B1 (de) |
CN (1) | CN1610905B (de) |
AU (1) | AU2002356657A1 (de) |
DE (1) | DE60209572T2 (de) |
MX (1) | MXPA04006378A (de) |
WO (1) | WO2003056454A1 (de) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7581077B2 (en) | 1997-10-30 | 2009-08-25 | Commvault Systems, Inc. | Method and system for transferring data in a storage operation |
US6418478B1 (en) * | 1997-10-30 | 2002-07-09 | Commvault Systems, Inc. | Pipelined high speed data transfer mechanism |
US7035880B1 (en) | 1999-07-14 | 2006-04-25 | Commvault Systems, Inc. | Modular backup and retrieval system used in conjunction with a storage area network |
US7395282B1 (en) | 1999-07-15 | 2008-07-01 | Commvault Systems, Inc. | Hierarchical backup and retrieval system |
US7389311B1 (en) | 1999-07-15 | 2008-06-17 | Commvault Systems, Inc. | Modular backup and retrieval system |
US7155481B2 (en) | 2000-01-31 | 2006-12-26 | Commvault Systems, Inc. | Email attachment management in a computer system |
US7003641B2 (en) | 2000-01-31 | 2006-02-21 | Commvault Systems, Inc. | Logical view with granular access to exchange data managed by a modular data and storage management system |
US6658436B2 (en) | 2000-01-31 | 2003-12-02 | Commvault Systems, Inc. | Logical view and access to data managed by a modular data and storage management system |
AU2003270482A1 (en) | 2002-09-09 | 2004-03-29 | Commvault Systems, Inc. | Dynamic storage device pooling in a computer system |
US8370542B2 (en) * | 2002-09-16 | 2013-02-05 | Commvault Systems, Inc. | Combined stream auxiliary copy system and method |
US7246207B2 (en) | 2003-04-03 | 2007-07-17 | Commvault Systems, Inc. | System and method for dynamically performing storage operations in a computer network |
US7454569B2 (en) | 2003-06-25 | 2008-11-18 | Commvault Systems, Inc. | Hierarchical system and method for performing storage operations in a computer network |
JP2005071227A (ja) * | 2003-08-27 | 2005-03-17 | Sony Corp | メタデータ流通管理システム,メタデータ流通管理装置,個人別メタデータ管理装置,クライアント端末,メタデータ流通管理方法およびコンピュータプログラム |
WO2005065084A2 (en) * | 2003-11-13 | 2005-07-21 | Commvault Systems, Inc. | System and method for providing encryption in pipelined storage operations in a storage network |
WO2005050381A2 (en) | 2003-11-13 | 2005-06-02 | Commvault Systems, Inc. | Systems and methods for performing storage operations using network attached storage |
WO2005048085A2 (en) | 2003-11-13 | 2005-05-26 | Commvault Systems, Inc. | System and method for performing an image level snapshot and for restoring partial volume data |
WO2006052872A2 (en) | 2004-11-05 | 2006-05-18 | Commvault Systems, Inc. | System and method to support single instance storage operations |
US7490207B2 (en) * | 2004-11-08 | 2009-02-10 | Commvault Systems, Inc. | System and method for performing auxillary storage operations |
US20070185926A1 (en) * | 2005-11-28 | 2007-08-09 | Anand Prahlad | Systems and methods for classifying and transferring information in a storage network |
US8271548B2 (en) * | 2005-11-28 | 2012-09-18 | Commvault Systems, Inc. | Systems and methods for using metadata to enhance storage operations |
US7617262B2 (en) | 2005-12-19 | 2009-11-10 | Commvault Systems, Inc. | Systems and methods for monitoring application data in a data replication system |
US8655850B2 (en) | 2005-12-19 | 2014-02-18 | Commvault Systems, Inc. | Systems and methods for resynchronizing information |
US7651593B2 (en) | 2005-12-19 | 2010-01-26 | Commvault Systems, Inc. | Systems and methods for performing data replication |
US8930496B2 (en) | 2005-12-19 | 2015-01-06 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US7636743B2 (en) | 2005-12-19 | 2009-12-22 | Commvault Systems, Inc. | Pathname translation in a data replication system |
US20200257596A1 (en) | 2005-12-19 | 2020-08-13 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US7962709B2 (en) * | 2005-12-19 | 2011-06-14 | Commvault Systems, Inc. | Network redirector systems and methods for performing data replication |
US7606844B2 (en) | 2005-12-19 | 2009-10-20 | Commvault Systems, Inc. | System and method for performing replication copy storage operations |
EP1974296B8 (de) | 2005-12-19 | 2016-09-21 | Commvault Systems, Inc. | System und verfahren zur durchführung einer datenreplikation |
US8726242B2 (en) | 2006-07-27 | 2014-05-13 | Commvault Systems, Inc. | Systems and methods for continuous data replication |
US7962499B2 (en) | 2006-08-18 | 2011-06-14 | Falconstor, Inc. | System and method for identifying and mitigating redundancies in stored data |
US7882077B2 (en) | 2006-10-17 | 2011-02-01 | Commvault Systems, Inc. | Method and system for offline indexing of content and classifying stored data |
US8370442B2 (en) | 2008-08-29 | 2013-02-05 | Commvault Systems, Inc. | Method and system for leveraging identified changes to a mail server |
US8719809B2 (en) * | 2006-12-22 | 2014-05-06 | Commvault Systems, Inc. | Point in time rollback and un-installation of software |
US8312323B2 (en) | 2006-12-22 | 2012-11-13 | Commvault Systems, Inc. | Systems and methods for remote monitoring in a computer network and reporting a failed migration operation without accessing the data being moved |
US20080228771A1 (en) | 2006-12-22 | 2008-09-18 | Commvault Systems, Inc. | Method and system for searching stored data |
US8290808B2 (en) | 2007-03-09 | 2012-10-16 | Commvault Systems, Inc. | System and method for automating customer-validated statement of work for a data storage environment |
US8296301B2 (en) | 2008-01-30 | 2012-10-23 | Commvault Systems, Inc. | Systems and methods for probabilistic data classification |
US7836174B2 (en) * | 2008-01-30 | 2010-11-16 | Commvault Systems, Inc. | Systems and methods for grid-based data scanning |
US8789168B2 (en) * | 2008-05-12 | 2014-07-22 | Microsoft Corporation | Media streams from containers processed by hosted code |
US20130144653A1 (en) * | 2008-08-05 | 2013-06-06 | Net.Orange, Inc. | System and method for visualizing patient treatment history in a network environment |
CN101685591B (zh) * | 2008-09-26 | 2011-06-22 | 鸿富锦精密工业(深圳)有限公司 | 自动检测显示装置所支持图片格式的检测装置及方法 |
US9495382B2 (en) | 2008-12-10 | 2016-11-15 | Commvault Systems, Inc. | Systems and methods for performing discrete data replication |
US8204859B2 (en) | 2008-12-10 | 2012-06-19 | Commvault Systems, Inc. | Systems and methods for managing replicated database data |
US8442983B2 (en) | 2009-12-31 | 2013-05-14 | Commvault Systems, Inc. | Asynchronous methods of data classification using change journals and other data structures |
US9015733B2 (en) | 2012-08-31 | 2015-04-21 | Facebook, Inc. | API version testing based on query schema |
US8504517B2 (en) | 2010-03-29 | 2013-08-06 | Commvault Systems, Inc. | Systems and methods for selective data replication |
US8504515B2 (en) | 2010-03-30 | 2013-08-06 | Commvault Systems, Inc. | Stubbing systems and methods in a data replication environment |
US8352422B2 (en) | 2010-03-30 | 2013-01-08 | Commvault Systems, Inc. | Data restore systems and methods in a replication environment |
US8725698B2 (en) | 2010-03-30 | 2014-05-13 | Commvault Systems, Inc. | Stub file prioritization in a data replication system |
US8589347B2 (en) | 2010-05-28 | 2013-11-19 | Commvault Systems, Inc. | Systems and methods for performing data replication |
US9021198B1 (en) | 2011-01-20 | 2015-04-28 | Commvault Systems, Inc. | System and method for sharing SAN storage |
US8719264B2 (en) | 2011-03-31 | 2014-05-06 | Commvault Systems, Inc. | Creating secondary copies of data based on searches for content |
CN102404411A (zh) * | 2011-12-23 | 2012-04-04 | 创新科存储技术有限公司 | 云存储系统的数据同步方法 |
US9471578B2 (en) | 2012-03-07 | 2016-10-18 | Commvault Systems, Inc. | Data storage system utilizing proxy device for storage operations |
US9298715B2 (en) | 2012-03-07 | 2016-03-29 | Commvault Systems, Inc. | Data storage system utilizing proxy device for storage operations |
US9342537B2 (en) | 2012-04-23 | 2016-05-17 | Commvault Systems, Inc. | Integrated snapshot interface for a data storage system |
US8892523B2 (en) | 2012-06-08 | 2014-11-18 | Commvault Systems, Inc. | Auto summarization of content |
US20140067781A1 (en) * | 2012-08-31 | 2014-03-06 | Scott W. Wolchok | Graph Query Language API Querying and Parsing |
US9646028B2 (en) * | 2012-08-31 | 2017-05-09 | Facebook, Inc. | Graph query logic |
US10379988B2 (en) | 2012-12-21 | 2019-08-13 | Commvault Systems, Inc. | Systems and methods for performance monitoring |
US9262435B2 (en) | 2013-01-11 | 2016-02-16 | Commvault Systems, Inc. | Location-based data synchronization management |
US9886346B2 (en) | 2013-01-11 | 2018-02-06 | Commvault Systems, Inc. | Single snapshot for multiple agents |
CN106104414B (zh) * | 2013-11-13 | 2019-05-21 | Twc专利信托公司 | 存储设备以及存储和提供数据的方法 |
US9632874B2 (en) | 2014-01-24 | 2017-04-25 | Commvault Systems, Inc. | Database application backup in single snapshot for multiple applications |
US9495251B2 (en) | 2014-01-24 | 2016-11-15 | Commvault Systems, Inc. | Snapshot readiness checking and reporting |
US9753812B2 (en) | 2014-01-24 | 2017-09-05 | Commvault Systems, Inc. | Generating mapping information for single snapshot for multiple applications |
US9639426B2 (en) | 2014-01-24 | 2017-05-02 | Commvault Systems, Inc. | Single snapshot for multiple applications |
CN104091006B (zh) * | 2014-07-01 | 2020-05-26 | 中国北方发动机研究所(天津) | Simulink中自适应的仿真和代码生成的控制方法 |
US9774672B2 (en) | 2014-09-03 | 2017-09-26 | Commvault Systems, Inc. | Consolidated processing of storage-array commands by a snapshot-control media agent |
US10042716B2 (en) | 2014-09-03 | 2018-08-07 | Commvault Systems, Inc. | Consolidated processing of storage-array commands using a forwarder media agent in conjunction with a snapshot-control media agent |
US9648105B2 (en) | 2014-11-14 | 2017-05-09 | Commvault Systems, Inc. | Unified snapshot storage management, using an enhanced storage manager and enhanced media agents |
US9448731B2 (en) | 2014-11-14 | 2016-09-20 | Commvault Systems, Inc. | Unified snapshot storage management |
US9904481B2 (en) | 2015-01-23 | 2018-02-27 | Commvault Systems, Inc. | Scalable auxiliary copy processing in a storage management system using media agent resources |
US9898213B2 (en) | 2015-01-23 | 2018-02-20 | Commvault Systems, Inc. | Scalable auxiliary copy processing using media agent resources |
US10503753B2 (en) | 2016-03-10 | 2019-12-10 | Commvault Systems, Inc. | Snapshot replication operations based on incremental block change tracking |
US10540516B2 (en) | 2016-10-13 | 2020-01-21 | Commvault Systems, Inc. | Data protection within an unsecured storage environment |
US10922189B2 (en) | 2016-11-02 | 2021-02-16 | Commvault Systems, Inc. | Historical network data-based scanning thread generation |
US10389810B2 (en) | 2016-11-02 | 2019-08-20 | Commvault Systems, Inc. | Multi-threaded scanning of distributed file systems |
US11010261B2 (en) | 2017-03-31 | 2021-05-18 | Commvault Systems, Inc. | Dynamically allocating streams during restoration of data |
US10984041B2 (en) | 2017-05-11 | 2021-04-20 | Commvault Systems, Inc. | Natural language processing integrated with database and data storage management |
US10642886B2 (en) | 2018-02-14 | 2020-05-05 | Commvault Systems, Inc. | Targeted search of backup data using facial recognition |
US10732885B2 (en) | 2018-02-14 | 2020-08-04 | Commvault Systems, Inc. | Block-level live browsing and private writable snapshots using an ISCSI server |
JP7029347B2 (ja) * | 2018-05-11 | 2022-03-03 | 株式会社東芝 | 情報処理方法、プログラムおよび情報処理装置 |
US11159469B2 (en) | 2018-09-12 | 2021-10-26 | Commvault Systems, Inc. | Using machine learning to modify presentation of mailbox objects |
US11042318B2 (en) | 2019-07-29 | 2021-06-22 | Commvault Systems, Inc. | Block-level data replication |
CN111833022B (zh) * | 2020-07-17 | 2021-11-09 | 海南大学 | 跨数据、信息、知识模态与量纲的任务处理方法及组件 |
US11494417B2 (en) | 2020-08-07 | 2022-11-08 | Commvault Systems, Inc. | Automated email classification in an information management system |
US11593223B1 (en) | 2021-09-02 | 2023-02-28 | Commvault Systems, Inc. | Using resource pool administrative entities in a data storage management system to provide shared infrastructure to tenants |
US11809285B2 (en) | 2022-02-09 | 2023-11-07 | Commvault Systems, Inc. | Protecting a management database of a data storage management system to meet a recovery point objective (RPO) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2212636A (en) * | 1987-11-17 | 1989-07-26 | Amoco Corp | Identifying data format |
US5864870A (en) * | 1996-12-18 | 1999-01-26 | Unisys Corp. | Method for storing/retrieving files of various formats in an object database using a virtual multimedia file system |
US6128621A (en) * | 1997-10-31 | 2000-10-03 | Oracle Corporation | Apparatus and method for pickling data |
JP4450888B2 (ja) * | 1999-05-28 | 2010-04-14 | 富士通株式会社 | 帳票認識方法 |
US6360951B1 (en) * | 1999-12-16 | 2002-03-26 | Xerox Corporation | Hand-held scanning system for heuristically organizing scanned information |
US6662186B1 (en) * | 2000-07-14 | 2003-12-09 | Hewlett-Packard Development Company, L.P. | System and method for a data propagation file format |
-
2001
- 2001-12-28 EP EP01131036A patent/EP1324216A1/de not_active Withdrawn
-
2002
- 2002-12-14 MX MXPA04006378A patent/MXPA04006378A/es active IP Right Grant
- 2002-12-14 DE DE60209572T patent/DE60209572T2/de not_active Expired - Lifetime
- 2002-12-14 CN CN028264150A patent/CN1610905B/zh not_active Expired - Fee Related
- 2002-12-14 US US10/500,204 patent/US7359917B2/en not_active Expired - Lifetime
- 2002-12-14 AU AU2002356657A patent/AU2002356657A1/en not_active Abandoned
- 2002-12-14 KR KR1020047010118A patent/KR100934537B1/ko active IP Right Grant
- 2002-12-14 WO PCT/EP2002/014266 patent/WO2003056454A1/en active IP Right Grant
- 2002-12-14 EP EP02805755A patent/EP1459218B1/de not_active Expired - Fee Related
- 2002-12-14 JP JP2003556904A patent/JP4438413B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7359917B2 (en) | 2008-04-15 |
WO2003056454A1 (en) | 2003-07-10 |
KR100934537B1 (ko) | 2009-12-29 |
KR20040068353A (ko) | 2004-07-30 |
JP2005513673A (ja) | 2005-05-12 |
CN1610905A (zh) | 2005-04-27 |
EP1459218B1 (de) | 2006-03-01 |
EP1459218A1 (de) | 2004-09-22 |
DE60209572D1 (de) | 2006-04-27 |
EP1324216A1 (de) | 2003-07-02 |
AU2002356657A1 (en) | 2003-07-15 |
JP4438413B2 (ja) | 2010-03-24 |
US20050015402A1 (en) | 2005-01-20 |
CN1610905B (zh) | 2010-04-28 |
MXPA04006378A (es) | 2004-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60209572T2 (de) | Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung | |
DE69833839T2 (de) | Ein Verfahren und System um ähnliche Dokumente vorzuschlagen | |
DE602004003361T2 (de) | System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen | |
EP1877932B1 (de) | System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten | |
DE102018007060A1 (de) | Hervorheben von Schlüsselabschnitten eines Texts innerhalb eines Dokuments | |
DE19627472A1 (de) | Datenbanksystem | |
DE102013205737A1 (de) | System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen | |
DE112005003157T5 (de) | Domainspezifisches Datenelement-Mappingverfahren- und System | |
DE10308014A1 (de) | System und Verfahren zum Lokalisieren eines nichttextlichen Bereichs eines elektronischen Dokumentes oder Bildes, der mit einer benutzerdefinierten Beschreibung des Bereichs übereinstimmt | |
WO2007095997A1 (de) | System und verfahren zur benutzergesteuerten multidimensionalen navigation und/oder themenbasierten aggregation und/oder überwachung von multimediadaten | |
WO2009030246A1 (de) | Erfassung von zusammenhängen zwischen informationen repräsentierenden daten | |
WO2009030247A1 (de) | Erfassung von zusammenhängen zwischen informationen repräsentierenden daten | |
DE10300545A1 (de) | Vorrichtung, Verfahren, Speichermedium und Datenstruktur zur Kennzeichnung und Speicherung von Daten | |
DE60007633T2 (de) | Inhalt-basierte wiedergabe von seriendaten | |
DE60310881T2 (de) | Methode und Benutzerschnittstelle für das Bilden einer Darstellung von Daten mit Meta-morphing | |
DE112013000981T5 (de) | Einheit, Programm und Verfahren zum Analysieren von Textdokumenten | |
EP1276056A1 (de) | Verfahren zum Verwalten einer Datenbank | |
WO2000038084A2 (de) | Verfahren zur behandlung von datenobjekten | |
EP1685505B1 (de) | Datenverarbeitungssystem | |
EP2193455A1 (de) | Erfassung von zusammenhängen zwischen informationen repräsentierenden daten | |
WO2009030248A1 (de) | Erfassung von zusammenhängen zwischen informationen repräsentierenden daten | |
EP1754171A1 (de) | Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen | |
DE10033548C2 (de) | Verfahren zur Vorschau von Internetseiten | |
DE19955717A1 (de) | Umwandlung unstrukturierter Daten in strukturierte Daten | |
EP1170678B1 (de) | Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: THOMSON LICENSING, BOULOGNE BILLANCOURT, FR |
|
8364 | No opposition during term of opposition |