CN1230771C - 处理正则路径表达式查询的扩展标记语言索引方法 - Google Patents

处理正则路径表达式查询的扩展标记语言索引方法 Download PDF

Info

Publication number
CN1230771C
CN1230771C CNB031085261A CN03108526A CN1230771C CN 1230771 C CN1230771 C CN 1230771C CN B031085261 A CNB031085261 A CN B031085261A CN 03108526 A CN03108526 A CN 03108526A CN 1230771 C CN1230771 C CN 1230771C
Authority
CN
China
Prior art keywords
path
information
expression
user
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031085261A
Other languages
English (en)
Other versions
CN1457003A (zh
Inventor
申孝燮
李蕙受
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1457003A publication Critical patent/CN1457003A/zh
Application granted granted Critical
Publication of CN1230771C publication Critical patent/CN1230771C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Abstract

一种路径索引查找方法,即扩展标记语言(XML)索引方法,通过这个方法,关系数据库可以稳定地处理查询而不管用户如何定义这个查询。在路径索引查找方法中,利用路径查找表和扩展边缘表通过单一的连接操作可以处理具有特定长度的正则路径表达式。因此作为XML用户查询的核心类型的正则路径表达式查询可以被稳定和迅速地处理,而不管用户如何描述所述查询。

Description

处理正则路径表达式查询的扩展标记语言索引方法
技术领域
本发明要求2002年5月8日在韩国知识产权办公室提交的韩国专利申请第2002-25398号的优先权,其内容在此引入作为参考。
本发明涉及一种路径索引查找方法,它是一种扩展标记语言(XML)索引方法,通过它,关系数据库可以稳定地处理一个查询而不管用户如何表达这个查询,本发明具体涉及一种用于利用路径查找表和扩展边缘表通过单一的连接操作处理具有特定长度的正则路径表达式的方法。
背景技术
已经被提出作为用于在因特网上信息交换的标准语言的扩展标记语言(XML)被广泛地用于计算机和网络系统中(SynML,UpnP)和许多其他工业领域中,如生物信息(BSMP,BioML)、电子商务(ebXML,ECML)、电子数据交换(XML-EDI)、地理信息和全球定位系统(GPS)(GML,NVML)、多媒体(MPEG-7,IML)、娱乐(MusicXML,GML)、教育(LMML,TML)、医疗保健(CTDM,TDL)、出版(BiblioML,DocBook)、电视广播(TV-Anytime)等。
在XML中写入的数据在许多方面上不同于在诸如关系数据库或面向对象数据库的现有数据库中的典型数据,例如前者数据是半结构化的。换句话说,XML提供了适用于应用领域的一种文件类型定义(DTD),但是具有半结构化特点,表现在XML可以不严格遵循DTD。
由于XML的半结构化特点,因此在不同数据源之间的数据表达和交换是灵活的。XML因为半结构化特点以及因为简单的数据表达而在许多应用领域用作标准语言。
因为XML的半结构化特点,因此允许XML文件的程序员变换偏离DTD的XML数据,以便产生XML文件。而且,XML文件的用户可以搜索数据而不用准确知道XML数据的结构。
基于XML的半结构化特点的数据搜索可以有效地用于用户不准确知道包括要搜索的数据的XML文件的结构的情况下。如果用户对网络搜索在特定领域的一个XML文件的网页,则用户可以甚至从不准确反映所述特定领域的模式的部分认识获得关于所找到的XML文件的查询的结果。
可以以正则的路径表达式查询——例如以XML查询即XQuery——来表达根据用户的XML数据的半结构化特点的检索表达。因为对照根据一般模式的数据库查询,XML正则路径表达式查询不准确地描述与查询的条件对应的数据的结构,因此查询处理系统可以根据用户定义查询的方法来不同地翻译和执行表示同一条件的查询。因此,其中查询处理系统翻译和优化XML正则路径表达式查询的方法可以大大地影响查询处理的性能。
一种在关系数据库中存储XML文件的方法的示例包括边缘方法和属性(attribute)方法。边缘方法具有一个优点,即,即使没有关于XML文件的模式数据,XML文件也可以被存储和处理。但是,由于对于相对较长边缘数据的复制次数等于路径表达式的长度的自连接操作,边缘方法可能导致性能的降低。连接操作表示计算在一个表的元素和另一个表的元素之间的关系的操作。自连接操作表示计算在一个表内现有的元素之间的关系的操作。
在属性方法中,当已经知道XML文件的模式数据时产生和处理实体单元表。因此,可以将数据划分和存储在多个表中,提供了比边缘方法更高的性能。但是,在属性方法中,表的数量可能依赖于XML模式而过量地增加,或者数据可能被不必要地分段。
为了解决这些问题,已经进行了如下方法的研究,即确定可以通过使用用于存储XML文件的数据提炼方法来划分的表的类型和数量而不用模式引导。因为边缘方法和属性方法一般提供用来处理路径表达式,这两种方法要求与路径表达式的长度一样多的表连接操作。而且,这两种方法不适合于处理正则的路径表达式。
边缘方法包括一种利用标记的起始和结束偏移的信息来处理正则路径表达式的方法。如果边缘方法被用于长路径表达式,则用于处理正则路径表达式的边缘方法无效。用于处理正则路径表达式的边缘方法的查询处理性能依赖于用户定义查询的方法。
索引XML数据的路径表达式的方法的示例是一种索引构造方法,其中以信号索引结构管理在XML文件中存在的用于各种路径的索引。索引结构是被扩展来支持关系数据库的结构。在索引构造方法中,为了处理特定路径的正则路径表达式,所述特定路径必须被另外指定为在索引结构中的一个细化路径。
已经提出了一种作为索引的表结构。但是,当采用所述索引构造方法来索引XML路径表达式的时候,索引表的数量增加,或索引表可能被分段。XML数据路径表达式处理类似于在面向对象的数据库中执行的路径表达式处理,表现在XML数据路径表达式处理以围绕树运动的方式进行。
发明内容
本发明提供了一种有效的XML索引方法,其中关系数据库统一地翻译XML正则路径表示查询而不管用户如何描述所述查询。
具体而言,本发明提供了一种XML索引方法,用于通过单一的连接操作来处理正则的路径表达式,而不管正则路径表达式的长度如何,以便解决传统的问题,即查询处理的性能随着正则路径表达式长度的增加而降低的问题。本发明还提供了可以不必修改关系数据库系统引擎而使用的表和基于B树的XML索引表数据结构。
根据本发明的一个方面,提供了一种路径索引查找方法,其中,首先从以包括扩展标记语言(XML)的预定语言写的文件中提取表示信息源的多个路径信息。接着,从用户输出并在路径查找表存储单元存储与多个路径信息和表示是否已经在另一个存储单元中详细存储了所述多个路径信息的索引标志信息对应的用户路径ID信息。其后,如果索引标志信息对应于预定的值,则从用户接收每个路径信息的源ID和目标ID,并将其存储在扩展边缘表存储单元中。然后,从用户接收用于检索信息的正则路径表达式,并且对路径查找表存储单元搜索与正则路径表达式匹配的路径表达式信息,以获得对应于要检索的信息的路径的路径ID信息。最后,对扩展边缘表存储单元搜索与在上面步骤中获得的路径ID信息匹配的路径ID信息的源ID和目标ID。
根据本发明的另一个方面,提供了一种计算机记录介质,它存储用于执行路径索引查找方法的计算机程序。
根据本发明的另一个方面,提供了一种路径索引查找装置,它包括路径查找表存储单元、扩展边缘表存储单元、路径ID检索单元和路径信息确定和输出单元。所述路径查找表存储单元从用户接收在以包括XML的预定语言写的文件中包括的、与用于信息源的至少一段路径信息对应的路径ID信息,和表示是否已经在另一个存储单元中指定了路径信息的索引标志信息,并且存储路径ID信息和索引标志信息。如果索引标志信息具有预定值,则扩展边缘表存储单元从用户接收每个路径信息的源ID和目标ID,并存储源ID和目标ID。路径ID检索单元从用户接收用于检索信息的正则路径表达式,在路径查找表存储单元搜索与所述正则路径表达式匹配的路径表达式信息,并且获得与要检索的信息的路径对应的路径ID信息。路径信息确定和输出单元对扩展边缘表存储单元搜索与在路径ID检索单元中获得的路径ID信息匹配的路径ID信息的源ID和目标ID,并且输出匹配的路径ID信息的源ID和目标ID。
根据本发明的另一个方面,提供了一种路径查找表,用于在关系数据库中存储以包括XML的预定语言写的文件,并且包括多个用于信息源的路径信息。所述路径查找表包括表示路径——要检索的信息沿着这些路径被存储在所述文件中——名称的路径名称信息、表示路径ID的路径ID信息和表示是否在扩展边缘表中索引路径的索引标志信息,所述扩展边缘表存储在所述文件中的许多路径的源ID和目标ID。如果从用户接收到用于检索信息的正则路径表达式,则对路径查找表搜索关于与所述正则路径表达式匹配的路径表达式的路径名称信息,以便输出对应于所述路径名称信息的路径ID信息。
根据本发明的另一个方面,提供了一种扩展边缘表,用于在关系数据库中存储以包括XML的预定语言写的文件,并且包括多个用于信息源的路径信息。所述扩展边缘表包括表示路径——要检索的信息沿着这些路径被存储在所述文件中——ID的路径ID信息、表示路径源ID的源ID信息和表示路径目标ID的目标ID信息。如果从用户接收到要检索信息的路径ID信息,则扩展边缘表输出对应于所述路径ID信息的源ID信息和目标ID信息。
对照根据用户查询的形式提供性能的现有方法,根据本发明的路径索引查找方法可以与用户查询的形式无关地、稳定和迅速地处理正则路径表达式。
附图说明
通过参照附图详细说明本发明的示范实施例,本发明的上述和其他特点和优点将会变得更加清楚,其中:
图1A示出了表示TV-anytime的部分元数据规范的扩展标记语言(XML)文件的一个实施例;
图1B示出了表示TV-anytime的部分元数据规范的XML文件的树结构;
图2是示出在正则路径表达式中使用的主要符号和所述符号的表示法的表;
图3示出了一个实施例,其中利用图2的元素表和文本表来表达元素;
图4是示出了用于正则路径表达式的SQL类语法的表;
图5A示出了输入的XML文件的一个实施例;
图5B示出了根据本发明的XML文件的路径查找表的一个实施例;
图5C示出了根据本发明的XML文件的扩展边缘表的一个实施例;
图6是表示根据本发明的用于路径索引查找方法的结构图;
图7是表示根据本发明的用于正则路径表达式查询的路径索引查找方法的流程图;
图8是根据本发明的、用于正则路径表达式查询的路径索引查找装置的方框图;
图9是在本发明的一个实验中使用的正则路径表达式表;及
图10是表示根据本发明的、在关于正则路径表达式中节点数量的时间的反应周期中的变化的图。
具体实施方式
当用户在XML文件中指示要访问的某个实体的路径时,正则路径表达式缩短并表达所述路径。
图1A和图1B示出了表示TV-anytime的部分元数据规范的扩展标记语言(XML)文件的一个实施例。TV-anytime的元数据表示与TV广播节目相关的数据。元数据包括节目ID、标题、提要、关键字、格式和演员表。图1A示出了TV-anytime的XML文件的示例,图1B示出了一个树结构,其中表达了XML文件的内容。
可以从图1B看出,在诸如TV-anytime的一般商业应用领域中的XML文件的树结构非常大和复杂。因此,当用户请求搜索XML文件的时候,不容易定义一个准确路径。如果用户试图检索在特定节目中演出的演员的姓名时,用户可以定义从根元素到姓名元素列举的绝对路径表达式,如/ProgramInformation/BasicDescription/CastList/CastMember/Agent/Name(/节目信息/简要说明/演员表/演员/代理/姓名)。但是用户也可以更简单地定义一个正则路径表达式,其仅仅列举用户认为需要的元素名称,如/ProgramInformation//CastList//Agent/Name(/节目信息//演员表//代理/姓名)。在绝对路径中的符号“/”表示在XML文件中直接的父子关系。在所述正则路径表达式中符号“//”表示从父子关系扩展的祖先-子孙关系,并且被广泛用于正则路径表达式。
图2是示出在正则路径表达式中使用的主要符号和所述符号的表示法的表。具体而言,图2示出了万维网联盟(W3C)提出的关于XML查询XQuery的正则路径表达式的主要符号和所述主要符号的表示法。可以利用图2的符号以几种正则路径表达式来表示单一的绝对路径表达式。
例如可用包括正则路径表达式/ProgramInformation//CastList//Agent/Name的下列各种正则路径表达式来表达绝对路径表达式/ProgramInformation/BasicDescription/CastList/CastMember/Agent/Name:
//CastMember//Name
/ProgramInformation/*/Agent/Name
//CastList//Agent/?
其中,//CastMember//Name简单地表示了绝对路径表达式的内容。象这样,用户可以以不同的正则路径表达式来表达内容。因此,用于处理正则路径表达式的系统根据如何翻译用户的查询可以提供的差别很大的性能。
在现有技术中,关系数据库提供下列两个表以处理关于XML文件的正则路径表达式查询。
Elements(term,docno,begin,end,level)
Texts(term,docno,wordno,level)
元素表(Element table)存储了XML文件的元素和属性,它们以一个元素和一个属性的元组形式被指定为标记。在元素表中,“term”表示标记的名称。“docno”表示所述标记所属的文件的ID,“begin”和“end”定义了“term”所属的标记的偏移范围,“level”表示在XML文件中的元素的复制频率,即祖先的数量。
文本表以独立值的元组存储包括在XML文件的标记中的值。在文本表中,“docno”表示特定值的ID,“wordno”表示在XML文件中的值的偏移,“level(级)”表示在XML文件中元素的复制频率。在这个数据库结构中,通过利用包括在元素表中的元素的偏移和级(level)值执行自结合来处理正则路径表达式。
图3示出了一个实施例,其中利用图2的元素表和文本表来表达元素。如果如(1,1:23,0)、(1,8:22,1)或(1,14:21,2)来描述一个元素,即部分,则在第一列中的数字表示“docno”,在中间列中的数字组表示“begin(开始)”和“end(结束)”偏移,在最后一个列中的数字表示“level(级)”。
换句话说,在现有技术中,通过自结合元素表来处理正则路径表达式。例如,在下面的SQL查询中表示正则路径表达式//CastMember//Name:
Select e1
From Elements e1,Elements e2
Where e1.term=‘CastMember’
And e2.term=‘Name’
And e1.begin<e2.begin
And e1.end>e2.end
And e1.docno=e2.docno
通过将用于元素CastMember的表的元素与用于元素Name的表的元素的自连接操作来处理这个查询。由符号“//”表达的祖先-子孙关系可以基于在两个元素的偏移之间的包括关系来建立。
换句话说,如果在XML文件中的元素A的“begin”偏移小于在所述XML文件中的元素B,并且元素A的“end”偏移大于元素B,则建立一个正则路径表达式A//B。因此,上述的查询表示条件:元素CastMember的“begin”偏移小于元素Name,并且元素CastMember的“end”偏移大于元素Name。
现有的正则路径表达式处理方法有一个问题,即查询处理系统的性能取决于用户如何描述正则路径表达式。换句话说,根据正则路径表达式已经表示了多少标记来确定被要求来处理正则路径表达式的连接操作的频率。
如上所述,由于可以将一个绝对路径表达式转换为几个正则路径表达式,因此连接操作的频率不同。
假定正则路径表达式//CastMember//Name、/ProgramInformation/BasicDescription/CastList/CastMember/Agent/Name和/ProgramInformation//CastList//Agent/Name表示同一内容。正则路径表达式//CastMember//Name仅仅需要一次连接操作。正则路径表达式/ProgramInformation/BasicDescription/CastList/CastMember/Agent/Name需要5次连接操作。正则路径表达式/ProgramInformation//CastList//Agent/Name需要3次连接操作。
如上所述,现有的正则路径表达式处理方法有很多问题,所以不适合实际的应用领域。因此,存储和检索XML文件的技术已经被认为是在与XML处理相关的应用领域中的一个技术瓶颈。
在被提出来解决上述问题的根据本发明的一种路径索引查找方法中,向现有的两个元素和文本表中加入了下面两个表以便索引XML文件:
PathLookup(pathname,pathid,indexflag)
ExtendedEdge(pathid,sorid,tarid)
路径查找(PathLookup)表存储在以元组解析(parsing)XML文件后获得的可能的路径。在路径查找表中,“pathname”表示路径的名称,“pathid”表示路径的ID,并且“indexflag”表示是否在扩展边缘表(ExtendedEdge)中索引路径。扩展边缘表存储长度上是1或更大的路径的索引信息。在扩展边缘表中,“pathid”表示在路径查找表中指示元组的路径的ID,“sorid(源ID)”和“tarid(目标ID)”表示在元素表中的元素的ID。
当向数据库输入XML文件的时候,所有的可能路径名称与它们的ID一起以元组被提取并存储在路径查找表中。因为可以在解析文件期间提取XML文件的路径,因此XML文件的DTD或其XML模式是不必要的。
在XML文件的树结构中,在对于具有距离根级第k级的接点A的可能路径中可能存在k个以A结束的路径,它们的长度是1或更大。在此,应当注意在提取文件的路径时,从前一个文件提取的路径不输入到数据库中。因此,即使当具有类似数据结构的大XML文件被输入到数据库时,路径查找表的大小不大幅度地增加。
路径查找表作为一个索引,用于迅速将用户输入的正则路径表达式转换为实际存在于XML数据空间的路径。利用SQL类语法来执行将用户定义的正则路径表达式映射为存储在路径查找表中的路径的操作。
为了简化利用SQL语法的正则路径表达式的映射,当路径的名称被存储在路径查找表的时候,一个标记被附加在路径的每个节点,并且然后将结果路径的名称存储其中。例如,以‘<A><B><C>’的形式存储一个路径‘A/B/C’。
图4是示出了正则路径表达式的SQL类语法的表。为了利用图4的SQL类语法从路径查找表检索路径,从上述示例的正则路径表达式/ProgramInformation//CastList//Agent/Name写下列SQL语法:
Select pathid
From PathLookup
Where pathname like
‘<ProgramInformation>%<CastList>%<Agent><Name>’;
同时,扩展边缘表是用于迅速处理XML文件的路径的路径索引表。因为在扩展边缘表中的每个元组含有用于查找的pathid,因此引用路径查找表的元组。
表示每个路径的起始节点(sorid)和结束节点(tarid)字段值引用元素表的元组。如果结束节点(tarid)表示文本而不是元素,则结束节点(tarid)引用文本表的元组。应当注意,对照其中通过重复连接操作来处理路径的现有边缘方法,扩展边缘表具有这样的结构,其中可以通过一个连接操作来访问很长的路径而不需要另外的连接操作。
图5A示出了输入的XML文件的一个实施例。图5B示出了图5A的XML文件的路径查找表的一个实施例。图5C示出了图5A的XML文件的扩展边缘表的一个实施例。换句话说,图5A示出了输入的XML文件的结构,图5B示出了当输入XML文件时新产生的路径的路径查找表。图5B的路径查找表的字段indexflag表示是否在扩展边缘表中索引了新产生的路径。
可以从图5B看出,在扩展边缘表中仅仅索引了路径/A/B/C和/A/B/D。因为扩展边缘表与XML文件的节点的数量的平方成正比,如果索引所有的路径,则路径查找表的大小可能过量地扩大。因此,仅仅在扩展边缘表中存储被分类用来被索引的路径。
图5C的扩展边缘表存储了在图5B的路径查找表的indexflag字段中指示的路径/A/B/C和/A/B/D的实际路径实例。
在扩展边缘表中,因为访问对于给定的正则路径表达式的由在路径查找表中找到的pathid表示的元组,因此pathid被指定为扩展边缘表的关键字段。如果B-树索引被用在所述关键字段中,则对应于所述pathid的路径可以被非常快地被访问。
在利用路径索引查找方法的正则路径表达式的处理中,首先,从路径查找表找到正则路径表达式的可能路径表达式,并且获得可能路径的ID。其后,从扩展边缘表获得对应于所获得的路径ID的sorid和tarid值。可以在pathid连接操作中表示上述两个步骤。
图6是用于表示根据本发明的路径索引查找方法的结构图。如图6所示,在根据本发明的路径索引查找方法中,通过路径查找表搜索和扩展边缘表B-树搜索来处理正则路径表达式,而不管由用户定义的正则路径表达式的类型如何。
当在现有方法中处理TV-anytime XML文件的正则路径表达式/ProgramInformation//CastList//Agent/Name时,获得下面的SQL语法:
    Select e4.id

           From Elements e1,

              Elements e2,

              Elements e3,

              Elements e4

  Where e1.tagname=‘ProgramInformation’

  And e2.tagname=‘CastList’

  And e3.tagname=‘Agent’

  And e4.tagname=‘Name’

  And e1.docno=e2.docno

  And e1.begin<e2.begin

  And e1.end>e2.end

  And e2.docno=e3.docno

  And e2.begin<e3.begin

  And e3.docno=e4.docno

  And e3.level=e4.level 1;
即,用于现有的正则路径表达式处理方法的SQL语法包括三个连接操作。但是,通过一个连接操作来处理用于根据本发明的路径索引查找方法的下列SQL语法:
Select eet.Tarid
From PathLookup pl,
      ExtendedEdge ee
Where pl.pathname like‘/ProgramInformation%CastList%Agent/Name’
And pl.pathid=ee.pathid
图7是用于表示根据本发明的正则路径表达式查询的路径索引查找方法的流程图。在步骤710中,所有的可能路径名称从XML文件被提取并与pathid信息和indexflag信息一起存储在路径查找表中。在步骤720,在扩展边缘表中存储每个pathid的sorid和tarid。
在步骤730,接收到一个正则路径表达式。在步骤740,对路径查找表搜索对应于所述正则路径表达式的路径表达式,并且获得所述路径表达式的pathid。在此,利用SQL类语法从路径查找表获得路径的pathid。在连接操作期间,所获得的pathid作为连接密钥(key)。
在步骤750,通过使用所获得的pathid作为搜索密钥来对扩展边缘表搜索路径的sorid和tarid。在此,对扩展边缘表进行B-树搜索。
图8是根据本发明的、用于正则路径表达式查询的路径索引查找装置的方框图。路径索引查找装置包括路径查找表存储单元810、扩展边缘表存储单元820、pathid检索单元830和路径信息确定和输出单元840。
路径查找表存储单元810从XML文件提取多个路径信息,并且将它们与从用户接收到的pathid信息和indexflag信息一起存储。路径信息、pathid信息和indexflag信息被以图5B所示的表的格式存储。
扩展边缘表存储单元820从用户接收与每个pathid有关的sorid和tarid,并且以图5C所示的表的格式存储它们。
pathid检索单元830从用户接收关于正则路径表达式的信息,并且检索对应于正则路径表达式的路径以获得路径的pathid。
路径信息确定和输出单元840对扩展边缘表存储单元820搜索对应于在pathid检索单元830获得的pathid的路径信息,从路径信息提取sorid和tarid信息,并且输出它们。
进行了用于将根据本发明的用于正则路径表达式查询的路径索引查找方法的性能与现有偏移连接方法的性能相比较的实验。在所述实验中,1200个TV-anytime文件被输入到关系数据库系统,PostgreSQL,并且在完成所述输入后的表的元素的节点的数量是大约1,000,000。
图9是在本发明的上述实验中使用的正则路径表达式表。如图9所示,所述实验测量了被要求来处理具有2-9个节点的正则路径表达式的时间的反应周期。
图10是示出了根据本发明的、在关于正则路径表达式中节点数量的时间的反应周期中的变化的视图。在图10中,偏移-连接表示在现有偏移-连接方法中的反应时间,路径查找表示在根据本发明的路径索引查找方法中的反应时间。
如图10所示,在现有的偏移-结合方法中,随着正则路径表达式的变长,反应时间增加。另一方面,根据本发明的路径索引查找方法提供了均匀的良好性能而不对正则路径表达式的长度敏感。甚至当在正则路径表达式中的节点的数量是2的时候,即,甚至当在现有的偏移-连接方法中要求一次的连接操作时,路径查找小于偏移-连接,因为路径索引查找方法使得扩展边缘表能够利用B-树迅速访问路径表达式的元组。因此,路径索引查找方法与现有的偏移-连接方法相比提供了更好的性能。而且,因为现有的偏移-连接方法使用在偏移之间的包括关系,因此偏移-连接大于路径查找。
本发明的实施例可以被写为计算机程序,存储在计算机可读的记录介质并且在通用的数字计算机中被执行。用于本发明的实施例的数据的结构也可以以多种方式被记录到计算机可读的记录介质上。计算机可读的记录介质的示例包括磁存储媒体(如ROM、软盘、硬盘等)、光记录媒体(如CD-ROM或DVD)和诸如载波的存储介质(如通过因特网的传输)。
虽然已经参照本发明的示范实施例具体示出和说明了本发明,本领域的普通技术人员会明白,在不脱离所附的权利要求所限定的本发明的精神和范围的情况下,可以进行形式和细节上的各种改变。
如上所述,本发明提供了一种利用单一连接操作处理正则路径表达式而不管用户做出的查询的形式如何的方法,所述正则路径表达式是XML查询的格式的核心部分。因此,所述方法可以有效地用于要求存储XML文件的数字电视和其他各种信息装置的EPG信息索引和检索引擎中。
而且,在本发明中,XML文件被有效地索引和存储在关系数据库中。于是,作为核心用户XML查询类型的正则路径表达式查询被稳定和迅速地处理而不管用户做出的查询的格式如何。具体讲,对照现有技术,本发明可以通过一次连接操作来处理正则路径表达式而不管用户做出的查询的格式如何,其中在现有技术中,由于依赖于用户做出的查询的格式,正则路径表达式被不稳定地处理。

Claims (4)

1.一种路径索引查找方法,包括:
从以包括扩展标记语言的预定语言写的文件中提取表示信息源的多个路径信息;
从用户接收并在路径查找表存储单元存储与多个路径信息和表示是否已经在另一个存储单元中详细存储了所述多个路径信息的索引标志信息对应的用户路径ID信息;
如果索引标志信息对应于预定的值,则从用户接收每个路径信息的源ID和目标ID,并将其存储在扩展边缘表存储单元中;
从用户接收用于检索信息的正则路径表达式,并且对路径查找表存储单元搜索与正则路径表达式匹配的路径表达式信息,以获得对应于要检索的信息的路径的路径ID信息;及
对扩展边缘表存储单元搜索与在上面步骤中获得的路径ID信息匹配的路径ID信息的源ID和目标ID。
2.根据权利要求1的路径索引查找方法,其中存储在所述路径查找表存储单元中的路径表达信息包括:
路径名称信息,表示路径名称,其中要检索的信息沿着这些路径被存储在所述文件中;
路径ID信息,表示路径的ID;及
索引标志信息,表示是否在扩展边缘表中索引路径,所述扩展边缘表存储所述文件中的许多路径的源ID和目标ID。
3.根据权利要求1的路径索引查找方法,其中扩展边缘表包括:
路径ID信息,表示路径ID,其中要检索的信息沿着这些路径被存储在所述文件中;
源ID信息,表示路径的源ID;及
目标ID信息,表示路径的目标ID。
4.一种路径索引查找装置,包括:
路径查找表存储单元,从用户接收在以包括XML的预定语言写的文件中包括的、与用于信息源的至少一段路径信息对应的路径ID信息,和表示是否已经在另一个存储单元中指定了路径信息的索引标志信息,并且存储路径ID信息和索引标志信息;
扩展边缘表存储单元,如果索引标志信息具有预定值,则从用户接收每个路径信息的源ID和目标ID,并存储源ID和目标ID;
路径ID检索单元,从用户接收用于检索信息的正则路径表达式,对路径查找表存储单元搜索与所述正则路径表达式匹配的路径表达式信息,并且获得与要检索的信息的路径对应的路径ID信息;及
路径信息确定和输出单元,对扩展边缘表存储单元搜索与在路径ID检索单元中获得的路径ID信息匹配的路径ID信息的源ID和目标ID,并且输出匹配的路径ID信息的源ID和目标ID。
CNB031085261A 2002-05-08 2003-03-28 处理正则路径表达式查询的扩展标记语言索引方法 Expired - Fee Related CN1230771C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR25398/2002 2002-05-08
KR25398/02 2002-05-08
KR10-2002-0025398A KR100484138B1 (ko) 2002-05-08 2002-05-08 관계형 데이터베이스에서 정규 경로식 질의를 처리하는xml 인덱싱 방법과 자료구조

Publications (2)

Publication Number Publication Date
CN1457003A CN1457003A (zh) 2003-11-19
CN1230771C true CN1230771C (zh) 2005-12-07

Family

ID=29398487

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031085261A Expired - Fee Related CN1230771C (zh) 2002-05-08 2003-03-28 处理正则路径表达式查询的扩展标记语言索引方法

Country Status (4)

Country Link
US (1) US7139746B2 (zh)
JP (1) JP4028410B2 (zh)
KR (1) KR100484138B1 (zh)
CN (1) CN1230771C (zh)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366708B2 (en) * 1999-02-18 2008-04-29 Oracle Corporation Mechanism to efficiently index structured data that provides hierarchical access in a relational database system
EP1552427A4 (en) 2002-06-13 2009-12-16 Mark Logic Corp PARENT-CHILD QUERY INDEX FOR XML DATA BANKS
US7127469B2 (en) * 2002-06-13 2006-10-24 Mark Logic Corporation XML database mixed structural-textual classification system
KR100497362B1 (ko) * 2002-08-22 2005-06-23 삼성전자주식회사 전자 프로그램 가이드 정보 변환 장치 및 방법
JPWO2004019225A1 (ja) * 2002-08-26 2005-12-15 富士通株式会社 状況付情報を処理する装置および方法
US7698642B1 (en) 2002-09-06 2010-04-13 Oracle International Corporation Method and apparatus for generating prompts
KR100493882B1 (ko) * 2002-10-23 2005-06-10 삼성전자주식회사 Xml 데이터 검색을 위한 질의 처리 방법
KR100558765B1 (ko) * 2002-11-14 2006-03-10 한국과학기술원 적응형 경로 인덱스를 이용한 xml 질의 수행 방법
US7174346B1 (en) * 2003-07-31 2007-02-06 Google, Inc. System and method for searching an extended database
US7490093B2 (en) * 2003-08-25 2009-02-10 Oracle International Corporation Generating a schema-specific load structure to load data into a relational database based on determining whether the schema-specific load structure already exists
US7814047B2 (en) 2003-08-25 2010-10-12 Oracle International Corporation Direct loading of semistructured data
US8694510B2 (en) 2003-09-04 2014-04-08 Oracle International Corporation Indexing XML documents efficiently
US8229932B2 (en) 2003-09-04 2012-07-24 Oracle International Corporation Storing XML documents efficiently in an RDBMS
KR100541531B1 (ko) * 2003-12-24 2006-01-10 한국전자통신연구원 객체 지향 디비엠에스에서 경로식의 부질의 변환을 통한 질의 처리 방법
JP4046086B2 (ja) * 2004-01-21 2008-02-13 トヨタ自動車株式会社 可変圧縮比内燃機関
US8825702B2 (en) * 2004-02-24 2014-09-02 Oracle International Corporation Sending control information with database statement
JP2007531151A (ja) * 2004-04-02 2007-11-01 サムスン エレクトロニクス カンパニー リミテッド ツリーパスフィルタリング機能を持つxmlプロセッサー、ツリーパスフィルタリング方法及びその方法を行うためのプログラムが保存された記録媒体
US7366735B2 (en) * 2004-04-09 2008-04-29 Oracle International Corporation Efficient extraction of XML content stored in a LOB
US7499915B2 (en) * 2004-04-09 2009-03-03 Oracle International Corporation Index for accessing XML data
US7493305B2 (en) * 2004-04-09 2009-02-17 Oracle International Corporation Efficient queribility and manageability of an XML index with path subsetting
US7440954B2 (en) * 2004-04-09 2008-10-21 Oracle International Corporation Index maintenance for operations involving indexed XML data
EP1735726B1 (en) 2004-04-09 2012-08-22 Oracle International Corporation Index for accessing xml data
US7603347B2 (en) * 2004-04-09 2009-10-13 Oracle International Corporation Mechanism for efficiently evaluating operator trees
US7398265B2 (en) * 2004-04-09 2008-07-08 Oracle International Corporation Efficient query processing of XML data using XML index
US7930277B2 (en) 2004-04-21 2011-04-19 Oracle International Corporation Cost-based optimizer for an XML data repository within a database
CN100440218C (zh) * 2004-06-16 2008-12-03 甲骨文国际公司 Lob中存储的xml内容的有效提取
DE602005022069D1 (de) 2004-06-23 2010-08-12 Oracle Int Corp Effiziente auswertung von abfragen mittels übersetzung
US7516121B2 (en) 2004-06-23 2009-04-07 Oracle International Corporation Efficient evaluation of queries using translation
US8566300B2 (en) 2004-07-02 2013-10-22 Oracle International Corporation Mechanism for efficient maintenance of XML index structures in a database system
US7885980B2 (en) 2004-07-02 2011-02-08 Oracle International Corporation Mechanism for improving performance on XML over XML data using path subsetting
US7668806B2 (en) * 2004-08-05 2010-02-23 Oracle International Corporation Processing queries against one or more markup language sources
US7685137B2 (en) * 2004-08-06 2010-03-23 Oracle International Corporation Technique of using XMLType tree as the type infrastructure for XML
CN100382550C (zh) * 2004-09-01 2008-04-16 恒生电子股份有限公司 联机处理系统中共享数据的处理方法
KR100673447B1 (ko) * 2004-11-04 2007-01-24 엘지전자 주식회사 세탁기
US7849106B1 (en) 2004-12-03 2010-12-07 Oracle International Corporation Efficient mechanism to support user defined resource metadata in a database repository
US7921076B2 (en) 2004-12-15 2011-04-05 Oracle International Corporation Performing an action in response to a file system event
CN100410933C (zh) * 2004-12-29 2008-08-13 复旦大学 一种基于xml数据的高效路径索引方法
KR100666942B1 (ko) * 2005-01-07 2007-01-11 삼성전자주식회사 관계형 dbms를 이용한 xml 데이터 관리 방법
KR100612376B1 (ko) * 2005-01-31 2006-08-16 인하대학교 산학협력단 통합패스의 노드범위를 이용한 엑스엠엘 인덱스 시스템 및방법
US7523131B2 (en) 2005-02-10 2009-04-21 Oracle International Corporation Techniques for efficiently storing and querying in a relational database, XML documents conforming to schemas that contain cyclic constructs
US8346737B2 (en) 2005-03-21 2013-01-01 Oracle International Corporation Encoding of hierarchically organized data for efficient storage and processing
US20060235839A1 (en) * 2005-04-19 2006-10-19 Muralidhar Krishnaprasad Using XML as a common parser architecture to separate parser from compiler
KR100714693B1 (ko) * 2005-06-07 2007-05-04 삼성전자주식회사 소프트웨어 모듈의 독립성을 보장하는 데이터베이스어플리케이션을 구현하는 시스템 및 방법
WO2007006057A1 (en) * 2005-07-06 2007-01-11 The Cleveland Clinic Foundation Apparatus and method for replacing a cardiac valve
US8762410B2 (en) * 2005-07-18 2014-06-24 Oracle International Corporation Document level indexes for efficient processing in multiple tiers of a computer system
KR100775196B1 (ko) * 2005-09-26 2007-11-12 엘지전자 주식회사 방송프로그램 정보 제공 시스템
US8073841B2 (en) 2005-10-07 2011-12-06 Oracle International Corporation Optimizing correlated XML extracts
JP2007108905A (ja) * 2005-10-12 2007-04-26 Fuji Xerox Co Ltd ファイルサーバ、ファイル提供方法及びプログラム
US7685138B2 (en) * 2005-11-08 2010-03-23 International Business Machines Corporation Virtual cursors for XML joins
US8949455B2 (en) 2005-11-21 2015-02-03 Oracle International Corporation Path-caching mechanism to improve performance of path-related operations in a repository
JP2009518718A (ja) * 2005-12-06 2009-05-07 ナショナル・アイシーティ・オーストラリア・リミテッド Xmlのための簡素インデックス構造
US8015165B2 (en) * 2005-12-14 2011-09-06 Oracle International Corporation Efficient path-based operations while searching across versions in a repository
CN1790335A (zh) * 2005-12-19 2006-06-21 无锡永中科技有限公司 Xml文件数据存取的方法
US7472140B2 (en) * 2005-12-20 2008-12-30 Oracle International Corporation Label-aware index for efficient queries in a versioning system
US7533136B2 (en) 2005-12-22 2009-05-12 Oracle International Corporation Efficient implementation of multiple work areas in a file system like repository that supports file versioning
US7543004B2 (en) 2005-12-22 2009-06-02 Oracle International Corporation Efficient support for workspace-local queries in a repository that supports file versioning
US7933928B2 (en) 2005-12-22 2011-04-26 Oracle International Corporation Method and mechanism for loading XML documents into memory
US7730032B2 (en) 2006-01-12 2010-06-01 Oracle International Corporation Efficient queriability of version histories in a repository
US20100169333A1 (en) * 2006-01-13 2010-07-01 Katsuhiro Matsuka Document processor
US7596548B2 (en) * 2006-01-20 2009-09-29 International Business Machines Corporation Query evaluation using ancestor information
US20070174241A1 (en) * 2006-01-20 2007-07-26 Beyer Kevin S Match graphs for query evaluation
KR100678123B1 (ko) * 2006-02-10 2007-02-02 삼성전자주식회사 관계형 데이터베이스에서의 xml 데이터 저장 방법
US9229967B2 (en) * 2006-02-22 2016-01-05 Oracle International Corporation Efficient processing of path related operations on data organized hierarchically in an RDBMS
US7945559B2 (en) * 2006-03-22 2011-05-17 Microsoft Corporation Completion of partially specified paths
US8510292B2 (en) * 2006-05-25 2013-08-13 Oracle International Coporation Isolation for applications working on shared XML data
US7499909B2 (en) 2006-07-03 2009-03-03 Oracle International Corporation Techniques of using a relational caching framework for efficiently handling XML queries in the mid-tier data caching
US20080033967A1 (en) * 2006-07-18 2008-02-07 Ravi Murthy Semantic aware processing of XML documents
US7797310B2 (en) 2006-10-16 2010-09-14 Oracle International Corporation Technique to estimate the cost of streaming evaluation of XPaths
US7933935B2 (en) 2006-10-16 2011-04-26 Oracle International Corporation Efficient partitioning technique while managing large XML documents
US8010889B2 (en) * 2006-10-20 2011-08-30 Oracle International Corporation Techniques for efficient loading of binary XML data
US7739251B2 (en) * 2006-10-20 2010-06-15 Oracle International Corporation Incremental maintenance of an XML index on binary XML data
US7747610B2 (en) * 2006-11-10 2010-06-29 Sybase, Inc. Database system and methodology for processing path based queries
US9436779B2 (en) * 2006-11-17 2016-09-06 Oracle International Corporation Techniques of efficient XML query using combination of XML table index and path/value index
US7840590B2 (en) * 2006-12-18 2010-11-23 Oracle International Corporation Querying and fragment extraction within resources in a hierarchical repository
US20080147615A1 (en) * 2006-12-18 2008-06-19 Oracle International Corporation Xpath based evaluation for content stored in a hierarchical database repository using xmlindex
US7552119B2 (en) * 2006-12-20 2009-06-23 International Business Machines Corporation Apparatus and method for skipping XML index scans with common ancestors of a previously failed predicate
US7716210B2 (en) 2006-12-20 2010-05-11 International Business Machines Corporation Method and apparatus for XML query evaluation using early-outs and multiple passes
US7860899B2 (en) * 2007-03-26 2010-12-28 Oracle International Corporation Automatically determining a database representation for an abstract datatype
US7908301B2 (en) * 2007-03-30 2011-03-15 Infosys Technologies Ltd. Efficient XML joins
US7814117B2 (en) * 2007-04-05 2010-10-12 Oracle International Corporation Accessing data from asynchronously maintained index
US7693911B2 (en) * 2007-04-09 2010-04-06 Microsoft Corporation Uniform metadata retrieval
KR100864537B1 (ko) * 2007-04-24 2008-10-21 고려대학교 산학협력단 트리 레이블을 이용한 확장성 표시 언어 문서의 질의 처리 방법, 및 그 질의 처리 장치
US7836098B2 (en) * 2007-07-13 2010-11-16 Oracle International Corporation Accelerating value-based lookup of XML document in XQuery
US7840609B2 (en) 2007-07-31 2010-11-23 Oracle International Corporation Using sibling-count in XML indexes to optimize single-path queries
US8805868B2 (en) 2007-08-03 2014-08-12 Electronics And Telecommunications Research Institute Apparatus and method for a query express
EP2031520A1 (en) * 2007-09-03 2009-03-04 Software Ag Method and database system for pre-processing an XQuery
JP5347965B2 (ja) * 2007-09-07 2013-11-20 日本電気株式会社 Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム
US20090138500A1 (en) * 2007-10-12 2009-05-28 Yuan Zhiqiang Method of compact display combined with property-table-view for a complex relational data structure
US7991768B2 (en) 2007-11-08 2011-08-02 Oracle International Corporation Global query normalization to improve XML index based rewrites for path subsetted index
US8250062B2 (en) 2007-11-09 2012-08-21 Oracle International Corporation Optimized streaming evaluation of XML queries
US8543898B2 (en) 2007-11-09 2013-09-24 Oracle International Corporation Techniques for more efficient generation of XML events from XML data sources
US9842090B2 (en) 2007-12-05 2017-12-12 Oracle International Corporation Efficient streaming evaluation of XPaths on binary-encoded XML schema-based documents
US7865502B2 (en) * 2008-04-10 2011-01-04 International Business Machines Corporation Optimization of extensible markup language path language (XPATH) expressions in a database management system configured to accept extensible markup language (XML) queries
KR100956921B1 (ko) * 2008-04-28 2010-05-11 권순용 데이터베이스 액세스 방법
US8429196B2 (en) 2008-06-06 2013-04-23 Oracle International Corporation Fast extraction of scalar values from binary encoded XML
US8024325B2 (en) * 2008-06-25 2011-09-20 Oracle International Corporation Estimating the cost of XML operators for binary XML storage
US8407209B2 (en) * 2008-07-23 2013-03-26 Oracle International Corporation Utilizing path IDs for name and namespace searches
US7958112B2 (en) 2008-08-08 2011-06-07 Oracle International Corporation Interleaving query transformations for XML indexes
JP5143954B2 (ja) * 2008-08-29 2013-02-13 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 通信ネットワークにおけるプレフィックスデリゲーション
US8126932B2 (en) * 2008-12-30 2012-02-28 Oracle International Corporation Indexing strategy with improved DML performance and space usage for node-aware full-text search over XML
US8219563B2 (en) * 2008-12-30 2012-07-10 Oracle International Corporation Indexing mechanism for efficient node-aware full-text search over XML
US10108432B1 (en) * 2009-04-16 2018-10-23 Intuit Inc. Generating a script based on user actions
US8549398B2 (en) 2009-09-17 2013-10-01 International Business Machines Corporation Method and system for handling non-presence of elements or attributes in semi-structured data
US9141727B2 (en) * 2010-05-14 2015-09-22 Nec Corporation Information search device, information search method, computer program, and data structure
CN102033954B (zh) * 2010-12-24 2012-10-17 东北大学 关系数据库中可扩展标记语言文档全文检索查询索引方法
US9842111B2 (en) 2013-12-22 2017-12-12 Varonis Systems, Ltd. On-demand indexing
CN105426349A (zh) * 2015-11-03 2016-03-23 北京锐安科技有限公司 一种逻辑表达式的传输交换方法及装置
WO2018182058A1 (ko) 2017-03-28 2018-10-04 (주)리얼타임테크 관계형 데이터베이스의 조인 방법
CN107908725A (zh) * 2017-11-14 2018-04-13 中国银行股份有限公司 一种批量数据校验方法、装置和系统
CN108804593B (zh) * 2018-05-28 2019-06-18 西安理工大学 基于图谱和可达路径数的无向加权图的子图查询方法
KR102062139B1 (ko) * 2018-05-30 2020-02-11 이재현 지능형 자료구조 기반의 데이터 처리 방법 및 그를 위한 장치
KR102195836B1 (ko) * 2019-02-07 2020-12-28 주식회사 티맥스티베로 인덱스 관리 방법
CN111290805B (zh) * 2020-03-12 2023-08-18 深圳市我能成才企业管理有限公司 一种聚合功能快捷调用方法及系统
US11868746B2 (en) 2021-09-02 2024-01-09 Kinaxis Inc. System and method for transition of static schema to dynamic schema

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3492247B2 (ja) * 1999-07-16 2004-02-03 富士通株式会社 Xmlデータ検索システム
US6721727B2 (en) * 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
JP2001282856A (ja) * 2000-03-31 2001-10-12 Toshiba Corp インデックス作成方法、インデックス表示方法、インデックス検索方法及びインデックス作成装置
JP2001297104A (ja) * 2000-04-11 2001-10-26 Canon Inc データ保管装置、方法及び記憶媒体
JP3651768B2 (ja) * 2000-05-18 2005-05-25 富士通株式会社 文書ファイル検索システム
WO2001093599A2 (en) * 2000-06-01 2001-12-06 Wisengine Inc. Method and apparatus for unified query interface for network information
US6745206B2 (en) * 2000-06-05 2004-06-01 International Business Machines Corporation File system with access and retrieval of XML documents
US6912538B2 (en) * 2000-10-20 2005-06-28 Kevin Stapel System and method for dynamic generation of structured documents
US6804677B2 (en) * 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
US6901410B2 (en) * 2001-09-10 2005-05-31 Marron Pedro Jose LDAP-based distributed cache technology for XML
KR100831551B1 (ko) * 2001-09-28 2008-05-22 주식회사 케이티 관계형 데이터베이스를 이용해 문서를 저장, 검색 및 복구하는 장치 및 그 방법
US6826568B2 (en) * 2001-12-20 2004-11-30 Microsoft Corporation Methods and system for model matching

Also Published As

Publication number Publication date
JP2004030569A (ja) 2004-01-29
US7139746B2 (en) 2006-11-21
KR100484138B1 (ko) 2005-04-18
KR20030087370A (ko) 2003-11-14
JP4028410B2 (ja) 2007-12-26
US20030212662A1 (en) 2003-11-13
CN1457003A (zh) 2003-11-19

Similar Documents

Publication Publication Date Title
CN1230771C (zh) 处理正则路径表达式查询的扩展标记语言索引方法
Cheung et al. YeastHub: a semantic web use case for integrating data in the life sciences domain
US8566343B2 (en) Searching backward to speed up query
CN1815477A (zh) 用于提供基于标记语言的限定词的方法和系统
CN1609835A (zh) 电子文档的注释方法、装置和系统
KR20090028758A (ko) 정보 재사용 방법, 정보 제공 방법, 편집 가능한 문서, 및 문서 편집 시스템
US8117186B2 (en) Database processing apparatus, information processing method, and computer program product
JP4247135B2 (ja) 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法
CN1410918A (zh) 基于信息抽取技术的搜索引擎
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2009544102A (ja) Xml文書の、意味論を意識した処理
Rys State-of-the-art XML support in RDBMS: Microsoft SQL server's XML features
JP5426533B2 (ja) マルチメディアコンテンツを検索する方法及び装置
US8229963B2 (en) Schema for federated searching
JP2004192657A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
JP2010267081A (ja) 情報検索方法及び装置及びプログラム
Hernández et al. A conceptual framework for efficient web crawling in virtual integration contexts
JP5903372B2 (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
JP2009104276A (ja) データ管理装置
KR20030065860A (ko) 엑스엠엘 계층구조를 이용한 비디오 검색 시스템 및 그 방법
Pérez et al. BioUSeR: a semantic-based tool for retrieving Life Science web resources driven by text-rich user requirements
CN1692355A (zh) 基于可扩展标记语言的电子文档请求/提供方法
JP5225022B2 (ja) Xmlデータ検索方法及び装置及びプログラム
GANGADHAR et al. Keyword Search to Locate the Deep Web Databases with Crawler

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051207

Termination date: 20110328