CN1846210A

CN1846210A - 利用本体存储并检索数据的方法及装置

Info

Publication number: CN1846210A
Application number: CNA2004800248868A
Authority: CN
Inventors: 李杨
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2003-08-28
Filing date: 2004-08-20
Publication date: 2006-10-11
Also published as: CA2536760A1; US20060248458A1; GB0320205D0; EP1661045A1; WO2005022408A1

Abstract

提供了一种将服务描述文档存储在计算机化存储系统中的方法，其中各文档与至少一个动词本体节点(204)和至少一个名词本体节点(254)相关联，各动词本体节点具有与其他动词本体节点的一个或更多个链接，而各名词本体节点具有与其他名词本体节点的一个或更多个链接，由此所述动词节点形成动词空间(200)，而所述名词节点形成名词空间(250)。还提供了一种从以此方式存储的多个服务描述文档中检索服务描述文档的方法，其包括以下步骤：控制用户界面，以从用户请求至少一个动词请求术语(405)和至少一个名词请求术语(410)；将各个动词请求术语(405)与对应的动词节点(204)相关联，并将各个名词请求术语(410)与对应的名词节点(254)相关联；将各个对应的动词节点(204)与关联于各个存储的服务描述文档的各个动词节点(212，214)进行比较；将各个对应的名词节点(254)与关联于各个存储的服务描述文档的各个名词节点(262，266)进行比较；以及基于所述比较步骤进行选择以检索出零个或更多个存储的服务描述文档，并且控制用户界面以通知用户选中的文档，使得用户能够检索一个或更多个选中的文档。

Description

利用本体存储并检索数据的方法及装置

技术领域

本发明涉及这样的方法和装置，即，其用于存储并检索数据，更具体地用于存储并检索对特别是提供给所述方法或装置的用户的服务的描述进行表示的数据。

背景技术

目前，存在有限数量的不同策略，其用于存储大量的数据，然后使得用户能够在所存储的数据中进行搜索，以检索所关注的数据。可以将这些策略分类为落入两极(extreme)之间的某个位置，这两极中的一极由万维网表示，另一极端由树结构目录表示。

在前者中，不存在采用存储数据的方式的结构；为了在所存储的数据(并且特别是通常包含有大量文本的web页或“文档”)中进行搜索，通常使用基于关键词的搜索引擎。

一种非常简单的关键词搜索引擎可以仅仅是在存储的文档中进行搜捞(trawl)(或者“爬寻(crawl)”)以寻找正被搜索的关键词，并且返回包括所述关键词的所有这种文档。然而，为了在存在大量存储的文档时加快处理，一种更复杂的搜索引擎可以预先生成索引，该索引根据某个关键词在文档中(该文档经过预处理并且针对文档中出现的各“关键词”被给予分数)出现的频率来对所有存储的文档建立索引。从而，该搜索包括以下步骤：对索引进行搜索，并且返回那些正在执行的搜索所针对的关键词的出现频率充分高的文档，或者这些文档的标识符。

该策略的缺点在于：关键词可能具有一个以上的含义，因此搜索可能返回(与关键词的不希望的含义相对应的)无关文档。类似地，由于文档使用了与搜索请求中所使用的术语不同的术语，所以该搜索可能错过相关文档。

然而，当以逻辑顺序排列方式(例如以分类树结构目录)存储文档时，则用户可以简单地对该目录进行搜索，直到到达存储有被认为是与其相关的文档的叶节点为止。这一策略克服了与关键词搜索相关的上述问题。

然而，除了将各文档放置在它在目录中的正确位置所需的努力以外，该策略的缺点还在于：如果搜索者在目录树中沿与首先存储该文档的人所设想的路线不同的路线进行搜索，则该搜索者可能会找不到相关的文档。

近年来，对于本体(ontology)的使用已经进行了大量的研究。通常使用本体来帮助整合异源遗留数据库。本体通过精确地定义在不同的数据库中以不同方式使用的术语的实际含义来实现此目的。例如，一个数据库可能引用“模型ID”，而另一数据库可能引用与“产品”相同的分类。然后可以使用本体映射(mapping)来将第一本体中的“模型ID”映射到第二本体中的“产品”，由此通过将按第一本体表述的搜索请求从第一本体翻译到第二本体等，使得该搜索请求还能够从另一数据库检索相关数据。

近年来为了提高根据基于关键词方法进行的搜索的准确度，也已对利用“本体”的可能性进行了大量的研究。如上所述，本体是对通常在受限知识域内所使用的各种术语的含义的一种形式表示。已知本体的一个示例是词网(WordNet)。该本体试图以形式化的方式表示所有的英语语言。各个单词具有与其相关联的一个或更多个可能含义，并且各个含义接着以多种不同的方式(例如，下义词、上义词等等)链接到其他单词的其他含义。利用本体提高搜索准确度的一种方式是：将搜索请求和目标文档中的任一个或全部二个中的关键词替换为根据本体的关键词的含义。然后可以使用该本体的结构，通过不仅搜索包含有与该请求的含义相同的含义的文档而且搜索其下义词等，来提高搜索的力度。(下义词是事物的一种特定类型或者专门化类型，例如，投掷刀和食鱼用的刀是刀的下义词，而刀是食鱼用的刀的上义词等)。研讨该方法的论文有：“OntoSeek：Content-Based Access to the Web”by Nicola Guarino，Caudio Masolo and Guido Vetere；published in IEEE INTELLIGENTSYTEMS publication MAY/JUNE 1999 edition pages，70 to 80。

用于存储文档并且使得用户能够对所存储的文档进行搜索的一种商业上重要的应用是使得服务提供方能够找到客户，并且反之亦然。在这种应用中，服务提供方在目录或类似的存储设施中刊登它们的服务广告，而用户或潜在客户可以搜索目录，以试图找到能够提供期望服务的一个或更多个服务提供方。在这种应用中，各服务提供方通常提供对其能够提供的服务或各种服务的自然语言描述。利用计算机化系统，用户则能够对这些自然语言描述进行关键词搜索，以尝试找到合适的服务提供方。

发明内容

根据本发明的第一方面，提供了一种对多个存储的文档进行搜索的方法，该方法包括以下步骤：存储所述多个文档；存储本体的表示，所述本体包括多个相互关联的节点并且被划分成至少两个独特的子空间；针对所述多个文档中的每一个，存储与本体的第一独特子空间的节点的至少一个关联，和与本体的第二独特子空间的节点的至少一个关联；控制用户界面，以使得用户能够使用自由文本输入来输入多达至少两个搜索术语，并且能够将各个搜索术语与本体的相应独特子空间相关联；将各个输入的搜索术语仅与对应的子空间的节点进行比较，以试图确定一个或更多个可能匹配或部分匹配；以及基于各个可能匹配或部分匹配的节点，以及所述存储的文档与本体的节点之间的关联，来选择一个或更多个所述存储的文档，以呈现给用户。

应当理解的是，该方法旨在在某些种类的计算机设备上执行。例如，在提交本申请时现有的典型计算机设备中，所述存储步骤可以在诸如硬盘驱动器的数字存储介质上执行，所述控制用户界面的步骤以及所述比较步骤和所述选择步骤可以通过适当编程的计算机处理系统等执行。实际上，上述方法解决了由计算机存储文档而不使用人类管理员来存储并检索文档所产生的问题。

计算机在确定自由文本输入的语境(context)方面是非常拙劣的，结果在允许自由文本输入时经常会产生伪结果。通过对本体提供多个独特子空间(其中对于一个子空间中的节点的搜索不会作为匹配或部分匹配而产生另一独特子空间中的节点)，并且使得用户能够在独特子空间中单独地进行搜索，可以在一定程度上缓解拙劣语境的问题，同时仍然向用户提供能够输入自由文本关键词类型搜索术语的便利。

由此，一个采用“I’mihterested in finding out documents aboutbuilding restaurants and people providing restaurant buildingservices”语句的针对人类图书馆管理员的文档请求是模糊的，而人类图书管理员或许能不费劲地找出相关的文档。但是，对于计算机系统，同样的请求或许(可能)伴随少数相关文档一起选择出大量不相关文档。该请求的一个问题在于：术语“building”更常用作名词，而不是在该示例中所预想的动词。在本发明的一个实施例中，将存在用于“building”的两个节点，一个在本体的动词子空间中，一个在名词子空间中，等。

根据本发明的第二方面，提供了一种在计算机化存储系统中存储服务描述文档的方法，其中各个文档与至少一个动词本体节点和至少一个名词本体节点相关联，各动词本体节点具有与其他动词本体节点的一个或更多个链接，而各名词本体节点具有与其他名词本体节点的一个或更多个链接，从而这些动词节点形成动词空间，并且这些名词节点形成名词空间。

术语“服务描述文档”用来表示采用任何格式的数据，其在必要时经过合适处理后，包括对“拥有”该服务描述文档的一方提供的特定服务的人类或机器可读描述。注意：该服务可以是一台机器向另一台机器提供的服务(用于例如通过自动搜索并且请求待由其它设备执行的复杂任务的子步骤，来使得“代理(agent)”(即以一定自主度操作的计算机程序)能够执行复杂任务)。

优选地，该方法还包括以下步骤：将各服务描述文档与多个可能的不同关系类型中的一个相关联，所述可能的不同关系类型表示所述至少一个动词节点和所述至少一个名词节点的各个配对之间的关系。优选地，所述可能的关系类型是：“……的输入”(input-of)，其中，在服务描述文档中描述的服务以与相关联的名词节点相对应的对象作为该服务的输入；“……的输出”(output-of)，其中，在服务描述文档中描述的服务以与相关联的名词节点相对应的对象作为该服务的输出；或者“关联于……”(related-to)，其是针对未指定其他关系或者上述选项似乎都不合适的情况的默认关系。

优选地，服务描述文档与之相关联的动词节点的数量是1，而名词节点的数量是1或者2。

根据本发明的第三方面，提供了一种从根据本发明的第二方面存储的多个服务描述文档中检索服务描述文档的方法，该方法包括以下步骤：

控制用户界面，以从用户请求至少一个动词请求术语和至少一个名词请求术语，

将各个动词请求术语与对应的动词节点相关联，并且将各个名词请求术语与对应的名词节点相关联，

将各个对应的动词节点与关联于各个存储的服务描述文档的各个动词节点进行比较，

将各个对应的名词节点与关联于各个存储的服务描述文档的各个名词节点进行比较，

基于所述比较步骤进行选择以检索出零个或更多个存储的服务描述文档，并且控制用户界面以通知用户选中的文档，使得用户能够检索一个或更多个选中的文档。

优选地，还对该用户界面进行控制，以从用户获得指定所输入的名词请求术语与动词请求术语之间的关系类型的信息，并且还将该信息与各个存储的服务描述文档的各个关联关系类型进行比较。

本发明相对于执行文档搜索和检索的当前已知方法提供了显著的优点。具体地，使用动词和名词或者名词、动词和名词作为搜索请求构成针对用户的直观上简单的搜索请求，以生成并且还提供了大量的信息。此外，出于查找服务的目的，这是搜索请求要采用的特别合适的形式。此外，通过将各文档与不同本体空间(即，动词空间和名词空间)中的至少两个节点相关联，并且还将各文档与各名词节点和动词节点之间的关系相关联，可以形成对服务的非常准确的描述，该描述对于非专业用户仍然是非常直观和容易预测的。

更普遍地，本发明还将所存储的文档与两个(或更多个)独特标识符术语相关联，各独特标识符术语与其自己的独特本体空间相关联。由此可以通过在所述独特(和特定)本体空间中执行两个(或更多个)单独的搜索，来高效地执行文档检索。通过使这些本体空间专用于标识符的类型，与使用通用本体空间相比，它们将包含更少的节点，因此搜索更有可能准确。但是通过具有多于一个的本体空间(从而搜索也是如此)，可以在不失去准确性的情况下增大描述/标识文档的不同独特方式的范围。将各种标识符术语之间的链接类型包括为标识/搜索策略的一部分还增大了可能的准确度和“分辨率”。注意：使用特定本体空间(其可能是术语受限的本体空间，或者简称为受限本体)是特别有益的，这是因为该受限本体为索引和搜索提供了高准确度水平和灵活性水平。

根据本发明的第四方面，提供了一种系统，其用于使得可以存储多个文档，并且随后可以对该多个文档进行搜索并进行选择性检索，所述系统包括：数据存储部，用于存储所述多个文档；多个数据项，表示本体中的节点，所述节点被分类成表示本体内的两个独特子空间的至少两个子组；以及针对各文档在该文档与一个子组中的节点和该文档与另一子组中的节点之间的至少两个关联；所述系统还包括用户界面布置(arrangement)，该用户界面布置用于使得用户能够在所述多个存储的文档之中搜索一个或更多个文档，所述用户界面被设置成使得用户能够利用自由文本输入来输入一个或更多个搜索术语，并且能够将各个搜索术语与本体内的一个独特子空间相关联；并且所述系统还包括处理器布置，该处理器布置可以进行操作以将各个搜索术语与数据项进行比较(所述数据项表示以下节点，即，所述节点被归类到本体的与用户已将搜索术语关联到的子空间相同的子空间中)，以识别与子空间内的一个或更多个节点的可能匹配或部分匹配，并且作为根据与用户输入的搜索术语相匹配的节点以及与所述多个存储的文档相关联的节点而进行搜索的结果，选择并返回文档。

优选地，为了除选择与匹配于搜索术语的节点直接关联的文档以外，还选择与匹配到搜索术语的节点的密切关联节点相关联的文档，对文档的选择使用了独特本体子空间内的节点之间的关系(包括胞关系、子关系和父关系)。

根据本发明的第五方面，如权利要求11所述，提供了一种用于本发明第三方面的系统中的数据存储部。

在所附从属权利要求中阐述了本发明的其他优选特征。

附图说明

为了可以更好地理解本发明，现在将参照附图，仅以示例的形式对本发明的实施例进行描述，在附图中：

图1是本发明实施例的总体框图；

图2是在图1的实施例的用户终端上采用的图形用户界面的示意例示图；

图3是更详细地示出图1的实施例的本体服务器的框图；

图4是存储在图3的本体服务器上的本体的一部分的示意表示，其包括两个链接，各链接对本体的两个节点进行链接，并且被与存储在图1的实施例中的数据存储部中的服务描述相关联；

图5是根据在本发明的实施例中使用的表示方法将“refurbish(整修)”动作节点与“house(房屋)”对象节点进行链接的四种不同方式的示意表示；

图6是与已经添加有该图的图4相类似的示意表示，用于例示在搜索过程中搜索请求与本体的节点是如何匹配的；以及

图7是根据本发明实施例的基于输入请求来选择并检索匹配服务描述的方法的流程图。

具体实施方式

图1总体例示了用于存储并检索服务描述的装置。该装置包括用户终端5、本体服务器10以及数据存储部15。在操作中，用户利用用户终端使用的特定的图形用户界面(以下将参照图2对其进行更加详细的描述)，以一定程度受控的方式向用户终端5输入服务描述搜索请求。然后，用户终端5将该请求发送给通过数据通信网络与用户终端相连接的本体服务器10。本体服务器10(按以下参照图3至图7更加详细地描述的方式)处理该请求，并且选择存储在数据存储部15中的零个或者更多个匹配服务描述。然后将所选择的服务描述发送给用户终端，该用户终端将这些服务描述作为用户搜索查询的结果显示给用户。

现在参照图2，在本实施例中使用的用户界面包括两个文本输入框51、52，在其中请用户分别输入名词和动词(注意：这些是简单的“自由文本”输入框，在其中用户可以根据需要键入任何关键词而不受限制(例如必须从允许关键词的列表中进行选择))。在该文本框下方设有三个单选按钮53、54、55，它们分别标示为“……的输入”、“……的输出”以及“关联于……”。这些单选按钮具有以下属性(这一点在现有技术中是公知的)：在任一次必须选择确切的一个按钮，这样，如果用户选中了与当前选中的按钮不同的一个单选按钮，则当前选中的按钮自动地变成未被选中。在本实施例中，默认选中了“关联于……”按钮。另外，在本实施例中的用户界面包括一些文本，以指导用户应当如何来形成搜索请求，该文本是“在此输入名词…[名词文本框51]，在此输入动词…[动词文本框52]，然后选择以下按纽中的一个，以指示该名词与该动词之间的关系。例如，为了搜索提供房屋建造服务的公司，输入‘房屋’和‘建造’，然后选择‘……的输出’单选按钮”。

在本实施例中，用户界面还包括在以下例示性文本“您的搜索已经返回如下结果：…”下方的结果空间57，在其中向用户显示该设备生成的选中服务描述。

现在参照图3，本实施例中的本体服务器10示意地示出为包括输入/输出单元105、系统总线110、处理器排列115以及系统存储器120。如在现有技术中所公知的，该系统总线将服务器的其他主要组件105、115、120相互连接在一起，使得任何一个组件可以与任何其他组件进行通信。输入/输出单元105使得服务器能够在处理器115的控制下，从用户终端5接收搜索请求，并将搜索结果返回给用户终端5，并且从数据存储部15读取数据。存储器120(也存储有用于控制本体服务器10的整体操作的程序)还包括用于存储本体的本体存储区122和用于存储多个服务链接的服务链接存储区124，以下将更详细地对此进行说明。

技术熟练的读者将明确：图3和对于图3的上述描述是服务器的非常上位的表示，其中为清楚起见有意地省略了服务器计算机的细节。除了本文所述的情况以外，服务器可以是其构造和操作在本领域是公知的任何合适的传统服务器计算机。

图4例示了存储在本体服务器10中的本体的一部分。包含单词的各框(202到220以及252至268)表示该本体的一个节点，各单线箭头表示由其连接的节点之间的关系，而各双线箭头表示由其连接的节点之间的链接。在该图左手侧的彼此相连接的节点(202至220)是动词(也称为动作)节点，而在该图右手侧彼此相连接的节点(252至268)是名词(也称为对象)节点。双线箭头链接将名词节点链接到动词节点。

如该本体的例示部分的多个相连接的框下方的关键词中所例示的，单箭头关系线(305)表示超类关系/子类关系，其中将箭头所指向的节点指定为相对于箭头所背向的节点的子类；例如，将“Get”(204)和“Give”(206)指定为“Transact”(202)的子类。用于将一个节点指定为另一节点的子类的根据是：如果落入由第一节点所指定的概念内的各个特定示例情况也落入由第二节点所指定的概念内，但是落入第二节点的概念内的所有特定示例情况并不也都落入第一节点的概念内，则可以将第一节点指定为第二节点的子类。

双箭头关系线(310)表示同类关系，即，将由该关系线所连接的两个节点指定为彼此同类；例如，将“Acquire”(208)和“Buy”(214)指定为彼此具有同类关系。用于将两个节点指定为互为同类的根据是：落入一个节点的概念内的各个特定示例情况也应当落入另一个节点内的概念内，反之亦然。注意：这是由本体设计者出于特殊本体的目的确定的，在本实施例中，该目的是使预期客户与提供期望服务的公司相联系。在本实施例中，设计者由此判断出，对于这些目的，Acquire和Buy是同义的，即使对于其他的目的这些词可以表示不同的概念(可能Buy是Acquire的子类(因为一个人可以有争议地获得一物品而不一定为其付款，而一个人不可能购买一物品而不为该物品付款))。

单箭头(但是双线)链接(315、320)表示“……的输入”/“……的输出”链接。链接(315、320、325)(由双线箭头表示)总是将动词节点链接到名词节点。如果“……的输入”/“……的输出”链接的箭头总是从名词节点指向动词节点，则该链接是表示相关联的服务或服务搜索请求采用名词节点作为输入的“……的输入”链接(320)。相反，如果该箭头从动词节点指向名词节点，则该链接是表示相关联的服务或服务搜索请求产生名词节点作为输出的“……的输出”链接(315)。无箭头的双线链接是相关链接(325)，其表示相关联的服务或服务搜索请求将所链接的动词节点和名词节点以未指定的方式(即，作为输入、输出、或者输入和输出二者，或者实际上不能将对象认为是输入或输出中的任一个的任何其他情况)彼此相关。

图5b至5c例示了本实施例中可以将两个节点链接在一起的三种可能的方式，按这三种可能的方式将各个存储的服务或者服务搜索请求与仅包括一个名词节点、一个动词节点以及一个二者之间的关系的链接相关联。图5a例示了在另选实施例中可以如何将这两个节点链接到一起，其中与存储的服务或服务搜索请求相关联的各链接可以既包括输入名词节点也包括输出名词节点。图5a由此示出了以下情况：在另选实施例中，名词节点“House”既是所提供的房屋整修服务的输入也是其输出。图5b示出了根据本实施例的情况，其中将名词节点“House”指定为对于房屋整修服务的输入。图5c例示了将名词节点“House”指定为房屋整修服务的输出的情况，而图5d例示了仅将名词节点“House”指定为与动词节点“Refurbish”相关联，以指示由名词节点“House”涵盖的概念/特定项被以某些未指定的方式与所提供的房屋整修服务相关联。注意：在房屋整修的情况下，所有上述链接都是合理的指定。以此为基础，在图5a的指定不可能的本实施例中的最佳选项可能是图5d例示的相关联指定。

在本实施例中，数据存储部15包含有多个记录，各记录对应于关联服务提供方提供给预期客户的服务。该记录包括用于联系提供方的联系人细节和以自然语言编写的对所提供的服务的描述。

另外，本体服务器10还存储有链接的对应列表以形成索引。在本实施例中，该索引利用某种合适的标识符列出了存储在数据存储部中的各个记录(以使得能够从数据存储部15中检索出所标识的记录)，还一起列出了与该记录相关联的链接。在本实施例中，该链接包括名词节点、动词节点以及关系(“……的输入”、“……的输出”或者“关联于……”中的任一个)。在本实施例中，优选地，通过就与其相关联的各个记录要求各提供方提供针对各个记录的链接，来形成该信息。为了帮助提供方完成这一任务，提供了对于存储在本体服务器上的本体的只读访问，以及合适的导航软件，以允许提供方遍历该本体以找到最合适的节点进行选择。另选地，本体服务器管理员也可以提供该信息。这对于首先启动系统并使其运行是有用的。

图6示出了与图4中示出的本体相同的部分，以及两个框405、410，这两个框405、410表示来自已由终端5的用户经由图2例示的用户界面输入的服务搜索请示的术语。这两个术语405、410示出为，已由匹配度分别为1.0和0.48的匹配连接421、422匹配到节点204和254。此外，图6在关键部分中包括通用的(generic)“匹配于”连接符号420。以下将参照所有附图(特别地参照图7的流程图)更加详细地对将服务搜索请示的术语匹配于存储的本体中的节点的方式进行说明。

因此，现在参照图7，在利用图1的设备来从数据存储部15中检索一个或更多个所关注的服务记录的方法中，第一步骤是：用户在步骤S5利用在图2中例示的用户界面输入搜索请求。然后将该服务搜索请求发送给本体服务器10，本体服务器10根据以下步骤对其进行进一步的处理。

在步骤S10中，该本体执行在所接收的服务搜索请求的术语与存储在本体服务器中的本体的节点的名称之间的名称匹配。这个步骤的目的是，使得用户能够向用户界面中自由地键入该用户所选择的任何术语(这些术语接着被与在本体中使用的术语相关联)，而不是直接从该本体中选择可能的选项。可以使用用于执行这一任务的任何合适方法。然而，在总体地描述了图7中例示的方法后，在下面更详细地对在本实施例中实现此的特殊方式进行说明。名称匹配步骤的结果是确定：本体的所有可以与输入服务搜索请求的动词部分相匹配的动词节点(A_i，其中1≤i≤a，a是匹配的动词节点的数量(如果存在的话))和各匹配的动词节点的动词匹配相关度(CF(A_i))，以及本体的所有可以与输入服务搜索请求的名词部分相匹配的名词节点(P_j，其中1≤j≤p，p是匹配的名词节点的数量(如果存在的话))和各匹配的名词节点的名词匹配相关度(CF(P_j))。

在完成了步骤S10后，方法进行到步骤S15，在该步骤S15中确定至少一个名词节点和至少一个动词节点是否都已分别与服务搜索请求的名词术语和动词术语相匹配。如果没有可以与服务搜索请求相匹配的名词节点或者动词节点，则该方法进行到步骤S20，在该步骤S20中将向用户终端5发回响应，以通知用户未找到搜索结果并且请用户使用不同的搜索术语再次尝试，然后该方法结束。然而，如果匹配了至少一个名词节点(P_j)和至少一个动词节点(A_i)，则该方法进行到步骤S25。

在步骤S25中，本体服务器通过采用匹配动词节点与匹配名词节点的各个可能组合，并且根据在原始服务搜索请求中表达的名词术语与动词术语之间的关系(R)将这些链接在一起，来形成多个经翻译的服务请求(A_i、P_j、R、CF(A_i)、CF(P_j))。例如，如果用户所输入的服务搜索请求是动词术语“Get”、名词术语“Comm_Property”，而指定关系是“……的输入”，并且只有单个动词节点(“Get”动词节点204)与单个名词节点(“CommercialProperty”节点254)与其相匹配，则仅形成了单个经翻译的搜索请求，即(A_i＝“Get”，P_j＝“CommercialProperty”，R＝“……的输入”，CF(A_i)＝1.0，CF(P_j)＝0.48，i＝a＝j＝p＝1)。注意：以下在讨论名称匹配时更加详细地说明了计算CF(A_i)和CF(P_j)的方式。

在步骤S25中生成了经翻译的搜索请求后，该方法进行到步骤S30，在该步骤S30将各经翻译的搜索请求与存储在服务链接存储区124中的索引中的各个链接进行比较。选择匹配分数被确定为高于预定阈值的链接，然后该方法进行到步骤S35。以下利用标题为“经翻译的搜索请求和链接匹配”的伪码阐述了在本发明中执行比较的具体方式。

在完成了步骤S30之后，该方法进行到步骤S35，在该步骤S35中确定在步骤S30中是否选择了至少一个链接和关联记录(实际的记录存储在数据存储部15中)。如果为否，则该方法进行到步骤S20，在该步骤S20中向用户终端5发回响应，以通知用户未找到搜索结果，并且请用户使用不同的搜索术语再次尝试，然后该方法结束。然而，如果在步骤S30中选择了至少一个链接和关联记录，则该方法进行到步骤S40，在该步骤S40中从数据存储部15中检索出所选择的记录或者各个选择的记录，然后将此作为结果消息的一部分发送给用户终端5，在用户终端5处在图2例示出的图形用户界面的结果空间57中将所述结果显示给用户。

在步骤S40完成之后，该方法结束。

现在将描述本实施例中的名称匹配步骤S10和经翻译的搜索请求和链接匹配步骤S30的细节。

名称匹配(步骤S10)

该步骤的目的是将搜索请求的名词部分和动词部分(由用户在用户终端自由地分别输入到图2的用户界面的文本框51和52中)与存储在本体服务器10中的本体中的对应的名词节点和动词节点相匹配。在本实施例中，这是利用三种匹配规则(直接匹配规则、基本单元名称匹配规则以及复合名称匹配规则)来进行的，各个匹配规则采用两个术语(A，B)作为输入，并且输出匹配度(CF(A，B))，如果所述术语按照该规则不匹配，则该匹配度(CF(A，B))是0，如果所述术语匹配到一定程度，则该匹配度(CF(A，B))是介于0(明显地不包括0本身)与1(包括1本身)之间的一个值，该值为1表示完全匹配。

直接匹配规则简单地将两个输入术语进行比较，不考虑任何标点符号、空格等，以及字母在这两个术语中出现的情况(例如，大写和小写)中的差异，如果这些术语相同则输出值为1的匹配度(CF(A，B))，如果不同则输出值为0的匹配度。

基本单元名称匹配规则同样不考虑标点和大小写等，并且通过如下方式进行：将匹配度初始设置为0，然后依次考虑各以下问题：

1、输入术语的前三个字母相同(并且顺序相同)吗？如果相同，则对匹配度CF加上0.3。

2、输入术语的前四个字母相同(并且顺序相同)吗？如果相同，则对匹配度CF加上0.3。

3、输入术语的前三个字母相同(并且顺序相同)并且输入术语的未尾字母(即各个输入术语的未尾字母)也相同吗？如果相同，则对匹配度CF加上0.3。

由此，如果上述三个问题中没有一个的回答是肯定的，则匹配度将保持为0，而结果为不匹配。如果上述问题中仅有一个的回答是肯定的(即，仅问题1)，则将存在匹配度为0.3的匹配。如果所述问题中的两个(但不是全部三个)的回答是肯定的(即，问题1和2或问题1和3)，则将存在匹配度为0.6的匹配。最后，如果所有三个问题的回答都是肯定的，则将存在匹配度为0.9的匹配。

当检测到要进行比较的两个术语都是复合名称时，在本实施例中使用了复合名称匹配规则。在该情况下，针对各个术语识别出多个组元基本单元名称，并且尝试将第一术语的第一组元基本单元名称与第二术语的第一组元基本单元名称进行匹配，然后将第一术语的第二组元基本单元名称与第二术语的第二组元基本单元名称进行匹配，等等。直到将具有最少组元的术语的末尾组元基本单元名称与另一术语中的对应的组元基本单元名称进行了比较为止。匹配组元基本单元名称的尝试首先尝试直接匹配，然后如果未发现直接匹配则应用基本单元名称匹配规则。在尝试对组元基本单元名称进行了匹配之后，根据以下公式来计算复合匹配度：

CF (A, B) = \frac{Σ_{i = 1}^{k} CF (a_{i}, b_{i})}{m + n - Σ_{i = 1}^{k} CF (a_{i}, b_{i})}

{复合匹配公式}

其中CF(a_i，b_i)是使用直接匹配规则或者使用基本单元匹配规则所确定的复合术语A和B中的第i对组元基本单元名称的匹配度(如果未发现匹配则等于0)；m是术语A中的组元基本单元名称的数量；n是术语B中的组元基本单元名称的数量；k是m和n中的较小者。

在阐述了三种类型的名称匹配规则之后，可以以如下伪码来说明所采用的算法：

Comment：first process the verb term，A，of the service search request；

FOR each verb node，B＝b₁，b₂，...，b_k，in the stored ontology{

TRY to find direct match

IF successful record match；

NEXT verb node；

END IF

IF A and b_index are atomic names

TRY atomic name matching

IF successful record match；

NEXT verb node；

END IF

ELSE IF A and b_index are both compound names

TRY compound name matching

IF successful record match；

NEXT verb node；

END IF

END FOR

Comment：Then repeat forthe noun term，O，of the service search request

FOR each noun node，P＝p₁，p₂，...，p_i，in the stored ontology

TRY to find direct match

IF successful record match；

NEXT verb node；

END IF

IF O and p_index are atomic names

TRY atomic name matching

IF successful record match；

NEXT verb node；

END IF

ELSE IF O and p_index are both compound names

TRY compound name matching

IF successful record match；

NEXT verb node；

END IF

END FOR

以上的伪码片段实质上表示：首先取得用户输入的动词术语，然后对存储在本体中的所有动词节点进行循环以查找匹配。在循环的每次迭代中首先查找直接匹配，如果找到匹配，则通过将一条目放置到包括匹配的名词节点和匹配度的本地存储表中来记录该匹配的事实。如果没有直接匹配，则判断所输入的动词术语和当前的动词节点是否都是基本单元名称(在本发明中，通过以下方式来检测复合名称：查找分离两个字母串的标点符号空格、下划线、连字符、句号、斜线、冒号、逗号或者分号中的一个，或字母串中间(不包括首字母)的大小写改变(例如，Comm_property，CommProperty，Comm Property))；如果是基本单元名称，则使用基本单元名称匹配规则来查找匹配，并且如果找到匹配，则如上所述地记录该匹配的事实。如果所输入的动词术语和当前的动词节点都是复合名称(如上所述)，则将这些名称分离成各自的组元基本单元名称，并且使用复合名称匹配规则来查找匹配，如果找到匹配，则如上所述地记录该匹配的事实。如果在此过程结束时未找到匹配，则使当前迭代结束，而不记录任何匹配，并且利用下一动词节点启动新的迭代。

注意：在上述算法中，如果所输入的动词术语是基本单元名称，而当前的动词节点是复合的，或者情况相反，则不会找到匹配(除了可能处于找到直接匹配的例外情况下)。一般认为这不是问题，这是由于尝试将复合名称与另一复合名称等进行匹配通常是更好的。尽管如此，除非两个名称都是基本单元名称的情况等，另选实施例可以通过始终应用复合名称匹配规则按另选的方式进行操作。

在加以必要改变的情况下，用于将服务搜索请求的名词术语与本体中的名词节点进行匹配的算法与用于动词术语和动词节点的算法是相同的。

经翻译的搜索请求和链接匹配

在总体上，在本实施例中以如下方式执行这一过程。对各个经翻译的服务搜索请求依次进行考虑。在使用本体的情况下，通过包括作为动作节点的同类或子类(包括子子类等)以及动作节点本身的所有节点，来形成经翻译的搜索请求的动作节点的子树。然后对存储在本体服务器10中的索引表的各个条目进行检查，以判断其动作节点是否是该子树中的一个节点。如果是，则以下述方式来评估匹配度：考虑了名词术语以及分别在经翻译的搜索请求和存储的链接信息中的关系。然后将所评估的匹配度与一阈值进行比较，如果匹配度超出该阈值，则针对检索和向用户终端的发送来选择对应的服务记录。

以下阐述了经翻译的搜索请求与其动作节点落入经翻译的搜索请求的动作节点的子树内的链接之间的匹配度的具体方式。总体上，首先进行检查以判断该链接中的名词节点是否落入经翻译的搜索请求的名词节点的子树(在加以必要改变的情况下，以与针对动作子树的相同方式导出)内。如果未落入，则将匹配度设为0，并且匹配结束。否则，将经翻译的搜索请求的关系与该链接的关系进行比较，如果二者相同，则将关系比较分数设为1。如果一个关系是“关联于……”而另一个不是(即，另一个是“……的输入”或者“……的输出”)，则将关系比较分数设为0.5。如果一个关系是“……的输入”而另一个是“……的输出”，则将关系比较分数设为0。最后，使用以下公式来计算匹配度的值：

匹配度＝(CF(A)+CF(P)+CF(R))/(6-(CF(A)+CF(P)+CF(R)))

其中，CF(A)是输入的动词术语与当前正在考查的经翻译的搜索请求的动词节点之间的匹配度，CF(P)是输入的名词术语与当前正在考查的经翻译的搜索请求的名词节点之间的匹配度，而CF(R)是如上所述的关系比较分数(其取值为0、0.5或者1)。因此，注意：如果CF(A)＝CF(P)＝CF(R)＝1，则匹配度＝1；如果CF(A)＝CF(P)＝CF(R)＝0，则匹配度＝0；而如果CF(A)＝CF(P)＝CF(R)＝0.5，则匹配度＝1/3。

在本实施例中，将阈值设为0.4。然而，在另选实施例中，可以选择大于0的任何匹配度评估，实际上最终选择了有限数量(例如10)个选中记录，并且将它们发送给用户终端。在任一情况下，优选地按匹配度评估分数降低的顺序显示选中记录。

运用示例

为了例示上述讨论，现在将考查示例输入搜索请求。出于该例示的目的，假定在数据存储部15中仅具有两个服务记录，其中具有以下关联链接(由提供方输入)：对于第一记录，为动词节点“Sell”，名词节点“House”以及关系“……的输出”(在该情况下的提供方是向预期房屋购买者提供售房服务的房地产代理商)；而对于第二记录，为动词节点“Buy”，名词节点“Motel”以及关系“……的输入”(在该情况下的提供方是大的汽车旅馆公司，其对从试图出售他们的汽车旅馆的汽车旅馆拥有者购买汽车旅馆感兴趣)。

用户输入搜索请求“Get”(输入到动词文本框52中)和“Comm_Property”(输入到名词文本框51中)，并且选择“……的输入”单选按钮53。将所得到的搜索请求发送给本体服务器，在该本体服务器处执行步骤S10的名称匹配。在该步骤中，搜索请求术语“get”与动词节点“Get”直接匹配而无其他匹配。搜索请求术语“Comm_Property”不与任何名词节点直接匹配。(通过下划线字符的存在)确定出其是复合名称，并且通过复合名称匹配规则将其以匹配度CF(P)＝(0.6+1)/(2+2-(0.6+1))＝2/3≈0.67(见上述复合匹配公式)匹配到名词节点“Commercial Property”，鉴于基本单元名称匹配规则中问题1和问题2的回答都是肯定的，将第一基本单元名称“Comm”与“Commercial”匹配在一起，且匹配度为0.6。然而，未将搜索请求术语“Comm_Property”与本体中的任何其他名词节点匹配在一起。

然后该方法进行到步骤S25，其中利用动词节点“Get”、名词节点“Commercial Property”、关系“……的输入”、CF(A)＝1以及CF(P)＝0.67生成单个经翻译的搜索请求。

然后该方法进行到步骤S30，其中进行尝试以依据链接表将经翻译的搜索请求与存储在数据存储部15中的一个记录进行匹配。由于动词节点“Sell”不在动词节点“Get”的子树中，所以针对第一记录(“Sell”、“House”……的输出)的链接是不匹配的。然而，由于动词节点“Buy”在“Get”的子树中，而名词节点“Motel”在“Commercial Property”的子树中，所以针对第二记录(“Buy”、“Motel”……的输入)的链接是匹配的。

匹配度＝(1+0.67+1)/(6-(1+0.67+1))＝0.80

由于在本实施例中将阈值设为0.4，所以在步骤S40选择了该记录，并且将其发回到用户终端5。

因此，概括来说，具体地参照图6，本实施例提供了一种将服务描述文档存储在计算机化的存储系统中的方法，其中各文档被与至少一个动词本体节点204和至少一个名词本体节点254相关联，各动词本体节点具有与其他动词本体节点的一个或更多个链接，并且各名词本体节点具有与其他名词本体节点的一个或更多个链接，从而这些动词节点形成动词空间200，而这些名词节点形成名词空间250(该动词空间和该名词空间是独特的受限本体)，并且本实施例还提供了一种从以此方式存储的多个服务描述文档中检索服务描述文档的方法，该方法包括以下步骤：

控制用户界面，以从用户请求至少一个动词请求术语405和至少一个名词请求术语410，

将各个动词请求术语405与对应的动词节点204相关联，并且将各个名词请求术语410与对应的名词节点254相关联，

将各个对应的动词节点204与关联于各个所存储的服务描述文档的各个动词节点212、214进行比较，

将各个对应的名词节点254与关联于各个所存储的服务描述文档的各个名词节点262、266进行比较，

基于所述比较步骤进行选择以检索出零个或更多个所存储的服务描述文档，并且控制用户界面以通知用户所选择的文档，使得所述用户能够检索一个或更多个所选择的文档。

变型例

代替将链接表和针对存储记录的索引存储在本体服务器上，还可以将该信息存储在不同的位置中，例如存储在与存储记录本身相同的同一数据存储部中。事实上，链接信息可以仅是数据记录本身的一部分，尽管这很可能会增加在经翻译的搜索请求与关联于所存储的数据记录的链接之间执行匹配所花费的时间。

代替以上述方式执行基本单元名称匹配，在另选实施例中，还可以测试大量不同的规则以具有与前述不同的匹配分数，但是代替针对各个规则进行测试而不考虑成功或失败，还可以按以下方式来执行测试：从具有最高分数的测试开始，并以具有最低分数的测试结束，并且只要一个测试为肯定的，就停止执行其他的测试。例如，可以测试以下的三个规则：

1、输入术语的前三个字母相同(并且顺序相同)并且输入术语的末尾字母(即各个术语的未尾字母)也相同吗？如果相同，则将匹配度CF设为0.5，并且结束基本单元匹配，否则

2、输入术语的前四个字母相同(并且顺序相同)吗？如果相同，则将匹配度CF设为0.5，并且结束基本单元匹配，否则

3、输入术语的前3个字母相同(并且顺序相同)吗？如果相同，则将匹配度CF设为0.3，并且结束基本单元匹配。

在上述实施例中，复合名称匹配算法通过以下方式进行操作：将第一复合单词的第一基本单元名称与第二复合单词的第一基本单元名称进行比较，将第一复合单词的第二基本单元名称与第二复合单词的第二基本单元名称进行比较，以此类推。如果在复合名称之间的排序是不同的，即使对于共享大量基本单元名称的复合名称来说，这也可能找不到匹配。以下描述了可以用来解决这一问题的另选的复合名称匹配规则：

设A＝{A1，…，Am}、B＝{B1，…，Bn}是两个复合名称，其中分别地，A1，…Am是针对A的m个基本单元名称，而B1，…，Bn是针对B的n个基本单元名称。设C＝{C1，…，Ck}是在A与B之间匹配的k个基本单元名称，同时CF(C)＝{CF(C1)，…，CF(Ck)}是匹配度。可以通过将第一术语中的各基本单元名称与第二术语中的各基本单元名称进行匹配，并且基于该结果判定哪些彼此配对的基本单元名称用于形成总的复合名称匹配结果，来计算匹配度CF(C)。形式上，我们具有以下算法：

FOR each term Ai∈A＝{A1，…Am}

CF(Ai，B)＝0

bmax＝0

FOR each term Bj∈B＝{B1，…，Bn}

IF CF(Ai，Bj)＞CF(Ai，B) THEN

CF(Ai，B)＝CF(Ai，Bj)

bmax＝j

ENDIF

ENDFOR

IF CF(Ai，B)＞0 THEN

C＜-C+(Ai，Bbmax)

A＜-A-Ai

B＜-B-Bbmax

ENDIF

ENDFOR

该算法通过以下方式进行操作：针对第二术语B的各基本单元名称测试第一术语A的各基本单元名称；将具有最大匹配度的配对添加到C中，并且分别从A和B中将其删除。到该算法结束的时间为止，C包含有所有来自A和B的匹配的配对。

由此将A与B之间的匹配度CF(A，B)计算如下：

CF (A, B) = \frac{Σ_{i = 1}^{k} CF (Ci)}{m + n - Σ_{i = 1}^{k} CF (Ci)}

Claims

1、一种对多个存储的文档进行搜索的方法，该方法包括以下步骤：

存储所述多个文档；

存储本体的表示，所述本体包括多个相互关联的节点并且被划分成至少两个独特子空间；

针对所述多个文档中的每一个，存储与本体的第一独特子空间的节点的至少一个关联，和与本体的第二独特子空间的节点的至少一个关联；

控制用户界面，以使得用户能够使用自由文本输入来输入多达至少两个搜索术语，并且能够将各个搜索术语与本体的相应独特子空间相关联；

将各个输入的搜索术语仅与对应的子空间的节点进行比较，以试图确定一个或更多个可能匹配或部分匹配；以及

基于各个可能匹配或部分匹配的节点，以及所述存储的文档与本体的节点之间的关联，来选择一个或更多个所述存储的文档，以呈现给用户。

2、一种存储多个电子文档的方法，包括以下步骤：

针对各个电子文档生成与第一类型节点的节点的至少一个关联，和与第二类型节点的节点的至少一个关联，所述节点属于预定本体，该预定本体具有如下特性：给定类型的节点的子树仅包含同一给定类型的节点；

和，按照可以使所述关联容易地链接到对应的文档的方式，将特定文档以及针对所述文档生成的关联对或关联组存储在数字存储器中。

3、根据权利要求1或2所述的方法，其中，第一子空间包含动词节点或者第一类型节点是动词节点，并且第二子空间包含名词节点或者第二类型节点是名词节点。

4、根据权利要求1、2或3所述的方法，其中，将所述关联与关联于各关联对或关联组的所述文档的标识一起存储在用于高效地进行搜索的索引中。

5、根据任一前述权利要求所述的方法，其中，所述文档包括对服务的自然语言描述。

6、根据任一前述权利要求所述的方法，还包括以下步骤：生成关系标识符，其标识第一子空间内的或第一类型的节点与第二子空间内的或第二类型的节点之间的有限数量个独立可能关系中的一个；和将所述关系标识符与所述关联对或关联组一起进行存储。

7、一种检索方法，用于从存储多个电子文档的电子存储装置中检索一个或更多个电子文档，所述文档已经根据权利要求2或从属于权利要求2的任一权利要求的方法而进行了存储，所述检索方法包括以下步骤：

接收表示搜索请求的电子信号，所述搜索请求包括与预定本体的第一类型的节点相关联的至少一第一术语和与预定本体的第二类型的节点相关联的至少一第二术语；

将第一术语与多个所述第一类型的节点进行比较，并且将第二术语与多个所述第二类型的节点进行比较，并且在确定出至少一部分匹配的情况下，对于各个这种节点分配匹配度；

生成至少一个经翻译的搜索请求，所述搜索请求包括至少一个所述第一类型的所述匹配节点、至少一个所述第二类型的所述匹配节点，以及与各个节点相关联的匹配度；

将各个经翻译的搜索请求的各个匹配节点，与由对应于各个存储的电子文档的存储的关联对或关联组所标识的同一类型的对应节点进行比较；

基于所述经翻译的搜索请求与所述存储的关联对或关联组之间的比较结果，来选择检索用的文档；以及

输出表示或标识各个选中的电子文档的电子信号。

8、一种搜索请求生成方法，用于生成在根据权利要求7的方法中使用的搜索请求，所述搜索请求生成方法包括以下步骤：

控制用户界面，以从用户请求第一术语；

控制用户界面，以从用户请求第二术语；

控制用户界面，以请求用户选择多个可能关系类型中的一个，来表达第一术语与第二术语之间的关系；以及

基于用户输入的信息生成搜索请求。

9、一种用于存储并检索电子文档的设备，包括：

电子数据存储部，包括用于存储多个电子文档的装置；

另一电子数据存储装置，用于存储将各个电子文档与预定本体的至少一个第一类型的节点和预定本体的至少一个第二类型的节点相关联的关联对或关联组；

请求生成装置，用于生成包括第一术语和第二术语的搜索请求；

翻译装置，用于通过以下方式生成经翻译的搜索请求，即，将搜索请求的第一术语与第一类型的节点进行比较，并且将搜索请求的第二术语与第二类型的节点进行比较，来找到与搜索请求的术语相对应的特定节点；以及

比较装置，用于将各个经翻译的搜索请求与各个存储的关联对或关联组进行比较，并且选择对其确定了充分接近匹配的文档。

10、根据权利要求9所述的设备，其中，电子数据存储部还包括所述另一电子数据存储装置。

11、一种用于在权利要求8或9的设备中使用的电子数据存储部，所述数据存储部存储多个电子文档，和将各个电子文档与预定本体的至少一个第一类型的节点和至少一个第二类型的节点相关联的关联对或关联组。

12、一种用于执行权利要求1至7中的任一项的方法的计算机程序。

13、承载权利要求12的计算机程序的载体装置。