CN101305370B - 信息分类范例 - Google Patents

信息分类范例 Download PDF

Info

Publication number
CN101305370B
CN101305370B CN200680042170XA CN200680042170A CN101305370B CN 101305370 B CN101305370 B CN 101305370B CN 200680042170X A CN200680042170X A CN 200680042170XA CN 200680042170 A CN200680042170 A CN 200680042170A CN 101305370 B CN101305370 B CN 101305370B
Authority
CN
China
Prior art keywords
document
source document
group
segment
categorized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200680042170XA
Other languages
English (en)
Other versions
CN101305370A (zh
Inventor
文继荣
孙燕峰
W-Y·马
聂再清
R·蒋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101305370A publication Critical patent/CN101305370A/zh
Application granted granted Critical
Publication of CN101305370B publication Critical patent/CN101305370B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Abstract

一种用于将源文档分类到一个或两个类别中的机制,该类别或者可能包含期望信息或者不可能包含期望信息。一般地,利用某种形式的基于规则的分类并结合对于较为困难的情况使用高级技术的较深的分析。该基于规则的分类一般对基于数据之间的一般可辨认关系或基于数据是否存在,来删去各种情况不作进一步考虑或标识感兴趣的文档是有用的。较深的分析被用于揭示可以标识感兴趣的文档的数据之间更为复杂的关系。该过程的各部分可以使用整个文档,而该过程的其他部分可以仅使用文档的一部分。

Description

信息分类范例
技术领域
所公开的主题一般涉及数据处理,尤其涉及基于信息的特定特性将信息组织到分开的分类中。
背景
形成网络的互连计算机可能具有可从中挖掘有用信息的大数据存储库。虽然存在很多示例,但是一个常见的示例是因特网,其中独立主机的分散结构促进了巨大量数据的丰富交换。然而,从相对非结构化的源,诸如HTML或其他类型的文档中挖掘有用信息会是困难的。由于文档的很大程度上的非结构化特性一般不会按照类型、值、目的等来准备好文档中的信息,因此定位和标识相关信息通常是不容易的。随着数据量的增加和更新周期的缩短,从这种数据中提取期望信息变得越来越复杂。
概述
以下提出了本发明的简化概述以向读者提供基本理解。本概述不是本发明的广泛综述,也没有确定本发明的关键/决定性要素或描绘本发明的范围。其唯一的目的是以简化的形式提出此处公开的某些概念,作为对以下提出的更详细描述的序言。
本发明描述了用于将一组源文档分类为可能包括感兴趣的信息和不大可能包括感兴趣的信息的机制。一些示例具有两个基本分类器。一个将文档分类成以下三个组之一:可能包含感兴趣的信息;不大可能包含感兴趣的信息;或需要进一步检查。在许多情况下,这种分类器可被设置成基于根据是否存在至少一个分类标识符来快速地删去大部分文档不作进一步考虑。
第一分类器也可以搜索文件的片断(例如,通常从分类标识符的附近依照一组规则提取的一部分)以获取进一步的信息,以便视图标识应该被分类为可能包含感兴趣的信息的那些文档。
然而,在一些情况中,必须执行更为复杂的分析。由此,第一分类器不能明确地标识的情况被传递给一特征提取器,该特征提取器提取一组特征(可能从片断)并形成一特征向量。该特征向量由第二分类器使用来作出更为复杂的分析,以便确定文档是否可能包含感兴趣的信息。
附图简述
结合附图,能更容易地理解和明白随后的详细描述,其中:
图1是信息分类系统的一个示例的概括功能图;
图2是示例性信息分类系统的更为详细的功能图;
图3是示例性分类系统的流程图;
图4是片断和特征向量创建的功能图示;以及
图5是适用于实现所公开的示例的示例性计算机。
全部附图中采用的相同的参考标号和/或其他参考标号用于标识相同的组件,除了可能是以其他方式提供的。
详细描述
附图和该详细描述提供了与所公开的主题相关的示例性实现,以便于描述并仅用作示例性目的,因此不表示构造和/或使用所公开的主题的一种或多种组件的仅有的形式。此外,虽然该描述阐明了可以被实现为由一个或多个流程图表示的步骤的一个或多个序列的一个或多个示例性操作,但是可以用其他方式来实现相同或等价的操作和/或操作序列。
图1在较高的层面上示出了示例性信息分类系统10。该图被设计成从功能观点示出该系统,而非示出任何具体实现。在系统10中,源文档12可以包含感兴趣的信息,该信息可能被提取以供将来使用或处理,如进一步处理框14所示。然而,可能期望首先将文档排序到分类中而非使得所有源文档12都惊醒进一步处理,其中一种分类具有包含感兴趣的信息的较高的可能性,而另一种分类具有包含感兴趣的信息的较低的可能性。
图1中,由分类器16执行分类,该分类器16将源文档12标识为或者具有包含感兴趣的信息的较高的可能性(源文档18),或者具有包含感兴趣的信息的较低的可能性(源文档20)。
在图1中,源文档12被示为从网络22中存储或检索。然而,这仅是作为说明示出。如何标识源文档12和如何使其对分类器16可用在很大程度上与本发明的核心无关。
作为如何可以采用这种系统的一个实际图示,考虑从因特网标识具有感兴趣的信息的网页的问题。在这样一个图示,网络22于是将是因特网,而源文档12可以是网页或可以包含或不包含感兴趣的信息的其他文档类型。这种源文档可以由网络爬虫(web crawler)来检索,或者通过其他方法使其可用。
作为一个示例,公司可能希望提供与产品相关的信息,包含诸如产品描述、价格、供应商等信息。标识包含产品信息的页面并将其从不包含这种产品信息的网页中区分出来是一项复杂的任务。由于网页或其他文档中的数据是相对非结构化的并且一般不包含足够的描述性信息以便允许从该页面中容易地标识并提取期望的产品信息,使得这项任务更为复杂。然而,如果包含产品信息的网页可以被标识,那么相关的信息可以被提取并且可以按各种方式使用或以各种格式提供。例如,相关信息可以被提取并且在XML购物源中提供,或者目录可以被编译或者被直接汇编等。
返回到图1,分类器被示为将文档分类到一个或两个类别中。然而,分类器也可以提供任意数量的类别。分类器也可以提供附加信息,诸如描述文档有多大的可能包含相关信息的置信水平。最后,分类器可以对分类不作出任何判断,而仅是简单地提供置信水平,并且将进一步的处理留给另一系统或模块。
现在转到图2,示出了诸如分类器16等分类器的示例性功能图示。在图2中,说明性分类器使用两种不同的机制来标识文档是否包含感兴趣的信息。这些机制由基于规则的分类器30和次级分类器32示出。
在许多情况中,感兴趣的信息包含某些可标识特性,此处称为分类标识符。使用上述示例,如果我们对包括价格的产品信息感兴趣,则感兴趣的信息可能包含货币或价格标识符,诸如$表示美元、
Figure S200680042170XD00031
表示欧元等。诸如价格标识符等可标识特性适用于由基于规则的分类器30来标识。此外,通常诸如货币标识符等某些分类标识符可用于快速挑选出具有包含期望信息的较低的可能性的源文档。使用该示例继续,产品页面更有可能具有诸如“$100.00”的价格而非诸如“one hundred dollars(一百美元)”的价格。因此,在该示例中,如果没有定位到货币标识符,那么源文档包含感兴趣的信息的可能性较低,并且可以快速地丢弃这种文档。注意,即使源文档包含货币标识符,它仍然有可能没有感兴趣的信息,但是在该示例中,货币标识符可以快速地删去具有较低可能性的源文档。这种方法节省了计算资源,以便集中在有高的多的可能性具有相关信息的那些情况上。
在图2中,基于规则的分类器30使用规则数据34来定义其行为。规则数据34可以包含诸如分类标识符等信息,该标识符30应该包含或排除应该应用的规则等。注意,在上述示例中,分类标识符被示为文本。然而,注意,分类标识符可以比文本宽泛地多,并且可以包括例如包含在源文档中的结构化元素或数据结构。例如,如果源文档是HTML文档,那么分类标识符可以包括诸如文本、HTML标签、链接、数据等。基本上,源文档的任何标识元素都可以被用作分类标识符。
如图2中所示,分类器30产生三个结果之一。分类器30可以将文档标识为具有较低的可能性包含任何感兴趣的信息。这由源文档组36示出。此外,分类器30可以将文档标识为具有较高的可能性包含感兴趣的信息。这由文档组38示出。最后,可能会有这样的情况,其中分类器30不能确定地判定应该将文档分类到哪个类别中。这由文档组40示出。
虽然按照较高的可能性和较低的可能性描述了分类过程,但是这些术语仅描述了感兴趣的或不感兴趣的文档。实际的分类器可以明确地使用或者可以不明确地使用可能性的概念。在一些情况中,分类准则可以实际上计算可能性度量,接着使用该可能性度量来标识类别。在其他情况中,可能性的概念可以被“内置”到准则分类器中。类似地,当文档被分类为或者是感兴趣的或者不是感兴趣的时候,在某些情况中,也可以有可能性(或置信度量)输出,而在其它情况中,将不输出任何可能性度量。
使用上述示例,如果系统正在查找产品信息,如果文档不包含货币标识符,那么它会被分类为不感兴趣的。使用该规则来设置分类准则使得不存在货币标识符等同于较低的可能性。可以通过分析构造产品信息页面的典型方式或通过其他手段来得出这种规则。
应该注意,由基于规则的分类器30使用的规则可以是基于任何数目或类型的分类标识符的存在与否的。此外,基于规则的分类器30也可以使用其他准则来分类文档。
可能会有某些情况,其中在任何组合的分类标识符的存在与否不能确定地判定文档的分类。在这种情况下,一般需要更深的分析。在一些情况中,对特定的源文档是否包含感兴趣的信息标识需要对更为复杂的因素的分析,诸如包含在文档中的信息的类型、信息类型之间的相互关系、信息的内容等。
在这种情况中,基于规则的引擎可能不是用于标识哪些源文档包含感兴趣的信息的最为合适的工具。在图2所示的示例中,由特征提取器42和次级分类器32来执行更为复杂的分析。
特征提取器42从文档组40中的文档中提取至少一个特征,其分量可以由特征向量44来表示。接着由次级分类器32来分析特征向量44。次级分类器32可以是使用诸如模型数据46等模型数据的类型。如果分类器32是这一类型,则使用模型数据46,次级分类器32接着将文档分类为具有感兴趣的信息,由文档组48表示。注意,文档组38和48的组合得出在图1中被标识为18的文档组。
通常需要由分类器32执行的更为复杂的分析来揭开指示文档是否包含感兴趣的信息的文档特征之间的复杂关系。如上所述,由分类器32使用的机制可以使用诸如模型数据46等模型数据来捕捉复杂的相互关系,该相互关系允许将包含感兴趣的信息的文档与缺乏感兴趣的信息的文档区分开来。通常使用一组训练数据50结合模型训练器52来创建模型数据46。
许多不同类型的技术和机制可以适用于次级分类器32。作为示例而非局限,这种机制可以包括诸如Kalman等基于过滤或估算的分类器、最大似然过滤器或某种贝叶斯方法、神经网络或其他模式识别方法或各种其他技术。在一个示例中,次级分类器32可以是基于支持矢量机(SVM)的。基于SVM的分类器是基于结构上的风险最小化而非经验主义风险最小化的观念作为前提的。它将诸如特征向量44等输入向量映射到高维空间,并且应用在两个分类之间留出最大余量的超平面。给定一标记的训练数据集:
D = { X i , y i } i t = 1
其中
yi∈{1,-1}
SVM的相应的判决函数具有以下形式:
f ( X ) = sign ( Σ i = 1 d α i y i K ( X i , X ) - b )
其中K是核函数。典型的核函数包括但不限于多项式核函数、高斯RBF核函数、s型曲线核函数等。SVM技术是公知的,并且在各种参考文献和出版物中都有描述,因此无需在此赘述。
虽然使用了基于规则的分类器30和次级分类器32两者示出了该讨论,但是这仅是出于示例的目的。一个特定实现可以具有分类器的不同组合、基于不同的技术。
在图2的上述讨论中,应该清楚,该描述的核心可以是与场所和语言无关的。然而,在一具体应用中,分类模型可能是语言或场所相关的。再次返回到其中分类器30查找货币标识符以执行粗略分类的示例中,分类器30需要查找哪个货币标识符可以是基于源文档的语言或场所(或两者)的。由此,取决于源文档的特定语言或场所,规则数据34和/或模型数据46可以是不同的。此外,取决于任意数量的其他因素,规则数据34和/或模型数据46也可以是不同的。换言之,语言和场所仅是当选择规则和/或模型数据时可以考虑的因素的示例。
语言或场所或其他因素不仅可以影响规则数据34和/或模型数据46,而且在一些情况中也可以影响分类系统的结构。例如,取决于语言、场所或某些其他因素或其组合,可能期望以不同的顺序应用规则。
虽然为了示例起见,图2示出了基于规则的分类器30和次级分类器32是分开的,但应该注意,也可以将它们组合成单个分类实体中或者以不同的次序来应用它们。
现在转向图3,将相对于一流程图示出一具体示例。在该示例中,通常会给出对步骤的一般描述之后是一个或多个更为具体的示例。具体的一个示例(或多个示例)仅是出于说明的目的,而并不旨在限制本发明的最终范围。
图3中的过程始于搜索源文档60以获取至少一个分类标识符62。这由判决框64示出。注意,判决框64可以查找是否存在特定的分类标识符。此外,判决框64可以不是查找是否存在特定的分类标识符,而是查找是否存在分类标识符的模式或集。其他选项也是可能的。
在一个代表性示例中,判决框64测试是否存在可用于排除源文档不作进一步考虑的至少一个标识符。例如,如果一组货物或服务的价格是感兴趣的,并且如果描述该货物或服务的价格的大多数源文档都使用货币标识符,那么判决框64可以测试是否存在合适的货币标识符。在一个不同的示例中,如果被表示为百分数的数据是感兴趣的,那么可以由框64测试包含“%”符号(或其等价形式)的分类标识符。在又一示例中,可能具有特定链接的HTML页面的集合体是感兴趣的,并且可以测试具有链接特性的分类标识符。
如果框64判定不存在(或存在,取决于如何设置测试)期望的分类标识符,那么该文档会被分类为不感兴趣的,如框66所示,并且可以检查下一文档(如果有的话)。
如果框64判定存在(或不存在,取决于如何设置测试)期望的分类标识符,那么框68从文档中提取适当的分类标识符片断。
在许多情况中,感兴趣的文档中的相关信息具有某种“接近性(closeness)”。例如,如果对价格感兴趣,那么很可能货币标识符后紧接数字值将是感兴趣的。由此,可能对文档的子集(称为片断)而非整个文档工作。如此处所使用的,片断是文档的一部分,它少于或等于整个文档。此外,片断提供可用于将规则的适用性限制在基于规则的分类器中的自然窗口。例如,对期望在非常接近分类标识符处找到的关键词或短语的搜索可以由文本文档中的段落断开来限制。在其他类型的文档中,可以使用其他准则来确定提取哪个部分作为片断。
包含很大程度上是非结构化的数据的许多(如果不是大多数)源文档仍包含可用于协助确定可能有感兴趣的信息的结构。例如,除了与之相关联的文本或信息之外,文本文档可以具有段落、页、句子、图、表格或其他结构。除了与以下这些项目的每一个相关联的数据的值之外,HTML文档可以具有各种标签、数据结构、分量、控件、可执行代码等。
在使用HTML文档的一个示例中,片断可以包含分类标识符之前和/或之后的某一数目的标签。该数目可以被设置为某一初始数目,并接着依照各种准则来进行调节或调整。在一个实施例中,所采用的片断是分类标识符之前的10个标签和之后的10个标签,然而其他值是有用的并且可以在替换实施例中使用。在使用文本文档的另一示例中,片断可以包含分类标识符之前和/或之后的某一数目的单词、句子、段落或页。
此外,可以通过仅使用某些特征来计算要将多少文档包括在片断中来创建片断。例如,假设源文档以HTML存储,并且通过仅检查某些类型的标签结构(例如某些标签结构不携带可用于作出可能性判定的信息)能更为容易地辨别文档包含感兴趣的信息的可能性。在此情况中,当考虑片断时仅考虑某些类型的标签可能是合乎需要的。在一具体示例中,考虑四个元素:<A>标签;<IMG>标签;<INPUT>标签和文本元素。如果文档是文本文档或其他类型的文档,那么当选择片断时将重要考虑的结构或特征会是不同的,但是原理保持相同。
一旦标识了至少一个相关片断,那么判决框70使用标识片断短语72和/或74来定位趋于指示包含感兴趣的信息的文档的分类标识符周围的短语。标识片断短语也可以被称为“关键词”。重要的是注意,这些片断短语/关键词可以不仅是简单的文本。片断短语/关键词可以是文档中的任何信息、对象、构造、数据等。在图3中,在72和74中示出了片断短语的一个具体示例。在图3中,将标识片断短语72作为可能在感兴趣的文档中的分类标识符周围的文本中找到的短语的目标,而将标识片断短语74作为可能在分类标识符周围的链接中找到的短语的目标。
当源文档是HTML时,这种安排尤其有用。在其他类型的源文档中,其他类型的片断短语会是有用的。然而,这示出了这样一种情况,短语取决于分类标识符周围的结构或数据的类型而变化,可能期望搜索不同类型的结构的不同短语。
假设找到了相关短语,那么就将文档分类为感兴趣的,如在框76中所示。如果没有找到相关短语,那么就在框78中进行特征提取。
虽然框70被示为搜索短语,但是也可以将框70配置成搜索短语的缺乏、多个短语的存在与否的某个组合或其他类型的逻辑。
在图3中,虚线80以上的框表示基于规则的分类器的一个可能的示例,诸如图2中所示的基于规则的分类器30。注意,在该具体示例中,趋于将规则编码成分类器的结构。然而,在替换示例中,规则可以用某种逻辑类型语言来表达,并且可用于定制更为一般的基于规则的分类器。
如果片断不包含分类标识符周围的搜索短语,那么为了判定文档是否可能包含感兴趣的信息,可能需要对包含在片断中的信息的更为复杂的分析。由此,框78示出了从片断中提取特征使得可以进一步检查它们。在图3的虚线80和82之间所示的框78是图2的特征提取器的一种可能的示例。
暂时转向图4,将讨论有关特征提取的更多细节。在图4中,文档110表示可能包含感兴趣的信息的文档。如上所述,即使这种文档在较大程度上是非结构化的,但是它们通常具有对于标识文档是否包含感兴趣的信息有用的至少某些结构。
在图4中,这些结构由文档对象(标记为112、114、116和118)及其相关联的对象信息(标记为122、124、126和128)示出。如此处所使用的,术语对象是非常宽泛的。它包括文档中的任何结构。对象的示例包括但不限于HTML标签、链接、可执行对象、构造、按钮、控件、段落、表格、页等。通常,对象将具有诸如文本、值等相关联的对象信息。
在图4中,片断由虚线132示出。片断132是由图3的框68所标识的片断的示例。片断132由特征提取器130处理,以便提取感兴趣的特征。特征提取器130是图2的特征提取器42的另一示例。
特征是文档或片断中感兴趣的某些方面。如将从以下示例中更为清除的,特征不仅包括文档中的对象,也包括与该对象相关联的信息、可以通过处理信息(诸如计算比率、依照度量评估信息等)来提取的信息、或者可以有助于确定文档是否包含感兴趣的信息的文档的任何其他方面。
一旦由特征提取器130从片断132中提取出期望的特征,它们通常被组装成一特征向量,诸如图4的特征向量134。如此处所使用的,术语“向量”并非用于指任何特定类型的数据结构。相反,该术语用作参考被提取以供在系统中进一步使用的特征集合的一种有用手段。
为了从片断中提取特征,必须建立一组规则以便标识对哪些特征感兴趣。一般地,对哪些特征感兴趣将基于感兴趣的特定信息。换言之,给定感兴趣的特定类型的信息以及可能包含这种信息的片断,在标识片断是否包含期望信息时片断中的某些特征可能比其他的更为重要。然而,哪些特征是重要的通常是不清楚的,因为仅可以基于片断的特征之间的一组复杂的关系来作出判定。
由此,可能期望的是(至少一开始)标识和提取较大的一组特征,以便形成一特征向量,接着可以用SVM或其他合适的方法检查该特征向量以便获取这一组复杂关系。在使用HTML文档作为源文档并查找描述产品的页面的代表性示例中,一个示例性特征向量可以包含以下表1中的部分或全部特征。
特征号 描述
1 包含图片的片断
2 包含链接的片断
3 包含具有链接的图片的片断
4 包含具有与另一链接相同的链接的图片的片断
5 包含jpg图像的片断
6 包含“input””或“submit”标签的片断
7 包含在其文本中具有用于指示精确价格(例如,小于10)的足够字符的价格标签的片断
8 在其他自由文本中具有货币符号的片断,不将包含价格标识符的标签计算在内
9 包含具有链接属性的价格标签的片断
10 包含具有相同链接的两个标签的片断
11 包含隐藏的输入标签的片断
12 包含具有在任何其他标签中的所有自由文本的替换文本的图像标签的片断
13 包含具有替换文本的jpg图像的片断
14 包含具有图像、链接和文本的标签的片断
15 图像标签与标签总数之比
16 具有自由文本的标签与标签总数之比
  17   具有链接的标签与标签总数之比
  18   具有图像和链接的标签与标签总数之比
  19   具有文本和链接的标签与标签总数之比
  20   具有图像、文本和链接的标签与标签总数之比
表1示例性特征向量
在另一示例中,特征向量可以包括以下表2中的部分或全部特征:
特征号 特征描述
1 以字符为单位的平均单词长度
2 以字符为单位的计算所得的平均单词长度
3 以字符为单位的平均段落长度
4 以单词为单位的平均段落长度
5 以句子为单位的平均段落长度
6 以字符为单位的平均章节长度
7 以段落为单位的平均章节长度
8 以句子为单位的平均章节长度
9 以单词为单位的平均章节长度
10 以字符为单位的平均句子长度
11 以单词为单位的平均句子长度
12 以字符为单位计算所得的文档长度
13 以单词为单位计算所得的文档长度
14 长度为N的单词的数目
15 文档中单词长度的标准差
16 文档中单词长度的方差
17 非空格字符的数目
18 总字符的数目
19 单词的数目
20 单词计数的平方根
21 单词技术的四次方根
22 拼写错误的数目(总数)
23 可能的打字错误的数目(参看自动纠正)
24 可能的非打字错误拼写错误的数目
25 句子的数目(标点符号划界)
26 被动句的数目
27 主动句的数目
28 语法错误的数目
29 段落的数目
30 章节的数目
31 页数
32 拼写错误计数与字符计数之比
33 拼写错误计数与总字符计数之比
34 拼写错误计数与单词计数之比
35 拼写错误计数与句子计数之比
36 拼写错误计数与段落计数之比
37 可能的打字错误与字符计数之比
38 可能的打字错误与总字符计数之比
39 可能的打字错误与单词计数之比
40 可能的打字错误与拼写错误计数之比
41 可能的打字错误与句子计数之比
42 可能的打字错误与语法错误计数之比
43 可能的打字错误与段落计数之比
44 非空格字符计数与总字符计数之比
45 语法错误计数与ns字符计数之比
46 语法错误计数与总字符计数之比
47 语法错误计数与单词计数之比
48 语法错误计数与句子计数之比
49 语法错误计数与段落计数之比
50 被动句与主动句之比
51 被动据与所有句子之比
52  Flesch-Kincaid阅读方便统计
53  Flesch-Kincaid等级
表2示例性特征向量
当然,表1和表2中所列出的可能的特征仅表示可能的示例,并不旨在指示必须使用所有的特征。实际上,分析可以指示可以减少特征集(有时称为特征切除),而对分类的精确性只有极少或没有影响。一般地,期望使用给出足够准确度的最小特征集。
现在返回到图3,一旦创建了特征向量84,在框86中由SVM模型处理该特征向量。该处理将导致分类判定,如框88中所示。框90指示片断包含感兴趣的信息,且源文档被标识为感兴趣的。
如果片断被分类为不包含感兴趣的信息,那么框92指示该过程将继续,只要有更多的分类标识符位于文档中。当找不到更多的分类标识符时,就检查下一文档(如果有的话)。
如SVM模型数据94所示,框86中的SVM模型必须具有输入,以便将片断分类为具有或不具有感兴趣的信息。如上所述,取决于各种信息,诸如源文档的场所或语言,SVM模型数据可以是不同的。
通常通过训练过程开发SVM模型数据94。这由用虚线框96作轮廓的过程示出。在该过程中,通常分析和标记训练文档以便产生被标识为具有或不具有感兴趣的信息的文档(框98、100、102)。接着由SVM模型训练器分析文档(由框104示出)。
此处所公开的示例和实施例可以用各种计算设备来实现。一般地,计算设备可以包括各种组件。一个示例性计算设备在图5中示出。在其最基本的配置中,计算设备140一般包含至少一个处理单元142和存储器144。取决于计算设备的确切配置和类型,存储器144可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等等)或这两者的某个组合。此外,在某些实施例中,计算设备142也可具有大容量存储(可移动的和/或不可移动的),诸如磁盘或光盘、固态可移动存储器或磁带。这些在图5中一般地由146和148示出。类似地,计算设备140也可以具有诸如键盘或键区、定点设备或其他类型的输入设备等输入设备和/或诸如显示器或其他输出设备等输出设备。这些在图5中一般地由150和152示出。在与其他设备或网络的通信是重要的,诸如感兴趣的源文档是通过网络访问的实施例中,计算设备140也可具有用于与其他设备或网络通信的一种或多种机制。这些在图5中由154示出。这种类型的通信机制包括使用有线或无线介质到其他设备、计算机、网络、服务器等的网络连接。所有这些在本领域都是公知的,并且无需在此赘述。
此外,虽然以上采用了特定的示例或可能的实现,但是对于申请人或本领域的其他技术人员可能产生当前无法预料或当前可能无法预料的改变、修改、变体、改进和基本等价形式。因此,所提交并且可以修改的所附权利要求书旨在包含所有这种改变、修改、变体、改进和基本等价形式。此外,所述的处理要素或序列的次序或对数字、字母或其他标记的使用由此并不旨在将所要求保护的过程限于任何次序,除非在权利要求书中指定。

Claims (14)

1.一种用于信息分类的方法,包括:
至少部分地基于至少一个分类标识符,将一组初始源文档分类到至少三个组之一,所述至少三个组包括:包含感兴趣的文档的第一组、包含不感兴趣的文档的第二组、和包含兴趣级别不确定的文档的第三组,其中所述一组初始源文档通过以下步骤被分类到所述三个组中:
选择所述源文档之一;
确定至少一个分类标识符是否存在于所述源文档中;
如果所述至少一个分类标识符不存在于所述源文档中,则将所述源分档分类到所述第二组中;
如果所述至少一个分类标识符存在于所述源文档中,则至少部分地基于所述分类标识符通过使用片断提取器从所述源文档中提取一片断,并确定至少一个关键词是否存在于所述片断中;以及
如果至少一个关键词存在于所述片断中,则将所述源文档分类到所述第一组,否则,将所述源文档分类到所述第三组中;以及
对于被分类到所述第三组中的每个文档:
从文档中提取至少一个特征向量;以及
基于所述至少一个特征向量,将所述源文档分类到所述第一组或所述第二组中。
2.如权利要求1所述的方法,其特征在于,所述分类标识符是取决于语言或场所中的至少一个或两者的。
3.一种用于信息分类的方法,包括:
判定在源文档中是否存在至少一个标识符;
如果所述至少一个标识符没有存在于所述源文档中,则将所述源文档分类成不感兴趣的;
如果所述至少一个标识符存在于所述源文档中,则从所述源文档提取表示至少一个标识符周围的多个文档元素的至少一个片断;
标识是否一个或多个关键词指示符存在于所述片断内;
如果标识了至少一个关键词,则将所述源文档分类为感兴趣的,否则,将所述源文档分类为需要进一步检查;
如果所述源文档需要进一步检查,则生成表示所述源文档中的信息的多个特性的至少一个特征向量;以及
基于所生成的至少一个特征向量,将所述源文档分类为感兴趣的或不感兴趣的。
4.一种用于信息分类的系统,包括:
第一分类器,它适用于将一组初始源文档分类到至少三个组之一,所述三个组是:包含感兴趣的文档的第一组、包含不感兴趣的文档的第二组、和包含兴趣级别不确定的文档的第三组,所述第一分类器具有包括用于作出其分类决定的至少一个语言相关分类标识符的输入,其中所述第一分类器执行以下方法:
确定在源文档中是否存在所述至少一个语言相关分类标识符;
如果在所述源文档中不存在所述至少一个分类标识符,则将所述源文档分类到所述第二组中;
如果在所述源文档中存在所述至少一个分类标识符,则从所述源文档中提取一片断并且判定在所述片断中是否存在至少一个关键词;
如果在所述片断中存在至少一个关键词,则将所述源文档分类到所述第一组中,否则将所述源文档分类到所述第三组中;
特征提取器,它适用于从被分类到所述第三组中的文档中提取特征并形成至少一个特征向量;以及
次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源文档分类到所述第一组或所述第二组中。
5.如权利要求4所述的系统,其特征在于,所述至少一个语言相关分类标识符包括货币标识符。
6.如权利要求5所述的系统,其特征在于,所述至少一个关键词包括将指示所述货币标识符与价格相关联的信息。
7.如权利要求4所述的系统,其特征在于,所述至少一个特征向量包括通过取至少一种类型的HTML标签的计数与文档中HTML标签的总数之比来计算的比率度量。
8.如权利要求4所述的系统,其特征在于,所述至少一个特征向量包括以下各项的至少一个:
图像元素;
链接元素;
文本元素;或
比率度量。
9.如权利要求4所述的系统,其特征在于,还包括片断提取器,它适用于提取所述源文档的片断,所述片断接着由所述特征提取器用于提取特征以获取所述至少一个特征向量。
10.如权利要求9所述的系统,其特征在于,所述片断是基于在源文档中可用的总的结构类型的子集来选择的。
11.一种用于信息分类的系统,包括:
第一分类器,它适用于通过以下方法将一组初始源文档分类到至少三个组之一,所述三个组是:包含感兴趣的文档的第一组、包含不感兴趣的文档的第二组、和包含兴趣级别不确定的文档的第三组;
判定在源文档中是否存在至少一个分类标识符;
如果在所述源文档中不存在所述至少一个分类标识符,则将所述源文档分类到所述第二组中;
如果在所述源文档中存在所述至少一个分类标识符,则从所述源文档中提取一片断并且判定在所述片断中是否存在至少一个关键词;
如果在所述片断中存在至少一个关键词,则将所述源文档分类到所述第一组中,否则将所述源文档分类到所述第三组中;
特征提取器,它适用于从与被分类到所述第三组中的文档相关联的片断中提取特征并用于从所述片断形成至少一个特征向量;以及
次级分类器,它适用于接收包括至少一个特征向量和模型信息的输入,并且还适用于基于所述至少一个特征向量和所述模型信息,将与所述至少一个特征向量相关联的源文档分类到所述第一组或所述第二组中。
12.如权利要求11所述的系统,其特征在于,所述至少一个特征向量包括通过取至少一种类型的HTML标签的计数与文档中HTML标签的总数之比来计算的比率度量。
13.如权利要求11所述的系统,其特征在于,所述至少一个特征向量包括以下各项的至少一个:
图像元素;
链接元素;
文本元素;或
比率度量。
14.如权利要求11所述的系统,其特征在于,所述至少一个分类标识符包括货币标识符。
CN200680042170XA 2005-11-15 2006-11-15 信息分类范例 Expired - Fee Related CN101305370B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US73667605P 2005-11-15 2005-11-15
US60/736,676 2005-11-15
US11/276,818 2006-03-15
US11/276,818 US7529748B2 (en) 2005-11-15 2006-03-15 Information classification paradigm
PCT/US2006/044476 WO2007059272A1 (en) 2005-11-15 2006-11-15 Information classification paradigm

Publications (2)

Publication Number Publication Date
CN101305370A CN101305370A (zh) 2008-11-12
CN101305370B true CN101305370B (zh) 2013-03-06

Family

ID=38042114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680042170XA Expired - Fee Related CN101305370B (zh) 2005-11-15 2006-11-15 信息分类范例

Country Status (5)

Country Link
US (1) US7529748B2 (zh)
EP (1) EP1955220A4 (zh)
KR (1) KR101312770B1 (zh)
CN (1) CN101305370B (zh)
WO (1) WO2007059272A1 (zh)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7581077B2 (en) 1997-10-30 2009-08-25 Commvault Systems, Inc. Method and system for transferring data in a storage operation
US6418478B1 (en) * 1997-10-30 2002-07-09 Commvault Systems, Inc. Pipelined high speed data transfer mechanism
US7035880B1 (en) 1999-07-14 2006-04-25 Commvault Systems, Inc. Modular backup and retrieval system used in conjunction with a storage area network
US7389311B1 (en) 1999-07-15 2008-06-17 Commvault Systems, Inc. Modular backup and retrieval system
US7395282B1 (en) 1999-07-15 2008-07-01 Commvault Systems, Inc. Hierarchical backup and retrieval system
US6658436B2 (en) 2000-01-31 2003-12-02 Commvault Systems, Inc. Logical view and access to data managed by a modular data and storage management system
US7155481B2 (en) 2000-01-31 2006-12-26 Commvault Systems, Inc. Email attachment management in a computer system
US7003641B2 (en) 2000-01-31 2006-02-21 Commvault Systems, Inc. Logical view with granular access to exchange data managed by a modular data and storage management system
AU2003270482A1 (en) 2002-09-09 2004-03-29 Commvault Systems, Inc. Dynamic storage device pooling in a computer system
US8370542B2 (en) 2002-09-16 2013-02-05 Commvault Systems, Inc. Combined stream auxiliary copy system and method
US7246207B2 (en) 2003-04-03 2007-07-17 Commvault Systems, Inc. System and method for dynamically performing storage operations in a computer network
US7454569B2 (en) 2003-06-25 2008-11-18 Commvault Systems, Inc. Hierarchical system and method for performing storage operations in a computer network
WO2005065084A2 (en) 2003-11-13 2005-07-21 Commvault Systems, Inc. System and method for providing encryption in pipelined storage operations in a storage network
WO2005050381A2 (en) 2003-11-13 2005-06-02 Commvault Systems, Inc. Systems and methods for performing storage operations using network attached storage
WO2005048085A2 (en) 2003-11-13 2005-05-26 Commvault Systems, Inc. System and method for performing an image level snapshot and for restoring partial volume data
WO2006052872A2 (en) 2004-11-05 2006-05-18 Commvault Systems, Inc. System and method to support single instance storage operations
US7490207B2 (en) * 2004-11-08 2009-02-10 Commvault Systems, Inc. System and method for performing auxillary storage operations
US8271548B2 (en) * 2005-11-28 2012-09-18 Commvault Systems, Inc. Systems and methods for using metadata to enhance storage operations
US20070185926A1 (en) * 2005-11-28 2007-08-09 Anand Prahlad Systems and methods for classifying and transferring information in a storage network
US8930496B2 (en) 2005-12-19 2015-01-06 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
EP1974296B8 (en) 2005-12-19 2016-09-21 Commvault Systems, Inc. Systems and methods for performing data replication
US7962709B2 (en) 2005-12-19 2011-06-14 Commvault Systems, Inc. Network redirector systems and methods for performing data replication
US7617262B2 (en) 2005-12-19 2009-11-10 Commvault Systems, Inc. Systems and methods for monitoring application data in a data replication system
US20200257596A1 (en) 2005-12-19 2020-08-13 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
US7636743B2 (en) 2005-12-19 2009-12-22 Commvault Systems, Inc. Pathname translation in a data replication system
US8655850B2 (en) 2005-12-19 2014-02-18 Commvault Systems, Inc. Systems and methods for resynchronizing information
US7651593B2 (en) 2005-12-19 2010-01-26 Commvault Systems, Inc. Systems and methods for performing data replication
US7606844B2 (en) 2005-12-19 2009-10-20 Commvault Systems, Inc. System and method for performing replication copy storage operations
US8725711B2 (en) * 2006-06-09 2014-05-13 Advent Software, Inc. Systems and methods for information categorization
US8726242B2 (en) 2006-07-27 2014-05-13 Commvault Systems, Inc. Systems and methods for continuous data replication
US7882077B2 (en) 2006-10-17 2011-02-01 Commvault Systems, Inc. Method and system for offline indexing of content and classifying stored data
US8370442B2 (en) 2008-08-29 2013-02-05 Commvault Systems, Inc. Method and system for leveraging identified changes to a mail server
US20080228771A1 (en) 2006-12-22 2008-09-18 Commvault Systems, Inc. Method and system for searching stored data
US8312323B2 (en) 2006-12-22 2012-11-13 Commvault Systems, Inc. Systems and methods for remote monitoring in a computer network and reporting a failed migration operation without accessing the data being moved
US8719809B2 (en) 2006-12-22 2014-05-06 Commvault Systems, Inc. Point in time rollback and un-installation of software
US8290808B2 (en) 2007-03-09 2012-10-16 Commvault Systems, Inc. System and method for automating customer-validated statement of work for a data storage environment
US7836174B2 (en) 2008-01-30 2010-11-16 Commvault Systems, Inc. Systems and methods for grid-based data scanning
US8296301B2 (en) 2008-01-30 2012-10-23 Commvault Systems, Inc. Systems and methods for probabilistic data classification
US8204859B2 (en) 2008-12-10 2012-06-19 Commvault Systems, Inc. Systems and methods for managing replicated database data
US9495382B2 (en) 2008-12-10 2016-11-15 Commvault Systems, Inc. Systems and methods for performing discrete data replication
US8713007B1 (en) 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
CN102656553B (zh) 2009-09-09 2016-02-10 瓦欧尼斯系统有限公司 企业级数据管理
US20110061093A1 (en) * 2009-09-09 2011-03-10 Ohad Korkus Time dependent access permissions
US10229191B2 (en) 2009-09-09 2019-03-12 Varonis Systems Ltd. Enterprise level data management
US8442983B2 (en) 2009-12-31 2013-05-14 Commvault Systems, Inc. Asynchronous methods of data classification using change journals and other data structures
US8504517B2 (en) 2010-03-29 2013-08-06 Commvault Systems, Inc. Systems and methods for selective data replication
US8725698B2 (en) 2010-03-30 2014-05-13 Commvault Systems, Inc. Stub file prioritization in a data replication system
US8352422B2 (en) 2010-03-30 2013-01-08 Commvault Systems, Inc. Data restore systems and methods in a replication environment
US8504515B2 (en) 2010-03-30 2013-08-06 Commvault Systems, Inc. Stubbing systems and methods in a data replication environment
US10296596B2 (en) 2010-05-27 2019-05-21 Varonis Systems, Inc. Data tagging
EP2577444A4 (en) 2010-05-27 2014-04-02 Varonis Systems Inc DATA CLASSIFICATION
US8589347B2 (en) 2010-05-28 2013-11-19 Commvault Systems, Inc. Systems and methods for performing data replication
CN102033965A (zh) * 2011-01-17 2011-04-27 安徽海汇金融投资集团有限公司 一种基于分类模型的数据分类方法及系统
US9021198B1 (en) 2011-01-20 2015-04-28 Commvault Systems, Inc. System and method for sharing SAN storage
US9680839B2 (en) 2011-01-27 2017-06-13 Varonis Systems, Inc. Access permissions management system and method
EP2668563A4 (en) 2011-01-27 2015-06-10 Varonis Systems Inc METHOD AND SYSTEM FOR MANAGING ACCESS AUTHORIZATIONS
US8719264B2 (en) 2011-03-31 2014-05-06 Commvault Systems, Inc. Creating secondary copies of data based on searches for content
US9298715B2 (en) 2012-03-07 2016-03-29 Commvault Systems, Inc. Data storage system utilizing proxy device for storage operations
US9471578B2 (en) 2012-03-07 2016-10-18 Commvault Systems, Inc. Data storage system utilizing proxy device for storage operations
US9342537B2 (en) 2012-04-23 2016-05-17 Commvault Systems, Inc. Integrated snapshot interface for a data storage system
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation
US8892523B2 (en) 2012-06-08 2014-11-18 Commvault Systems, Inc. Auto summarization of content
US20150178563A1 (en) * 2012-07-23 2015-06-25 Hewlett-Packard Development Company, L.P. Document classification
KR101374900B1 (ko) * 2012-12-13 2014-03-13 포항공과대학교 산학협력단 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
US10379988B2 (en) 2012-12-21 2019-08-13 Commvault Systems, Inc. Systems and methods for performance monitoring
US9262435B2 (en) 2013-01-11 2016-02-16 Commvault Systems, Inc. Location-based data synchronization management
US9886346B2 (en) 2013-01-11 2018-02-06 Commvault Systems, Inc. Single snapshot for multiple agents
US10354187B2 (en) * 2013-01-17 2019-07-16 Hewlett Packard Enterprise Development Lp Confidentiality of files using file vectorization and machine learning
US9251363B2 (en) 2013-02-20 2016-02-02 Varonis Systems, Inc. Systems and methodologies for controlling access to a file system
CN104281603B (zh) * 2013-07-05 2018-01-19 北大方正集团有限公司 字频分级统计方法及系统
US8886671B1 (en) 2013-08-14 2014-11-11 Advent Software, Inc. Multi-tenant in-memory database (MUTED) system and method
US9753812B2 (en) 2014-01-24 2017-09-05 Commvault Systems, Inc. Generating mapping information for single snapshot for multiple applications
US9639426B2 (en) 2014-01-24 2017-05-02 Commvault Systems, Inc. Single snapshot for multiple applications
US9495251B2 (en) 2014-01-24 2016-11-15 Commvault Systems, Inc. Snapshot readiness checking and reporting
US9632874B2 (en) 2014-01-24 2017-04-25 Commvault Systems, Inc. Database application backup in single snapshot for multiple applications
US10042716B2 (en) 2014-09-03 2018-08-07 Commvault Systems, Inc. Consolidated processing of storage-array commands using a forwarder media agent in conjunction with a snapshot-control media agent
US9774672B2 (en) 2014-09-03 2017-09-26 Commvault Systems, Inc. Consolidated processing of storage-array commands by a snapshot-control media agent
US9448731B2 (en) 2014-11-14 2016-09-20 Commvault Systems, Inc. Unified snapshot storage management
US9648105B2 (en) 2014-11-14 2017-05-09 Commvault Systems, Inc. Unified snapshot storage management, using an enhanced storage manager and enhanced media agents
WO2016103519A1 (ja) * 2014-12-26 2016-06-30 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
US9898213B2 (en) 2015-01-23 2018-02-20 Commvault Systems, Inc. Scalable auxiliary copy processing using media agent resources
US9904481B2 (en) 2015-01-23 2018-02-27 Commvault Systems, Inc. Scalable auxiliary copy processing in a storage management system using media agent resources
US10354188B2 (en) 2016-08-02 2019-07-16 Microsoft Technology Licensing, Llc Extracting facts from unstructured information
US10318564B2 (en) 2015-09-28 2019-06-11 Microsoft Technology Licensing, Llc Domain-specific unstructured text retrieval
CN105706088A (zh) * 2016-01-31 2016-06-22 深圳市博信诺达经贸咨询有限公司 大数据的应用方法及系统
US20170249594A1 (en) * 2016-02-26 2017-08-31 Linkedln Corporation Job search engine for recent college graduates
US10503753B2 (en) 2016-03-10 2019-12-10 Commvault Systems, Inc. Snapshot replication operations based on incremental block change tracking
JP6235082B1 (ja) * 2016-07-13 2017-11-22 ヤフー株式会社 データ分類装置、データ分類方法、およびプログラム
US10540516B2 (en) 2016-10-13 2020-01-21 Commvault Systems, Inc. Data protection within an unsecured storage environment
US10922189B2 (en) 2016-11-02 2021-02-16 Commvault Systems, Inc. Historical network data-based scanning thread generation
US10389810B2 (en) 2016-11-02 2019-08-20 Commvault Systems, Inc. Multi-threaded scanning of distributed file systems
US11010261B2 (en) 2017-03-31 2021-05-18 Commvault Systems, Inc. Dynamically allocating streams during restoration of data
US10984041B2 (en) 2017-05-11 2021-04-20 Commvault Systems, Inc. Natural language processing integrated with database and data storage management
US10732885B2 (en) 2018-02-14 2020-08-04 Commvault Systems, Inc. Block-level live browsing and private writable snapshots using an ISCSI server
US10642886B2 (en) 2018-02-14 2020-05-05 Commvault Systems, Inc. Targeted search of backup data using facial recognition
US11159469B2 (en) 2018-09-12 2021-10-26 Commvault Systems, Inc. Using machine learning to modify presentation of mailbox objects
US11042318B2 (en) 2019-07-29 2021-06-22 Commvault Systems, Inc. Block-level data replication
US11494417B2 (en) 2020-08-07 2022-11-08 Commvault Systems, Inc. Automated email classification in an information management system
US11348617B1 (en) 2021-03-08 2022-05-31 Bank Of America Corporation System for implementing content retrofitting using information vectorization
US11593223B1 (en) 2021-09-02 2023-02-28 Commvault Systems, Inc. Using resource pool administrative entities in a data storage management system to provide shared infrastructure to tenants
US11809285B2 (en) 2022-02-09 2023-11-07 Commvault Systems, Inc. Protecting a management database of a data storage management system to meet a recovery point objective (RPO)

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092059A (en) * 1996-12-27 2000-07-18 Cognex Corporation Automatic classifier for real time inspection and classification
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6484149B1 (en) * 1997-10-10 2002-11-19 Microsoft Corporation Systems and methods for viewing product information, and methods for generating web pages
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
WO2001027712A2 (en) 1999-10-12 2001-04-19 The Shopper Inc. A method and system for automatically structuring content from universal marked-up documents
US6892191B1 (en) * 2000-02-07 2005-05-10 Koninklijke Philips Electronics N.V. Multi-feature combination generation and classification effectiveness evaluation using genetic algorithms
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
JP4552296B2 (ja) * 2000-09-08 2010-09-29 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
US20040138946A1 (en) * 2001-05-04 2004-07-15 Markus Stolze Web page annotation systems
US7778872B2 (en) * 2001-09-06 2010-08-17 Google, Inc. Methods and apparatus for ordering advertisements based on performance information and price information
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US20030225763A1 (en) * 2002-04-15 2003-12-04 Microsoft Corporation Self-improving system and method for classifying pages on the world wide web
US7165068B2 (en) 2002-06-12 2007-01-16 Zycus Infotech Pvt Ltd. System and method for electronic catalog classification using a hybrid of rule based and statistical method
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7035841B2 (en) * 2002-07-18 2006-04-25 Xerox Corporation Method for automatic wrapper repair
US7349917B2 (en) * 2002-10-01 2008-03-25 Hewlett-Packard Development Company, L.P. Hierarchical categorization method and system with automatic local selection of classifiers
US7386527B2 (en) * 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
WO2004088479A2 (en) * 2003-03-26 2004-10-14 Victor Hsieh Online intelligent multilingual comparison-shop agents for wireless networks
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
US7836038B2 (en) * 2003-12-10 2010-11-16 Google Inc. Methods and systems for information extraction
US7519621B2 (en) * 2004-05-04 2009-04-14 Pagebites, Inc. Extracting information from Web pages
US7516397B2 (en) * 2004-07-28 2009-04-07 International Business Machines Corporation Methods, apparatus and computer programs for characterizing web resources
US20060149710A1 (en) * 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features

Also Published As

Publication number Publication date
EP1955220A1 (en) 2008-08-13
US20070112756A1 (en) 2007-05-17
WO2007059272A1 (en) 2007-05-24
EP1955220A4 (en) 2009-08-26
US7529748B2 (en) 2009-05-05
CN101305370A (zh) 2008-11-12
KR20080075501A (ko) 2008-08-18
KR101312770B1 (ko) 2013-09-27

Similar Documents

Publication Publication Date Title
CN101305370B (zh) 信息分类范例
Stein et al. Intrinsic plagiarism analysis
CN102402584B (zh) 多语言文本中的语言识别
CN104881458A (zh) 一种网页主题的标注方法和装置
Faruque et al. Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques
Patel et al. Dynamic lexicon generation for natural scene images
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
Schofield et al. Identifying hate speech in social media
Wenliang et al. Automatic word clustering for text categorization using global information
Hossari et al. TEST: A terminology extraction system for technology related terms
Körner et al. Evaluating reference string extraction using line-based conditional random fields: A case study with german language publications
Sara-Meshkizadeh et al. Webpage classification based on compound of using HTML features & URL features and features of sibling pages
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN113642320A (zh) 文档目录结构的提取方法、装置、设备和介质
EP2461255A1 (en) Document data processing device
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
Algamdi et al. Twitter accounts suggestion: Pipeline technique spacy entity recognition
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN109344254B (zh) 一种地址信息分类方法及装置
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN101295320B (zh) 一种判定锚文本噪声级别的方法及系统
CN102722489B (zh) 从网页中抽取对象标识符的系统及方法
CN111914868A (zh) 模型训练方法、异常数据检测方法、装置和电子设备
Vitman et al. Evaluating the Impact of OCR Quality on Short Texts Classification Task
Xu et al. Contextualized latent semantic indexing: A new approach to automated Chinese essay scoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130306

Termination date: 20211115

CF01 Termination of patent right due to non-payment of annual fee