WO2004054253A1

WO2004054253A1 - 画像記述システムおよびその方法

Info

Publication number: WO2004054253A1
Application number: PCT/JP2003/015574
Authority: WO
Inventors: Eiji Kasutani; Akio Yamada
Original assignee: Nec Corporation
Priority date: 2002-12-06
Filing date: 2003-12-05
Publication date: 2004-06-24
Also published as: EP1569448A1; US20060023946A1; JP2004234612A; JP4336813B2; EP1569448A4

Abstract

画像記述システムでは、格納部は、画像の種別ごとに定義された記述スキームを格納する。制御部は、画像が指定されると、格納部から当該指定画像の種別に対応する記述スキームを参照し、指定画像から抽出することができる特徴量を特定する。記述ファイル生成部は、指定画像から特定された特徴量に関するデータを抽出し、指定画像の記述ファイルを生成する。

Description

画像記述システムおよびその方法技術分野

本発明はマルチメディア情報の種々の特徴を記述するためのシステムおよび方法に関する。 . 背景技術

インターネットに代表されるネットワークの広帯域化に伴って、テキスト（文字）情報だけでなく映像や音声を含むマルチメディア情報がオンラインで広く一般に提供されるようになっている。このことは、ユーザが多種多様な情報に容易にアクセスできるという利点がある反面、あまりに多量かつ多様な情報が提供されるので、本当に必要で役に立つ情報へアクセスすることがますます困難になるという皮肉な現象も現れている。

このような状況おいてマルチメディァ情報を効率的に検索、フィルタリングあるいは組織化する手段として、メ夕デ一夕を検索対象とする技術が注目されている。メタデ一夕はマルチメディァコンテンッから抽出された特徴を一定の形式で簡潔に表現したものであり、これを直接の検索対象とすることで検索の効率化を図ることができる, , 特に視覚的 Z聴覚的情報は具体的な言葉では表現しにくレゝことが多く、より感性に近い情報を定量化してメ夕デ一夕として表現する方が適している。

このような背景のもとで、マルチメティァコンテンッのメ夕データに対する統一的な表記方法が M P E G一 7 によつて提供された。そのなかの通称 M P E G— 7 V i s u a 1 は、ビジュアルコンテンッの信号的特徴（以下、ビジュアル特徴量と呼ぶ。）を記述する標準化フォ一マツト I S〇/ I E C 1 5 9 3 8 — 3 を提供するパートである。

M P E G— 7 V i s u a 1 では、ビジュアルコンテンツのビジユアル特徴量およびビジュアル特徴量を記述するためのビジュアル記述子の生成方法が定められている。なお、ビジュアルコンテンツには、デジタル写真のような矩形画像、クリップアート等の任意形状画像、矩形フレームの集合である矩形動画像 (ビデオシーケンス）、動画像の中の任意形状領域あるいは物体のシーケンスであるビデオオブジェクトなどが含まれる。

以下、ビジュアル記述子の例としてエッジ記述子： E d g e H i s t o g r a m を取り上げ、既存の画像記述システムについて説明する。

E d g e H i s t o g r a m は口一カルエッジ情報をヒストグラム化したもので、画像が 4 X 4の区画に分割され、区画毎に所定の 5 タイプのエッジがどのくらい存在するかを、それぞれ 3 ビットで記述するための記述子である。 E d g e H i s t o g r a m 特徴量は以下のように生成される。

D = [E" ( i =l , 2 , . . , 16 , j =l , 2 , ··· , 5 ) ]

ここで、 E_i;jはブロック i (ラスタースキャン順 ) における第 j エツジ要素を示す。記述子の構築は以下のように行われる。まず、画像が縦横 4区画の合計 1 6区画に分割される。次に、各区画においてマスク演算により各方向のエッジが検出される。演算出力が閾値を超えた場合にヒストグラムの対応するビンに 1票を投じることによって特徴量が構築される。

生成される特徴量は、 M P E G— 7 V i s u a 1 パートで表 1 のように規定されているシンタックスに基づき、例えば表 2のように記述される。表 1

< complexType name= ¹¹ EdgeHis togramType " final="#all> く complexCont ent >

< extension base-" mpeg 7： VisualDType " >

く sequence>

< element name= " BinCount s ¹¹ >

く sinpleType>

く r e s t r i c t i o n >

く simpleType>

く lis t i t emType = ¹¹ mpeg 7： unsigned.3 " /> く/ s imp le Type >

< lengt value= " 80¹¹ />

</restriction>

く/ s impleType >

く / element >

く / sequence>

く /extension>

く / com lexCont ent >

く / complexType > 表 2

く Descriptor xsi： Type= " EdgeHis togramType " >

く BinCount s> 121123 11511 < /BinCounts >

く /Descriptor >

M P E G— 7 V i s u a 1 で定められたビジュアル記述子により画像の信号特徴を記述するシステムが、 " M P E G— 7 X M S o ί t w a r e " として提供されている。このシステムでは、利用者が記述子を生成する対象となる画像を指定し、抽出されたビジュアル特徴量を選択する。選択されたビジュアル記述子を構成するビジュアル特徴量が、指定された画像から抽出される。こうして、抽出されたビジュアル特徴量がビジュアル記述子により記述された記述フアイルが生成される。

d j^子を用いた画像記述に関しては々提案されているたとえは特開 2 0 0 2 一 1 7 0 1 1 6号公報には、述子に十分な間情報が埋め込まれ、そのコンテンッに基づいて画像が記述され、画像の識別を容易にする方法が開示されてい

上述したように、メタデータは、マルチメディアコンテンッから抽出された特徴を一定の形式で簡潔に表現したものであり、これを直接の検索対象とすることで検索の効率化を図つている。したがて、マルチメディァコンテンッを適切に表現するメタデータをどのように生成するかは、検索の効率化及び精度に直接影響する重なファクタである。

しかしながら、 _h d v 来のシステムでは、画像の種別に依存して利用できる記述子、利用できない記述子があるにもかかわらず、画像の種別に関係なく全てのビンュアル記述子を用いて画像が記述されていたのために、ある種別の画像に対して不適切な記述子で画 ¼ d が実行される場合があるたとえば、静止画像である矩形画像が、動きァクティビティ d ¾^子によつて記述する場合などである。

また、ある特定タイプのシステムに向けて作成された記述ファイルを他のシステムで直接利用するためには、全てのビジュアル記述子についての利用ツールをサポートしなくてならない。このためにシステム規模が非常に大きくなるという問題もあった。

上記説明と関連して、光ディスク再生装置が特開 2 0 0 1 - 5 7 0 5 7号公報に記載されている。この従来例では、読み出し部は、光デイスクからオーディオ Zビデオデータとオーディオ/ビデオシーケンス情報と、オブジェクト一情報と、タイトルセット位置情報と、ディスク管理情報とを読み出す。制御部は読み出し部を制御する。記憶部は、ディスクが D V D— A u d i o と認識できたとき、 A M Gを記憶し、更に V G Mを検索して、もし V G Mが存在する場合には、 V G M を同時に記憶する。入力部は、 A M Gと V G Mの一方を選択するュ一ザの指示を受け付ける。

また、画像検索システムが特開 2 0 0 1 一 1 6 7 0 9 5号公報に記載されている。この従来例では、特徴記述子生成部は入力画像データから画像特徴量を抽出し特徴記述子を生成し、入力画像データと対応付けて画像情報蓄積部に格納する。属性リスト生成部は、入力画像デ一夕に付随して入力される属性情報に基づいて属性リストを作成する。画像検索部は、属性情報に関する検索条件が入力されると、属性リストを検索して検索条件に適合する属性情報を出力し、特徴記述子に関する検索条件が入力されると画像情報蓄積部を検索して検索条件に適合する画像データを出力する。

また、メディアコンテンツとのイン夕一ラクティブシステムが特開

2 0 0 1 - 2 9 2 4 2 5号公報に開示されている。この従来例では、コントローラは、メディアコンテンツを出力するようにメディア出力機器を制御する。割り当て部は、メタデータとインタ一ラクティブェレメントに対して意味論的分類を割り当てる。選択部は、複数の意味論的分類の中から 1つを選択する。出力部は、選択された意味論的分類に依存する形態で、選択された意味論的分類に属するメタデータやインタ一ラクティブエレメントを出力する。

また、オーディオビジュアルシステムの使用方法が特開 2 0 0 1 一

3 4 6 1 4 0 に開示されている。この従来例では、オーディオ，画像及び複数のフレームを含む動画のうちの少なくとも 1つが扱かわれ、オーディオ，画像及び動画のうちの少なくとも 1つの使用に関するュザの複数の好みを記述する使用好み記述が提供される。好みの少なくとも 1つに関し、好みの 1つが公開又は秘密のいずれであるかを示す保護属性が提供される。

また、ォーアイオビジュアル情報を管理するための使用履歴記述スキムが特開 2 0 0 2 — 1 8 4 1 5 7 に開示されている。この従来例では、使用履歴プロセスは、、ュザにより消費されるマルチメディア

+ 9

ンテンッの記述へアクセスでさュザが A V装置，コンピュータ顺末等の種々の機器上で行う動作を監視する能力を持つ。使用履歴モンュルはコンフィグレーションを介してユーザにより指定された動作のうち認められた動作情報のみを収集し記録する。承諾されたュザ動作を検出すると、使用履歴プ Pセスは所定の動作に対し、発生時刻，動作が関係するプロダラムンテンッの一意の識別子，追加のコンテンッ記述情報をュザ動作履歴成分に記録する。使用履歴情報はユーザの選択履歴成分を用いンテンッ記述の予め規定されたサブセットを表形式で記録し類別表として表 Kする。発明の開示

本発明の目的は、ビジュアルコンテンッに対して適切な特徴量を抽出できる画像記述システムおよび方法を提供することにある。

本発明の他の目的は、サボ一卜するツールの種類を最適化することによりシステム構成を簡易にした画像目 d述ンス：ムを提供することにめる

本発明のさらに他の画像に対する記述フアイルの記述方式が切であるか否かを検証できる画像 gel ji ンス丁ムおよび方法を提供することにある。

本発明の観点では、画像記述システムは、画像の種別ごとに定義された記述スキームを格納する格納部と、画像が指定されると、格納部から当該指定画像の種別に対応する記述スキームを参照し、指定画像から抽出することができる特徴量を特定する制御部とを有する。

ここで、指定画像から特定された特徴量に関するデータを抽出し、指定画像の記述ファイルを生成する記述ファイル生成部をさらに有してもよい。

また、制御部は、特定された特徴量を選択可能に表示部に表示することが好ましい。ここで、指定画像から特定された特徴量のうち選択された特徴量に関するデータを抽出し、指定画像の記述ファイルを生成する記述ファイル生成部をさらに有してもよい。

また、指定画像の種別に対応する記述スキームを用いて記述フアイル生成部により生成された記述ファイルを検証する記述フアイル検証部をさらに有することが好ましい。

また、格納部は、矩形画像を記述する矩形画像記述スキーム、任意形状.画像を記述する任意形状画像記述スキーム、矩形フレームの集合である動画像を記述する矩形動画像記述スキーム、および、矩形フレームの集合である動画像内の任意形状の対象を記述するビデオォブジェクト記述スキームのうち少なくとも 1つを格納することが望ましレこの場合、矩形画像記述スキームは、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有することが好ましい。また、 1 つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D o m i n a n t C o l o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、テクスチヤ特徴量は、 H o m o g e n e o u s T e x t u r eおよび T e X t u r e B r o w i n gを少なくとも含む複数の記述子からなり、 03015574 このうち少なくとも 1つを選択可能であることが好ましい。

また、任意形状画像記述スキームは、色分布、色配置、色温度、照明条件補正色、エッジ分布、テクスチャ、および、形状を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有していてもよい。この場合、 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、形状特徴量は、 C o n t o n r S h a p eおよび R e g i o n S h a p e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択されてもよい。

また、矩形動画像記述スキームは、矩形フレームの時系列データ、代表特徴量および動きァクティビティを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を含んでもよい。この場合、 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、時系列デー夕は、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D o m i n a n t C o l o r、 S c a 1 a 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、テクスチヤは、 H o m o g e n e o u s T e x t u r eおよひ T e t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であることが好ましい。

また、代表特徴量は、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D 0 m i n a n t C 0 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可肯であり、テクスチャは、 H o m o g e n e o u s T e x t u r e および T e X t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であることが好ましい。

ビデオオブジェクト記述スキームは、矩形フレームの時系列データ、代表特徴量、動きアクティビティ、物体動き、および、形状変化を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有することが好ましい。この場合、 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、物体動きは、 M o t i o n T r a j e c t o r yおよび P a r a m e t e r M o t i o nを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であることが好ましい。

また、時系列データは、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、テクスチャは、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であることが好ましい。

また、代表特徴量は、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D o m i n a n t C 0 1 o r 、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1 つが選択可能であり、テクスチャは、 H o m o g e n e o u s T e x t u r e および T e t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であることが好ましい。

また、格納部は、静止画像の特徴量を記述する静止画像記述スキーム、矩形フレームの集合である動画像を記述する矩形動画像記述スキーム、および、矩形フレームの集合である動画像内の任意形状の対象を記述するビデオオブジェクト記述スキームのうち少なくとも 1つを格納してもよい。この場合、静止画像記述スキームは、色分布特徴量、色配置特徴量、色温度特徴量、照明条件補正色特徴量、エッジ分布特徵量、および、テクスチャ特徴量を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有してもよい。また、 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、色分布特徴量は、 D o m i n a n t C o 1 o r , S c a l a b l e C o l o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、色配置特徴量は、 C o l o r 1 a y o u t を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、色温度特徴量は、 C 0 1 o r T e m p e r a t u r e を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、照明条件補正色特徴量は、 I 1 1 u m i n a t i o n l n v a r i a t i o n C o l o r を少なくとも含む §d¾i!子からなり、このうち少なくとも 1つが選択可能であり、エッジ分布特徴量は、 E d g e H i s t o g r a m を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1 つを選択可能であることが好ましい。静止画像記述スキームは、さらに、形状特徴量を含み、形状特徴量は、 R e g i o n S h a P e および C o n t o u r S h a p e を少なくとも含む複数の記述子からなり、このうち少なくとも 1 つを選択可能であることが好ましい。

また、格納部は、静止画像の特徴量を記述する静止画像記述スキームおよび動画像を記述する動画像記述スキームのうち少なくとも 1 つを格納してもよい。この場合、動画像記述スキームは、動画像のフレームの時系列データ、動画像の代表特徴量、および動画像の動きァクティビティを少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を有し、各特徴量は少なくとも 1つの記述子を選択可能に含んでもょレこの場合、動画像記述スキームは、さらに、動画像の動き記述および動画像の形状変化記述を含んでもよい。

また、記述スキームは、指定された画像の種別に対応する記述スキームを参照して指定画像から抽出することができる特徴量を特定する画像記述システムにおいて用いられ、動画像のフレームの時系列デ一夕、動画像の代表特徴量、および、動画像の動きアクティビティを少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を有し、各特徴量は少なくとも 1 つの記述子を選択可能に含んでもよい。ここで、動画像記述スキームは、さらに、動画像の動き記述および動画像の形状変化記述を含んでもよい。

本発明の他の観点では、画像記述方法は、画像の種別ごとに定義された記述スキームを格納するステップと、画像が指定されると、当該指定画像の種別に対応する記述スキームを検索して指定画像から抽出することができる特徴量を特定するステップと、指定画像から抽出することができる特徴量を選択可能に表示するステップとにより達成される。ここで、画像記述方法は、表示された特徴量から所望の特徴量を選択ステップと、所望の特徴量に従って指定画像から特徴量を抽出して記述ファイルを生成するステップとを更に具備してもよい。また、指定画像の種別に対応する記述スキームを用いて生成された記述フアイルを検証するステップを更に具備してもよい。

本発明の他の観点では、計算機にり実行可能なソフトウエアプロダク卜は、画像が指定されると、画像の種別とに定義された記述スキームを格納した記憶部から当該指定画像の種別に対応する記述スキムを検索する機能と、検索された記述スキムに基づいて指定画像から抽出することができる特徴量を特定する機能と指定画像から抽出することができる特徴量を選択可能に表示する機能とを実現する。

ここで、ソフトウェアプロダクト表示された特徴量から所望の特徴量が選択されると、所望の特徴量に従って指定画像から特徴量を抽出して記述ファイルを生成する機能を更に具備してもよい。

また、ソフトウェアプロダクトは、指定画像の種別に対応する記述スキームを用いて生成された記述ファイルを検証する機能を更に具備してもよい。

また、本発明の他の観点では、記述スキームは、指定された画像の種別に対応する記述スキームを参照して指定画像から抽出することができる特徴量を特定する画像記述システムにおいて用いられる記述スキームであり、色分布特徴量、色配置特徴量、色温度特徴量、照明条件補正色特徴量、エッジ分布特徴量、および、テクスチャ特徴量を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、色分布特徵量は、 D o m i n a n t C o l o r S c a l a b l e C o l o r および C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、色配置特徴量は、 C o 1 o r 1 a y o u t を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、色温度特徴量は、 C o 1 o r T e m p e r a t u r e を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、照明条件補正色特徴量は、 I 1 l u m i n a t i o n l n v a r i a n t C o l o r を少なくともむ記述子からなり、このうち少なくとも 1つが選択可能であり、エツジ分布特徴量は、 E d g e H i s t o g r a m を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である。

記述スキームは、さらに、形状特徴量を含み、形状特徴量は、 R e g i o n S h a p e およひ C o n t o u r S h a p e を少な <s とも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である。

以上のように、本発明では、有意義なビジュアル特徴量の選択が容易となり、かつ、指定画像を的確に表現したビジュアル特徴量を抽出がすることができる。

また、画像の種別ごとに記述スキームを定義しておくことによりサポートするべき特徴量および記述ツールの種類を必要最小限にすることができ、システム構成を簡略化できる。

さらに、指定画像の種別に対応する記述スキームを用いて、生成された記述ファイルを検証するのが望ましい。このように生成された記述ファイルを元の画像記述スキームと照らし合わせることにより、画像に対する記述ファイルの記述方式が適切であるか否かを検証でき、画像検索の効率及び精度をさらに向上させることができる。図面の簡単な説明図 1 は、本発明の第 1実施例による画像記述システムの構成を示すブロック図であり、

図 2は、第 1実施例における矩形画像記述スキームに含まれる記述ツールを示す模式図であり、

図 3 は、 XM L ( e X t e n s i b l e M a r k u L a n g u a g e )による矩形画像記述スキームの例を示す図であり、

図 4は、第 1実施例におけるイメージクリップ記述スキームに含まれる記述ツールを示す模式図であり、

図 5は、 X M Lによるイメージクリップ記述スキームの例を示す図であり、

図 6は、第 1実施例におけるビデオシーケンス記述スキームに含まれる記述ツールを示す模式図であり、

図 7 は、 XM Lによるビデオシーケンス記述スキームの例を示す図であり、

図 8は、第 1実施例におけるビデオオブジェクト記述スキームに含まれる記述ツールを示す模式図であり、

図 9 は、 X M Lによるビデオオブジェクト記述スキームの例を示す図であり、

図 1 0は、指定画像が矩形画像の場合のビジュアル特徴量選択画面の一例を示す図であり、

図 1 1 は、指定画像が任意形状画像の場合のビジュアル特徴量選択画面の一例を示す図であり、

図 1 2は、指定画像が矩形動画像の場合のビジュアル特徴量選択画面の一例を示す図であり、

図 1 3は、指定画像が任意形状動画像の場合のビジュアル特徴量選択画面の一例を示す図であり、

図 1 4は、第 1実施例による画像記述動作を示すフロ一チャートであり、

図 1 5は、本発明の 2実施例による画像記述システムの構成を示すブ Pック図であり、

図 1 6は、本発明の第 3実施例による画像記述システムの構成を示すブ πック図であり、

図 1 7は、 X M Lにる静止領域記述スキームの例を示す図であり図 1 8は、 X M Lに J;る動画像記述スキームの例を示す図である。発明を実施するための最良の形態

以下、図参照して、本発明の画像述ンステムについて詳細に説明する

(第 1実施例）

図 1 は、本発明の第 1実施例による画 f象システムの構成を示すブロック図である。図 1 において、入力部 1 0 1 は、キーポ一ドゃポインティングデバイスなどの入力デバイスであり、ビジユアル特徴量

、

が抽出されるベき対象としての画像を指定し、抽出されるビンュアル特徴量を指定し、あるいは、種々の命令を入力するために使用される。表示部 1 0 2は、モ一タであり、後述されるビジユアル特徵虽選択画囬表し、入力部 1 0 1 と協働してュ —ザインタフエースを提供す。本ンスァムのプ Dグラム制御プロセッサ 1 0 3は、制御プログラム 1 0 4を実行する了とによりピンユアル特徴量抽出に関する処理やシステム全体の動作を制御する。

本実施例による画像 §己システムには、画像記述スキーム検索部 1

0 5 、画像記 '|舎スキーム記憶部 1 0 6 、ヒジュアル特徴量抽出部 1 0

7 、ファィル生成部 1 0 8がけられている。画像記述スキ一ム検索部 1 0 5 、ビジユアル特徵抽出部 1 0 7および記述フアイル生成部 1 0 8は、プログラム制御プ □セヅサ 1 0 3 の制御のもとで、後述される画像記述スキームの検索、ビジュアル特徴量の抽出および記述ファイルの生成をそれぞれ実行する。

画像記述スキーム記憶部 1 0 6 には、複数の画像記述スキームが格納されている。ここでは、矩形画像記述スキーム 2 0 0、イメージクリップ（任意形状画像）記述スキーム 3 0 0、ビデオシーケンス（矩形動画像）記述スキーム 4 0 0およびビデオオブジェクト記述スキーム 5 0 0 、あるいは、これらから選択された少なくとも 1 つの画像記述スキームが格納されている。これら画像記述スキームについては、後で詳細に説明する。

画像記述スキーム検索部 1 0 5 は、プログラム制御プロセッサ 1 0 3から画像記述スキーム検索指令を受け取ると、指定された画像の種別に対応する記述スキームを画像記述スキーム記憶部 1 0 6 から検索する。読み出された画像記述スキームに基づいて、指定された画像から抽出されることができるビジュアル特徴量の種類が所定のフォームで表示部 1 0 2 に表示される（詳しくは後述する）。

ビジュアル特徴量抽出部 1 0 7 は、ビジュアル特徴量抽出指令を受け取ると、画像データ記憶部 1 1 0から指定された画像を入力し、その画像から指定されたビジュアル特徴量を抽出する。記述ファイル生成部 1 0 8 は、抽出されたビジュアル特徴量およびパラメータからビジュアル記述子で記述された記述ファイルを生成する。こうして生成された記述ファイルは記述ファイル記憶部 1 0 9 に格納され、画像検索等に利用される。

画像記述スキーム

( A ) 矩形画像記述スキーム

ディジタル写真のような矩形画像の信号的特徴を記述する目的で矩形画像記述スキームが設計される。ディジタルフォ卜アーカイブなどのディジタル画像アーカイブより類似する信号パターンを持つ画像を検索するのが主目的である。

矩形画像から得られる信号的特徴は、 1 ) 色分布、 2 ) 色配置、 3 ) 色温度、 4 ) 照明条件補正色、 5 ) エッジ、および、 6 ) テクスチヤの 6グループに分類される。各グループに属するビジュアル特徴量は、以下のようにそれぞれ定められる。

1ノ Dominant Color / ScalableColor / ColorStructure

2 ) ColorLayout

3 ) Co lor emper t ure

4 ) IlluminationlnvairiaritColoi:

5 ) EdgeHis togram

6 ) HomogeneousTexture / TextureBrowsing

各グループにおいて類似するビジュアル特徴量がある場合には、全てを併用するのは適切ではなく、目的に応じて 1個あるいは複数個を選択できるようにするのが望ましい。色分布およびテクスチャを表す複数のビジュアル特徴量の使い分けを表 3 に例示する。

表 3 矩形画像記述スキーム

色分布を表す 3つの特徴量は、表 3 に示されるように使い分けられる。すなわち、（ 1 ) 限定色領域の正確な記述には D o m i n a n t C o 1 o r、（ 2 ) 広く使われている既存のカラーヒストグラムとの互換性が求められるアプリケーションなど汎用製品には S c a 1 a b 1 e C o 1 o r、 ( 3 ) 医用画像などコストより精度がとにかく求められる用途には C o 1 o r S t r u e t u r eがそれぞれ適している。したがつて、これら用途に応じて、 D om i n a n t C o l o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e の少なくとも 1つを選択できるように矩形画像記述スキームを設計する。

テクスチャをあらわす 2つの特徴量の使い分けは、模様のラフなブラウジングのみが必要である場合には T e X t u r e B r o w i n g が、より精度が求められる用途には H o m o g e n i o u s T e x t u r eが適している。したがって、 H o m o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n g のうち少なくとも 1 つをテクスチャを表す特徴量として選択できるように矩形画像記述スキームが設計される。さらに、色分布、色配置、色温度、照明条件補正色、エッジ、テクスチャのうち、必要な信号的特徴を選択できるように矩形画像記述スキームが設計される。

図 2は、本実施例における矩形画像記述スキームに含まれる記述ッ —ルを示す模式図である。図 2 に示すように、矩形画像記述スキーム 2 0 0は、動画像の特定フレームまたは矩形の静止画像の信号特徴量を定める。矩形画像記述スキーム 2 0 0は、色分布記述 2 0 1 、色配置記述 2 0 2、エツジ記述 2 0 3、色温度記述 2 0 4、照明条件補正色記述 2 0 5、および、テクスチャ記述 2 0 6 を含む。

図 3は、 XM L ( e x t e n s i b l e M a r k u L a n g u a g e ) による矩形画像記述スキームの例を示す図である。記述スキ一ムは任意の言語で実行され、任意の含められた記述（もしくはそれよりも多くの記述）を含む。なお、図 3 において、 e l e m e n t 要素内の n a m e属性で示された名称は任意である力 t y p eで示されている記述子の特徴を表す名称が望ましい。

( B ) イメージクリップ記述スキーム

クリップアートといった任意形状を持つ画像の信号的特徴を記述する目的で、イメージクリップ記述スキームが設計される。コンテンツ制作に用いる素材のアーカイブなどより類似する信号パターンを持つクリップを検索するのが主目的である。矩形画像より得られる信号的特徴は全て任意形状画像に適応できる。任意形状画像より得られる信号的特徴は、矩形画像より得られる信号的特徴に加え、形状特徴を得ることができる。形状特徴を表すビジュアル特徴量には、 C o n t o u r S h a p eおよび R e g i o n S h a p eが存在するが、双方を併用するのは適切ではなく、目的に応じて少なくとも 1つを選択できるようにする必要がある。矩形画像記述スキームに加えて、形状特徴を表す 2つのビジュアル特徴量の使い分けを表 4に示す。

表 4 _ イメージクリップ記述スキーム信号的特徵ビジユアル特徵量用途グル一プ

Dominat Color 限定色領域の正確な色分布記述用

ScalableColor 一般的なアプリケーシヨン用

ColorStructure 高精度を要する用途色配置 ColorLayout ― 色温度 ColorTem er at ur e 一

照明条件補正色 Illuminat ionlnv r iantColor ― エツン EdgeHis togram ― テクスチャ Homogeneous Texture 精度を要する用途

TextureBrowsing 模様のラフなブラウジング用

形状 CountourS ape 閉曲線記述可能かつ強固な回転体性が必要な用途

RegionS ape 一般的用途表 4に示されるように、閉曲線記述が可能でなおかつ強固な回転体性が必要な場合は C o n t o u r S h a p e、それ以外の一般的な用途では R e g i o n S h a p eが適している。したがって、 C o n t o u r S h a p eおよび R e g i o n S h a p eのうち少なくとも 1 つを形状を表す特徴量として選択できるようにイメージクリップ記述スキームが設計される。

図 4は本実施例におけるイメージクリップ記述スキームに含まれる記述ツールを示す模式図である。イメージクリップ記述スキームは、任意形状を持つ画像の信号的特徴を定める。図 4に示されるように、イメージクリップ記述スキーム 3 0 0は、形状記述 3 0 1 と、矩形画像記述スキーム 2 0 0 に含まれる色分布記述 2 0 1、色配置記述 2 0 2、エツジ記述 2 0 3、色温度記述 2 0 4、照明条件補正色記述 2 0 5およびテクスチャ記述 2 0 6 とを含む。これらのうち必要な信号的特徴を選択できるようにイメージクリップ画像記述スキームが設計される。

図 5は、 X M Lによるイメージクリップ記述スキームの例を示す図である。記述スキームは任意の言語で実行され、任意の含められた記述（もしくはそれよりも多くの記述）を含む。なお、図 5 において、 e 1 e m e n t要素内の n a m e属性で示された名称は任意であるが、 t y p eで示されている記述子の特徴を表す名称が望ましい。

( C ) ビデオシーケンス記述スキーム

動画像の信号的特徴を記述する目的でビデオシーケンス記述スキームが設計される。ビデオア一力イブより類似する信号パターンを持つビデオを検索するのが主目的である。

動画像より得られる信号的特徴は、（ 1 ) 矩形画像に対する特徴量の時系列データ、（ 2 ) 動画像に含まれる全てのフレームを代表する特徴量、（ 3 ) 動き、の 3 グループに分類する。各グループに属するビジュアル特徴量を以下のように定めることができる。

1 ) V i s u a l T i m e S e r i e s

2 ) G o f G o p C o l o r

3 ) M o t i o n A c t i v i t y

特徴量を付与する単位として、動画像に含まれるフレームに対する記述を行う場合には時系列配列コンテナ（ V i s u a 1 T i m e S e r i e s ) 、動画像全体に対する記述を行う場合には代表特徴量コンテナ（G o f G o p C o l o r ) を利用することができる。また双方を利用することもできる。好きな位置に特徴量記述子を割り付けることができる。

コンテナはあるコンテンツの一部分を記述する特徴量記述子群をまとめて取り扱うための接着剤として働く。 V i s u a I T i m e S e r i e s は時間軸上に並んだ特徴量記述子を一括して表記するもので、固定間隔に記述子を配置する R e g u 1 a r V i s u a I T i m e S e r i e s と、可変間隔に記述子を配置する I r r e g u l a r V i s u a I T i m e S e r i e s の 2種類があるが、各フレーム位置に特徴量記述子を割り付けることができる。また、 G 0 f G o p C o 1 o r は動画像全体に対して 1つの特徴量記述子を割り付けることができる。

ビデオシーケンス記述スキームに含まれる時系列データ、代表特徴量および動きより必要な信号的特徴を選択できるようにビデオシーケンス記述スキームが設計される。表 5はビデオシーケンス記述スキームを表す。

表 5 — ビデオシーケンス記述スキーム

信号的特徴ビジユアル特徴量用途

グル一プ

時系列 VisualTimeSeries 動画像に含まれるフレーム

(矩形画像記述スキーム）に対する

代表特徴量 GofGopColor 動画像全体に対する記述 (矩形画像記述スキーム）

動き MotionActivity 図 6は本実施例におけるビデオシーケンス記述スキームに含まれる記述ツールを示す模式図である。ビデオシーケンス記述スキームは、ビデオシーケンス（複数のフレームの集合）の信号的特徴を定める。ビデオシーケンス記述スキーム 4 0 0は矩形画像に対する特徴量の時系列配列コンテナ 4 0 1、動画像に含まれる全てのフレームを代表する特徴量コンテナ 4 0 2および動きァクティビティ記述 4 0 3 を含む。図 7は、 XM Lによるビデオシーケンス記述スキームの例を示す図である。記述スキームは任意の言語で実行され、任意の含められた記述（もしくはそれよりも多くの記述）を含む。なお、図 7 において、 e 1 e m e n t要素内の n a m e属性で示さ -れた名称は任意であるが、 t y eで示されている記述子の特徴を表す名称が望ましい。

(D) ビデオオブジェクト記述スキーム

M P E G— 4における V i d e o O b j e c t のように、動画像中の任意形状領域や物体の信号的特徴を記述する目的でビデオォブジェクト記述スキームが設計される。コンテンツ制作に用いるビデオォブジェクトのアーカイブなどより類似する信号パターンを持つビデオオブジェクトを検索するのが主目的である。

ビデオシーケンスより得られる信号的特徵は全てビデオォブジェクトに適応できる。任意形状画像より得られる信号的特徴は、矩形画像より得られる信号的特徴に加え、オブジェクトの動き情報や形状の時間変移を得ることができる。ビデオオブジェクトより得られる信号的特徴は、 1 ) 物体動き情報、および、 2 ) 形状変化の 2 グループに分類する。各グループに属するビジュアル特徴量を以下のように定めることができる。

1 ) M o t i o n T r a j e c t o r y / P a r a m e t o r i c M o t i o n

2 ) S a p e V a r i a t i o n

物体動き情報を表すビジュアル特徴量には、 M o t i 0 n T 1- a j e c t o r yおよび P a r a m e t o r i c M o t i o n力存在するが、双方を併用するのは適切ではなく、目的に応じて少なくとも 1つを選択できるようにする必要がある。これらビジュアル特徴量の使い分けを表 6 に示す。

表 6 — ビデオオブジェクト記述スキーム

Parametric Mo t ionは領域の全体的な動きをァフィン変換、透視変換など 5種類の動きモデルで近似する。剛体近似できる物体の動き記述が目的である。

M o t i o n T r a j e c t o r yは領域の代表点（例えば重心）の時系列位置変化を表すもので、時間軸上のサンプリング点における位置とサンプリング点間の補間方法を記述する。人物の歩行軌跡などを表現することにより、例えば監視カメラ映像データベースで特定の行動をした人をピックアツプするなどの用途が考えられる。したがつて、 M o t i o n T r a j e c t o r yおよび P a r a m e t o r i c M o t i o n のうちいずれか 1 つを形状を表す特徴量として選択できるようにビデオオブジェクト記述スキームが設計される。さらに、ビデオシーケンス記述スキームに含まれる時系列データ、代表特徴量、動き、より必要な信号的特徴を選択できるように動画像記述スキームが設計される。

図 8は本実施例におけるビデオオブジェクト記述スキームに含まれる記述ツールを示す模式図である。ビデオオブジェクト記述スキーム 5 0 0は、動画像中の任意形状領域や物体の信号的特徴を定める。ビデォォブジェクト記述スキーム 5 0 0は、ビデオオブジェクトに対する物体動き記述 5 0 1 、形状変化記述 5 0 2、および、矩形動画像 (ビデオシーケンス）記述スキーム 4 0 0 に含まれる全てのフレームを代表する特徴量を含む。

図 9は XM Lによるビデオシーケンス記述スキームの例を示す図である。記述スキームは任意の言語で実行され、任意の含められた記述 (もしくはそれよりも多くの記述）を含む。なお、図 9 において、 e 1 e m e n t要素内の n a m e属性で示された名称は任意であるが、 typeで示されている記述子の特徴を表す名称が望ましい。

<ビジュアル特徴量選択画面の表示例 >

( 1 ) 矩形画像の場合

図 1 0 は、指定画像が矩形画像の場合のビジュアル特徴量選択画面の一例を示す図である。すでに述べたように、矩形画像記述スキーム 2 0 0は、色分布記述 2 0 1、色配置記述 2 0 2、エッジ記述 2 0 3、色温度記述 2 0 4、照明条件補正色記述 2 0 5、および、テクスチャ記述 2 0 6 を含む（図 2参照）。本実施例では、図 3の X M L記述例を実行することで、ユーザがこれらの記述ツールから必要な信号的特徴を選択できるように画面表示される。

図 1 0 に示されるように、色分布（ C o l o r D i s t r i b u t i o n ) 6 0 1 、色配置（ S p a t i a l D i s t r i b u t i o n o f C o 1 o r ) 6 0 2、照明条件補正色（ I 1 1 u m i n a t i o n I n d e p e n d e n t C o l o r ) 6 0 3、色温度 ( C o l o r T e m p e r a t u r e ) 6 0 4、エッジ分布（ S p a t i a 1 D i s t r i b u t i o n o f E d g e s ) 6 0 5、および、模様（H o m o g e n e o u s P a t t e r n) 6 0 6がマウス等のポインティングデバイスを用いて選択可能に表示される。すでに述べられたように、色分布 6 0 1 については、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e のうち少なくとも 1つを選択できる。また、模様 6 0 6 についても H o m o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n gのうち少なくとも 1つを選択できるように表示される。また、ボタン 6 0 7 をマウス等によりクリックすることで、選択したビジュアル特徴量の抽出を開始することができる。

このように矩形画像に適切な画像記述スキームを定義しておくことにより、矩形画像に適切な特徴量のみを選択 · 抽出できる画像記述システムを提供することができる。

( 2 ) 任意形状画像の場合

図 1 1 は、指定画像が任意形状画像の場合のビジュアル特徴量選択画面の一例を示す図である。すでに述べられたように、イメージクリップ記述スキーム 3 0 0は、 '形状記述 3 0 1、色分布記述 2 0 1、色配置記述 2 0 2、エッジ記述 2 0 3、色温度記述 2 0 4、照明条件補正色記述 2 0 5、および、テクスチャ記述 2 0 6 を含む（図 4参照）。本実施例では、図 5 の X M L記述例を実行することで、ユーザがこれらの記述ツールから必要な信号的特徴を選択できるように画面表示される。

図 1 1 に示されるように、色分布（ C o l o r D i s t r i b u t i o n ) 7 0 1 、色配置（ S p a t i a l D i s t r i b u t i o n o f C o 1 o r ) 7 0 2、照明条件補正色（ I 1 1 u m i n 2003/015574 a t i o n I n d e p e n d e n t C o l o r ) 7 0 3、色温度 ( C o l o r T e m p e r a t u r e ) 7 0 4、エッジ分布（ S p a t i a 1 D i s t r i b u t i o n o f E d g e s ) 7 0 5、模様（H o m o g e n e o u s P a t t e r n ) 7 0 6、および、形状（ S h a p e ) 7 0 7がマウス等のポインティングデバイスを用いて選択可能に表示される。

すでに述べられたように、形状 7 0 7 については R e g i o n S h a p eおよび C o n t o u r S h a p eのうちいずれか 1つのみ選択できる。また、色分布 7 0 1 については、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e のうち少なくとも 1つを選択でき、模様 7 0 6 についても H o rn o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n g のうち少なくとも 1つを選択できるように表示される。

所望の記述が選択されると、 O Kポタンをマウス等によりクリックすることで、選択したビジュアル特徴量の抽出を開始することができる。このように任意形状画像に適切なイメージクリップ'記述スキームを定義しておくことにより、任意形状画像に適切な特徴量のみを選択 · 抽出できる画像記述システムを提供することができる。

( 3 ) ビデオシーケンスの場合

図 1 2は、指定画像が矩形動画像の場合のビジュアル特徴量選択画面の一例を示す図である。すでに述べたように、ビデオシーケンス記述スキーム 4 0 0は時系列配列コンテナ 4 0 1 、代表特徴量コンテナ 4 0 2および動きアクティビティ記述 4 0 3 を含む（図 6参照）。本実施例では、図 7の X M L記述例を実行することで、ユーザがこれらの記述ツールから必要な信号的特徴を選択できるように画面表示される。

図 1 2 に示されるように、時系列配列（ V i s u a 1 T i m e S e r i e s ) 8 0 1 に割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、代表特徴量（ G o f G o p C o l o r ) 8 0 2 に割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、および動きアクティビティ（M o t i o n A c t i v i t y ) 8 0 3 がマウス等のポインティングデバイスを用いて選択可能に表示される。所望の記述が選択されると、 O Kポタンをマウス等によりクリックすることで、選択したビジュアル特徴量の抽出を開始することができる。このように矩形動画像に適切なビデオシーケンス記述スキームを定義しておくことにより、矩形動画像に適切な特徴量のみを選択 · 抽出できる画像記述システムを提供することができる。

( 4 ) ビデオォブジェク卜の場合

図 1 3は、指定画像が任意形状動画像の場合のビジュアル特徴量選択画面の一例を示す図である。すでに述べたように、ビデオオブジェクト記述スキーム 5 0 0は、ビデオオブジェクトに対する物体動き記述 5 0 1、形状変化記述 5 0 2、および、矩形動画像（ビデオシーケンス）記述スキーム 4 0 0 に含まれる全てのフレームを代表する特徴量を含む（図 8参照）。本実施例では、図 9の X M L記述例を実行することで、ユーザがこれらの記述ツールから必要な信号的特徴を選択できるように画面表示される。

図 1 3 に示されるように、時系列配列（ V i s u a 1 T i m e S e r i e s ) 9 0 1 に割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、代表特徴量（ G o ί G o p C o 1 o r ) 9 0 2 に割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、動きアクティビティ（M o t i o n A c t i v i t y ) 9 0 3、物体動き（M o t i o n ) 9 0 4、および、形状変化（ S h a p e V a r i a t i o n) 9 0 5がマウス等のポインティングデバイスを用いて選択可能に表示される。すでに述べられたように、物体動き 9 0 4については M o t i o n T r a j e c t o r yおよび P a r a m e t r i c M o t i o nのうち少なくとも 1つを選択できる。所望の記述が選択されると、〇 K ポタンをマウス等によりクリックすることで、選択したビジュアル特徴量の抽出を開始することができる。このように任意形状動画像に適切なビデオオブジェクト記述スキームを定義しておくことにより、任意形状動画像に適切な特徴量を選択 ' 抽出できる画像記述システムを提供することができる。

<画像記述動作 >

次に、本実施例の全体的動作について詳細に説明する。

図 1 4は、本実施例による画像記述動作を示すフローチャートである。まず、画像記述スキーム記憶部 1 0 6 には画像記述スキームが種別ごとに検索可能に格納されている。すなわち、図 1 に示されるように、画像記述スキーム記憶部 1 0 6に、矩形画像記述スキーム 2 0 0、任意形状画像記述スキーム 3 0 0、ビデオシーケンス記述スキーム 4 0 0、および、ビデオオブジェクト記述スキーム 5 0 0 を記憶させ、また、ビジュアル特徴量を抽出する際に必要となるパラメータの設定を行う（ステップ A 1 ) 。利用者は記述ファイルが生成される対象ととしての画像を入力部 1 0 1から指定する（ステップ A 2 ) 。記述される対象ととしての画像の指定は、画像ファイル名を直接入力してもよいし、あらかじめ一覧表示された画像からユーザが選択するようにしてもよい。

指定された画像が特定されると、プログラム制御プロセッサ 1 0 3 は画像記述スキーム検索部 1 0 5 に希望画像の記述スキームの検索を指示する。画像記述スキーム検索部 1 0 5は、指定された画像の種別をキ一として画像記述スキーム記憶部 1 0 6 を検索する。（ステップ A 3 ) 。指定された画像の種別に対応する画像記述スキームが見つかると、画像記述スキーム検索部 1 0 5はその画像記述スキームを読み出しプログラム制御プロセッサ 1 0 3へ返す。プログラム制御プロセッサ 1 0 3は、読み出された画像記述スキームより、指定された画像より抽出できる特徴量がどれであるのかを可視化し、表示部 1 0 2 に表示する（ステップ A 4 ) 。

具体的には、矩形画像が指定された場合には、読み出された矩形画像記述スキームを参照して、図 1 0 に示されるように表示される（ステツプ A 3 . 1 ) 。任意形状画像が指定された場合には、読み出された任意形状画像記述スキームを参照して、図 1 1 に示されるように表示される (ステップ A 3 · 2 ) 。ビデオシーケンスが指定された場合には、読み出されたビデオシーケンス記述スキームを参照して、図 1 2 に示されるように表示される (ステップ A 3 · 3 ) ビデオォブジェクトが指定された場合には、読み出されたビデオオブジェクト記述スキームを参照して、図 1 3に示されるように表示される（ステップ A 3 . 4 ) 。なお、これら表示は、入力部 1 0 1からの指示により行うこともできる。

利用者は表示部 1 0 2に表示された抽出可能特徴量の一覧より、抽出されるべき特徴量を入力部 1 0 1から指定する（ステップ A 5 ) 。指定された特徴量が特定されると、プログラム制御プロセッサ 1 0 3 はビジュアル特徴量抽出部 1 0 7 に希望特徴量の抽出を指示する。ビジュアル特徴量抽出部 1 0 7 は、画像データ記憶部 1 1 0から指定された画像を読み込み、その画像から特定された特徴量を抽出する（ステツプ A 6 ) 。

記述ファイル生成部 1 0 8は、ビジュアル特徴量抽出部 1 0 7 より生成された特徴量およびパラメータをビジュアル記述子で記述し（ステツプ A 7 ) 、記述されたデ一夕を記述ファイルとして生成する（ステツプ A 8 ) 。記述ファイルは記述ファイル記憶部 1 0 9 に格納されてもよい。

上述のように、第 1実施例では、入力部 1 0 1 より画像が指定されると、画像記述スキーム検索部 1 0 5が画像の種別に応じた画像記述スキームを検索し、指定された画像から抽出できるビジュアル特徴量を図 1 0〜図 1 3 に例示されるような形式で表示される。従って、抽出するビジュアル特徴量を利用者が容易に指定できる。また、サポートするツールの種類を必要最小限にすることができるために、システム構成を簡易にした画像記述システムを提供することができる。

生成された記述ファイルは、ある特定の画像に対する記述ファイルに含まれる特徴量と他の画像に対する記述ファイルに含まれる特徴量の類似度を評価することにより、類似した画像を検索する類似画像検索などにも利用できる。したがって、適切な記述ファイルのみが類似画像検索等に利用されるために、検索の信頼性及び精度を向上させることができる。 (第 2実施例）

図 1 5は、本発明の第 2実施例による画像記述システムの構成を示すブロック図である。本発明の第 2実施例は、図 1 に示す第 1実施例に加えて、さらに記述ファイル検証部 1 1 1 を含む。

記述フアイル検証部 1 1 1は、画像記述スキーム検索部 1 0 5 により得られた画像記述スキームを読み込み、記述ファイル生成部 1 0 8 で生成された記述ファイルが正しいか否か検証する。具体的には、記述ファイルに記述されている特徴量の種類が、画像記述スキーム内で定義されており、かつ記述ファイルが画像記述スキームで規定された記述方法に従っているか否かを確認する。記述フアイルが画像記述スキームで規定された記述方法に従っている場合は、記述ファイルを出力する。上述したように、第 2実施例では、記述ファィル検証部 1 1 1 を設け、画像記述スキームと記述ファイルとを照らし合わせることにより、画像に対する記述ファイルの記述方式が適切であるか否かを検証できる。

• 生成された記述ファイルは、ある特定の画像に対する記述ファイルに含まれる特徴量と他の画像に対する記述ファイルに含まれる特徴量の類似度を評価することにより、類似した画像を検索する類似画像検索などにも利用できる。したがって、適切な記述ファイルのみが類似画像検索等に利用されるために、検索の信頼性及び精度をさらに向上させることができる。

(第 3実施例）

図 1 6 は、本発明の第 3実施例による画像記述システムの構成を示すブロック図である。記述ファイル検証部 1 1 1 を含む。

本実施例による画像記述システムは、図 1 に示される画像記述スキーム検索部 1 0 5 、ビジュアル特徴量抽出部 1 0 7 、記述ファイル生成部 1 0 8および記述ファイル検証部 1 1 1 がプログラム制御プロセッサ 1 2 0 によりソフトウェア的に実現されている。すなわち、プログラム制御プロセッサ 1 2 0 は、メモリに格納されている画像記述プログラム 1 2 1 を実行することで、第 1 および第 2実施例で説明されたものと等価な画像記述機能を実現することができる。入力部 1 0 1 、表示部 1 0 2、画像記述スキーム記憶部 1 0 6 、記述フアイル記憶部 1 0 9および画像データ記憶部 1 1 0 は、画像記述プログラム 1 2 1 を実行しているプログラム制御プロセッサ 1 2 0 によって、第 1 および第 2実施例と同様に制御され、本発明による画像記述システムが実現される。 (第 4実施例）

本発明の第 4実施例は、画像記述スキーム記憶部 1 0 6 に、静止画像を記述する静止領域記述スキーム、矩形フレームの集合を記述する矩形動画像記述スキーム、および、ビデオオブジェクトを記述するビデォオブジェクト記述スキームが格納されている点で図 1 に示す第 1 実施例と異なる。なお、矩形動画像記述スキームおよびビデオォブジェクト記述スキームは、第 1実施例に使用されたものと同様である。静止画像（ S t i 1 l P i c t u r e ) 記述スキーム

あらゆる静止画像の信号的特徴を記述する目的で静止画像記述スキームを設計する。ディジタルフォトァ一力イブなど、ディジタル画像アーカイブより類似する信号パターンを持つ画像を検索するのが主目的である。

静止画像より得られる信号的特徴は、 1 ) 色分布、 2 ) 色配置、 3 ) 色温度、 4 ) 照明条件補正色、 5 ) エッジ、 6 ) テクスチャ、および、 7 ) 形状、のグループに分類される。各グループに属するビジュアル特徴量は、以下のようにそれぞれ定められる。

1 ) D o m i n a n t C o l o r / S c a l a b l e C o l o r

1 C o l o r S t r u c t u r e

2 ) C o l o r L a y o u t

3 ) C o l o r T e m p e r a t u r e

4 ) I 1 l u m i n a t i o n l n v a r i a n t C o l o r

5 ) E d g e H i s t o g r a m

6 ) H o m o g e n e o u s T e x t u r e / T e x t u r e B r o w i n g

7 ) C o n t o u r S a p e / R e g i o n S h a p e。

色分布、テクスチャ、形状のグル一プにおける類似するビジユアル特徴量については、全てを併用するのは適切ではなく、目的に応じて JP2003/015574

1個あるいは複数個を選択できるようにする必要がある。ビジュアル特徴量の内容、使い分け方法については、第 1実施例で述べたものと同一であるからここでは省略する（たとえば、表 3および表 4 を参照）。

図 1 7は、 XMLによる静止領域記述スキームの例を示す図である。記述スキームは任意の言語で実行され、任意の含められた記述（もしくはそれよりも多くの記述）を含む。なお、図 1 7 において、 element要素内の name属性で示された名称は任意であるが、 type で示されている記述子の特徴を表す名称が望ましい。

記述スキームの数を第 1実施例に比べて減らすことにより、システム構成を簡易にした画像記述システムを提供することができる。

(第 5実施例）

本発明の第 5実施例は、画像記述スキーム記憶部 1 0 6 に、静止画像を記述する静止領域記述スキーム、動画像を記述する動画像記述スキームが格納されている点で第 1実施例と異なる。ただし、静止領域記述スキームは、上述した第 4実施例に記載のものと同様である。

<動画像記述スキーム >

動画像の信号的特徴を記述する目的で動画像記述スキームを設計する。動画像より得られる信号的特徴は、（ 1 ) 矩形画像に対する特徴量の時系列データ、（ 2 ) 動画像に含まれる全てのフレームを代表する特徴量、（ 3 ) 動きアクティビティ、（ 4 ) 物体動き情報、および、 ( 5 ) 形状変化の 5 グループに分類する。各グループに属するビジュアル特徴量を以下のように定めることができる。

1 ) V i s u a l T i m e S e r i e s

2 ) G o f G o p C o 1 o r

3 ) M o t i o n A c t i v i t y 4 ) M o t i o n T r a j e c t o r y / P a r a m e t o r i c M o t i o n

5 ) S h a p e V a r i a t i o n。

なお、ビジュアル特徴量の内容、使い分け方法については、第 1実施例で述べたものと同一であるからここでは省略する（たとえば、表 6参照）。

図 1 8は、 XMLによる動画像記述スキームの例を示す図である。記述スキームは任意の言語で実行され、任意の含められた記述（もしくはそれよりも多くの記述）を含む。なお、図 1 8 において、 e l e m e n t要素内の n a m e属性で示された名称は任意であるが、 t y p eで示されている記述子の特徴を表す名称が望ましい。

以上詳細に説明したように、本発明によれば、入力部より画像が指定されると、画像の種別に応じた画像記述スキームが取り出され、抽出可能な適切なビジュアル特徴量が表示される。このために、有意義なビジュアル特徴量の選択が容易となり、かつ、指定画像を的確に表現したビジュアル特徴量を抽出がすることができる。このために画像検索の効率及び精度を向上させることができる。

また、画像の種別ごとに記述スキームを定義しておくことによりサポートするべき特徴量抽出、および記述ツールの種類を必要最小限にすることができ、システム構成を簡易にした画像記述システムを提供することができる。

さらに、以上のようにして生成された記述ファイルを画像記述スキームと照らし合わせることにより、画像に対する記述ファイルの記述方式が適切であるか否かを検証でき、画像検索の効率及び精度をさらに向上させることができる。

Claims

請求の範囲

1 . 画像の種別ごとに定義された記述スキームを格納する格納部と、画像が指定されると、前記格納部から当該指定画像の種別に対応する記述スキームを参照し、前記指定画像から抽出することができる特徴量を特定する制御部と

を有する画像記述システム。

2 . 請求項 1記載の画像記述システムにおいて、

前記指定画像から前記特定された特徴量に関するデータを抽出し、前記指定画像の記述ファイルを生成する記述ファイル生成部をさらに有する

画像記述システム。

3 . 請求項 1記載の画像記述システムにおいて、

前記制御部は、前記特定された特徴量を選択可能に前記表示部に表示する

画像記述システム。

4 . 請求項 3記載の画像記述システムにおいて、

前記指定画像から前記特定された特徴量のうち選択された特徴量に関するデータを抽出し、前記指定画像の記述ファイルを生成する記述ファイル生成部をさらに有する

画像記述システム。

5 . 請求項 2 または 4に記載の画像記述システムにおいて、

前記指定画像の種別に対応する記述スキームを用いて前記記述ファィル生成部により生成された記述ファイルを検証する記述ファイル検証部をさらに有する

画像記述システム。

6. 請求項 1記載の画像記述システムにおいて、

前記格納部は、矩形画像を記述する矩形画像記述スキーム、任意形状画像を記述する任意形状画像記述スキーム、矩形フレームの集合である動画像を記述する矩形動画像記述スキーム、および、矩形フレームの集合である動画像内の任意形状の対象を記述するビデオオブジェクト記述スキームのうち少なくとも 1つを格納する

画像記述システム。

7. 請求項 6記載の画像記述システムにおいて、

前記矩形画像記述スキームは、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徵量のうち 1つ以上の特徴量を有する

画像記述システム。

8. 請求項 7記載の画像記述システムにおいて、

前記 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、

前記色分布特徴量は、 D o m i n a n t C o l o r、 S c a l a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である

画像記述システム。

9 . 請求項 6記載の画像記述システムにおいて、

前記任意形状画像記述スキームは、色分布、色配置、色温度、照明条件補正色、エッジ分布、テクスチャ、および、形状を少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を有する

画像記述システム。

1 0 . 請求項 9記載の画像記述システムにおいて、

前記 1 つ以上の特徴量の各々は少なくとも 1 つの選択可能な記述子からなり、

前記形状特徴量は、 C o n t o u r S h a p eおよび R e g i o n S a p e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択される

画像記述システム。

1 1 . 請求項 6記載の画像記述システムにおいて、

前記矩形動画像記述スキームは、前記矩形フレームの時系列データ、代表特徴量および動きァクティビティを少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を含む

画像記述システム。

1 2 . 請求項 1 1記載の画像記述システムにおいて、

前記時系列データは、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を有し、各特徴量は少なくとも 1 つの選択可能な記述子からなり、

前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b l e C o l o rおよび C o l o r S t r u c t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、

前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能である、

画像記述システム。

1 3. 請求項 1 1記載の画像記述システムにおいて、

前記代表特徴量は、色分布、色配置、色温度、照明条件補正色、ェッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、

前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能である、

画像記述システム。

1 4. 請求項 6記載の画像記述システムにおいて、

前記ビデオオブジェクト記述スキームは、前記矩形フレームの時系列データ、代表特徴量、動きアクティビティ、物体動き、および、形状変化を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有する

画像記述システム。

1 5. 請求項 1 4記載の画像記述システムにおいて、

前記 1つ以上の特徴量の各々は少なくとも 1つの選択可能な記述子からなり、前記物体動きは、 M o t i o n T r a j e c t o r yおよび P a r a m e t e r M o t i o nを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能である

画像記述システム。

1 6. 請求項 1 4記載の画像記述システムにおいて、

前記時系列データは、色分布、色配置、色温度、照明条件補正色、エッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなり、

前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能である

画像記述システム。

1 7. 請求項 1 4記載の画像記述システムにおいて、

前記代表特徴量は、色分布、色配置、色温度、照明条件補正色、ェッジ分布、および、テクスチャを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの選択可能な記述子からなる、

前記色分布特徴量は、 D o m i n a n t C o l o r、 S e a l a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよひ T e t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能である

画像記述システム。

1 8. 画像の種別ごとに定義された記述スキームを格納するステツプと、

画像が指定されると、当該指定画像の種別に対応する記述スキームを検索して前記指定画像から抽出することができる特徴量を特定するステップと、

前記指定画像から抽出することができる特徴量を選択可能に表示するステップと

を具備する画像記述方法。

1 9. 請求項 1 8 に記載の画像記述方法において、

前記表示された特徴量から所望の特徴量を選択ステップと、前記所望の特徴量に従って前記指定画像から特徴量を抽出して記述ファイルを生成するステップと

を更に具備する画像記述方法。

2 0. 請求項 1 9記載の画像記述方法において、

前記指定画像の種別に対応する記述スキームを用いて前記生成された記述ファイルを検証するステップを更に具備する画像記述方法。

2 1 . 画像が指定されると、画像の種別ごとに定義された記述スキームを格納した記憶部から当該指定画像の種別に対応する記述スキームを検索する機能と、

検索された記述スキームに基づいて前記指定画像から抽出することができる特徴量を特定する機能と、

前記指定画像から抽出することができる特徴量を選択可能に表示する機能と

を実現するための、計算機により実行可能なソフトウェアプロダクト。

2 2 . 請求項 2 1 に記載の画像記述プログラムにおいて、

前記表示された特徴量から所望の特徴量が選択されると、前記所望の特徴量に従って前記指定画像から特徴量を抽出して記述ファイルを生成する機能を

更に具備するソフトウエアプロダクト。

2 3 . 請求項 2 2記載のソフウェアプロダク卜において、

さらに、

前記指定画像の種別に対応す記述スキームを用いて前記生成された己述フアイルを検証する機能

を更に具備するソフ卜ゥェァプダクト。

2 4 . 請求項 1記載の画像記述システムにおいて、

前記格納部は、静止画像の特徴量を記述する静止画像記述スキーム、矩形フレームの集合である動画像を記述する矩形動画像記述スキーム、および、矩形フレームの集合である動画像内の任意形状の対象を記述するビデオオブジェクト記述スキームのうち少なくとも 1つを格納する

画像記述システム。

2 5. 請求項 2 4記載の画像記述システムにおいて、

前記静止画像記述スキームは、色分布特徴量、色配置特徴量、色温度特徴量、照明条件補正色特徴量、エッジ分布特徴量、および、テクスチヤ特徴量を少なくとも含む複数の特徴量のうち 1 つ以上の特徴量を有する

画像記述システム。

2 6. 請求項 2 5記載の画像記述システムにおいて、

前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、前記色配置特徴量は、 C o 1 o r 1 a y o u t を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、

前記色温度特徴量は、 C o 1 0 r T e m p e r a t u r e を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、前記照明条件補正色特徴量は、 I 1 1 u m i n a t i o n I n v a r i a t i o n C o 1 o r を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、

前記エッジ分布特徴量は、 E cl g e H i s t o g r a m を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である

画像記述システム。

2 7. 請求項 2 5記載の画像記述システムにおいて、

前記静止画像記述スキームは、さらに、形状特徴量を含み、

前記形状特徴量は、 R e g i o n S h a p e および C o n t o u r S h a p e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である

画像記述システム。

2 8. 請求項 1記載の画像記述システムにおいて、

前記格納部は、静止画像の特徴量を記述する静止画像記述スキームおよび動画像を記述する動画像記述スキームのうち少なくとも 1つを格納する

画像記述システム。

2 9. 請求項 2 8記載の画像記述システムにおいて、

前記動画像記述スキームは、前記動画像のフレームの時系列データ、前記動画像の代表特徴量、および前記動画像の動きアクティビティを少なくとも含む複数の特徴量のうち 1つ以上の特徵量を有し、各特徴量は少なくとも 1つの記述子を選択可能に含む

画像記述システム。

3 0. 請求項 2 9記載の画像記述システムにおいて、

前記動画像記述スキームは、さらに、前記動画像の動き記述および前記動画像の形状変化記述を含む画像記述システム。

3 1. 指定された画像の種別に対応する記述スキームを参照して前記指定画像から抽出することができる特徴量を特定する画像記述システムにおいて用いられる記述スキームにおいて、

色分布特徴量、色配置特徴量、色温度特徴量、照明条件補正色特徴量、エッジ分布特徴量、および、テクスチャ特徴量を少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、

前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つが選択可能であり、

前記色配置特徴量は、 C o 1 o r 1 a y o u t を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、

前記色温度特徴量は、 C o 1 o r T e m p e r a t u r e を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、前記照明条件補正色特徴量は、 I 1 1 u m i n a t i o n I n v a r i a n t C o 1 o r を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、

前記エッジ分布特徴量は、 E d g e H i s t o g r a m を少なくとも含む記述子からなり、このうち少なくとも 1つが選択可能であり、前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である

記述スキーム。

3 2. 請求項 3 1記載の記述スキームにおいて、前記記述スキームは、さらに、形状特徴量を含み、

前記形状特徴量は、 R e g i o n S h a p e および C o n t o u r S a p e を少なくとも含む複数の記述子からなり、このうち少なくとも 1つを選択可能である

記述スキーム。

3 3. 請求項 2 8記載の画像記述システムにおいて、

記述スキームは、指定された画像の種別に対応する記述スキームを参照して前記指定画像から抽出することができる特徴量を特定する画像記述システムにおいて用いられ、

動画像のフレームの時系列データ、前記動画像の代表特徴量、および、前記動画像の動きァクティビティを少なくとも含む複数の特徴量のうち 1つ以上の特徴量を有し、各特徴量は少なくとも 1つの記述子を選択可能に含む

画像記述システム。

3 4. 請求項 2 9記載の画像記述システムにおいて、

前記動画像記述スキームは、さらに、前記動画像の動き記述および前記動画像の形状変化記述を含む

画像記述システム。