WO2004054253A1 - 画像記述システムおよびその方法 - Google Patents

画像記述システムおよびその方法 Download PDF

Info

Publication number
WO2004054253A1
WO2004054253A1 PCT/JP2003/015574 JP0315574W WO2004054253A1 WO 2004054253 A1 WO2004054253 A1 WO 2004054253A1 JP 0315574 W JP0315574 W JP 0315574W WO 2004054253 A1 WO2004054253 A1 WO 2004054253A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
description
feature
color
image description
Prior art date
Application number
PCT/JP2003/015574
Other languages
English (en)
French (fr)
Inventor
Eiji Kasutani
Akio Yamada
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US10/506,091 priority Critical patent/US20060023946A1/en
Priority to EP03777276A priority patent/EP1569448A4/en
Publication of WO2004054253A1 publication Critical patent/WO2004054253A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the present invention relates to systems and methods for describing various features of multimedia information. Background technology
  • Metade is a simple representation of features extracted from multimedia content in a fixed format, which can be used as a direct search target to improve search efficiency.
  • Z auditory information is often difficult to express in concrete terms, and it is more appropriate to quantify information that is closer to sensibility and express it as a message.
  • MPEG-17 provided a unified representation method for multimedia content data.
  • MPEG-7 Visua 1 is a visual content This part provides a standardized format for describing signal features (hereinafter referred to as visual features) IS ⁇ / IEC15938-3.
  • MPEG-7Visua1 defines a visual feature of visual content and a method of generating a visual descriptor for describing the visual feature.
  • the visual contents include rectangular images such as digital photographs, arbitrary-shaped images such as clip art, rectangular moving images (video sequences) that are collections of rectangular frames, arbitrary-shaped regions or objects in moving images.
  • Video object which is a sequence of
  • EdgeHistogram as an example of the visual descriptor.
  • the Edge Histogram is a histogram of the oral edge information, which divides the image into 4x4 sections, and shows how much of each of the 5 types of edges is present in each section in 3 bits. This is a descriptor to be described in a list. EdgeHistogram features are generated as follows.
  • E i; j indicates the j-th edge element in block i (raster scan order).
  • the construction of the descriptor is performed as follows. First, the image is divided into a total of 16 sections, 4 sections vertically and horizontally. Next, an edge in each direction is detected by a mask operation in each section. When the computation output exceeds the threshold, a feature is constructed by casting one vote in the corresponding bin of the histogram.
  • a system that describes the signal characteristics of images using visual descriptors specified by MPEG-7 Visua 1 is provided as "MPEG-7 XMS software".
  • MPEG-7 XMS software users Specify the image for which the descriptor is to be generated, and select the extracted visual features. The visual features that make up the selected visual descriptor are extracted from the specified image. In this way, a description file in which the extracted visual features are described by the visual descriptor is generated.
  • the metadata simply expresses the features extracted from the multimedia content in a fixed format, and the search efficiency is improved by directly using the extracted features as search targets. Therefore, how to generate metadata that appropriately expresses multimedia content is a serious factor that directly affects the efficiency and accuracy of search.
  • the readout unit Read audio Z-video data, audio / video sequence information, object information, title set position information, and disk management information from disk.
  • the control unit controls the reading unit.
  • the storage unit stores the AMG when the disc is recognized as DVD-Audio, searches for the VGM, and if the VGM exists, stores the VGM at the same time.
  • the input unit receives a user's instruction to select one of AMG and VGM.
  • a feature descriptor generation unit extracts an image feature amount from input image data, generates a feature descriptor, and stores the feature descriptor in the image information storage unit in association with the input image data.
  • the attribute list generation unit creates an attribute list based on attribute information input accompanying the input image data.
  • the image search unit searches the attribute list and outputs the attribute information matching the search condition when the search condition for the attribute information is input, and stores the image information when the search condition for the feature descriptor is input. Search for a set and output image data that meets the search conditions.
  • a controller controls a media output device to output media contents.
  • the allocator allocates a semantic classification to metadata and interactive elements.
  • the selector selects one of the semantic classifications.
  • the output unit outputs metadata and interactive elements belonging to the selected semantic classification in a form depending on the selected semantic classification.
  • At least one of an audio, an image, and a moving image including a plurality of frames is handled.
  • a preference statement is provided that describes the user's preferences for the use of at least one of audio, images and video.
  • a protection attribute is provided that indicates whether one of the preferences is public or private.
  • a usage history description scheme for managing audiovisual information is disclosed in Japanese Patent Application Laid-Open No. 2002-184814.
  • the usage history process is a multi-media consumer
  • the usage history module collects and records only the recognized operation information of the operations specified by the user through the configuration. Upon detecting the accepted user action, the usage history process records the occurrence time, the unique identifier of the program content related to the action, and additional content description information for the predetermined action in the user action history component. . For usage history information, a predefined subset of the content description is recorded in the form of a table using the user's selection history component, and is displayed as a classification table. Disclosure of the invention
  • An object of the present invention is to provide an image description system and method capable of extracting an appropriate feature amount for visual content.
  • Another object of the present invention is to provide an image description system that simplifies the system configuration by optimizing the types of tools to be supported.
  • the image description system is defined for each image type.
  • a storage unit that stores the described description scheme, and a control unit that specifies a feature amount that can be extracted from the specified image by referring to the description scheme corresponding to the type of the specified image from the storage unit when the image is specified.
  • the information processing apparatus may further include a description file generating unit that extracts data relating to the specified feature amount from the specified image and generates a description file of the specified image.
  • control unit displays the specified feature amount on the display unit in a selectable manner.
  • information processing apparatus may further include a description file generation unit that extracts data relating to the selected feature amount from the feature amounts specified from the specified image, and generates a description file of the specified image.
  • the storage unit includes a rectangular image description scheme for describing a rectangular image, an arbitrary shape image description scheme for describing an image, a rectangular moving image description scheme for describing a moving image that is a set of rectangular frames, and a rectangular frame description scheme. It is desirable to store at least one of the video object description schemes that describe an object of an arbitrary shape in a moving image, which is a set of frames. It is preferable to have at least one feature amount from among a plurality of feature amounts including at least the arrangement, the color temperature, the illumination condition correction color, the edge distribution, and the texture.
  • each of the one or more features includes at least one selectable descriptor
  • the color distribution features include Dominant Color, S ca 1 ab 1 e Co 1 or and Co 1 or S It consists of a plurality of descriptors including at least trueture, at least one of which can be selected
  • the texture feature consists of a plurality of descriptors including at least Homogeneous Texture and Textual Rowing. , 03015574 It is preferable that at least one of them can be selected.
  • the arbitrary shape image description scheme has at least one feature amount from among a plurality of feature amounts including at least a color distribution, a color arrangement, a color temperature, a lighting condition correction color, an edge distribution, a texture, and a shape. It may be.
  • each of the one or more features consists of at least one selectable descriptor
  • the shape feature consists of a plurality of descriptors containing at least Contonr Shape and Region Shape. At least one of them may be selected.
  • the rectangular moving picture description scheme may include one or more feature amounts among a plurality of feature amounts including at least the time-series data of the rectangular frame, the representative feature amount, and the motion activity.
  • each of the one or more features consists of at least one selectable descriptor
  • the time-series data includes color distribution, color arrangement, color temperature, lighting condition correction color, edge distribution, and ,
  • At least one of a plurality of features that include at least texture each feature is composed of at least one selectable descriptor
  • the color distribution features are Dominant Color, S ca 1 a 1 e Consists of multiple descriptors that include at least Co1 or Co1 or S trueture, at least one of which is selectable.
  • the descriptor is composed of a plurality of descriptors including at least one of the following items, and at least one of the descriptors can be selected.
  • the representative feature has at least one of a plurality of features including at least a color distribution, a color arrangement, a color temperature, a lighting condition correction color, an edge distribution, and a texture.
  • the quantity consists of at least one selectable descriptor, and the color distribution features include at least D 0 minant C 0 1 or, S ca 1 ab 1 e C o 1 or and C o 1 or S trueture Consists of multiple descriptors, at least one of which is selected Yes, the texture is composed of multiple descriptors, including at least Homogeneous Texture and Textual Browsing, and it is preferable that at least one of them can be selected.
  • a video object description scheme may have at least one of a plurality of feature values including at least rectangular frame time series data, representative feature values, motion activity, object motion, and shape change. It is good.
  • each of the one or more features is composed of at least one selectable descriptor
  • the object motion is composed of a plurality of descriptors including at least a motion trajectory and a parameter motion.
  • at least one is selectable.
  • the time-series data has at least one of a plurality of feature amounts including at least a color distribution, a color arrangement, a color temperature, a lighting condition correction color, an edge distribution, and a texture.
  • the quantity consists of at least one selectable descriptor
  • the color distribution feature consists of a plurality of descriptors that include at least Dominant Color, Scalable Color, and Color Structure, at least One is selectable
  • the texture is composed of a plurality of descriptors including at least Homogeneous Texture and Texture Browing, and at least one of them is preferably selectable.
  • the representative feature has at least one of a plurality of features including at least a color distribution, a color arrangement, a color temperature, a lighting condition correction color, an edge distribution, and a texture.
  • the quantity consists of at least one selectable descriptor, and the color distribution features are D ominant C 0 1 or, S ca 1 ab 1 e C o 1 or and C o 1 or S trueture. At least one of these descriptors can be selected, and at least one of them can be selected.
  • the texture consists of multiple descriptors that include at least Homogeneous Text and Texture Browing, and at least one of these descriptors. Preferably it is selectable.
  • the storage unit includes a still image description scheme for describing a feature amount of a still image, a rectangular moving image description scheme for describing a moving image that is a set of rectangular frames, and a moving image that is a set of rectangular frames.
  • At least one of the video object description schemes that describe objects of any shape may be stored.
  • the still image description scheme includes a plurality of features including at least color distribution features, color arrangement features, color temperature features, lighting condition correction color features, edge distribution features, and texture features. Of these, one or more features may be provided.
  • each of the one or more features includes at least one selectable descriptor, and the color distribution features include at least D ominant C o 1 or, Scalable Color and C o 1 or S trueture.
  • the color layout feature quantity consists of at least one descriptor that includes Color 1 ayout, and at least one of these descriptors can be selected.
  • the color temperature feature is composed of descriptors containing at least C01 or Temperature, and at least one of them can be selected.
  • the illumination condition correction color feature is at least I11 uminationlnvariation Color. ⁇ D ⁇ ⁇ i! Children, at least one of which is selectable, and the edge distribution feature is composed of descriptors that include at least the edge histogram, and at least one of these is selectable.
  • the amount is composed of a plurality of descriptors including also less H omogeneous T exture and T exture B rowing, these small It is preferable that at least one can be selected.
  • the still image description scheme further includes a shape feature, and the shape feature is composed of a plurality of descriptors including at least Region Sha Pe and Contour Shape, and at least one of these descriptors is included. It is preferable to be able to select
  • the storage unit may store at least one of a still image description scheme for describing a feature amount of a still image and a moving image description scheme for describing a moving image.
  • the moving picture description scheme includes one or more of time-series data of the moving picture frame, representative features of the moving picture, and a plurality of features including at least the motion activity of the moving picture.
  • the moving picture description scheme further includes a motion description of the moving picture and a shape change description of the moving picture. May be included.
  • the description scheme is used in an image description system that specifies a feature amount that can be extracted from a specified image by referring to a description scheme corresponding to a type of a specified image. At least one of a plurality of feature values including at least a representative feature value of a moving image and a motion activity of a moving image, and each feature value has at least one descriptor. May be selectably included.
  • the moving picture description scheme may further include a motion description of the moving picture and a shape change description of the moving picture.
  • an image description method includes a step of storing a description scheme defined for each type of image, and, when an image is specified, searching for a description scheme corresponding to the specified image type. It is achieved by a step of specifying a feature amount that can be extracted from the designated image by using the method, and a step of selectively displaying a feature amount that can be extracted from the designated image.
  • the image description method further includes a step of selecting a desired feature amount from the displayed feature amounts, and a step of extracting a feature amount from the designated image according to the desired feature amount to generate a description file. Is also good.
  • the method may further include a step of verifying the description file generated using the description scheme corresponding to the type of the specified image.
  • a software product executable by a computer when an image is specified, stores the descriptive scheme defined in the image type and the storage unit storing the descriptive scheme defined in the image type into the type of the specified image.
  • a function for searching for the corresponding description scheme, a function for specifying the feature quantity that can be extracted from the specified image based on the searched description scheme, and a feature quantity that can be extracted from the specified image can be selected. Display function is realized.
  • a function of extracting a feature amount from a designated image in accordance with the desired feature amount and generating a description file may be further provided.
  • the software product may further include a function of verifying a description file generated using a description scheme corresponding to the type of the designated image.
  • the description scheme is a description scheme used in an image description system that specifies a feature that can be extracted from a specified image by referring to a description scheme corresponding to the type of the specified image.
  • One of a plurality of feature quantities including at least a color distribution feature quantity, a color arrangement feature quantity, a color temperature feature quantity, a lighting condition correction color feature quantity, an edge distribution feature quantity, and a texture feature quantity.
  • the color distribution feature consists of multiple descriptors that include at least D ominant Color Scalable Color and Co 1 or S trueture, at least one of which can be selected.
  • the color arrangement feature is composed of descriptors containing at least Co1 or 1 ayout.
  • the color temperature feature consists of a descriptor that includes at least Co1 or Temperature, and at least one of these can be selected. Consists of at least one descriptor of I 1 luminationlnvariant Color, and at least one of them can be selected.
  • the edge distribution feature consists of a descriptor containing at least Edge Histogram. At least one can be selected, and the texture feature consists of a plurality of descriptors including at least Homogeneous Texture and Texture Browing, and at least one of them can be selected.
  • the description scheme further includes a shape feature, and the shape feature is composed of a plurality of descriptors including Region Shape and Contour Shape with at least ⁇ s, at least one of which is selected. It is possible.
  • FIG. 1 is a block diagram illustrating a configuration of an image description system according to a first embodiment of the present invention.
  • FIG. 2 is a schematic diagram showing a description tool included in the rectangular image description scheme in the first embodiment.
  • FIG. 3 is a diagram showing an example of a rectangular image description scheme based on XML (eXt e ns i b l e M ark u L a n g u a g e).
  • FIG. 4 is a schematic diagram showing a description tool included in the image clip description scheme in the first embodiment.
  • FIG. 5 is a diagram showing an example of an image clip description scheme using XML.
  • FIG. 6 is a schematic diagram showing a description tool included in the video sequence description scheme in the first embodiment.
  • FIG. 7 is a diagram showing an example of a video sequence description scheme in XML.
  • FIG. 8 is a schematic diagram showing a description tool included in the video object description scheme in the first embodiment.
  • FIG. 9 is a diagram showing an example of a video object description scheme in XML.
  • FIG. 10 is a diagram showing an example of a visual feature amount selection screen when the specified image is a rectangular image.
  • FIG. 11 is a diagram showing an example of a visual feature amount selection screen when the designated image is an arbitrary-shaped image.
  • FIG. 12 is a diagram showing an example of a visual feature amount selection screen when the designated image is a rectangular moving image.
  • FIG. 13 is a diagram showing an example of a visual feature selection screen when the designated image is an arbitrary-shaped moving image.
  • FIG. 14 is a flowchart showing the image description operation according to the first embodiment. Yes,
  • FIG. 15 is a block diagram showing the configuration of an image description system according to two embodiments of the present invention.
  • FIG. 16 is a block diagram showing the configuration of the image description system according to the third embodiment of the present invention.
  • FIG. 17 is a diagram showing an example of a still region description scheme in XML
  • FIG. 18 is a diagram showing an example of a moving image description scheme in XML.
  • FIG. 1 is a block diagram illustrating a configuration of an image capturing system according to a first embodiment of the present invention.
  • an input unit 101 is an input device such as a key-point pointing device, and a visual feature quantity.
  • the display unit 102 is a motor, displays a visual special selection screen described later, and provides a user interface in cooperation with the input unit 101.
  • the program control processor 103 of the present system controls the processing relating to the extraction of the pinpoint feature and the operation of the entire system.
  • the image according to the present embodiment has an image description scheme search unit 1 in the system.
  • a file generation unit 108 is provided.
  • the image description scheme search unit 105, visual feature extraction unit 107, and description file generation unit 108 are controlled by the program control processor 103.
  • the search of the described image description scheme, the extraction of visual features, and the generation of a description file are executed.
  • the image description scheme storage unit 106 stores a plurality of image description schemes.
  • the rectangular image description scheme 200, the image clip (arbitrary shape image) description scheme 300, the video sequence (rectangular video) description scheme 400, and the video object description scheme 500 are described. Alternatively, at least one image description scheme selected from these is stored. These image description schemes will be described later in detail.
  • the image description scheme search unit 105 Upon receiving the image description scheme search command from the program control processor 103, the image description scheme search unit 105 searches the image description scheme storage unit 106 for a description scheme corresponding to the type of the specified image. Based on the read image description scheme, the types of visual features that can be extracted from the specified image are displayed on the display unit 102 in a predetermined form (details will be described later).
  • the visual feature amount extraction unit 107 Upon receiving the visual feature amount extraction command, the visual feature amount extraction unit 107 inputs the specified image from the image data storage unit 110 and extracts the specified visual feature amount from the image. .
  • the description file generation unit 108 generates a description file described by a visual descriptor from the extracted visual features and parameters. The description file thus generated is stored in the description file storage unit 109 and used for image search and the like.
  • a rectangular image description scheme is designed to describe the signal features of a rectangular image such as a digital photograph. Images with signal patterns that are more similar to digital image archives such as digital photo archives The main purpose is to search.
  • the signal features obtained from the rectangular image are classified into 6 groups: 1) color distribution, 2) color arrangement, 3) color temperature, 4) lighting condition correction color, 5) edge, and 6) texture.
  • the visual features belonging to each group are determined as follows.
  • Table 3 illustrates the use of multiple visual features representing color distribution and texture.
  • the rectangular image description scheme is designed so that at least one of HomogneiosTextour and TextourBrowwing can be selected as a feature representing a texture.
  • a rectangular image description scheme is designed so that the required signal features can be selected from color distribution, color arrangement, color temperature, lighting condition correction, color, edge, and texture.
  • FIG. 2 is a schematic diagram showing a description tool included in the rectangular image description scheme in the present embodiment.
  • the rectangular image description scheme 200 defines a signal feature amount of a specific frame of a moving image or a rectangular still image.
  • the rectangular image description scheme 200 is composed of a color distribution description 201, a color layout description 202, an edge description 203, a color temperature description 204, a lighting condition correction color description 205, and a texture description. Includes 206.
  • FIG. 3 is a diagram illustrating an example of a rectangular image description scheme using extensible mark language (XML).
  • the description scheme is executed in any language and contains any included descriptions (or more).
  • the name indicated by the name attribute in the element element is indicated by an arbitrary force type. It is desirable to use a name that indicates the characteristics of the descriptor being used.
  • An image clip description scheme is designed to describe the signal features of images with arbitrary shapes, such as clip art.
  • the main purpose is to search for clips that have more similar signal patterns than archives of materials used for content production.
  • All signal features obtained from rectangular images can be applied to images of arbitrary shape.
  • the signal features obtained from the arbitrary-shaped image can be obtained in addition to the signal features obtained from the rectangular image.
  • Visual features representing shape features include contour and region shapes, but it is not appropriate to use both, and it is necessary to select at least one according to the purpose. There is. Table 4 shows the use of two visual features representing shape features in addition to the rectangular image description scheme.
  • Shape CountourS ape Applications that can describe closed curves and require strong rotation
  • RegionS ape General use As shown in Table 4, when it is possible to describe a closed curve and strong solidity is required, contour shape is appropriate. For other general uses, region shape is appropriate. Therefore, an image clip description scheme is designed so that at least one of the contour shape and the region shape can be selected as a feature representing a shape.
  • FIG. 4 is a schematic diagram showing a description tool included in the image clip description scheme in this embodiment.
  • the image clip description scheme defines the signal features of images with arbitrary shapes.
  • the image clip description scheme 300 is composed of a shape description 301, a color distribution description 201 included in the rectangular image description scheme 200, and a color arrangement description 200. 2, edge description 203, color temperature description 204, illumination condition correction color description 205, and texture description 206.
  • An image clip image description scheme is designed so that the required signal features can be selected from these.
  • FIG. 5 is a diagram showing an example of an image clip description scheme using XML. Description schemes are implemented in any language and include any included descriptions (or more).
  • the name indicated by the n ame attribute in the e 1 e m e n t element is arbitrary, but a name indicating the characteristic of the descriptor indicated by t y p e is desirable.
  • a video sequence description scheme is designed to describe the signal features of moving images. The main purpose is to search for videos that have a similar signal pattern than video eve.
  • the signal features obtained from the moving image are classified into three groups: (1) time-series data of the feature amount for a rectangular image, (2) feature amount representing all frames included in the moving image, and (3) motion. I do. Belong to each group
  • the visual feature can be determined as follows.
  • a time-series array container (Visua 1 Time Series) is used to describe a frame included in a moving image, and a representative feature container is used to describe a whole moving image. (G of Goop Color) can be used. You can also use both. Feature descriptors can be assigned to any position.
  • a container acts as an adhesive to handle a group of feature descriptors that describe a part of a certain content.
  • Visua IT ime series describes feature descriptors arranged on the time axis in a lump.
  • Regu 1 ar Visua IT ime series which arranges descriptors at fixed intervals, and describes at variable intervals
  • There are two types of children Irregular Visua ITime Series, where feature descriptors can be assigned to each frame position.
  • G0fGopCo1or can allocate one feature descriptor to the entire moving image.
  • the video sequence description scheme is designed so that the required signal features can be selected from the time series data, representative features, and motion included in the video sequence description scheme.
  • Table 5 shows the video sequence description scheme.
  • FIG. 6 is a schematic diagram showing a description tool included in the video sequence description scheme according to the present embodiment.
  • a video sequence description scheme defines the signal characteristics of a video sequence (a set of frames).
  • the video sequence description scheme 400 includes a time-series array container 401 of feature values for a rectangular image, a feature container 404 representing all frames included in a moving image, and a motion activity description 403. .
  • FIG. 7 is a diagram showing an example of a video sequence description scheme using XML. Description schemes are implemented in any language and include any included descriptions (or more). In FIG. 7, the name indicated by the -name attribute in the e1em-ent element is arbitrary, but a name representing the characteristic of the descriptor indicated by tye is desirable.
  • a video object description scheme is designed to describe the signal characteristics of an arbitrary-shaped region or an object in a moving image, such as VideoObject in MPEG-4.
  • the main purpose is to search for video objects with similar signal patterns, such as archives of video objects used for content production.
  • All the signal features obtained from the video sequence can be adapted to the video object.
  • the signal features obtained from the arbitrary-shaped image can obtain not only the signal features obtained from the rectangular image but also the motion information of the object and the time variation of the shape.
  • Signal features obtained from video objects are classified into two groups: 1) object motion information and 2) shape change. The visual features belonging to each group can be determined as follows.
  • Visual features representing object motion information include Moti 0 n T 1- ajectory and Parametoric motion, but it is not appropriate to use both at the same time, and at least one can be selected according to the purpose. You need to do that. Table 6 shows the use of these visual features.
  • Parametric Motion approximates the overall motion of the region with five types of motion models, such as affinity transformation and perspective transformation.
  • the purpose is to describe the motion of an object that can be approximated by a rigid body.
  • Motion Trajectory represents the time-series position change of a representative point (for example, the center of gravity) of the area, and describes the position of the sampling point on the time axis and the interpolation method between the sampling points.
  • a representative point for example, the center of gravity
  • the video object description scheme is designed so that either one of the motion trajectory and the parametoric motion can be selected as the feature representing the shape.
  • the video description scheme is designed so that the time-series data, representative features, motion, and more necessary signal features included in the video sequence description scheme can be selected.
  • FIG. 8 is a schematic diagram showing a description tool included in the video object description scheme in the present embodiment.
  • the video object description scheme 500 defines signal features of an arbitrarily-shaped region or an object in a moving image.
  • the video object description scheme 500 is composed of the object motion description 501, the shape change description 502, and the rectangular moving picture (video sequence) description scheme 400 for the video object. Is included.
  • FIG. 9 is a diagram showing an example of a video sequence description scheme in XML. Description schemes are implemented in any language and include any included descriptions (or more).
  • the name indicated by the nam attribute in the e1ement element is arbitrary, but a name representing the feature of the descriptor indicated by type is desirable.
  • FIG. 10 is a diagram illustrating an example of a visual feature amount selection screen when the designated image is a rectangular image.
  • the rectangular image description scheme 200 is composed of a color distribution description 201, a color layout description 202, an edge description 203, a color temperature description 204, and a lighting condition correction color description 205. , And texture description 206 (see Figure 2).
  • a screen is displayed so that the user can select necessary signal characteristics from these description tools.
  • the color distribution (Color D istribution) 601 the color arrangement (Spatial D istribution of Co1 or) 602, the illumination condition correction color (I11umin) ation Independent Color) 603, color temperature (Color Temperature) 604, edge distribution (Spatia 1 D istribution of Edges) 605, and pattern (Homogeneous Pattern) 606 It is displayed so that it can be selected using a pointing device such as a mouse.
  • a pointing device such as a mouse.
  • the pattern 606 is displayed so that at least one of Homogenious Texture and Texture Rowing can be selected. By clicking button 607 with a mouse or the like, extraction of the selected visual feature can be started.
  • FIG. 11 is a diagram illustrating an example of a visual feature amount selection screen when the designated image is an arbitrary-shaped image.
  • the image clip description scheme 300 is composed of 'shape description 301, color distribution description 201, color layout description 202, edge description 203, color temperature description 2 04, lighting condition correction color description 205, and texture description 206 (see Fig. 4).
  • a screen is displayed so that a user can select necessary signal features from these description tools.
  • color distribution (Color D istribution) 701 color arrangement (Spatial D istribution of Co1 or) 702, illumination condition correction color (I11umin) 2003/015574 ation Independent Color) 703, Color Temperature (Color Temperature) 704, Edge distribution (Spatia 1 D istribution of Edges) 705, Pattern (Homogeneous Pattern) 706 , And the shape (Shape) 707 are displayed so as to be selectable using a pointing device such as a mouse.
  • RegionShape and ContourShape can be selected.
  • color distribution 700 at least one of Dominant Color, Scalable Color, and Color Structure can be selected. Displayed so that at least one of the rowing can be selected.
  • the extraction of the selected visual feature can be started by clicking the OK button with a mouse or the like.
  • FIG. 12 is a diagram illustrating an example of a visual feature amount selection screen when the specified image is a rectangular moving image.
  • the video sequence description scheme 400 includes a time-series array container 401, a representative feature container 402, and a motion activity description 403 (see FIG. 6).
  • a screen is displayed so that a user can select a necessary signal feature from these description tools.
  • the time series array (Visua 1 Time Se ries)
  • the visual features included in the rectangular image description scheme assigned to 801 the visual features included in the rectangular image description scheme assigned to the representative feature (G of Go COLor) 802, and the motion activity The motion (Motion Ability) 803 is displayed so as to be selectable using a pointing device such as a mouse.
  • a pointing device such as a mouse.
  • the extraction of the selected visual feature can be started by clicking the OK button with a mouse or the like.
  • FIG. 13 is a diagram illustrating an example of a visual feature amount selection screen when the designated image is an arbitrary-shaped moving image.
  • the video object description scheme 500 is composed of an object motion description 501, a shape change description 502, and a rectangular moving image (video sequence) description scheme 40 for the video object. Includes feature values representing all frames included in 0 (see Fig. 8).
  • a screen is displayed so that a user can select a necessary signal feature from these description tools.
  • the visual features included in the rectangular image description scheme assigned to 902, the motion activity 903, the object motion 904, and the shape change (Shape V) (ariation) 905 is displayed to be selectable using a pointing device such as a mouse.
  • a pointing device such as a mouse.
  • at least one of Motion Trajectory and Parametric Motion can be selected for object motion 104.
  • the extraction of the selected visual feature can be started by clicking the ⁇ K button with a mouse or the like.
  • FIG. 14 is a flowchart showing the image description operation according to the present embodiment.
  • the image description scheme storage unit 106 stores image description schemes in a searchable manner for each type. That is, as shown in FIG. 1, a rectangular image description scheme 200, an arbitrary shape image description scheme 300, a video sequence description scheme 400, and a video object are stored in the image description scheme storage unit 106.
  • the description scheme 500 is stored, and parameters necessary for extracting the visual feature amount are set (step A 1).
  • the user designates an image from which the description file is to be generated from the input unit 101 (step A2).
  • the image file name may be directly input, or the user may select from the images displayed in a list in advance.
  • the program control processor 103 instructs the image description scheme search unit 105 to search for the description scheme of the desired image.
  • the image description scheme search unit 105 searches the image description scheme storage unit 106 using the specified image type as key. (Step A3). An image description scheme corresponding to the specified image type is found Then, the image description scheme search unit 105 reads out the image description scheme and returns it to the program control processor 103.
  • the program control processor 103 visualizes the features that can be extracted from the specified image from the read image description scheme, and displays them on the display unit 102 (step A4). .
  • the rectangular image is displayed as shown in FIG. 10 with reference to the read rectangular image description scheme (step A3.1).
  • the image is displayed as shown in FIG. 11 with reference to the read arbitrary shape image description scheme (step A3.2).
  • a video sequence it will be displayed as shown in Figure 12 with reference to the read video sequence description scheme (Step A3, 3)
  • a video object is specified Is displayed as shown in FIG. 13 with reference to the read video object description scheme (step A3.4).
  • these displays can also be performed according to an instruction from the input unit 101.
  • the user specifies a feature to be extracted from the input unit 101 from the list of extractable features displayed on the display unit 102 (step A5).
  • the program control processor 103 instructs the visual feature extractor 107 to extract the desired feature.
  • the visual feature quantity extraction unit 107 reads the specified image from the image data storage unit 110 and extracts the specified feature quantity from the image (step A6).
  • the description file generator 108 describes the features and parameters generated by the visual feature extractor 107 in a visual descriptor (step A7), and generates the described data as a description file. (Step A8).
  • the description file is stored in the description file storage unit 109. You may.
  • the image description scheme search unit 105 searches for an image description scheme corresponding to the type of the image, and
  • the visual features that can be extracted from are displayed in a format as shown in Figs. Therefore, the user can easily specify the visual feature to be extracted. Also, since the types of tools to be supported can be minimized, an image description system with a simplified system configuration can be provided.
  • Similar images are searched for similar images by evaluating the similarity between the features included in the description file for a specific image and the features included in the description file for another image. It can also be used. Therefore, since only an appropriate description file is used for similar image search, etc., the reliability and accuracy of the search can be improved. (Second embodiment)
  • FIG. 15 is a block diagram showing the configuration of the image description system according to the second embodiment of the present invention.
  • the second embodiment of the present invention further includes a description file verification unit 111 in addition to the first embodiment shown in FIG.
  • the description file verification unit 111 reads the image description scheme obtained by the image description scheme search unit 105 and verifies whether the description file generated by the description file generation unit 108 is correct. Specifically, it confirms whether the type of the feature described in the description file is defined in the image description scheme, and whether the description file follows the description method specified in the image description scheme. If the description file follows the description method specified in the image description scheme, a description file is output. As described above, in the second embodiment, the description file verification unit 111 is provided, and by comparing the image description scheme with the description file, it is determined whether the description method of the description file for the image is appropriate. Can be verified.
  • the generated description file evaluates the similarity between the features included in the description file for a specific image and the features included in the description file for another image, thereby searching for similar images. It can also be used for ropes. Therefore, since only the appropriate description file is used for similar image search, etc., the reliability and accuracy of the search can be further improved.
  • FIG. 16 is a block diagram showing the configuration of the image description system according to the third embodiment of the present invention. Includes description file verification section 1 1 1.
  • the image description system includes an image description scheme retrieval unit 105, a visual feature quantity extraction unit 107, a description file generation unit 108, and a description file verification unit 111 shown in FIG. Is realized in software by the program control processor 120. That is, the program control processor 120 executes the image description program 121 stored in the memory to realize an image description function equivalent to that described in the first and second embodiments. can do.
  • the input unit 101, the display unit 102, the image description scheme storage unit 106, the description file storage unit 109, and the image data storage unit 110 are programs that execute the image description program 122. Control is performed by the control processor 120 in the same manner as in the first and second embodiments, and an image description system according to the present invention is realized. (Fourth embodiment)
  • a still area description scheme for describing a still image a rectangular moving image description scheme for describing a set of rectangular frames, and a video object are stored in the image description scheme storage unit 106. It differs from the first embodiment shown in Fig. 1 in that a video object description scheme to be described is stored.
  • the rectangular moving picture description scheme and the video object description scheme are the same as those used in the first embodiment.
  • a still image description scheme is designed to describe the signal features of all still images. Its main purpose is to search for images with similar signal patterns from digital image archives, such as digital photo cameras.
  • the signal features obtained from the still image are: 1) color distribution, 2) color arrangement, 3) color temperature, 4) lighting condition correction color, 5) edge, 6) texture, and 7) shape. are categorized.
  • the visual features belonging to each group are defined as follows.
  • FIG. 17 is a diagram showing an example of a still area description scheme using XML.
  • the description scheme is implemented in any language and contains any included descriptions (or more descriptions).
  • the name indicated by the name attribute in the element element is arbitrary, but a name that indicates the characteristics of the descriptor indicated by type is desirable.
  • an image description system with a simplified system configuration can be provided.
  • the fifth embodiment of the present invention is different from the first embodiment in that a still area description scheme for describing a still image and a moving image description scheme for describing a moving image are stored in the image description scheme storage unit 106. Different from the example. However, the still area description scheme is the same as that described in the fourth embodiment.
  • a video description scheme is designed to describe the signal features of the video.
  • the signal features obtained from a moving image include (1) time-series data of the feature amount for a rectangular image, (2) feature amounts representing all frames included in the moving image, (3) motion activity, (4) ) Classify into 5 groups: object motion information and (5) shape change.
  • the visual features belonging to each group can be determined as follows.
  • FIG. 18 is a diagram showing an example of a moving image description scheme using XML.
  • the description scheme is implemented in any language and includes any included descriptions (or more).
  • the name indicated by the nam attribute in the element element is arbitrary, but a name representing the feature of the descriptor indicated by type is desirable.
  • an image description system with a simplified system configuration can be provided.
  • an image description scheme corresponding to the type of the image is extracted, and an appropriate visual feature amount that can be extracted is displayed. You. For this reason, it is easy to select a meaningful visual feature amount, and it is possible to extract a visual feature amount that accurately represents a specified image. For this reason, the efficiency and accuracy of image retrieval can be improved.

Abstract

画像記述システムでは、格納部は、画像の種別ごとに定義された記述スキームを格納する。制御部は、画像が指定されると、格納部から当該指定画像の種別に対応する記述スキームを参照し、指定画像から抽出することができる特徴量を特定する。記述ファイル生成部は、指定画像から特定された特徴量に関するデータを抽出し、指定画像の記述ファイルを生成する。

Description

画像記述システムおよびその方法 技術分野
本発明はマルチメディ ア情報の種々の特徴を記述するためのシステ ムおよび方法に関する。 . 背景技術
インターネッ トに代表されるネッ トワークの広帯域化に伴って、 テ キス ト (文字) 情報だけでなく映像や音声を含むマルチメディア情報 がオンラインで広く一般に提供されるようになっている。 このことは、 ユーザが多種多様な情報に容易にアクセスできるという利点がある反 面、 あまりに多量かつ多様な情報が提供されるので、 本当に必要で役 に立つ情報へアクセスすることがますます困難になるという皮肉な現 象も現れている。
このような状況おいてマルチメディァ情報を効率的に検索、 フィル タリ ングあるいは組織化する手段として 、 メ夕デ一夕を検索対象とす る技術が注目されている。 メタデ一夕はマルチメディ ァコンテンッか ら抽出された特徴を一定の形式で簡潔に表現したものであり、 これを 直接の検索対象とすることで検索の効率化を図ることができる, , 特に 視覚的 Z聴覚的情報は具体的な言葉では表現しにく レゝことが多く、 よ り感性に近い情報を定量化してメ夕デ一夕として表現する方が適して いる。
このような背景のもとで、 マルチメティァコンテンッのメ夕データ に対する統一的な表記方法が M P E G一 7 によつて提供された 。 その なかの通称 M P E G— 7 V i s u a 1 は 、 ビジュアルコンテンッの 信号的特徴 (以下、 ビジュアル特徴量と呼ぶ。 ) を記述する標準化フ ォ一マツ ト I S〇/ I E C 1 5 9 3 8 — 3 を提供するパートである。
M P E G— 7 V i s u a 1 では、 ビジュアルコンテンツのビジユア ル特徴量およびビジュアル特徴量を記述するためのビジュアル記述子 の生成方法が定められている。 なお、 ビジュアルコンテンツには、 デ ジタル写真のような矩形画像、 ク リ ップアート等の任意形状画像、 矩 形フレームの集合である矩形動画像 (ビデオシーケンス) 、 動画像の 中の任意形状領域あるいは物体のシーケンスであるビデオオブジェク トなどが含まれる。
以下、 ビジュアル記述子の例としてエッジ記述子 : E d g e H i s t o g r a m を取り上げ、 既存の画像記述システムについて説明す る。
E d g e H i s t o g r a m は口一カルエッジ情報をヒス トグラ ム化したもので、 画像が 4 X 4の区画に分割され、 区画毎に所定の 5 タイプのエッジがどのく らい存在するかを、 それぞれ 3 ビッ トで記述 するための記述子である。 E d g e H i s t o g r a m 特徴量は以 下のように生成される。
D = [E" ( i =l , 2 , . . , 16 , j =l , 2 , ··· , 5 ) ]
ここで、 Ei;jはブロック i (ラスタースキャン順 ) における第 j エツ ジ要素を示す。 記述子の構築は以下のように行われる。 まず、 画像が 縦横 4区画の合計 1 6区画に分割される。 次に、 各区画においてマス ク演算により各方向のエッジが検出される。 演算出力が閾値を超えた 場合にヒス トグラムの対応するビンに 1票を投じることによって特徴 量が構築される。
生成される特徴量は、 M P E G— 7 V i s u a 1 パー トで表 1 の ように規定されているシンタックスに基づき、 例えば表 2のように記 述される。 表 1
< complexType name= 11 EdgeHis togramType " final="#all> く complexCont ent >
< extension base-" mpeg 7: VisualDType " >
く sequence>
< element name= " BinCount s 11 >
く sinpleType>
く r e s t r i c t i o n >
く simpleType>
く lis t i t emType = 11 mpeg 7: unsigned.3 " /> く/ s imp le Type >
< lengt value= " 8011 />
</restriction>
く/ s impleType >
く / element >
く / sequence>
く /extension>
く / com lexCont ent >
く / complexType > 表 2
く Descriptor xsi: Type= " EdgeHis togramType " >
く BinCount s> 121123 11511 < /BinCounts >
く /Descriptor >
M P E G— 7 V i s u a 1 で定められたビジュアル記述子によ り 画像の信号特徴を記述するシステムが、 " M P E G— 7 X M S o ί t w a r e " として提供されている。 このシステムでは、 利用者が 記述子を生成する対象となる画像を指定し、 抽出されたビジュアル特 徴量を選択する。 選択されたビジュアル記述子を構成するビジュアル 特徴量が、 指定された画像から抽出される。 こう して、 抽出されたビ ジュアル特徴量がビジュアル記述子により記述された記述フアイルが 生成される。
d j^子を用いた画像記述に関しては 々提案されている たとえは 特開 2 0 0 2 一 1 7 0 1 1 6号公報には 、 述子に十分な 間情報が 埋め込まれ 、 そのコンテンッに基づいて画像が記述され 、 画像の識別 を容易にする方法が開示されてい
上述したように 、 メタデータは 、 マルチメディ アコンテンッから抽 出された特徴を一定の形式で簡潔に表現したものであり 、 これを直接 の検索対象とすることで検索の効率化を図つている。 したが て、 マ ルチメディ ァコンテンッを適切に表現するメタデータをどのように生 成するかは 、 検索の効率化及び精度に直接影響する重 なファクタで ある。
しかしながら 、 _h d v 来のシステムでは、 画像の種別に依存して利 用できる記述子 、 利用できない記述子があるにもかかわらず、 画像の 種別に関係なく全てのビンュアル記述子を用いて画像が記述されてい た のために 、 ある種別の画像に対して不適切な記述子で画 ¼ d が実行される場合がある たとえば、 静止画像である矩形画像が、 動 きァクティ ビティ d ¾^子によつて記述する場合などである。
また、 ある特定タイプのシステムに向けて作成された記述ファイル を他のシステムで直接利用するためには、 全てのビジュアル記述子に ついての利用ツールをサポートしなくてならない。 このためにシステ ム規模が非常に大きくなるという問題もあった。
上記説明と関連して、 光ディスク再生装置が特開 2 0 0 1 - 5 7 0 5 7号公報に記載されている。 この従来例では、 読み出し部は、 光デ イスクからオーディオ Zビデオデータとオーディオ/ビデオシーケン ス情報と、 オブジェク ト一情報と、 タイ トルセッ ト位置情報と、 ディ スク管理情報とを読み出す。 制御部は読み出し部を制御する。 記憶部 は、 ディスクが D V D— A u d i o と認識できたとき、 A M Gを記憶 し、 更に V G Mを検索して、 もし V G Mが存在する場合には、 V G M を同時に記憶する。 入力部は、 A M Gと V G Mの一方を選択するュ一 ザの指示を受け付ける。
また、 画像検索システムが特開 2 0 0 1 一 1 6 7 0 9 5号公報に記 載されている。 この従来例では、 特徴記述子生成部は入力画像データ から画像特徴量を抽出し特徴記述子を生成し、 入力画像データと対応 付けて画像情報蓄積部に格納する。 属性リス ト生成部は、 入力画像デ 一夕に付随して入力される属性情報に基づいて属性リス トを作成する。 画像検索部は、 属性情報に関する検索条件が入力されると、 属性リス トを検索して検索条件に適合する属性情報を出力し、 特徴記述子に関 する検索条件が入力されると画像情報蓄積部を検索して検索条件に適 合する画像データを出力する。
また、 メディアコンテンツとのイン夕一ラクティ ブシステムが特開
2 0 0 1 - 2 9 2 4 2 5号公報に開示されている。 この従来例では、 コントローラは、 メディアコンテンツを出力するようにメディ ア出力 機器を制御する。 割り当て部は、 メタデータとインタ一ラクティブェ レメントに対して意味論的分類を割り当てる。 選択部は、 複数の意味 論的分類の中から 1つを選択する。 出力部は、 選択された意味論的分 類に依存する形態で、 選択された意味論的分類に属するメタデータや インタ一ラクティ ブエレメントを出力する。
また、 オーディオビジュアルシステムの使用方法が特開 2 0 0 1 一
3 4 6 1 4 0 に開示されている。 この従来例では、 オーディオ, 画像 及び複数のフレームを含む動画のうちの少なく とも 1つが扱かわれ、 オーディオ, 画像及び動画のうちの少なく とも 1つの使用に関するュ ザの複数の好みを記述する使用好み記述が提供される。 好みの少な く とも 1つに関し、 好みの 1つが公開又は秘密のいずれであるかを示 す保護属性が提供される。
また、 ォーアイオビジュアル情報を管理するための使用履歴記述ス キ ムが特開 2 0 0 2 — 1 8 4 1 5 7 に開示されている。 この従来例 では 、 使用履歴プロセスは 、 、 ュ ザにより消費されるマルチメディ ア
+ 9
ンテンッの記述へアクセスでさ ュ ザが A V装置, コンピュータ 顺末等の種々の機器上で行う動作を監視する能力を持つ。 使用履歴モ ンュ ルはコンフィ グレーショ ン を介してユーザにより指定された 動作のうち認められた動作情報のみを収集し記録する。 承諾されたュ ザ動作を検出すると、 使用履歴プ Pセスは所定の動作に対し、 発生 時刻 , 動作が関係するプロダラム ンテンッの一意の識別子, 追加 のコンテンッ記述情報をュ ザ動作履歴成分に記録する。 使用履歴情 報はユーザの選択履歴成分を用い ンテンッ記述の予め規定された サブセッ トを表形式で記録し類別表として表 Kする。 発明の開示
本発明の目的は、 ビジュアルコンテンッに対して適切な特徴量を抽 出できる画像記述システムおよび方法を提供することにある。
本発明の他の目的は 、 サボ一卜するツールの種類を最適化すること によりシステム構成を簡易にした画像目 d述ンス: ムを提供することに める
本発明のさらに他の 画像に対する記述フアイルの記述方式 が 切であるか否かを検証できる画像 gel ji ンス丁ムおよび方法を提供 することにある。
本発明の観点では、 画像記述システムは、 画像の種別ごとに定義さ れた記述スキームを格納する格納部と、 画像が指定されると、 格納部 から当該指定画像の種別に対応する記述スキームを参照し、 指定画像 から抽出することができる特徴量を特定する制御部とを有する。
ここで、 指定画像から特定された特徴量に関するデータを抽出し、 指定画像の記述ファイルを生成する記述ファイル生成部をさらに有し てもよい。
また、 制御部は、 特定された特徴量を選択可能に表示部に表示する ことが好ましい。 こ こで、 指定画像から特定された特徴量のうち選択 された特徴量に関するデータを抽出し、 指定画像の記述ファイルを生 成する記述ファイル生成部をさらに有してもよい。
また、 指定画像の種別に対応する記述スキームを用いて記述フアイ ル生成部により生成された記述ファイルを検証する記述フアイル検証 部をさらに有することが好ましい。
また、 格納部は、 矩形画像を記述する矩形画像記述スキーム、 任意 形状.画像を記述する任意形状画像記述スキーム、 矩形フレームの集合 である動画像を記述する矩形動画像記述スキーム、 および、 矩形フレ ームの集合である動画像内の任意形状の対象を記述するビデオォブジ ェク ト記述スキームのうち少なく とも 1つを格納することが望ましレ この場合、 矩形画像記述スキームは、 色分布、 色配置、 色温度、 照明 条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数 の特徴量のうち 1つ以上の特徴量を有することが好ましい。 また、 1 つ以上の特徴量の各々は少なく とも 1つの選択可能な記述子からなり、 色分布特徴量は、 D o m i n a n t C o l o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含む複数 の記述子からなり、 このうち少なく とも 1つが選択可能であり、 テク スチヤ特徴量は、 H o m o g e n e o u s T e x t u r eおよび T e X t u r e B r o w i n gを少なく とも含む複数の記述子からなり、 03015574 このうち少なく とも 1つを選択可能であることが好ましい。
また、 任意形状画像記述スキームは、 色分布、 色配置、 色温度、 照 明条件補正色、 エッジ分布、 テクスチャ、 および、 形状を少なく とも 含む複数の特徴量のうち 1つ以上の特徴量を有していてもよい。 この 場合、 1つ以上の特徴量の各々は少なく とも 1つの選択可能な記述子 からなり、 形状特徴量は、 C o n t o n r S h a p eおよび R e g i o n S h a p e を少なく とも含む複数の記述子からなり、 このうち少 なく とも 1つが選択されてもよい。
また、 矩形動画像記述スキームは、 矩形フレームの時系列データ、 代表特徴量および動きァクティ ビティ を少なく とも含む複数の特徴量 のうち 1つ以上の特徴量を含んでもよい。 この場合、 1つ以上の特徴 量の各々は少なく とも 1つの選択可能な記述子からなり、 時系列デー 夕は、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 およ び、 テクスチャを少なく とも含む複数の特徴量のうち 1つ以上の特徴 量を有し、 各特徴量は少なく とも 1つの選択可能な記述子からなり、 色分布特徴量は、 D o m i n a n t C o l o r、 S c a 1 a 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含む複 数の記述子からなり、 このうち少なく とも 1つが選択可能であり、 テ クスチヤは、 H o m o g e n e o u s T e x t u r eおよひ T e t u r e B r o w i n gを少なく とも含む複数の記述子からなり、 こ のうち少なく とも 1つが選択可能であることが好ましい。
また、 代表特徴量は、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のう ち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な 記述子からなり、 色分布特徴量は、 D 0 m i n a n t C 0 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少 なく とも含む複数の記述子からなり、 このうち少なく とも 1つが選択 可肯 であり、 テクスチャは、 H o m o g e n e o u s T e x t u r e および T e X t u r e B r o w i n gを少なく とも含む複数の記述 子からなり、 このうち少なく とも 1つが選択可能であることが好まし い。
ビデオオブジェク ト記述スキームは、 矩形フレームの時系列データ、 代表特徴量、 動きアクティ ビティ、 物体動き、 および、 形状変化を少 なく とも含む複数の特徴量のうち 1つ以上の特徴量を有することが好 ましい。 この場合、 1つ以上の特徴量の各々は少なく とも 1つの選択 可能な記述子からなり、 物体動きは、 M o t i o n T r a j e c t o r yおよび P a r a m e t e r M o t i o nを少なく とも含む複数の 記述子からなり、 このうち少なく とも 1つが選択可能であることが好 ましい。
また、 時系列データは、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のう ち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な 記述子からなり、 色分布特徴量は、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e を少 なく とも含む複数の記述子からなり、 このうち少なく とも 1つが選択 可能であり、 テクスチャは、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なく とも含む複数の記述 子からなり、 このうち少なく とも 1つが選択可能であることが好まし い。
また、 代表特徴量は、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のう ち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な 記述子からなり、 色分布特徴量は、 D o m i n a n t C 0 1 o r 、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少 なく とも含む複数の記述子からなり、 このうち少なく とも 1 つが選択 可能であり、 テクスチャは、 H o m o g e n e o u s T e x t u r e および T e t u r e B r o w i n gを少なく とも含む複数の記述 子からなり、 このうち少なく とも 1つが選択可能であることが好まし い。
また、 格納部は、 静止画像の特徴量を記述する静止画像記述スキー ム、 矩形フレームの集合である動画像を記述する矩形動画像記述スキ ーム、 および、 矩形フレームの集合である動画像内の任意形状の対象 を記述するビデオオブジェク ト記述スキームのうち少なく とも 1つを 格納してもよい。 この場合、 静止画像記述スキームは、 色分布特徴量、 色配置特徴量、 色温度特徴量、 照明条件補正色特徴量、 エッジ分布特 徵量、 および、 テクスチャ特徴量を少なく とも含む複数の特徴量のう ち 1つ以上の特徴量を有してもよい。 また、 1つ以上の特徴量の各々 は少なく とも 1つの選択可能な記述子からなり、 色分布特徴量は、 D o m i n a n t C o 1 o r , S c a l a b l e C o l o rおよび C o 1 o r S t r u e t u r e を少なく とも含む複数の記述子からなり、 このうち少なく とも 1つが選択可能であ り、 色配置特徴量は、 C o l o r 1 a y o u t を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であり、 色温度特徴量は、 C 0 1 o r T e m p e r a t u r e を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であ り、 照明条件補正色特徴量は、 I 1 1 u m i n a t i o n l n v a r i a t i o n C o l o r を少なく とも含む §d¾i!子 からなり、 このうち少なく とも 1つが選択可能であり、 エッジ分布特 徴量は、 E d g e H i s t o g r a m を少なく とも含む記述子か ら なり、 このうち少なく とも 1つが選択可能であ り、 テクスチャ特徴量 は、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なく とも含む複数の記述子からなり、 このうち少な く とも 1 つを選択可能であることが好ましい。 静止画像記述スキーム は、 さ らに、 形状特徴量を含み、 形状特徴量は、 R e g i o n S h a P e および C o n t o u r S h a p e を少なく とも含む複数の記 述子からなり、 このうち少なく とも 1 つを選択可能であることが好ま しい。
また、 格納部は、 静止画像の特徴量を記述する静止画像記述スキー ムおよび動画像を記述する動画像記述スキームのうち少なく とも 1 つ を格納してもよい。 この場合、 動画像記述スキームは、 動画像のフレ ームの時系列データ、 動画像の代表特徴量、 および動画像の動きァク ティ ビティ を少なく とも含む複数の特徴量のうち 1 つ以上の特徴量を 有し、 各特徴量は少なく とも 1つの記述子を選択可能に含んでもょレ この場合、 動画像記述スキームは、 さ らに、 動画像の動き記述および 動画像の形状変化記述を含んでもよい。
また、 記述スキームは、 指定された画像の種別に対応する記述スキ ームを参照して指定画像から抽出することができる特徴量を特定する 画像記述システムにおいて用いられ、 動画像のフレームの時系列デ一 夕、 動画像の代表特徴量、 および、 動画像の動きアクティ ビティ を少 なく とも含む複数の特徴量のうち 1 つ以上の特徴量を有し、 各特徴量 は少なく とも 1 つの記述子を選択可能に含んでもよい。 ここで、 動画 像記述スキームは、 さ らに、 動画像の動き記述および動画像の形状変 化記述を含んでもよい。
本発明の他の観点では、 画像記述方法は、 画像の種別ごとに定義さ れた記述スキームを格納するステップと、 画像が指定されると、 当該 指定画像の種別に対応する記述スキームを検索して指定画像から抽出 することができる特徴量を特定するステップと、 指定画像から抽出す ることができる特徴量を選択可能に表示するステップとによ り達成さ れる。 ここで、 画像記述方法は、 表示された特徴量から所望の特徴量を選 択ステップと、 所望の特徴量に従って指定画像から特徴量を抽出して 記述ファイルを生成するステップとを更に具備してもよい。 また、 指 定画像の種別に対応する記述スキームを用いて生成された記述フアイ ルを検証するステップを更に具備してもよい。
本発明の他の観点では、 計算機に り実行可能なソフ トウエアプロ ダク 卜は、 画像が指定されると、 画像の種別 とに定義された記述ス キームを格納した記憶部から当該指定画像の種別に対応する記述スキ ムを検索する機能と 、 検索された記述スキ ムに基づいて指定画像 から抽出することができる特徴量を特定する機能と 指定画像から抽 出することができる特徴量を選択可能に表示する機能とを実現する。
ここで、 ソフ トウェアプロダク ト表示された特徴量から所望の特徴 量が選択されると、 所望の特徴量に従って指定画像から特徴量を抽出 して記述ファイルを生成する機能を更に具備してもよい。
また、 ソフ トウェアプロダク トは、 指定画像の種別に対応する記述 スキームを用いて生成された記述ファイルを検証する機能を更に具備 してもよい。
また、 本発明の他の観点では、 記述スキームは、 指定された画像の 種別に対応する記述スキームを参照して指定画像から抽出することが できる特徴量を特定する画像記述システムにおいて用いられる記述ス キームであり、 色分布特徴量、 色配置特徴量、 色温度特徴量、 照明条 件補正色特徴量、 エッジ分布特徴量、 および、 テクスチャ特徴量を少 なく とも含む複数の特徴量のうち 1つ以上の特徴量を有し、 色分布特 徵量は、 D o m i n a n t C o l o r S c a l a b l e C o l o r および C o 1 o r S t r u e t u r e を少なく とも含む複数の記述 子からなり、 このうち少なく とも 1つが選択可能であり、 色配置特徴 量は、 C o 1 o r 1 a y o u t を少なく とも含む記述子からなり、 こ のうち少なく とも 1つが選択可能であり、 色温度特徴量は、 C o 1 o r T e m p e r a t u r e を少なく とも含む記述子からなり、 このう ち少なく とも 1つが選択可能であり、 照明条件補正色特徴量は、 I 1 l u m i n a t i o n l n v a r i a n t C o l o r を少なく とも む記述子からなり、 このうち少なく とも 1つが選択可能であり、 エツ ジ分布特徴量は、 E d g e H i s t o g r a m を少なく とも含む記 述子からなり、 このうち少なく とも 1つが選択可能であり、 テクスチ ャ特徴量は、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なく とも含む複数の記述子からなり、 この うち少なく とも 1つを選択可能である。
記述スキームは、 さらに、 形状特徴量を含み、 形状特徴量は、 R e g i o n S h a p e およひ C o n t o u r S h a p e を少な <s と も含む複数の記述子からなり、 このうち少なく とも 1つを選択可能で ある。
以上のように、 本発明では、 有意義なビジュアル特徴量の選択が容 易となり、 かつ、 指定画像を的確に表現したビジュアル特徴量を抽出 がすることができる。
また、 画像の種別ごとに記述スキームを定義しておく ことによりサ ポートするべき特徴量および記述ツールの種類を必要最小限にするこ とができ、 システム構成を簡略化できる。
さらに、 指定画像の種別に対応する記述スキームを用いて、 生成さ れた記述ファイルを検証するのが望ましい。 このように生成された記 述ファイルを元の画像記述スキームと照らし合わせることにより、 画 像に対する記述ファイルの記述方式が適切であるか否かを検証でき、 画像検索の効率及び精度をさらに向上させることができる。 図面の簡単な説明 図 1 は、 本発明の第 1実施例による画像記述システムの構成を示す ブロック図であり、
図 2は、 第 1実施例における矩形画像記述スキームに含まれる記述 ツールを示す模式図であり、
図 3 は、 XM L ( e X t e n s i b l e M a r k u L a n g u a g e )による矩形画像記述スキームの例を示す図であり、
図 4は、 第 1実施例におけるイメージクリ ップ記述スキームに含ま れる記述ツールを示す模式図であり、
図 5は、 X M Lによるイメージク リ ップ記述スキームの例を示す図 であり、
図 6は、 第 1実施例におけるビデオシーケンス記述スキームに含ま れる記述ツールを示す模式図であり、
図 7 は、 XM Lによるビデオシーケンス記述スキームの例を示す図 であり、
図 8は、 第 1実施例におけるビデオオブジェク ト記述スキームに含 まれる記述ツールを示す模式図であり、
図 9 は、 X M Lによるビデオオブジェク ト記述スキームの例を示す 図であり、
図 1 0は、 指定画像が矩形画像の場合のビジュアル特徴量選択画面 の一例を示す図であり、
図 1 1 は、 指定画像が任意形状画像の場合のビジュアル特徴量選択 画面の一例を示す図であり、
図 1 2は、 指定画像が矩形動画像の場合のビジュアル特徴量選択画 面の一例を示す図であり、
図 1 3は、 指定画像が任意形状動画像の場合のビジュアル特徴量選 択画面の一例を示す図であり、
図 1 4は、 第 1実施例による画像記述動作を示すフロ一チャー トで あり、
図 1 5は、 本発明の 2実施例による画像記述システムの構成を示 すブ Pック図であり、
図 1 6は、 本発明の第 3実施例による画像記述システムの構成を示 すブ πック図であり、
図 1 7は、 X M Lに る静止領域記述スキームの例を示す図であり 図 1 8は、 X M Lに J;る動画像記述スキームの例を示す図である。 発明を実施するための最良の形態
以下、 図 参照して 、 本発明の画像 述ンステムについて詳細に 説明する
(第 1実施例)
図 1 は 、 本発明の第 1実施例による画 f象 システムの構成を示す ブロック図である。 図 1 において 、 入力部 1 0 1 は、 キーポ一ドゃポ インティ ングデバイスなどの入力デバイスであり、 ビジユアル特徴量
が抽出されるベき対象としての画像を指定し、 抽出されるビンュアル 特徴量を指定し 、 あるいは 、 種々の命令を入力するために使用される。 表示部 1 0 2は 、 モ一タであり、 後述されるビジユアル特徵虽選択画 囬 表 し 、 入力部 1 0 1 と協働してュ —ザインタフエースを提供す 。 本ンスァムのプ Dグラム制御プロセッサ 1 0 3は 、 制御プログラ ム 1 0 4を実行する了 とにより ピンユアル特徴量抽出に関する処理や システム全体の動作を制御する。
本実施例による画像 §己 システムには 、 画像記述スキーム検索部 1
0 5 、 画像記 '|舎スキーム記憶部 1 0 6 、 ヒジュアル特徴量抽出部 1 0
7 、 ファィル生成部 1 0 8が けられている。 画像記述スキ一ム 検索部 1 0 5 、 ビジユアル特徵 抽出部 1 0 7および記述フアイル生 成部 1 0 8は 、 プログラム制御プ □セヅサ 1 0 3 の制御のもとで 、 後 述される画像記述スキームの検索、 ビジュアル特徴量の抽出および記 述ファイルの生成をそれぞれ実行する。
画像記述スキーム記憶部 1 0 6 には、 複数の画像記述スキームが格 納されている。 ここでは、 矩形画像記述スキーム 2 0 0、 イメージク リ ップ (任意形状画像) 記述スキーム 3 0 0、 ビデオシーケンス (矩 形動画像) 記述スキーム 4 0 0およびビデオオブジェク ト記述スキー ム 5 0 0 、 あるいは、 これらから選択された少なく とも 1 つの画像記 述スキームが格納されている。 これら画像記述スキームについては、 後で詳細に説明する。
画像記述スキーム検索部 1 0 5 は、 プログラム制御プロセッサ 1 0 3から画像記述スキーム検索指令を受け取ると、 指定された画像の種 別に対応する記述スキームを画像記述スキーム記憶部 1 0 6 から検索 する。 読み出された画像記述スキームに基づいて、 指定された画像か ら抽出されることができるビジュアル特徴量の種類が所定のフォーム で表示部 1 0 2 に表示される (詳しく は後述する) 。
ビジュアル特徴量抽出部 1 0 7 は、 ビジュアル特徴量抽出指令を受 け取ると、 画像データ記憶部 1 1 0から指定された画像を入力し、 そ の画像から指定されたビジュアル特徴量を抽出する。 記述ファイル生 成部 1 0 8 は、 抽出されたビジュアル特徴量およびパラメータからビ ジュアル記述子で記述された記述ファイルを生成する。 こう して生成 された記述ファイルは記述ファイル記憶部 1 0 9 に格納され、 画像検 索等に利用される。
画像記述スキーム
( A ) 矩形画像記述スキーム
ディ ジタル写真のような矩形画像の信号的特徴を記述する 目的で矩 形画像記述スキームが設計される。 ディ ジタルフォ 卜アーカイ ブなど のディ ジタル画像アーカイブよ り類似する信号パターンを持つ画像を 検索するのが主目的である。
矩形画像から得られる信号的特徴は、 1 ) 色分布、 2 ) 色配置、 3 ) 色温度、 4 ) 照明条件補正色、 5 ) エッジ、 および、 6 ) テクス チヤの 6グループに分類される。 各グループに属するビジュアル特徴 量は、 以下のようにそれぞれ定められる。
1ノ Dominant Color / ScalableColor / ColorStructure
2 ) ColorLayout
3 ) Co lor emper t ure
4 ) IlluminationlnvairiaritColoi:
5 ) EdgeHis togram
6 ) HomogeneousTexture / TextureBrowsing
各グループにおいて類似するビジュアル特徴量がある場合には、 全 てを併用するのは適切ではなく 、 目的に応じて 1個あるいは複数個を 選択できるよう にするのが望ましい。 色分布およびテクスチャを表す 複数のビジュアル特徴量の使い分けを表 3 に例示する。
表 3 矩形画像記述スキーム
Figure imgf000019_0001
色分布を表す 3つの特徴量は、 表 3 に示されるよう に使い分けられ る。 すなわち、 ( 1 ) 限定色領域の正確な記述には D o m i n a n t C o 1 o r、 ( 2 ) 広く使われている既存のカラーヒス トグラムとの 互換性が求められるアプリケーションなど汎用製品には S c a 1 a b 1 e C o 1 o r、 ( 3 ) 医用画像などコストより精度がとにかく求められる 用途には C o 1 o r S t r u e t u r eがそれぞれ適している。 したがつ て、 これら用途に応じて、 D om i n a n t C o l o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e の少なく とも 1つを 選択できるように矩形画像記述スキームを設計する。
テクスチャをあらわす 2つの特徴量の使い分けは、 模様のラフなブ ラウジングのみが必要である場合には T e X t u r e B r o w i n g が、 より精度が求められる用途には H o m o g e n i o u s T e x t u r eが適している。 したがって、 H o m o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n g のうち少なく とも 1 つ をテクスチャを表す特徴量として選択できるように矩形画像記述スキ ームが設計される。 さ らに、 色分布、 色配置、 色温度、 照明条件補正 色、 エッジ、 テクスチャのうち、 必要な信号的特徴を選択できるよう に矩形画像記述スキームが設計される。
図 2は、 本実施例における矩形画像記述スキームに含まれる記述ッ —ルを示す模式図である。 図 2 に示すように、 矩形画像記述スキーム 2 0 0は、 動画像の特定フレームまたは矩形の静止画像の信号特徴量 を定める。 矩形画像記述スキーム 2 0 0は、 色分布記述 2 0 1 、 色配 置記述 2 0 2、 エツジ記述 2 0 3、 色温度記述 2 0 4、 照明条件補正 色記述 2 0 5、 および、 テクスチャ記述 2 0 6 を含む。
図 3は、 XM L ( e x t e n s i b l e M a r k u L a n g u a g e ) による矩形画像記述スキームの例を示す図である。 記述ス キ一ムは任意の言語で実行され、 任意の含められた記述 (もしくはそ れより も多くの記述) を含む。 なお、 図 3 において、 e l e m e n t 要素内の n a m e属性で示された名称は任意である力 t y p eで示 されている記述子の特徴を表す名称が望ましい。
( B ) イメージク リ ップ記述スキーム
ク リ ップアー トといった任意形状を持つ画像の信号的特徴を記述す る目的で、 イメージク リ ップ記述スキームが設計される。 コ ンテンツ 制作に用いる素材のアーカイブなどよ り類似する信号パターンを持つ ク リ ップを検索するのが主目的である。 矩形画像より得られる信号的 特徴は全て任意形状画像に適応できる。 任意形状画像よ り得られる信 号的特徴は、 矩形画像より得られる信号的特徴に加え、 形状特徴を得 ることができる。 形状特徴を表すビジュアル特徴量には、 C o n t o u r S h a p eおよび R e g i o n S h a p eが存在するが、 双方を併 用するのは適切ではなく 、 目的に応じて少なく とも 1つを選択できる ようにする必要がある。 矩形画像記述スキームに加えて、 形状特徴を 表す 2つのビジュアル特徴量の使い分けを表 4に示す。
表 4 _ イメージク リ ップ記述スキーム 信号的特徵 ビジユアル特徵量 用途 グル一プ
Dominat Color 限定色領域の正確な 色分布 記述用
ScalableColor 一般的なアプリケー シヨ ン用
ColorStructure 高精度を要する用途 色配置 ColorLayout ― 色温度 ColorTem er at ur e 一
照明条件補正色 Illuminat ionlnv r iantColor ― エツン EdgeHis togram ― テクスチャ Homogeneous Texture 精度を要する用途
TextureBrowsing 模様のラフなブラウ ジング用
形状 CountourS ape 閉曲線記述可能かつ 強固な回転体性が必 要な用途
RegionS ape 一般的用途 表 4に示されるように、 閉曲線記述が可能でなおかつ強固な回転体 性が必要な場合は C o n t o u r S h a p e、 それ以外の一般的な用 途では R e g i o n S h a p eが適している。 したがって、 C o n t o u r S h a p eおよび R e g i o n S h a p eのうち少なく とも 1 つを形状を表す特徴量として選択できるようにイメージクリ ップ記述 スキームが設計される。
図 4は本実施例におけるイメージクリ ップ記述スキームに含まれる 記述ツールを示す模式図である。 イメージクリ ップ記述スキームは、 任意形状を持つ画像の信号的特徴を定める。 図 4に示されるように、 イメージク リ ップ記述スキーム 3 0 0は、 形状記述 3 0 1 と、 矩形画 像記述スキーム 2 0 0 に含まれる色分布記述 2 0 1、 色配置記述 2 0 2、 エツジ記述 2 0 3、 色温度記述 2 0 4、 照明条件補正色記述 2 0 5およびテクスチャ記述 2 0 6 とを含む。 これらのうち必要な信号的 特徴を選択できるようにイメージクリ ップ画像記述スキームが設計さ れる。
図 5は、 X M Lによるイメージク リ ップ記述スキームの例を示す図 である。 記述スキームは任意の言語で実行され、 任意の含められた記 述 (もしくはそれより も多くの記述) を含む。 なお、 図 5 において、 e 1 e m e n t要素内の n a m e属性で示された名称は任意であるが、 t y p eで示されている記述子の特徴を表す名称が望ましい。
( C ) ビデオシーケンス記述スキーム
動画像の信号的特徴を記述する目的でビデオシーケンス記述スキー ムが設計される。 ビデオア一力イブより類似する信号パターンを持つ ビデオを検索するのが主目的である。
動画像より得られる信号的特徴は、 ( 1 ) 矩形画像に対する特徴量 の時系列データ、 ( 2 ) 動画像に含まれる全てのフレームを代表する 特徴量、 ( 3 ) 動き、 の 3 グループに分類する。 各グループに属する ビジュアル特徴量を以下のように定めることができる。
1 ) V i s u a l T i m e S e r i e s
2 ) G o f G o p C o l o r
3 ) M o t i o n A c t i v i t y
特徴量を付与する単位として、 動画像に含まれるフレームに対する 記述を行う場合には 時系列配列コ ンテナ ( V i s u a 1 T i m e S e r i e s ) 、 動画像全体に対する記述を行う場合には 代表特徴量 コンテナ (G o f G o p C o l o r ) を利用することができる。 また 双方を利用することもできる。 好きな位置に特徴量記述子を割り付け ることができる。
コンテナはあるコンテンツの一部分を記述する特徴量記述子群をま とめて取り扱うための接着剤として働く。 V i s u a I T i m e S e r i e s は時間軸上に並んだ特徴量記述子を一括して表記するもので、 固定間隔に記述子を配置する R e g u 1 a r V i s u a I T i m e S e r i e s と、 可変間隔に記述子を配置する I r r e g u l a r V i s u a I T i m e S e r i e s の 2種類があるが、 各フレーム位 置に特徴量記述子を割り付けることができる。 また、 G 0 f G o p C o 1 o r は動画像全体に対して 1つの特徴量記述子を割り付けること ができる。
ビデオシーケンス記述スキームに含まれる時系列データ、 代表特徴 量および動きより必要な信号的特徴を選択できるよう にビデオシーケ ンス記述スキームが設計される。 表 5はビデオシーケンス記述スキー ムを表す。
表 5 — ビデオシーケンス記述スキーム
信号的特徴 ビジユアル特徴量 用途
グル一プ
時系列 VisualTimeSeries 動画像に含まれるフレーム
(矩形画像記述スキーム) に対する
代表特徴量 GofGopColor 動画像全体に対する記述 (矩形画像記述スキーム)
動き MotionActivity 図 6は本実施例におけるビデオシーケンス記述スキームに含まれる 記述ツールを示す模式図である。 ビデオシーケンス記述スキームは、 ビデオシーケンス (複数のフレームの集合) の信号的特徴を定める。 ビデオシーケンス記述スキーム 4 0 0は矩形画像に対する特徴量の時 系列配列コンテナ 4 0 1、 動画像に含まれる全てのフレームを代表す る特徴量コンテナ 4 0 2および動きァクティ ビティ記述 4 0 3 を含む。 図 7は、 XM Lによるビデオシーケンス記述スキームの例を示す図 である。 記述スキームは任意の言語で実行され、 任意の含められた記 述 (もしくはそれよりも多くの記述) を含む。 なお、 図 7 において、 e 1 e m e n t要素内の n a m e属性で示さ -れた名称は任意であるが、 t y eで示されている記述子の特徴を表す名称が望ましい。
(D) ビデオオブジェク ト記述スキーム
M P E G— 4における V i d e o O b j e c t のように、 動画像 中の任意形状領域や物体の信号的特徴を記述する目的でビデオォブジ ェク ト記述スキームが設計される。 コンテンツ制作に用いるビデオォ ブジェク トのアーカイブなどより類似する信号パターンを持つビデオ オブジェク トを検索するのが主目的である。
ビデオシーケンスより得られる信号的特徵は全てビデオォブジェク トに適応できる。 任意形状画像より得られる信号的特徴は、 矩形画像 より得られる信号的特徴に加え、 オブジェク トの動き情報や形状の時 間変移を得ることができる。 ビデオオブジェク トより得られる信号的 特徴は、 1 ) 物体動き情報、 および、 2 ) 形状変化の 2 グループに 分類する。 各グループに属するビジュアル特徴量を以下のように定め ることができる。
1 ) M o t i o n T r a j e c t o r y / P a r a m e t o r i c M o t i o n
2 ) S a p e V a r i a t i o n
物体動き情報を表すビジュアル特徴量には、 M o t i 0 n T 1- a j e c t o r yおよび P a r a m e t o r i c M o t i o n力 存在する が、 双方を併用するのは適切ではなく、 目的に応じて少なく とも 1つ を選択できるようにする必要がある。 これら ビジュアル特徴量の使い 分けを表 6 に示す。
表 6 — ビデオオブジェク ト記述スキーム
Figure imgf000025_0001
Parametric Mo t ionは領域の全体的な動きをァフィ ン変換、 透視 変換など 5種類の動きモデルで近似する。 剛体近似できる物体の動き 記述が目的である。
M o t i o n T r a j e c t o r yは領域の代表点 (例えば重心) の時系列位置変化を表すもので、 時間軸上のサンプリ ング点における 位置とサンプリ ング点間の補間方法を記述する。 人物の歩行軌跡など を表現することによ り、 例えば監視カメラ映像データベースで特定の 行動をした人をピックアツプするなどの用途が考えられる。 したがつ て、 M o t i o n T r a j e c t o r yおよび P a r a m e t o r i c M o t i o n のうちいずれか 1 つを形状を表す特徴量として選択 できるよう にビデオオブジェク ト記述スキームが設計される。 さ らに、 ビデオシーケンス記述スキームに含まれる時系列データ、 代表特徴量、 動き、 より必要な信号的特徴を選択できるように動画像記述スキーム が設計される。
図 8は本実施例におけるビデオオブジェク ト記述スキームに含まれ る記述ツールを示す模式図である。 ビデオオブジェク ト記述スキーム 5 0 0は、 動画像中の任意形状領域や物体の信号的特徴を定める。 ビ デォォブジェク ト記述スキーム 5 0 0は、 ビデオオブジェク トに対す る物体動き記述 5 0 1 、 形状変化記述 5 0 2、 および、 矩形動画像 (ビデオシーケンス) 記述スキーム 4 0 0 に含まれる全てのフレーム を代表する特徴量を含む。
図 9は XM Lによるビデオシーケンス記述スキームの例を示す図で ある。 記述スキームは任意の言語で実行され、 任意の含められた記述 (もしくはそれより も多くの記述) を含む。 なお、 図 9 において、 e 1 e m e n t要素内の n a m e属性で示された名称は任意であるが、 typeで示されている記述子の特徴を表す名称が望ましい。
<ビジュアル特徴量選択画面の表示例 >
( 1 ) 矩形画像の場合
図 1 0 は、 指定画像が矩形画像の場合のビジュアル特徴量選択画面 の一例を示す図である。 すでに述べたように、 矩形画像記述スキーム 2 0 0は、 色分布記述 2 0 1、 色配置記述 2 0 2、 エッジ記述 2 0 3、 色温度記述 2 0 4、 照明条件補正色記述 2 0 5、 および、 テクスチャ 記述 2 0 6 を含む (図 2参照) 。 本実施例では、 図 3の X M L記述例 を実行することで、 ユーザがこれらの記述ツールから必要な信号的特 徴を選択できるように画面表示される。
図 1 0 に示されるように、 色分布 ( C o l o r D i s t r i b u t i o n ) 6 0 1 、 色配置 ( S p a t i a l D i s t r i b u t i o n o f C o 1 o r ) 6 0 2、 照明条件補正色 ( I 1 1 u m i n a t i o n I n d e p e n d e n t C o l o r ) 6 0 3、 色温度 ( C o l o r T e m p e r a t u r e ) 6 0 4、 エッジ分布 ( S p a t i a 1 D i s t r i b u t i o n o f E d g e s ) 6 0 5、 および、 模様 (H o m o g e n e o u s P a t t e r n) 6 0 6が マウス等のポインティ ングデバイスを用いて選択可能に表示される。 すでに述べられたよう に、 色分布 6 0 1 については、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e のうち少なく とも 1つを選択できる。 また、 模様 6 0 6 についても H o m o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n gのうち少なく とも 1つを選択できるよう に表 示される。 また、 ボタン 6 0 7 をマウス等によ り ク リ ックすることで、 選択したビジュアル特徴量の抽出を開始することができる。
このように矩形画像に適切な画像記述スキームを定義しておく こと により、 矩形画像に適切な特徴量のみを選択 · 抽出できる画像記述シ ステムを提供することができる。
( 2 ) 任意形状画像の場合
図 1 1 は、 指定画像が任意形状画像の場合のビジュアル特徴量選択 画面の一例を示す図である。 すでに述べられたよう に、 イメージク リ ップ記述スキーム 3 0 0は、 '形状記述 3 0 1、 色分布記述 2 0 1、 色 配置記述 2 0 2、 エッジ記述 2 0 3、 色温度記述 2 0 4、 照明条件補 正色記述 2 0 5、 および、 テクスチャ記述 2 0 6 を含む (図 4参照) 。 本実施例では、 図 5 の X M L記述例を実行する ことで、 ユーザがこれ らの記述ツールから必要な信号的特徴を選択できるよう に画面表示さ れる。
図 1 1 に示されるよう に、 色分布 ( C o l o r D i s t r i b u t i o n ) 7 0 1 、 色配置 ( S p a t i a l D i s t r i b u t i o n o f C o 1 o r ) 7 0 2、 照明条件補正色 ( I 1 1 u m i n 2003/015574 a t i o n I n d e p e n d e n t C o l o r ) 7 0 3、 色温度 ( C o l o r T e m p e r a t u r e ) 7 0 4、 エッジ分布 ( S p a t i a 1 D i s t r i b u t i o n o f E d g e s ) 7 0 5、 模様 (H o m o g e n e o u s P a t t e r n ) 7 0 6、 および、 形状 ( S h a p e ) 7 0 7がマウス等のポインティ ングデバイスを用 いて選択可能に表示される。
すでに述べられたように、 形状 7 0 7 については R e g i o n S h a p eおよび C o n t o u r S h a p eのうちいずれか 1つのみ選択 できる。 また、 色分布 7 0 1 については、 D o m i n a n t C o l o r、 S c a l a b l e C o l o rおよび C o l o r S t r u c t u r e のうち少なく とも 1つを選択でき、 模様 7 0 6 についても H o rn o g e n i o u s T e x t u r eおよび T e x t u r e B r o w i n g のうち少なく とも 1つを選択できるように表示される。
所望の記述が選択されると、 O Kポタンをマウス等によりクリ ック することで、 選択したビジュアル特徴量の抽出を開始することができ る。 このように任意形状画像に適切なイメージク リ ップ'記述スキーム を定義しておく ことによ り、 任意形状画像に適切な特徴量のみを選 択 · 抽出できる画像記述システムを提供することができる。
( 3 ) ビデオシーケンスの場合
図 1 2は、 指定画像が矩形動画像の場合のビジュアル特徴量選択画 面の一例を示す図である。 すでに述べたように、 ビデオシーケンス記 述スキーム 4 0 0は時系列配列コンテナ 4 0 1 、 代表特徴量コンテナ 4 0 2および動きアクティ ビティ記述 4 0 3 を含む (図 6参照) 。 本 実施例では、 図 7の X M L記述例を実行することで、 ユーザがこれら の記述ツールから必要な信号的特徴を選択できるように画面表示され る。
図 1 2 に示されるように、 時系列配列 ( V i s u a 1 T i m e S e r i e s ) 8 0 1 に割り付けられる矩形画像記述スキームに含まれる ビジュアル特徴量、 代表特徴量 ( G o f G o p C o l o r ) 8 0 2 に 割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、 および動きアクティ ビティ (M o t i o n A c t i v i t y ) 8 0 3 がマウス等のポイ ンティ ングデバイスを用いて選択可能に表示される。 所望の記述が選択されると、 O Kポタンをマウス等によ り ク リ ック する ことで、 選択したビジュアル特徴量の抽出を開始することができ る。 このように矩形動画像に適切なビデオシーケンス記述スキームを 定義しておく ことによ り、 矩形動画像に適切な特徴量のみを選択 · 抽 出できる画像記述システムを提供することができる。
( 4 ) ビデオォブジェク 卜の場合
図 1 3は、 指定画像が任意形状動画像の場合のビジュアル特徴量選 択画面の一例を示す図である。 すでに述べたように、 ビデオオブジェ ク ト記述スキーム 5 0 0は、 ビデオオブジェク トに対する物体動き記 述 5 0 1、 形状変化記述 5 0 2、 および、 矩形動画像 (ビデオシーケ ンス) 記述スキーム 4 0 0 に含まれる全てのフレームを代表する特徴 量を含む (図 8参照) 。 本実施例では、 図 9の X M L記述例を実行す る ことで、 ユーザがこれらの記述ツールから必要な信号的特徴を選択 できるように画面表示される。
図 1 3 に示されるよう に、 時系列配列 ( V i s u a 1 T i m e S e r i e s ) 9 0 1 に割り付けられる矩形画像記述スキームに含まれる ビジュアル特徴量、 代表特徴量 ( G o ί G o p C o 1 o r ) 9 0 2 に 割り付けられる矩形画像記述スキームに含まれるビジュアル特徴量、 動きアクティ ビティ (M o t i o n A c t i v i t y ) 9 0 3、 物体 動き (M o t i o n ) 9 0 4、 および、 形状変化 ( S h a p e V a r i a t i o n) 9 0 5がマウス等のポイ ンティ ングデバイスを用い て選択可能に表示される。 すでに述べられたように、 物体動き 9 0 4については M o t i o n T r a j e c t o r yおよび P a r a m e t r i c M o t i o nの うち少なく とも 1つを選択できる。 所望の記述が選択されると、 〇 K ポタンをマウス等によりク リ ックすることで、 選択したビジュアル特 徴量の抽出を開始することができる。 このように任意形状動画像に適 切なビデオオブジェク ト記述スキームを定義しておく ことにより、 任 意形状動画像に適切な特徴量を選択 ' 抽出できる画像記述システムを 提供することができる。
<画像記述動作 >
次に、 本実施例の全体的動作について詳細に説明する。
図 1 4は、 本実施例による画像記述動作を示すフローチャートであ る。 まず、 画像記述スキーム記憶部 1 0 6 には画像記述スキームが種 別ごとに検索可能に格納されている。 すなわち、 図 1 に示されるよう に、 画像記述スキーム記憶部 1 0 6に、 矩形画像記述スキーム 2 0 0、 任意形状画像記述スキーム 3 0 0、 ビデオシーケンス記述スキーム 4 0 0、 および、 ビデオオブジェク ト記述スキーム 5 0 0 を記憶させ、 また、 ビジュアル特徴量を抽出する際に必要となるパラメータの設定 を行う (ステップ A 1 ) 。 利用者は記述ファイルが生成される対象と としての画像を入力部 1 0 1から指定する (ステップ A 2 ) 。 記述さ れる対象ととしての画像の指定は、 画像ファイル名を直接入力しても よいし、 あらかじめ一覧表示された画像からユーザが選択するように してもよい。
指定された画像が特定されると、 プログラム制御プロセッサ 1 0 3 は画像記述スキーム検索部 1 0 5 に希望画像の記述スキームの検索を 指示する。 画像記述スキーム検索部 1 0 5は、 指定された画像の種別 をキ一として画像記述スキーム記憶部 1 0 6 を検索する。 (ステップ A 3 ) 。 指定された画像の種別に対応する画像記述スキームが見つか ると、 画像記述スキーム検索部 1 0 5はその画像記述スキームを読み 出しプログラム制御プロセッサ 1 0 3へ返す。 プログラム制御プロセ ッサ 1 0 3は、 読み出された画像記述スキームより、 指定された画像 より抽出できる特徴量がどれであるのかを可視化し、 表示部 1 0 2 に 表示する (ステップ A 4 ) 。
具体的には、 矩形画像が指定された場合には、 読み出された矩形画 像記述スキームを参照して、 図 1 0 に示されるように表示される (ス テツプ A 3 . 1 ) 。 任意形状画像が指定された場合には、 読み出され た任意形状画像記述スキームを参照して、 図 1 1 に示されるように表 示される (ステップ A 3 · 2 ) 。 ビデオシーケンスが指定された場合 には、 読み出されたビデオシーケンス記述スキームを参照して、 図 1 2 に示されるように表示される (ステップ A 3 · 3 ) ビデオォブジ ェク トが指定された場合には、 読み出されたビデオオブジェク ト記述 スキームを参照して、 図 1 3に示されるように表示される (ステップ A 3 . 4 ) 。 なお、 これら表示は、 入力部 1 0 1からの指示により行 う こともできる。
利用者は表示部 1 0 2に表示された抽出可能特徴量の一覧より、 抽 出されるべき特徴量を入力部 1 0 1から指定する (ステップ A 5 ) 。 指定された特徴量が特定されると、 プログラム制御プロセッサ 1 0 3 はビジュアル特徴量抽出部 1 0 7 に希望特徴量の抽出を指示する。 ビ ジュアル特徴量抽出部 1 0 7 は、 画像データ記憶部 1 1 0から指定さ れた画像を読み込み、 その画像から特定された特徴量を抽出する (ス テツプ A 6 ) 。
記述ファイル生成部 1 0 8は、 ビジュアル特徴量抽出部 1 0 7 より 生成された特徴量およびパラメータをビジュアル記述子で記述し (ス テツプ A 7 ) 、 記述されたデ一夕を記述ファイルとして生成する (ス テツプ A 8 ) 。 記述ファイルは記述ファイル記憶部 1 0 9 に格納され てもよい。
上述のように、 第 1実施例では、 入力部 1 0 1 より画像が指定され ると、 画像記述スキーム検索部 1 0 5が画像の種別に応じた画像記述 スキームを検索し、 指定された画像から抽出できるビジュアル特徴量 を図 1 0〜図 1 3 に例示されるような形式で表示される。 従って、 抽 出するビジュアル特徴量を利用者が容易に指定できる。 また、 サポー トするツールの種類を必要最小限にすることができるために、 システ ム構成を簡易にした画像記述システムを提供することができる。
生成された記述ファイルは、 ある特定の画像に対する記述ファイル に含まれる特徴量と他の画像に対する記述ファイルに含まれる特徴量 の類似度を評価することにより、 類似した画像を検索する類似画像検 索などにも利用できる。 したがって、 適切な記述ファイルのみが類似 画像検索等に利用されるために、 検索の信頼性及び精度を向上させる ことができる。 (第 2実施例)
図 1 5は、 本発明の第 2実施例による画像記述システムの構成を示 すブロック図である。 本発明の第 2実施例は、 図 1 に示す第 1実施例 に加えて、 さらに記述ファイル検証部 1 1 1 を含む。
記述フアイル検証部 1 1 1は、 画像記述スキーム検索部 1 0 5 によ り得られた画像記述スキームを読み込み、 記述ファイル生成部 1 0 8 で生成された記述ファイルが正しいか否か検証する。 具体的には、 記 述ファイルに記述されている特徴量の種類が、 画像記述スキーム内で 定義されており、 かつ記述ファイルが画像記述スキームで規定された 記述方法に従っているか否かを確認する。 記述フアイルが画像記述ス キームで規定された記述方法に従っている場合は、 記述ファイルを出 力する。 上述したように、 第 2実施例では、 記述ファィル検証部 1 1 1 を設 け、 画像記述スキームと記述ファイルとを照らし合わせることによ り、 画像に対する記述ファイルの記述方式が適切であるか否かを検証でき る。
• 生成された記述ファイルは、 ある特定の画像に対する記述ファイル に含まれる特徴量と他の画像に対する記述ファイルに含まれる特徴量 の類似度を評価する ことにより、 類似した画像を検索する類似画像検 索などにも利用できる。 したがって、 適切な記述ファイルのみが類似 画像検索等に利用されるために、 検索の信頼性及び精度をさ らに向上 させることができる。
(第 3実施例)
図 1 6 は、 本発明の第 3実施例による画像記述システムの構成を示 すブロック図である。 記述ファイル検証部 1 1 1 を含む。
本実施例による画像記述システムは、 図 1 に示される画像記述スキ ーム検索部 1 0 5 、 ビジュアル特徴量抽出部 1 0 7 、 記述ファイル生 成部 1 0 8および記述ファイル検証部 1 1 1 がプログラム制御プロセ ッサ 1 2 0 によ り ソフ トウェア的に実現されている。 すなわち、 プロ グラム制御プロセッサ 1 2 0 は、 メモリ に格納されている画像記述プ ログラム 1 2 1 を実行する ことで、 第 1 および第 2実施例で説明され たものと等価な画像記述機能を実現することができる。 入力部 1 0 1 、 表示部 1 0 2、 画像記述スキーム記憶部 1 0 6 、 記述フアイル記憶部 1 0 9および画像データ記憶部 1 1 0 は、 画像記述プログラム 1 2 1 を実行しているプログラム制御プロセッサ 1 2 0 によって、 第 1 およ び第 2実施例と同様に制御され、 本発明による画像記述システムが実 現される。 (第 4実施例)
本発明の第 4実施例は、 画像記述スキーム記憶部 1 0 6 に、 静止画 像を記述する静止領域記述スキーム、 矩形フ レームの集合を記述する 矩形動画像記述スキーム、 および、 ビデオオブジェク トを記述するビ デォオブジェク ト記述スキームが格納されている点で図 1 に示す第 1 実施例と異なる。 なお、 矩形動画像記述スキームおよびビデオォブジ ェク ト記述スキームは、 第 1実施例に使用されたものと同様である。 静止画像 ( S t i 1 l P i c t u r e ) 記述スキーム
あらゆる静止画像の信号的特徴を記述する目的で静止画像記述スキ ームを設計する。 ディ ジタルフォ トァ一力イブなど、 ディジタル画像 アーカイブより類似する信号パターンを持つ画像を検索するのが主目 的である。
静止画像よ り得られる信号的特徴は、 1 ) 色分布、 2 ) 色配置、 3 ) 色温度、 4 ) 照明条件補正色、 5 ) エッジ、 6 ) テクスチャ、 お よび、 7 ) 形状、 のグループに分類される。 各グループに属するビジ ュアル特徴量は、 以下のようにそれぞれ定められる。
1 ) D o m i n a n t C o l o r / S c a l a b l e C o l o r
1 C o l o r S t r u c t u r e
2 ) C o l o r L a y o u t
3 ) C o l o r T e m p e r a t u r e
4 ) I 1 l u m i n a t i o n l n v a r i a n t C o l o r
5 ) E d g e H i s t o g r a m
6 ) H o m o g e n e o u s T e x t u r e / T e x t u r e B r o w i n g
7 ) C o n t o u r S a p e / R e g i o n S h a p e。
色分布、 テクスチャ、 形状のグル一プにおける類似するビジユアル 特徴量については、 全てを併用するのは適切ではなく、 目的に応じて JP2003/015574
1個あるいは複数個を選択できるようにする必要がある。 ビジュアル 特徴量の内容、 使い分け方法については、 第 1実施例で述べたものと 同一であるから こ こでは省略する (たとえば、 表 3および表 4 を参 照) 。
図 1 7は、 XMLによる静止領域記述スキームの例を示す図である。 記述スキームは任意の言語で実行され、 任意の含められた記述 (もし く はそれよ り も多く の記述) を含む。 なお、 図 1 7 において、 element要素内の name属性で示された名称は任意であるが、 type で示されている記述子の特徴を表す名称が望ましい。
記述スキームの数を第 1実施例に比べて減らすことにより、 システ ム構成を簡易にした画像記述システムを提供することができる。
(第 5実施例)
本発明の第 5実施例は、 画像記述スキーム記憶部 1 0 6 に、 静止画 像を記述する静止領域記述スキーム、 動画像を記述する動画像記述ス キームが格納されている点で第 1実施例と異なる。 ただし、 静止領域 記述スキームは、 上述した第 4実施例に記載のものと同様である。
<動画像記述スキーム >
動画像の信号的特徴を記述する目的で動画像記述スキームを設計す る。 動画像より得られる信号的特徴は、 ( 1 ) 矩形画像に対する特徴 量の時系列データ、 ( 2 ) 動画像に含まれる全てのフレームを代表す る特徴量、 ( 3 ) 動きアクティ ビティ、 ( 4 ) 物体動き情報、 および、 ( 5 ) 形状変化の 5 グループに分類する。 各グループに属するビジュ アル特徴量を以下のように定めることができる。
1 ) V i s u a l T i m e S e r i e s
2 ) G o f G o p C o 1 o r
3 ) M o t i o n A c t i v i t y 4 ) M o t i o n T r a j e c t o r y / P a r a m e t o r i c M o t i o n
5 ) S h a p e V a r i a t i o n。
なお、 ビジュアル特徴量の内容、 使い分け方法については、 第 1実 施例で述べたものと同一であるからここでは省略する (たとえば、 表 6参照) 。
図 1 8は、 XMLによる動画像記述スキームの例を示す図である。 記述スキームは任意の言語で実行され、 任意の含められた記述 (もし くはそれよりも多くの記述) を含む。 なお、 図 1 8 において、 e l e m e n t要素内の n a m e属性で示された名称は任意であるが、 t y p eで示されている記述子の特徴を表す名称が望ましい。
記述スキームの数を第 1実施例に比べて減らすことにより、 システ ム構成を簡易にした画像記述システムを提供することができる。
以上詳細に説明したように、 本発明によれば、 入力部より画像が指 定されると、 画像の種別に応じた画像記述スキームが取り出され、 抽 出可能な適切なビジュアル特徴量が表示される。 このために、 有意義 なビジュアル特徴量の選択が容易となり、 かつ、 指定画像を的確に表 現したビジュアル特徴量を抽出がすることができる。 このために画像 検索の効率及び精度を向上させることができる。
また、 画像の種別ごとに記述スキームを定義しておく ことによりサ ポートするべき特徴量抽出、 および記述ツールの種類を必要最小限に することができ、 システム構成を簡易にした画像記述システムを提供 することができる。
さらに、 以上のようにして生成された記述ファイルを画像記述スキ ームと照らし合わせることにより、 画像に対する記述ファイルの記述 方式が適切であるか否かを検証でき、 画像検索の効率及び精度をさら に向上させることができる。

Claims

請求の範囲
1 . 画像の種別ごとに定義された記述スキームを格納する格納部と、 画像が指定されると、 前記格納部から当該指定画像の種別に対応す る記述スキームを参照し、 前記指定画像から抽出することができる特 徴量を特定する制御部と
を有する画像記述システム。
2 . 請求項 1記載の画像記述システムにおいて、
前記指定画像から前記特定された特徴量に関するデータを抽出し、 前記指定画像の記述ファイルを生成する記述ファイル生成部をさらに 有する
画像記述システム。
3 . 請求項 1記載の画像記述システムにおいて、
前記制御部は、 前記特定された特徴量を選択可能に前記表示部に表 示する
画像記述システム。
4 . 請求項 3記載の画像記述システムにおいて、
前記指定画像から前記特定された特徴量のうち選択された特徴量に 関するデータを抽出し、 前記指定画像の記述ファイルを生成する記述 ファイル生成部をさらに有する
画像記述システム。
5 . 請求項 2 または 4に記載の画像記述システムにおいて、
前記指定画像の種別に対応する記述スキームを用いて前記記述ファ ィル生成部により生成された記述ファイルを検証する記述ファイル検 証部をさ らに有する
画像記述システム。
6. 請求項 1記載の画像記述システムにおいて、
前記格納部は、 矩形画像を記述する矩形画像記述スキーム、 任意形 状画像を記述する任意形状画像記述スキーム、 矩形フレームの集合で ある動画像を記述する矩形動画像記述スキーム、 および、 矩形フレー ムの集合である動画像内の任意形状の対象を記述するビデオオブジェ ク ト記述スキームのうち少なく とも 1つを格納する
画像記述システム。
7. 請求項 6記載の画像記述システムにおいて、
前記矩形画像記述スキームは、 色分布、 色配置、 色温度、 照明条件 補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特 徵量のうち 1つ以上の特徴量を有する
画像記述システム。
8. 請求項 7記載の画像記述システムにおいて、
前記 1つ以上の特徴量の各々は少なく とも 1つの選択可能な記述子 からなり、
前記色分布特徴量は、 D o m i n a n t C o l o r、 S c a l a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含 む複数の記述子からなり、 このうち少なく とも 1つが選択可能であ り、 前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なく とも含む複数の記述 子からなり、 このうち少なく とも 1つを選択可能である
画像記述システム。
9 . 請求項 6記載の画像記述システムにおいて、
前記任意形状画像記述スキームは、 色分布、 色配置、 色温度、 照明 条件補正色、 エッジ分布、 テクスチャ、 および、 形状を少なく とも含 む複数の特徴量のうち 1 つ以上の特徴量を有する
画像記述システム。
1 0 . 請求項 9記載の画像記述システムにおいて、
前記 1 つ以上の特徴量の各々は少なく とも 1 つの選択可能な記述子 からなり、
前記形状特徴量は、 C o n t o u r S h a p eおよび R e g i o n S a p e を少なく とも含む複数の記述子からなり、 このうち少なく とも 1つが選択される
画像記述システム。
1 1 . 請求項 6記載の画像記述システムにおいて、
前記矩形動画像記述スキームは、 前記矩形フ レームの時系列データ、 代表特徴量および動きァクティ ビティ を少なく とも含む複数の特徴量 のうち 1 つ以上の特徴量を含む
画像記述システム。
1 2 . 請求項 1 1記載の画像記述システムにおいて、
前記 1 つ以上の特徴量の各々は少なく とも 1 つの選択可能な記述子 からなり、
前記時系列データは、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のう ち 1 つ以上の特徴量を有し、 各特徴量は少なく とも 1 つの選択可能な 記述子からなり、
前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b l e C o l o rおよび C o l o r S t r u c t u r e を少なく とも 含む複数の記述子からなり、 このうち少なく とも 1つが選択可能であ り、
前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なく とも含む複数の記述子からな り、 このうち少なく とも 1つが選択可能である、
画像記述システム。
1 3. 請求項 1 1記載の画像記述システムにおいて、
前記代表特徴量は、 色分布、 色配置、 色温度、 照明条件補正色、 ェ ッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のうち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な記 述子からなり、
前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含 む複数の記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なく とも含む複数の記述子からな り、 このうち少なく とも 1つが選択可能である、
画像記述システム。
1 4. 請求項 6記載の画像記述システムにおいて、
前記ビデオオブジェク ト記述スキームは、 前記矩形フレームの時系 列データ、 代表特徴量、 動きアクティ ビティ 、 物体動き、 および、 形 状変化を少なく とも含む複数の特徴量のうち 1つ以上の特徴量を有す る
画像記述システム。
1 5. 請求項 1 4記載の画像記述システムにおいて、
前記 1つ以上の特徴量の各々は少なく とも 1つの選択可能な記述子 からなり、 前記物体動きは、 M o t i o n T r a j e c t o r yおよ び P a r a m e t e r M o t i o nを少なく とも含む複数の記述子か らなり、 このうち少なく とも 1つが選択可能である
画像記述システム。
1 6. 請求項 1 4記載の画像記述システムにおいて、
前記時系列データは、 色分布、 色配置、 色温度、 照明条件補正色、 エッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のう ち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な 記述子からなり、
前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含 む複数の記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよび T e x t u r e B r o w i n gを少なく とも含む複数の記述子からな り、 このうち少なく とも 1つが選択可能である
画像記述システム。
1 7. 請求項 1 4記載の画像記述システムにおいて、
前記代表特徴量は、 色分布、 色配置、 色温度、 照明条件補正色、 ェ ッジ分布、 および、 テクスチャを少なく とも含む複数の特徴量のうち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの選択可能な記 述子からなる、
前記色分布特徴量は、 D o m i n a n t C o l o r、 S e a l a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含 む複数の記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記テクスチャは、 H o m o g e n e o u s T e x t u r eおよひ T e t u r e B r o w i n gを少なく とも含む複数の記述子からな り、 このうち少なく とも 1つが選択可能である
画像記述システム。
1 8. 画像の種別ごとに定義された記述スキームを格納するステツ プと、
画像が指定される と、 当該指定画像の種別に対応する記述スキーム を検索して前記指定画像から抽出することができる特徴量を特定する ステップと、
前記指定画像から抽出することができる特徴量を選択可能に表示す るステップと
を具備する画像記述方法。
1 9. 請求項 1 8 に記載の画像記述方法において、
前記表示された特徴量から所望の特徴量を選択ステップと、 前記所望の特徴量に従って前記指定画像から特徴量を抽出して記述 ファイルを生成するステップと
を更に具備する画像記述方法。
2 0. 請求項 1 9記載の画像記述方法において、
前記指定画像の種別に対応する記述スキームを用いて前記生成され た記述ファイルを検証するステップを 更に具備する画像記述方法。
2 1 . 画像が指定されると、 画像の種別ごとに定義された記述スキ ームを格納した記憶部から当該指定画像の種別に対応する記述スキー ムを検索する機能と、
検索された記述スキームに基づいて前記指定画像から抽出すること ができる特徴量を特定する機能と、
前記指定画像から抽出することができる特徴量を選択可能に表示す る機能と
を実現するための、 計算機により実行可能なソフ トウェアプロダク ト。
2 2 . 請求項 2 1 に記載の画像記述プログラムにおいて、
前記表示された特徴量から所望の特徴量が選択されると、 前記所望 の特徴量に従って前記指定画像から特徴量を抽出して記述ファイルを 生成する機能を
更に具備するソフ トウエアプロダク ト。
2 3 . 請求項 2 2記載のソフ ウェアプロダク 卜において、
さらに 、
前記指定画像の種別に対応す 記述スキームを用いて前記生成され た 己述フアイルを検証する機能
を更に具備するソフ 卜ゥェァプ ダク ト。
2 4 . 請求項 1記載の画像記述システムにおいて、
前記格納部は、 静止画像の特徴量を記述する静止画像記述スキーム、 矩形フレームの集合である動画像を記述する矩形動画像記述スキーム、 および、 矩形フレームの集合である動画像内の任意形状の対象を記述 するビデオオブジェク ト記述スキームのうち少なく とも 1つを格納す る
画像記述システム。
2 5. 請求項 2 4記載の画像記述システムにおいて、
前記静止画像記述スキームは、 色分布特徴量、 色配置特徴量、 色温 度特徴量、 照明条件補正色特徴量、 エッジ分布特徴量、 および、 テク スチヤ特徴量を少なく とも含む複数の特徴量のうち 1 つ以上の特徴量 を有する
画像記述システム。
2 6. 請求項 2 5記載の画像記述システムにおいて、
前記 1つ以上の特徴量の各々は少なく とも 1つの選択可能な記述子 からなり、
前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも含 む複数の記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記色配置特徴量は、 C o 1 o r 1 a y o u t を少なく とも含む記 述子からなり、 このうち少なく とも 1つが選択可能であり、
前記色温度特徴量は、 C o 1 0 r T e m p e r a t u r e を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記照明条件補正色特徴量は、 I 1 1 u m i n a t i o n I n v a r i a t i o n C o 1 o r を少なく とも含む記述子からなり、 このう ち少なく とも 1つが選択可能であり、
前記エッジ分布特徴量は、 E cl g e H i s t o g r a m を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なく とも含む複数の記述子 からなり、 このうち少なく とも 1つを選択可能である
画像記述システム。
2 7. 請求項 2 5記載の画像記述システムにおいて、
前記静止画像記述スキームは、 さ らに、 形状特徴量を含み、
前記形状特徴量は、 R e g i o n S h a p e および C o n t o u r S h a p e を少なく とも含む複数の記述子からなり 、 このうち少 なく とも 1つを選択可能である
画像記述システム。
2 8. 請求項 1記載の画像記述システムにおいて、
前記格納部は、 静止画像の特徴量を記述する静止画像記述スキーム および動画像を記述する動画像記述スキームのうち少なく とも 1つを 格納する
画像記述システム。
2 9. 請求項 2 8記載の画像記述システムにおいて、
前記動画像記述スキームは、 前記動画像のフレームの時系列データ、 前記動画像の代表特徴量、 および前記動画像の動きアクティ ビティ を 少なく とも含む複数の特徴量のうち 1つ以上の特徵量を有し、 各特徴 量は少なく とも 1つの記述子を選択可能に含む
画像記述システム。
3 0. 請求項 2 9記載の画像記述システムにおいて、
前記動画像記述スキームは、 さ らに、 前記動画像の動き記述および 前記動画像の形状変化記述を含む 画像記述システム。
3 1. 指定された画像の種別に対応する記述スキームを参照して前 記指定画像から抽出することができる特徴量を特定する画像記述シス テムにおいて用いられる記述スキームにおいて、
色分布特徴量、 色配置特徴量、 色温度特徴量、 照明条件補正色特徴 量、 エッジ分布特徴量、 および、 テクスチャ特徴量を少なく とも含む 複数の特徴量のうち 1つ以上の特徴量を有し、
前記色分布特徴量は、 D o m i n a n t C o 1 o r、 S c a 1 a b 1 e C o 1 o rおよび C o 1 o r S t r u e t u r e を少なく とも 含む複数の記述子からなり、 このうち少なく とも 1つが選択可能であ り、
前記色配置特徴量は、 C o 1 o r 1 a y o u t を少なく とも含む記 述子からなり、 このうち少なく とも 1つが選択可能であり、
前記色温度特徴量は、 C o 1 o r T e m p e r a t u r e を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記照明条件補正色特徴量は、 I 1 1 u m i n a t i o n I n v a r i a n t C o 1 o r を少なく とも含む記述子からなり、 このうち少 なく とも 1つが選択可能であり、
前記エッジ分布特徴量は、 E d g e H i s t o g r a m を少なく とも含む記述子からなり、 このうち少なく とも 1つが選択可能であり、 前記テクスチャ特徴量は、 H o m o g e n e o u s T e x t u r e および T e x t u r e B r o w i n gを少なく とも含む複数の記述子 からなり、 このうち少なく とも 1つを選択可能である
記述スキーム。
3 2. 請求項 3 1記載の記述スキームにおいて、 前記記述スキームは、 さ らに、 形状特徴量を含み、
前記形状特徴量は、 R e g i o n S h a p e および C o n t o u r S a p e を少なく とも含む複数の記述子からなり、 このうち少 なく とも 1つを選択可能である
記述スキーム。
3 3. 請求項 2 8記載の画像記述システムにおいて、
記述スキームは、 指定された画像の種別に対応する記述スキームを 参照して前記指定画像から抽出することができる特徴量を特定する画 像記述システムにおいて用いられ、
動画像のフレームの時系列データ、 前記動画像の代表特徴量、 およ び、 前記動画像の動きァクティ ビティ を少なく とも含む複数の特徴量 のうち 1つ以上の特徴量を有し、 各特徴量は少なく とも 1つの記述子 を選択可能に含む
画像記述システム。
3 4. 請求項 2 9記載の画像記述システムにおいて、
前記動画像記述スキームは、 さ らに、 前記動画像の動き記述および 前記動画像の形状変化記述を含む
画像記述システム。
PCT/JP2003/015574 2002-12-06 2003-12-05 画像記述システムおよびその方法 WO2004054253A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/506,091 US20060023946A1 (en) 2002-12-06 2003-12-05 Image description system and method thereof
EP03777276A EP1569448A4 (en) 2002-12-06 2003-12-05 IMAGE DESCRIPTION SYSTEM AND ASSOCIATED METHOD

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002355268 2002-12-06
JP2002-355268 2002-12-06
JP2003-66399 2003-03-12
JP2003066399A JP4336813B2 (ja) 2002-12-06 2003-03-12 画像記述システムおよび方法

Publications (1)

Publication Number Publication Date
WO2004054253A1 true WO2004054253A1 (ja) 2004-06-24

Family

ID=32510603

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/015574 WO2004054253A1 (ja) 2002-12-06 2003-12-05 画像記述システムおよびその方法

Country Status (4)

Country Link
US (1) US20060023946A1 (ja)
EP (1) EP1569448A4 (ja)
JP (1) JP4336813B2 (ja)
WO (1) WO2004054253A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
KR20080006399A (ko) * 2006-07-12 2008-01-16 삼성전자주식회사 디바이스의 상세정보를 제공하는 호스트 단말기, 그의디바이스 상세정보 제공방법 및 호스트 단말기로부터상세정보를 제공받는 디바이스
JP4849339B2 (ja) * 2007-03-30 2012-01-11 ソニー株式会社 情報処理装置および方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001057057A (ja) * 1999-06-10 2001-02-27 Matsushita Electric Ind Co Ltd 光ディスク再生装置、及び光ディスク再生方法
JP2001167095A (ja) * 1999-09-27 2001-06-22 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2001292425A (ja) * 2000-04-04 2001-10-19 Sony Corp 摺動型グラフックウィンドウを用いたメディアコンテンツとのインターラクティブシステム
JP2001346140A (ja) * 2000-04-07 2001-12-14 Sharp Corp オーディオビジュアルシステムの使用方法
JP2002170116A (ja) * 2000-12-01 2002-06-14 Sharp Corp 画像を記述する方法
JP2002176619A (ja) * 2000-09-12 2002-06-21 Matsushita Electric Ind Co Ltd メディア編集方法及びその装置
JP2002184157A (ja) * 2000-09-14 2002-06-28 Sharp Corp オーディオビジュアル情報を管理するための使用履歴記述スキーム、システム、及び方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5085746A (en) * 1990-09-10 1992-02-04 North Carolina State University Method of fabricating scanning tunneling microscope tips
JP3780623B2 (ja) * 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
EP0891075A3 (en) * 1997-06-09 2002-03-06 Seiko Epson Corporation An image processing apparatus and method, and an image evaluation device and method
US6052492A (en) * 1997-12-09 2000-04-18 Sun Microsystems, Inc. System and method for automatically generating an image to represent a video sequence
JP3615657B2 (ja) * 1998-05-27 2005-02-02 株式会社日立製作所 映像検索方法及び装置ならびに記録媒体
KR100305591B1 (ko) * 1998-07-22 2001-11-30 오길록 관절점기반동작정보를사용한동영상검색방법
US6389181B2 (en) * 1998-11-25 2002-05-14 Eastman Kodak Company Photocollage generation and modification using image recognition
US6396963B2 (en) * 1998-12-29 2002-05-28 Eastman Kodak Company Photocollage generation and modification
EP1267275A4 (en) * 2000-03-23 2006-08-23 Mitsubishi Electric Corp IMAGE RECOVERY / DISTRIBUTION SYSTEM AND IMAGE RECORD / DISTRIBUTION PROCESS
JP2001333389A (ja) * 2000-05-17 2001-11-30 Mitsubishi Electric Research Laboratories Inc ビデオ再生システムおよびビデオ信号処理方法
JP4889159B2 (ja) * 2001-05-14 2012-03-07 富士通株式会社 データ検索システムおよびデータ検索方法
JP2004234613A (ja) * 2002-12-02 2004-08-19 Nec Corp 映像記述システムおよび方法、映像識別システムおよび方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001057057A (ja) * 1999-06-10 2001-02-27 Matsushita Electric Ind Co Ltd 光ディスク再生装置、及び光ディスク再生方法
JP2001167095A (ja) * 1999-09-27 2001-06-22 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2001292425A (ja) * 2000-04-04 2001-10-19 Sony Corp 摺動型グラフックウィンドウを用いたメディアコンテンツとのインターラクティブシステム
JP2001346140A (ja) * 2000-04-07 2001-12-14 Sharp Corp オーディオビジュアルシステムの使用方法
JP2002176619A (ja) * 2000-09-12 2002-06-21 Matsushita Electric Ind Co Ltd メディア編集方法及びその装置
JP2002184157A (ja) * 2000-09-14 2002-06-28 Sharp Corp オーディオビジュアル情報を管理するための使用履歴記述スキーム、システム、及び方法
JP2002170116A (ja) * 2000-12-01 2002-06-14 Sharp Corp 画像を記述する方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1569448A4 *

Also Published As

Publication number Publication date
EP1569448A1 (en) 2005-08-31
US20060023946A1 (en) 2006-02-02
JP2004234612A (ja) 2004-08-19
JP4336813B2 (ja) 2009-09-30
EP1569448A4 (en) 2010-04-21

Similar Documents

Publication Publication Date Title
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
US7421455B2 (en) Video search and services
JP4902499B2 (ja) 画像表示装置、画像表示方法、および画像表示システム
US8200669B1 (en) Management of smart tags via hierarchy
AU2006249239B2 (en) A method of ordering and presenting images with smooth metadata transitions
TWI510064B (zh) 視訊推薦系統及其方法
US8589402B1 (en) Generation of smart tags to locate elements of content
Schoeffmann et al. Video browsing interfaces and applications: a review
US20090150376A1 (en) Mutual-Rank Similarity-Space for Navigating, Visualising and Clustering in Image Databases
WO2012073421A1 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
US20090103887A1 (en) Video tagging method and video apparatus using the same
US20100057722A1 (en) Image processing apparatus, method, and computer program product
JP2001155037A (ja) 多重項目による利用者嗜好度情報データ構造及びそれを利用したマルチメディア情報提供方法
US20160191843A1 (en) Relational display of images
US20080085053A1 (en) Sampling image records from a collection based on a change metric
WO2012010510A1 (en) Method and system to organize and visualize media items
CA2387404A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
Suh et al. Semi-automatic photo annotation strategies using event based clustering and clothing based person recognition
KR100644016B1 (ko) 동영상 검색 시스템 및 방법
JP5037483B2 (ja) コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生処理プログラム及びコンピュータ読み取り可能な記録媒体
JP4995770B2 (ja) 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
WO2012070371A1 (ja) 映像処理装置、映像処理方法及び映像処理プログラム
US8340474B2 (en) Apparatus and method of browsing contents
WO2004054253A1 (ja) 画像記述システムおよびその方法
EP2465056B1 (en) Method, system and controller for searching a database

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003777276

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 20038A0383X

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2006023946

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10506091

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003777276

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10506091

Country of ref document: US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)