WO1998044734A1 - Systeme de visioconference - Google Patents

Systeme de visioconference Download PDF

Info

Publication number
WO1998044734A1
WO1998044734A1 PCT/FR1998/000625 FR9800625W WO9844734A1 WO 1998044734 A1 WO1998044734 A1 WO 1998044734A1 FR 9800625 W FR9800625 W FR 9800625W WO 9844734 A1 WO9844734 A1 WO 9844734A1
Authority
WO
WIPO (PCT)
Prior art keywords
screen
site
participants
images
sites
Prior art date
Application number
PCT/FR1998/000625
Other languages
English (en)
Inventor
Georges Buchner
Yannick Mahieux
Christian Wipliez
Jean-Pascal Jullien
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP98917253A priority Critical patent/EP0970584B1/fr
Priority to US09/402,022 priority patent/US6624841B1/en
Priority to JP54123898A priority patent/JP4699574B2/ja
Priority to DE69803168T priority patent/DE69803168T2/de
Priority to DK98917253T priority patent/DK0970584T3/da
Priority to CA002284884A priority patent/CA2284884C/fr
Publication of WO1998044734A1 publication Critical patent/WO1998044734A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Definitions

  • the invention relates to a videoconference or teleconference system between participants located on separate sites which are generally distant.
  • ulti-point systems that is to say systems making it possible to carry out an audiovisual link between participants from several sites. It also relates to point-to-point systems, that is to say systems which only audiovisual link two sites. It also applies to videophones connected by conference bridges.
  • the equipment of a videoconferencing system for a given site is placed in a room which is called in the suite either room or studio. Participants are most often seated around a conference table facing a display screen.
  • the videoconferencing services and systems marketed offer multi-point connections with limited audiovisual quality due either to the quality of the end equipment (sound reproduction and image reproduction) or intrinsically by the absence of throughput resulting from bandwidth limitation due to the network used.
  • the conference systems are connected on digital networks, mainly on the ISDN network according to several configurations in point-to-point mode or in multi-point mode.
  • the speed offered for this service varies between 128 kbit / s for the low end to 384 kbit / s for the high end service.
  • the terminals used mainly comply with ITU standards such as all of the H320 standards.
  • a switching system manual or automatic, selects the room which is presented on the screen. In general, this is the room that transmits the strongest audio signal (voice switching). This is the case of conference bridges which switch the image according to a voice detection, that of the most active room at noise level.
  • coding is carried out which strongly compresses the online bit rate with a compression factor of 40 to 50. We therefore lose in definition about 3/4 of the image transmitted by each room
  • the digital compression of the images used can be of the H 320 type with an H 261 coding or of the H 323 type with an H 263 coding or of the moving JPEG type (ISO standard) or of the MPEG1 or of MPEG2 type.
  • the images sent can be of the computer file type.
  • the purpose of the videoconferencing system according to the invention is to offer remote meetings with the maximum telepresence by exceeding the limits of the systems marketed today. It makes it possible to obtain a visualization of the distant participants on screens (scale close to 1), with a great perception of textures and behaviors and a correspondence of the visual images and sound images thanks to a sound spatialization of the distant participants, subject to the conditions of shooting.
  • the system also makes it possible to minimize parallax faults (eye contact in English) by using n shooting cameras fairly close to the images to be filmed (housed for example in screen windows) as indicated below. . It also allows high fidelity sound reproduction.
  • the present invention more particularly relates to a videoconferencing system between participants located on several separate sites, comprising on each site a display screen, according to which the display screen is a large screen of the projection screen or rear projection or screen type.
  • direct vision type formed by one or more visualization systems forming a video wall to visualize simultaneously all the distant participants, in a reconstituted space on the image wall formed by this screen,
  • said system comprising, for each given site, means of spatial distribution of sound to establish a correspondence between the sound generated by each remote participant and its image displayed on the screen of the site in question,
  • a site considered receives the images and the audio signals emitted by the other sites and restores them according to the established correspondence, the vision and the listening of the other sites and the speakers being simultaneous and being done by exchanges of voice between several at once without interruption or embarrassment of other participants.
  • the image of distant participants is on a scale close to 1 on the studio screen, this scale depends on the distance between the screen and the table where the participants are. This leads for example to a screen with the typical dimensions of approximately 5x2m to view 4 remote rooms with approximately 4 people in each room.
  • the videoconferencing system includes one or more sets of images (CA1), (CA2) and sound recording systems (microphones or acoustic antennas).
  • the sound recording data is associated with one or the other of the shooting sets according to whether the transmitted video signals come from one or the other of the sets (CA1), (CA2). More precisely, the association makes it possible to have a "subjective superposition", the sound source being close (in the axis) to the associated image.
  • the means for picking up and restoring sound include: - a signal acquisition and digitization unit;
  • the sound spatialization makes it possible to match the sound images and the visual images. Besides that this arrangement strongly reinforces the telepresence effect, it makes it possible to establish several parallel conversations between the two distant rooms; Tracking conversations is simplified by the ability to focus on the person you want to listen to, like in a natural meeting.
  • the means of establishing the correspondence between microphone, signal from this microphone and loudspeaker from remote sites intended to restore this signal are produced by programming the desired configuration.
  • This programming can consist in memorizing one or more predetermined configurations.
  • the shooting means comprise for each site q cameras, this number is preferably greater than or equal to 2.
  • the cameras are arranged in front of the participants of said site so as to be distributed in distinct areas for displaying the different remote participants on the screen or near these areas. Conveniently, the cameras can be distributed, in the lower part or in the upper part, or around the screen. Thus, each room can have several cameras that frame the participants from different angles.
  • the shots that are transmitted to a site are those taken by the camera which is near the image projected for this site.
  • each image is constructed with a partial shot of the room. This allows you to better know who is watching whom on the screen and therefore better follow the dynamics of the meeting.
  • the cameras are placed under (or at the bottom of) the screen images projected on the screen 10.
  • the cameras are refocused and are at a distance from the center of the screen corresponding to approximately one third of the width of the image, ie that is, one sixth of the total width of the screen. This refocus minimizes the problem of overlap at the edges of the two images taken by the two cameras.
  • the sites are linked by high-speed network either in point-to-point, or in multi-point, or through a central EVM unit (videoconference bridge).
  • FIG. 4 illustrates the practical diagram of the equipment in a studio
  • FIG. 5 corresponds to a particular embodiment diagram corresponding to a link between 3 studios
  • - Figure 6 corresponds to a particular embodiment diagram corresponding to a link between 2 studios
  • - Figure 7 to 9 illustrate an example of different "screen images" forming the image wall on the big screen
  • Figures 10 to 13 correspond to different modes of connection between studio equipment or videophone terminals according to the invention in different network configurations.
  • Figure 1 illustrates the meeting according to a visualization approaching reality.
  • FIG. 2 illustrates the screen or screens which are slightly curved to reproduce an immersion situation.
  • This environment makes it possible, among other things, to reproduce the effects of looks exchanged between the participants by reproducing an approximation of the play of eyes that turn and observe themselves. For example, A can observe E and all other people will see A looking at F with an approximation of the angles of subjective sight.
  • FIG. 3 is a block diagram illustrating a teleconferencing system according to the invention.
  • a site A is linked to other sites B ... K by a high speed network.
  • the different connection possibilities for these sites will be detailed below with FIGS. 10 to 13.
  • Such networks are not obstacles for analog sound signals with a bandwidth greater than 7 kHz from the moment that bit rate compression systems are implemented which preserve the original quality. This provides high sound quality equivalent to that of a digital compact disc (CD).
  • CD digital compact disc
  • the transmission network used may be the asynchronous transfer mode (ATM) network or any other high speed network of digital or even analog type. All the images can be transmitted to the various sites at sufficiently high bit rates without the need to increase the compression factor during coding.
  • ATM asynchronous transfer mode
  • coded images are transmitted between 384kbit / s on Numéris and 2Mbit / s depending on the type of network.
  • the videoconference is piloted or remotely piloted by units 100A, 100K which interact through the network (s) R to notably agree on the correspondence established between participant, sound image and visual image.
  • the piloting units transmit either a description of the configuration with the signals transmitted if the configuration has not already been predefined, ie the configuration mode chosen from among several configurations already defined for all sites. They are able to manage all the studio equipment according to the desired configuration.
  • the configuration consists in describing the link between a participant of a PI site (A), the sound recording system (s) Ml (microphones or acoustic antennas) which capture his speech, the camera which films him CA1 so that the image IP1 (A) on site B is in correspondence with the speaker (s) Hl which reproduces (s) the sound coming from the microphone (s) Ml.
  • s the sound recording system
  • Ml microphones or acoustic antennas
  • a site A has n microphones, p speakers, q cameras.
  • the number of speakers is proportional to the size of the screen (either the width or the surface of this screen).
  • the large screen 10 is placed in front of the conference table of a site considered and the screen images (of each site) are projected on this screen so that the distant participants are by example at the same level as the participants of the site so as to reconstitute a virtual table.
  • the participant PI (A) addresses the participant P1 (B)
  • it is the shots of the camera CA1 of site A which are transmitted to the other sites B to K.
  • these are the shots from the camera CA1 of site B which are transmitted to the sites A, C to K.
  • the camera which takes the photographs on these sites is indifferent, but the images of all the participants are nevertheless transmitted.
  • the commands for taking pictures by the appropriate cameras are controlled by the 100A-100K control units present on the sites or remotely piloted from a surveillance site.
  • the enslavement between the sound taken and the camera which must take the shot is obtained by a control program within the reach of the skilled person.
  • This program is implemented by the units 100A to 100K to obtain images giving the impression when they are projected on the screens that the interested persons are really looking at themselves.
  • the images transmitted by the network are received at each site and processed by the video units 300 in order to be projected juxtaposed and / or superimposed on the screen. All the images received are displayed on the screen 10 of each site, the screen forming a wall of images.
  • the images projected on each screen correspond to a single room. This situation improves the image quality.
  • Each camera takes partial shots of the room.
  • one camera films half of the scene, the other camera films the other half.
  • the juxtaposition of the images is controlled by the processing units 100A, 100B which control the video processing units to form a single image on the screen from the signals from the two cameras.
  • Image concatenation is a classic treatment in itself.
  • the first camera CA1 is connected to a video encoder 303 and a video decoding assembly 304 is connected to a first projector PR1.
  • the decoding assembly is formed by one or more decoders so that each decoder decodes the video signals coming from a site. In the following description, we will speak to simplify decoder 304 knowing that it may be a set of decoders.
  • the encoder and the decoder are connected to an interface 301 for adapting and transmitting video signals over the network R.
  • this interface will be an AAL1 (Adaptation Layer) interface in the case of a transmission over a network ATM.
  • AAL1 Adaptation Layer
  • This interface is connected to a physical support interface 400.
  • the control unit 100A sends, for example through a local network RL, the control signals CD1, DC1, IV1 respectively for the coder, the decoder and the adaptation interface 301 according to the configuration of the videoconference.
  • the second camera CA2 is connected to an encoder 305 which is itself connected to a interface 302 for adapting to transmission on the network.
  • a decoder 306 is connected to the second projector PR2 and to the interface 302.
  • the interface 302 is connected to the physical support interface 400.
  • the control unit sends the control signals CD2, DC2, and IV2 respectively to the encoder, decoder and adaptation interface depending on configuration.
  • a video encoder can be functionally connected to several decoders according to techniques outside the scope of the invention.
  • the projectors are either video projectors or liquid crystal overhead projectors.
  • the projection can be direct if a plasma screen is used.
  • the n microphones are connected to a signal acquisition unit 201 carrying out the digitization of the signals.
  • the outputs of this unit 201 are applied to the inputs of an attenuation unit 207 for echo control.
  • the outputs of the attenuation unit are applied to the inputs of a flow-reducing encoder for the audio signal 202 controlled by 100A unit.
  • the encoder 202 also performs matrixing of the microphone signals to adapt to the number of channels available on the network for audio transport. To do this, the encoder receives the CA configuration management signal.
  • the audio adapter coder 202 is connected to an interface 204 for adapting to transmission on the network R which will be an AAL5 interface for the ATM network. This interface is connected to the physical support interface 400.
  • the interface 204 is capable of transmitting the coded audio signals over the network and of receiving the coded audio signals transmitted by the other sites.
  • the received signals are processed by the interface 204 and applied to a decoding and demosaicing unit 203 of the audio signals.
  • the signals delivered by the decoding and matrixing unit 203 are applied to the desired loudspeaker (s) by means of a unit 205 for analog digital reproduction and conversion of the audio signals.
  • This unit 205 can thus send the required received signals to the appropriate speakers.
  • the unit 100A will have in the stored table information indicating that the output SI of the decoder delivers the signal which has been picked up either by the microphone Ml, either by a set of microphones of which Ml is part of a site B and that, consequently, this output must be routed towards the speaker Hn or a set of speakers of which Hl is part in order to be close to the image of the participant who spoke.
  • the acquisition systems are chosen so as to respect the bandwidth of the speech signal and so as to operate for ° frequency bands at 7kHz (which constitutes the lower limit of the system in terms of quality).
  • the coding system is also chosen to respect this original quality and, for example, bit rate reduction algorithms described by the MPEG1 or MPEG2 standards will be chosen.
  • the acquisition systems are also chosen so as to provide a good signal / noise ratio.
  • Image and sound are transmitted with the smallest possible time lag (of the order of a hundred milliseconds) which, combined with the quality and size of the video image, can, for example, allow a deaf to read on the lips of distant correspondents.
  • the audio equipment further comprises an echo control circuit 206 acting by variation of the gain on the microphone signals by means of the variable attenuation unit 207 according to methods, conventional in themselves.
  • This circuit is connected to the outputs of unit 201 and to the inputs of unit 205.
  • FIG. 5 illustrates a particular case of possible configuration. It is a video configuration between three sites A, B, C.
  • This configuration is described from 3 sites A, B, C.
  • the sites A and B each have two cameras CA1 and CA2 which make it possible to have views from different angles of the same site.
  • point-to-point connections are made for coders and decoders.
  • the camera CAl is connected to the encoder 303 of site A, this encoder is connected to the decoder 304 which is connected to the projector which makes it possible to have the screen image El (A) (image originating from the camera CAl of site A) .
  • the encoder 303 of site B is connected to the camera CAl of site B.
  • the signal supplied by the decoder is decoded by the decoder 304 of site A to provide the screen image E1 (B) (image originating from the camera CAl from site B).
  • the encoder 304 (A2) is connected to the decoder 306 of site A associated with the screen image E1 (C) and the encoder 304 (B2) is connected to the decoder 306 of site B associated with the screen image E1 (VS).
  • the decoders 306 of site C are connected one to the coder 305 of the signal of the camera CA2 of site A, the other to the coder 305 of the signal of the camera CA2 of site B to display the images respectively on site C Site A, i.e.E2 (A) and Site B, i.e.E2 (B).
  • FIG. 6 illustrates a point-to-point link between a site A and a site B.
  • each camera CA1, CA2 takes a partial shooting of the site.
  • two 3-way codec-decoders will be used for each site.
  • FIGS. 7 to 9 respectively illustrate the screen images projected on site A, B and C.
  • the screen image E (4, 3, 2, 1) makes it possible to view images from individual terminals and the screen image E (C, B) makes it possible to view the superimposed images of sites C and B.
  • FIG. 8 corresponds to the visualization on site B and FIG. 9 to the visualization on site C.
  • FIGS. 10 to 13 illustrate examples of possible links between the sites.
  • FIG. 10 corresponds to 4 studios connected by an ATM network or dedicated link.
  • FIG. 11 corresponds to connections made through a centralized EVM unit (MCU) (videoconference bridge).
  • MCU EVM unit
  • FIG. 12 corresponds to mixed network links and EVM equipment (MCU), that is to say a commercial videoconferencing bridge comprising a processing for removing audio signals from studios 1, 2 and 3 because the sites which have direct links and a link through this equipment would be hampered by the time-shifted superposition of the signals originating from the direct network links and the EVM links.
  • MCU EVM equipment
  • FIG. 13 illustrates the case of connection through networks of different types Numéris, ATM, dedicated link.

Abstract

L'invention concerne un système de visioconférence entre participants localisés sur des sites distants, comprenant sur chaque site un écran de visualisation. Selon l'invention, l'écran de visualisation est un grand écran (10) du type écran de projection ou de rétroprojection ou de type à vision directe, formé par un ou plusieurs systèmes de visualisation formant un mur d'images pour visualiser simultanément tous les participants distants dans un espace reconstitué sur le mur d'images que forme cet écran (10), et le système comprend pour chaque site donné des moyens de répartition spatiale du son (100A, 100K, Hi, Mj) pour établir une correspondance entre le son généré par chaque participant distant et son image visualisée sur l'écran du site considéré.

Description

SYSTEME DE VISIOCONFERENCE.
L'invention concerne un système de visioconférence ou téléréunion entre participants localisés sur des sites distincts généralement distants.
Elle s'applique à des systèmes ulti-points, c'est- à-dire à des systèmes permettant d'effectuer une liaison audiovisuelle entre des participants de plusieurs sites. Elle concerne aussi des systèmes point à point, c'est-à-dire des systèmes ne mettant en liaison audiovisuelle que deux sites. Elle s'applique également à des visiophones raccordés par des ponts de conférence.
Les équipements d'un système de visioconférence pour un site donné sont placés dans un local que l'on appelle dans la suite indifféremment salle ou studio. Les participants sont le plus souvent assis autour d'une table de conférence face à un écran de visualisation .
Aujourd'hui, les services et systèmes de visioconférence commercialisés proposent des liaisons en multi-points ayant une qualité audiovisuelle limitée due soit à la qualité des équipements d'extrémité (restitution du son et restitution d'image) soit intrinsèquement par l'absence de débit résultant de la limitation en bande passante due au réseau utilisé. En effet, les systèmes de conférence sont raccordés sur des réseaux numériques, principalement sur le réseau RNIS selon plusieurs configurations en mode point à point ou en mode multi-points.
Ainsi sur le réseau NUMERIS le débit offert pour ce service varie entre 128 kbit/s pour le bas de gamme à 384 kbit/s pour le service de haut gamme. Les terminaux utilisés sont conformes principalement à des standards ITU tels que l'ensemble des normes H320.
Dans certains systèmes, on ne peut voir qu'une seule salle distante à la fois. Cela gêne les utilisateurs qui ne peuvent pas voir tout le monde en même temps. Un système de commutation, manuel ou automatique, sélectionne la salle qui est présentée sur l'écran. En général, il s'agit de la salle qui transmet le signal audio le plus fort (commutation à la voix) . C'est le cas des ponts de conférence qui commutent l'image en fonction d'une détection vocale, celle de la salle la plus active au niveau sonore.
D'autres systèmes utilisant la normalisation ITU de type H 320 ou H 323 ou autre, font intervenir une unité centrale pour recevoir les images de tous les Equipements Visioconférence Multipoints (EVM) (ou Multi Conférence Unit MCU) définis par les normes H 231 et H 243. Cette unité restitue des images en partageant la bande passante pour la transmission vers un EVM autant de fois que d'images transmises.
Pour cela on réalise un codage qui comprime fortement le débit en ligne avec un facteur de compression de 40 à 50. On perd donc en définition environ les 3/4 de l'image transmise par chaque salle
(multi-points jusqu'à 5 salles) .
La compression numérique des images utilisée peut être de type H 320 avec un codage H 261 ou de type H 323 avec un codage H 263 ou de type moving JPEG (norme ISO) ou de type MPEG1 ou de type MPEG2.
Dans l'un quelconque des ces profils, les images envoyées peuvent être de type fichier informatique.
Dans tous les cas, les images reçues sont dégradées et ne reconstituent en aucun cas l'effet de coprésence. Dans le cas de l' audio on utilise des systèmes de codage ou compression de débit de type G722 ou G711 qui ne respectent pas la qualité originale du signal de parole tant en largeur de bande qu'en qualité de codage elle-même.
Le système de visioconférence selon l'invention a pour but d'offrir des réunions à distance avec le maximum de téléprésence en dépassant les limites des systèmes commercialisés aujourd'hui. Il permet d'obtenir une visualisation des participants distants sur écrans (échelle proche de 1) , avec une grande perception des textures et des comportements et une correspondance des images visuelles et des images sonores grâce à une spatialisation sonore des participants distants, asservie aux conditions de prise de vue.
Il permet d'obtenir une présence continue des participants distants , même en situation multi-points. Le système permet en outre une minimisation des défauts de parallaxe (eye contact en anglais) en utilisant n caméras de prises de vue assez proches des images à filmer (logées par exemple dans des fenêtres de l'écran) comme cela est indiqué dans la suite. Il permet également une reproduction sonore haute fidélité.
La présente invention a plus particulièrement pour objet un système de visioconférence entre participants localisés sur plusieurs sites distincts, comprenant sur chaque site un écran de visualisation, selon lequel l'écran de visualisation est un grand écran de type écran de projection ou de rétroprojection ou de type à vision directe, formé par un ou plusieurs système de visualisation formant un mur d'images pour visualiser simultanément tous les participants distants, dans un espace reconstitué sur le mur d'image que forme cet écran,
- ledit système comprenant pour chaque site donné des moyens de répartition spatiale du son pour établir une correspondance entre le son généré par chaque participant distant et son image visualisée à l'écran du site considéré,
- et selon lequel un site considéré reçoit les images et les signaux audio émis par les autres sites et les restitue en fonction de la correspondance établie, la vision et l'écoute des autres sites et des locuteurs étant simultanée et se faisant par des échanges de voix entre plusieurs à la fois sans interruption ou gêne des autres participants.
L'image des participants distants est à une échelle proche de 1 sur l'écran du studio, cette échelle dépend de la distance entre l'écran et la table où se trouvent les participants. Cela conduit par exemple à un écran avec les dimensions typiques environ de 5x2m pour visualiser 4 salles distantes avec environ 4 personnes dans chaque salle.
Le système de visioconférence comporte un ou plusieurs ensembles de prise de vue (CA1) , (CA2) et des systèmes de prise de son (microphones ou antennes acoustiques) . Les données de prise de son sont associées à l'un ou à l'autre des ensembles de prise de vue selon que les signaux vidéo transmis proviennent de l'un ou de l'autre des ensembles (CA1) , (CA2) . Plus précisément, l'association permet d'avoir une "superposition subjective", la source sonore étant proche (dans l'axe) de l'image associée.
Selon une autre caractéristique de l'invention les moyens de prise et de restitution de son comportent : - une unité d'acquisition des signaux et de numérisation;
- une unité de restitution des signaux et de conversion numérique analogique; - n microphones distribués devant les participants dudit site;
- p haut-parleurs distribués le long de l'écran, p étant proportionnel à la taille de l'écran;
- des moyens d'établissement de la correspondance entre un ou plusieurs microphones, le signal issu de ce ou ces microphone (s) et le ou les hauts-parleurs des sites distants destiné à restituer ces signaux;
- des moyens d'adaptation au réseau consistant en la réduction de débit;
- des moyens de contrôle de l'écho.
La spatialisation sonore permet de faire correspondre les images sonores et les images visuelles. Outre que cette disposition renforce fortement l'effet de téléprésence, elle permet d'établir plusieurs conversations parallèles entre les deux salles distantes; le suivi des conversations est simplifié par la possibilité de se focaliser sur la personne que l'on veut écouter, comme dans une réunion naturelle.
Les moyens d'établissement de la correspondance entre microphone, signal issu de ce microphone et haut- parleur des sites distants destiné à restituer ce signal sont réalisés par programmation de la configuration désirée. Cette programmation peut consister à mémoriser une ou plusieurs configurations prédéterminées . Selon une autre caractéristique les moyens de prise de vue comportent pour chaque site q caméras ce nombre est de préférence supérieur ou égal à 2. Les caméras sont disposées devant les participants dudit site de manière à être réparties dans des zones distinctes d'affichage des différents participants distants sur l'écran ou à proximité de ces zones. De façon pratique, les caméras peuvent être réparties, dans la partie basse ou dans la partie haute, ou autour de l'écran. Ainsi, chaque salle peut posséder plusieurs caméras de prise de vue qui cadrent les participants sous des angles différents. Les prises de vue qui sont transmises vers un site sont celles qui sont prises par la caméra qui se trouve à proximité de l'image projetée pour ce site. Cela permet de diminuer l'effet de parallaxe, de différencier les points de vue, et de reconstituer une localisation de chaque intervenant en fonction de sa disposition physique dans le site puis dans l'ensemble. En situation de point à point où plusieurs images sont juxtaposées sur la largeur de l'écran, chaque image est construite avec une prise de vue partielle de la salle. Cela permet de mieux savoir qui regarde qui sur l'écran et donc de mieux suivre la dynamique de la réunion.
En pratique, les caméras sont placées sous les (ou dans le bas des) images écran projetées sur l'écran 10.
Pour une configuration à deux images concaténées (l'une à côté de l'autre) , les caméras sont recentrées et se trouvent à une distance du centre de l'écran correspondant à environ un tiers de la largeur de l'image, c'est-à-dire un sixième de la largeur totale de l'écran. Ce recentrage minimise le problème de recouvrement aux bords des deux images prises par les deux caméras.
Les sites sont reliés par réseau à haut débit soit en point à point, soit en multi-points, soit à travers une unité centrale EVM (pont de visioconférence) .
D'autres particularités et avantages de l'invention apparaîtront à la lecture de la description qui est faite ci-après et qui est donnée à titre d'exemple illustratif et non limitatif et en regard des dessins sur lesquels :
- les figures 1 et 2 , illustrent de façon schématique le problème de la coprésence que l'invention résout, - la figure 3, illustre le schéma de principe de l' invention,
- la figure 4, illustre le schéma de réalisation pratique des équipements dans un studio,
- la figure 5, correspond à un schéma de réalisation particulière correspondant à une liaison entre 3 studios,
- la figure 6, correspond à un schéma de réalisation particulière correspondant à un liaison entre 2 studios, - la figure 7 à 9, illustrent un exemple de différentes "images écrans" formant le mur d'image sur le grand écran,
- les figures 10 à 13, correspondent à différents modes de liaison entre les équipements studios ou terminaux visiophoniques selon l'invention dans les configurations réseaux différentes. Afin de décrire une approche de l'effet de coprésence, la figure 1 illustre la réunion suivant une visualisation se rapprochant de la réalité.
Considérons 12 personnes installées autour d'une table ronde virtuelle. L'un des personnages voit 4 autres personnes adjacentes du groupe à travers une lucarne et en développant la surface on peut considérer qu'il voit ces 4 personnes sur un écran plan ou quasi plan. Ainsi verra-t-il les 8 autres personnes regroupées en 4 dans 2 studios différents sur 2 écrans pratiquement en situation plane. En général, la table virtuelle n'est pas ronde mais est disposée en long avec les groupes installés de part et d'autre. Ainsi, le personnage E verra A à sa gauche et F à sa droite avec continuité d'adjacence entre tous les individus.
La figure 2 illustre le ou les écrans qui sont légèrement courbes pour reproduire une situation d' immersion. Cet environnement permet entre autre de restituer les effets de regards échangés entre les participants en reproduisant une approximation du jeu des yeux qui se tournent et s'observent. Par exemple, A peut observer E et tout autres personnes verra A regardant F avec une approximation des angles de visée subjective.
Le schéma de la figure 3 est un schéma de principe illustrant un système de téléconférence selon 1' invention. Bien entendu, d'autres choix peuvent être faits en ce qui concerne la position des participants (assis ou debout, autour d'une table ou non) , en ce qui concerne la position de la caméra ou des caméras et en ce qui concerne la position des enceintes acoustiques (hauts- parleurs) dès l'instant où ces positions permettent d'obtenir une répartition spatiale sonore et un mur d'image simulant une immersion totale de tous les participants . Un site A est relié à d'autres sites B ... K par un réseau à haut débit. Les différentes possibilités de liaison pour ces sites seront détaillées par la suite avec les figures 10 à 13. On pourra par exemple utiliser le réseau RNIS (à intégration de service) en regroupant plusieurs accès SO, on peut aussi utiliser des autoroutes de l'information ou le réseau Internet ou des accès à HDSL. De tels réseaux ne sont pas des obstacles pour des signaux son analogiques de bande passante supérieure à 7kHz dès l'instant où l'on met en oeuvre des systèmes de compression de débit qui préservent la qualité originale. Ceci procure une haute qualité sonore équivalente à celle d'un disque numérique compact (CD) .
Le réseau de transmission utilisé pourra être le réseau à mode de transfert asynchrone (ATM) ou tout autre réseau de débit élevé de type numérique ou même analogique. Toutes les images pourront être transmises vers les différents sites à des débits suffisamment élevés sans nécessité d'augmenter le facteur de compression lors du codage.
A titre d'exemple, les images codées sont transmises entre 384kbit/s sur Numéris et 2Mbit/s selon le type de réseau.
La visioconférence est pilotée ou télépilotée par des unités 100A, 100K qui dialoguent à travers le (ou les) réseau (x) R pour notamment s'accorder sur la correspondance établie entre participant, image sonore et image visuelle. Autrement dit, les unités de pilotage transmettent soit une description de la configuration avec les signaux transmis si la configuration n'a pas été déjà prédéfinie, soit le mode de configuration choisi parmi plusieurs configurations déjà définies pour tous les sites. Elles sont aptes à gérer tous les équipements du studio selon la configuration désirée. Parmi les configurations possibles pour une conférence, on peut avoir une liaison point à point ou des liaisons multi-points entre 3 ou 4 , ou 5 et plus, sites. De façon pratique, la configuration consiste à décrire le lien entre un participant d'un site PI (A), le ou les systèmes de prise de son Ml (microphones ou antennes acoustiques) qui captent son discours, la caméra qui le filme CA1 de manière à ce l'image IP1(A) sur le site B soit en correspondance avec le ou les haut (s) -parleur (s) Hl qui restitue (nt) le son issu du ou des microphones Ml.
Pour cela, un site A comporte n microphones, p hauts-parleurs, q caméras. Pour un site donné, le nombre de hauts-parleurs est proportionnel à la taille de l'écran (soit à la largeur, soit à la surface de cet écran) .
Pour des participants assis autour d'une table, le grand écran 10 est disposé devant la table de conférence d'un site considéré et les images écran (de chaque site) sont projetées sur cet écran de manière à ce que les participants distants soient par exemple au même niveau que les participants du site de façon à reconstituer une table virtuelle. Lorsque le participant PI (A) s'adresse au participant P1(B), ce sont les prises de vue de la caméra CA1 du site A qui sont transmises vers les autres sites B à K. De même, ce sont les prises de vue de la caméra CA1 du site B qui sont transmises vers les sites A, C à K. Si aucun participant ne prend la parole sur les autres sites, la caméra qui effectue les prises de vue sur ces sites est indifférente, mais les images de tous les participants sont quand même transmises. Les commandes des prises de vue par les caméras adéquates sont pilotées par les unités de pilotage 100A-100K présentes sur les sites ou télépilotées à partir d'un site de surveillance.
L'asservissement entre la prise de son effectuée et la caméra qui doit réaliser la prise de vue, est obtenu par un programme de commande à la portée de l'homme de métier. Ce programme est mis en oeuvre par les unités 100A à 100K pour obtenir des images donnant l'impression lorsqu'elles sont projetées sur les écrans que les personnes intéressées se regardent vraiment.
De façon pratique, l'usage de seulement deux caméras permet d'obtenir cet effet.
Les images transmises par le réseau sont reçues à chaque site et traitées par les unités vidéo 300 pour être projetées de manière juxtaposée et/ou superposée sur l'écran. Toutes les images reçues sont visualisées sur l'écran 10 de chaque site, l'écran formant un mur d' images.
Dans le cas particulier d'un système point à point les images projetées sur chaque écran correspondent à une seule salle. Cette situation permet d'améliorer la qualité de l'image. Pour ce faire il est proposé dans ce cas de transmettre les deux images chacune obtenue par une caméra. Chaque caméra réalise des prises de vue partielle de la salle. En pratique, une caméra filme une moitié de la scène, l'autre caméra filme l'autre moitié.
La juxtaposition des images est pilotée par les unités de traitement 100A, 100B qui commandent les unités de traitement vidéo pour former à l'écran une seule image à partir des signaux issus des deux caméras. La concaténation d'image est un traitement classique en soi.
Sur la figure 4 , on a représenté de façon plus détaillée les unités de traitement et de pilotage présentes dans le système. Il s'agit là encore d'un exemple correspondant au cas où l'on a deux caméras par studio.
Pour la partie vidéo :
La première caméra CA1 est reliée à un codeur vidéo 303 et un ensemble de décodage vidéo 304 est relié à un premier projecteur PR1. L'ensemble de décodage est formé d'un ou plusieurs décodeurs pour que chaque décodeur décode les signaux vidéo provenant d'un site. Dans la suite de la description, on parlera pour simplifier de décodeur 304 sachant qu'il peut s'agir d'un ensemble de décodeurs.
Le codeur et le décodeur sont reliés à une interface 301 d'adaptation et de transmission des signaux vidéo sur le réseau R. A titre d'exemple, cette interface sera une interface AAL1 (Adaptation Layer) dans le cas d'un transmission sur réseau ATM.
Cette interface est reliée à une interface support physique 400.
L'unité de pilotage 100A envoie, par exemple à travers un réseau local RL, les signaux de pilotage CD1, DC1, IV1 respectivement pour le codeur, le décodeur et l'interface d'adaptation 301 selon la configuration de la visioconférence.
De la même façon, la deuxième caméra CA2 est reliée à un codeur 305 qui est lui-même relié à une interface 302 d'adaptation à la transmission sur le réseau. Un décodeur 306 est relié au deuxième projecteur PR2 et à l'interface 302. L'interface 302 est reliée à l'interface support physique 400. L'unité de pilotage envoie les signaux de pilotage CD2, DC2 , et IV2 respectivement au codeur, décodeur et interface d'adaptation selon la configuration .
Un codeur vidéo peut être relié fonctionnellement à plusieurs décodeurs selon des techniques hors de la portée de l'invention.
On pourrait avoir une troisième caméra sur un site qui serait alors reliée à l'un des codeurs 303 ou 305 et transmettre de cette façon des prises de vue d'une personne que l'on désire favoriser. Les prises de vue de cette caméra seraient codées par le codeur auquel elle est reliée et transmises à tous les autres sites. Il faudrait alors prévoir sur les autres sites un décodeur supplémentaire dans l'ensemble décodeur 303 ou 306 de ces sites pour traiter le signal vidéo issu de cette caméra et visualiser sur l'écran 10 des sites, les images d'écran relatives à ces prises de vue.
Les projecteurs sont soit des projecteurs vidéo, soit des rétroprojecteurs à cristaux liquides. La projection peut être directe si l'on utilise un écran à plasma.
Pour la partie audio :
Les n microphones sont reliés à une unité d'acquisition des signaux 201 réalisant la numérisation des signaux. Les sorties de cette unité 201 sont appliquées aux entrées d'une unité d'atténuation 207 pour le contrôle de l'écho. Les sorties de l'unité d'atténuation sont appliquées aux entrées d'un codeur réducteur de débit pour le signal audio 202 piloté par l'unité 100A. Le codeur 202 effectue également le matriçage des signaux microphoniques pour s'adapter au nombre de canaux disponible sur le réseau pour le transport audio. Pour cela, le codeur reçoit le signal de gestion de la configuration CA. Le codeur adaptateur audio 202 est relié à une interface 204 d'adaptation à la transmission sur le réseau R qui sera une interface AAL5 pour le réseau ATM. Cette interface est reliée à l'interface support physique 400. L'interface 204 est apte à émettre les signaux audio codés sur le réseau et à recevoir les signaux audio codés émis par les autres sites. Les signaux reçus sont traités par l'interface 204 et appliqués à une unité de décodage et de dématriçage 203 des signaux audio.
Les signaux délivrés par l'unité de décodage et de matriçage 203 sont appliqués au(x) haut (s) -parleur (s) désiré (s) au moyen d'une unité 205 de restitution et de conversion numérique analogiques des signaux audio. Cette unité 205 peut ainsi envoyer vers les hauts- parleurs qui conviennent les signaux reçus requis.
Dans le cas où la configuration est prévue et mémorisée dans une mémoire 110 de l'unité de pilotage, l'unité 100A aura dans la table mémorisée une information indiquant que la sortie SI du décodeur délivre le signal qui a été capté soit par le micro Ml, soit par un ensemble de microphones dont Ml fait partie d'un site B et que, en conséquence, cette sortie doit être aiguillée vers le haut-parleur Hn ou un ensemble de hauts-parleurs dont Hl fait partie pour être à proximité de l'image du participant qui a parlé.
Les systèmes d'acquisition (microphone et unité 205) sont choisis de manière à respecter la bande passante du signal de parole et de manière à fonctionner pour des bandes de fréquences °à 7kHz (ce qui constitue la limite basse du système en terme de qualité) . Le système de codage est également choisi pour respecter cette qualité originale et on choisira par exemple des algorithmes de réduction de débit décrit par les normes MPEG1 ou MPEG2. Les systèmes d'acquisition sont choisis aussi de manière à procurer un bon rapport signal/bruit.
A titre d'exemple de configuration possible dans le cas de deux salles en point à point on aura 6 canaux pour le son soit un par exemple pour chaque microphone. Dans le cas de 3 salles on aura deux fois 3 canaux pour le son sur chaque site. Pour le site A, 3 canaux permettront la liaison audio entre A et B et les trois autres permettront la liaison audio entre A et C (idem, pour B, et pour C) .
L'image et le son sont transmis avec un décalage dans le temps le plus faible possible (de l'ordre de la centaine de milliseconde) ce qui, combiné avec la qualité et la taille de l'image vidéo, peut par exemple permettre à un sourd de lire sur les lèvres des correspondants distants.
L'équipement audio comporte en outre un circuit de contrôle d'écho 206 agissant par variation du gain sur les signaux microphoniques au moyen de l'unité d'atténuation variable 207 selon des procédés, classiques en soi. Ce circuit est relié aux sorties de l'unité 201 et aux entrées de l'unité 205.
Le schéma de la figure 5 illustre un cas particulier de configuration possible. Il s'agit d'une configuration vidéo entre trois sites A, B, C.
Pour simplifier cette figure on a représenté les liens directs réalisés selon cette configuration entre les différents sites en faisant abstraction du réseau de transmission.
Cette configuration est décrite à partir de 3 sites A, B, C. Les sites A et B ont chacun deux caméras CAl et CA2 qui permettent d'avoir des vues sous des angles différents d'un même site.
Selon cette configuration on réalise des liaisons point à point pour les codeurs et les décodeurs. La caméra CAl est reliée au codeur 303 du site A, ce codeur est relié au décodeur 304 qui est relié au projecteur qui permet d'avoir l'image d'écran El (A) (image provenant de la caméra CAl du site A) .
Le codeur 303 du site B est relié à la caméra CAl du site B. le signal fourni par le décodeur est décodé par le décodeur 304 du site A pour fournir l'image d'écran E1(B) (image provenant de la caméra CAl du site B) .
Dans le studio C on a placé une seule caméra portant la référence CAl. Cette caméra est reliée aux deux codeurs 304 (A2) et 304 (B2). Le codeur 304 (A2) est relié au décodeur 306 du site A associé à l'image d'écran E1(C) et le codeur 304 (B2) est relié au décodeur 306 du site B associé à l'image d'écran E1(C). En revanche les décodeurs 306 du site C sont reliés l'un au codeur 305 du signal de la caméra CA2 du site A, l'autre au codeur 305 du signal de la caméra CA2 du site B pour afficher respectivement sur le site C les images d'écran Site A, c'est-à-dire E2 (A) et site B, c'est-à-dire E2 (B) .
Les unités de traitement audio sont également doublées d'après cette configuration de manière à mettre en liaison une unité audio 202, 203, 205 avec chaque site. La figure 6 illustre une liaison point à point entre un site A et un site B. Dans ce cas chaque caméra CAl, CA2 effectue une prise de vue partielle du site. Dans le cas de la transmission de 6 flux audio (6 microphones) on utilisera deux codeurs-décodeurs à 3 voies pour chaque site.
Les figures 7 à 9 illustrent respectivement les images d'écran projetées sur le site A, B et C. Sur le site A, figure 7, l'image d'écran E(4,3,2,l) permet de visualiser des images provenant de terminaux individuels et l'image d'écran E(C,B) permet de visualiser les images superposées des sites C et B.
La figure 8 correspond à la visualisation sur le site B et la figure 9 à la visualisation sur le site C. Les figures 10 à 13 illustrent des exemples de liaisons possibles entre les sites.
La figure 10 correspond à 4 studios reliés par un réseau ATM ou liaison spécialisées. La figure 11 correspond à des liaisons réalisées à travers une unité centralisée EVM (MCU) (pont de visioconférence) .
La figure 12 correspond à des liaisons mixtes réseau et un équipement EVM (MCU), c'est-à-dire un pont de visioconférence du commerce comprenant un traitement de suppression des signaux audio des studios 1, 2 et 3 car les sites qui ont des liaisons directes et une liaison à travers cet équipement seraient gênés par la superposition avec décalage temporel des signaux qui proviennent des liaisons réseaux directes et des liaisons EVM.
La figure 13 illustre le cas de liaison à travers des réseaux de types différents Numéris, ATM, liaison spécialisée.

Claims

REVENDICATIONS
1. Système de visioconférence entre participants localisés sur plusieurs sites distincts, comprenant sur chaque site un écran de visualisation, des moyens de prise de vue et de restitution des images , des moyens de prise de son et de restitution du son, caractérisé en ce que:
- l'écran de visualisation est un grand écran (10) du type écran de projection ou de rétroprojection ou de type à vision directe, formé par un ou plusieurs systèmes de visualisation formant un mur d'images pour visualiser simultanément tous les participants distants dans un espace reconstitué sur le mur d'images que forme cet écran (10) ,
- les moyens de prise du son et de restitution comprennent pour chaque site donné des moyens de répartition spatiale du son (100A, 100K, Hi, Mj ) pour établir une correspondance entre le son généré par chaque participant distant et son image visualisée sur l'écran du site considéré, - un site considéré reçoit les images et les signaux audio émis par les autres sites et les restitue en fonction de la correspondance établie, la vision et l'écoute des autres sites et des locuteurs étant simultanée et se faisant par des échanges de voix entre plusieurs à la fois sans interruption ou gêne des autres participants.
2. Système de visioconférence selon la revendication 1, caractérisé en ce que les dimensions de l'écran (10) constituant le mur d'images sont choisies de manière à permettre un affichage des images de tous les sites avec une représentation des participants proche de l'échelle un.
3. Système de visioconférence selon la revendication 1, caractérisé en ce les moyens de prise de vues comportent un premier (CAl) et un deuxième (CA2) ensemble de prise de vues et en ce que les données de prise de son sont associées à l'un ou à l'autre desdits ensembles de prise de vue selon que les signaux vidéo transmis proviennent de l'un ou de l'autre desdits ensembles (CAl) , (CA2) .
4. Système de visioconférence selon la revendication 1, les moyens de prise de son comportent plusieurs microphones, des moyens d'acquisition des signaux audio (201) , des moyens de codage et de matriçage (205) desdits signaux.
5. Système de visioconférence selon la revendication 1, caractérisé en ce que les moyens de restitution du son comportent des moyens de décodage et dématriçage des signaux audio (203) , des moyens de restitution des signaux audio (205) et plusieurs haut- parleurs.
6. Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens de prise et de restitution de son, comportent: - une unité d'acquisition des signaux et de numérisation (201) ;
- une unité de restitution des signaux et de conversion numérique analogique (205) ; - n microphones (Ml, ..., Mn) distribués devant les participants dudit site;
- p haut-parleurs (Hl, ..., HP) distribués le long de l'écran, p étant proportionnel à la taille de 1 ' écran ;
- des moyens d'adaptation au réseau consistant en la réduction de débit;
- des moyens de contrôle de l'écho.
7. Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens d'établissement de la correspondance entre microphone, signal issu de ce microphone et haut parleur destiné à restituer ce signal comportent des moyens de mémorisation (110) d'une ou de plusieurs configurations établissant les correspondances désirées.
8. Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en ce que chaque ensemble de prise de vue comporte pour chaque site q caméras disposées devant les participants dudit site de manière à ce que chaque caméra se trouve dans des zones distinctes d'affichage sur l'écran des différents groupes de participants distants.
9. Système de visioconférence selon l'une quelconque des revendications précédentes , dans lequel la visioconférence est réalisée entre N sites, caractérisé en ce que le nombre q de caméras par site est supérieur ou égal à 2 pour reconstituer les effets de perspective de prise de vue.
10. Système de visioconférence selon l'une quelconque des revendications 1 à 8 , dans lequel la visioconférence est réalisée entre uniquement deux sites distants, caractérisé en ce qu'une caméra (CAl) réalise une prise de vue partielle du site local comprenant un premier ensemble de participants, en ce que l'autre caméra (CA2) réalise une prise de vue partielle du site local comprenant un deuxième ensemble de participants, et en ce que les deux images sont juxtaposées pour permettre la visualisation de l'ensemble des participants.
11. Système de visioconférence selon l'une quelconque des revendications 1 à 10 dans lequel plusieurs caméras sont utilisées pour les prises de vues, caractérisé en ce que lesdites caméras (CAl, CA2) sont placées sous les images projetées.
12. Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en qu'il comporte en outre plusieurs projecteurs vidéo ou rétroprojecteurs (PR1, PR2) du type tubes cathodiques ou à cristaux liquides pour obtenir une restitution des images à l'échelle proche de 1.
13. Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte des moyens de traitement d'image pour chaque site aptes à obtenir une juxtaposition ou superposition des images (301, 304) reçues des sites distants pour permettre l'affichage de toutes les images sur l'écran (10) .
14. Système de visioconférence selon l'une quelconque des revendications précédentes dans lequel les sites sont reliés directement par un réseau de transmission (R) haut débit pouvant être différent, ou indirectement à travers un pont de visioconférence ou par réseau et pont de visioconférence.
15 Système de visioconférence selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens de traitement comportent :
- une unité de traitement et de gestion de type micro-ordinateur ou station de travail (100A, ..., 100K) ,
- des codeurs-décodeurs vidéo (303-306) et des codeurs-décodeurs audio pilotés par l'unité de traitement et,
- des interfaces d'adaptation à la transmission (301, 302, 204) pour ledit réseau.
16. Système de visioconférence selon la revendication 15, caractérisé en ce que le réseau est un réseau de transmission en mode de transfert asynchrone de type ATM, en ce que les interfaces de transmission pour les signaux audiovisuel sont des interfaces de type AAL1 et en ce que les interfaces de transmission pour les signaux de pilotage de la visioconférence entre les unités de traitement sont des interfaces de type AAL5.
PCT/FR1998/000625 1997-03-27 1998-03-26 Systeme de visioconference WO1998044734A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP98917253A EP0970584B1 (fr) 1997-03-27 1998-03-26 Systeme de visioconference
US09/402,022 US6624841B1 (en) 1997-03-27 1998-03-26 Videoconference system
JP54123898A JP4699574B2 (ja) 1997-03-27 1998-03-26 テレビ会議システム
DE69803168T DE69803168T2 (de) 1997-03-27 1998-03-26 Videokonferenzsystem
DK98917253T DK0970584T3 (da) 1997-03-27 1998-03-26 Videokonferencesystem
CA002284884A CA2284884C (fr) 1997-03-27 1998-03-26 Systeme de visioconference

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9703785A FR2761562B1 (fr) 1997-03-27 1997-03-27 Systeme de visioconference
FR97/03785 1997-03-27

Publications (1)

Publication Number Publication Date
WO1998044734A1 true WO1998044734A1 (fr) 1998-10-08

Family

ID=9505254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1998/000625 WO1998044734A1 (fr) 1997-03-27 1998-03-26 Systeme de visioconference

Country Status (10)

Country Link
US (1) US6624841B1 (fr)
EP (1) EP0970584B1 (fr)
JP (2) JP4699574B2 (fr)
CN (1) CN1147143C (fr)
CA (1) CA2284884C (fr)
DE (1) DE69803168T2 (fr)
DK (1) DK0970584T3 (fr)
ES (1) ES2171016T3 (fr)
FR (1) FR2761562B1 (fr)
WO (1) WO1998044734A1 (fr)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502381A (ja) * 2000-07-04 2004-01-22 フランス テレコム 通信端末装置および通信システム
US7391439B2 (en) * 2001-11-12 2008-06-24 France Telecom Modular audio-visual system to bring together a local scene and a remote scene
WO2009042530A1 (fr) * 2007-09-26 2009-04-02 Cisco Technology, Inc. Commande de directivité audio pour un système de videoconference à commutation multi-écrans

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7224962B1 (en) 1997-10-03 2007-05-29 Karen Jeanne Kite Remote operational screener
US6577333B2 (en) * 2000-12-12 2003-06-10 Intel Corporation Automatic multi-camera video composition
US6989801B2 (en) * 2001-03-22 2006-01-24 Koninklijke Philips Electronics N.V. Two-way presentation display system
US20020194606A1 (en) * 2001-06-14 2002-12-19 Michael Tucker System and method of communication between videoconferencing systems and computer systems
US20030048353A1 (en) * 2001-08-07 2003-03-13 Michael Kenoyer System and method for high resolution videoconferencing
JP2005513865A (ja) * 2001-12-15 2005-05-12 トムソン ライセンシング ソシエテ アノニム 時間予約制でのサービス品質の設定
US7352809B2 (en) * 2003-02-21 2008-04-01 Polycom, Inc. System and method for optimal transmission of a multitude of video pictures to one or more destinations
US8659636B2 (en) * 2003-10-08 2014-02-25 Cisco Technology, Inc. System and method for performing distributed video conferencing
CN100484230C (zh) * 2004-01-16 2009-04-29 华为技术有限公司 控制会议电视系统中会场的方法
JP2005285091A (ja) * 2004-03-04 2005-10-13 Sony Corp 画像表示装置、情報端末装置、ネットワークシステム及びネットワーク設定方法
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
US20060075449A1 (en) * 2004-09-24 2006-04-06 Cisco Technology, Inc. Distributed architecture for digital program insertion in video streams delivered over packet networks
US7870590B2 (en) * 2004-10-20 2011-01-11 Cisco Technology, Inc. System and method for fast start-up of live multicast streams transmitted over a packet network
JP2006238330A (ja) * 2005-02-28 2006-09-07 Sony Corp 通信システムおよび通信サービス移行方法
US8457614B2 (en) 2005-04-07 2013-06-04 Clearone Communications, Inc. Wireless multi-unit conference phone
US7692682B2 (en) 2005-04-28 2010-04-06 Apple Inc. Video encoding in a video conference
US7817180B2 (en) * 2005-04-28 2010-10-19 Apple Inc. Video processing in a multi-participant video conference
US7864209B2 (en) * 2005-04-28 2011-01-04 Apple Inc. Audio processing in a multi-participant conference
US7899170B2 (en) * 2005-04-28 2011-03-01 Apple Inc. Multi-participant conference setup
US7949117B2 (en) * 2005-04-28 2011-05-24 Apple Inc. Heterogeneous video conferencing
US8861701B2 (en) * 2005-04-28 2014-10-14 Apple Inc. Multi-participant conference adjustments
US7612793B2 (en) 2005-09-07 2009-11-03 Polycom, Inc. Spatially correlated audio in multipoint videoconferencing
US7680047B2 (en) * 2005-11-22 2010-03-16 Cisco Technology, Inc. Maximum transmission unit tuning mechanism for a real-time transport protocol stream
DE602006016175D1 (de) * 2006-02-23 2010-09-23 Bosch Gmbh Robert Berwachungssystem und verfahren zum überwachthalten mehrerer orte
US7965771B2 (en) 2006-02-27 2011-06-21 Cisco Technology, Inc. Method and apparatus for immediate display of multicast IPTV over a bandwidth constrained network
US8760485B2 (en) * 2006-03-02 2014-06-24 Cisco Technology, Inc. System and method for displaying participants in a videoconference between locations
US8218654B2 (en) 2006-03-08 2012-07-10 Cisco Technology, Inc. Method for reducing channel change startup delays for multicast digital video streams
US20070263824A1 (en) * 2006-04-18 2007-11-15 Cisco Technology, Inc. Network resource optimization in a video conference
US7692680B2 (en) * 2006-04-20 2010-04-06 Cisco Technology, Inc. System and method for providing location specific sound in a telepresence system
US8326927B2 (en) * 2006-05-23 2012-12-04 Cisco Technology, Inc. Method and apparatus for inviting non-rich media endpoints to join a conference sidebar session
US20070279483A1 (en) * 2006-05-31 2007-12-06 Beers Ted W Blended Space For Aligning Video Streams
CN100442837C (zh) * 2006-07-25 2008-12-10 华为技术有限公司 一种具有声音位置信息的视频通讯系统及其获取方法
US8358763B2 (en) * 2006-08-21 2013-01-22 Cisco Technology, Inc. Camping on a conference or telephony port
US8031701B2 (en) 2006-09-11 2011-10-04 Cisco Technology, Inc. Retransmission-based stream repair and stream join
FR2908583B1 (fr) * 2006-11-10 2009-04-24 France Telecom Systeme d'interaction collaborative autour d'objets partages, par fusion d'images
FR2908584A1 (fr) * 2006-11-10 2008-05-16 France Telecom Systeme d'interaction collaborative autour d'objets partages, par integration d'images
US7693190B2 (en) * 2006-11-22 2010-04-06 Cisco Technology, Inc. Lip synchronization for audio/video transmissions over a network
US8085290B2 (en) 2006-12-06 2011-12-27 Cisco Technology, Inc. System and method for displaying a videoconference
US8121277B2 (en) * 2006-12-12 2012-02-21 Cisco Technology, Inc. Catch-up playback in a conferencing system
FR2910770A1 (fr) * 2006-12-22 2008-06-27 France Telecom Dispositif pour permettre une communication par visioconference et procede de communication associe.
US8769591B2 (en) 2007-02-12 2014-07-01 Cisco Technology, Inc. Fast channel change on a bandwidth constrained network
NO20071401L (no) * 2007-03-16 2008-09-17 Tandberg Telecom As System og arrangement for naturtro videokommunikasjon
US20080253369A1 (en) 2007-04-16 2008-10-16 Cisco Technology, Inc. Monitoring and correcting upstream packet loss
US8477177B2 (en) * 2007-08-10 2013-07-02 Hewlett-Packard Development Company, L.P. Video conference system and method
CN101132516B (zh) 2007-09-28 2010-07-28 华为终端有限公司 一种视频通讯的方法、系统及用于视频通讯的装置
JP2009118316A (ja) * 2007-11-08 2009-05-28 Yamaha Corp 音声通信装置
US20090164575A1 (en) * 2007-11-26 2009-06-25 Haivision Systems Inc. Method and system for the establishment of complex network telepresence conference
KR100947027B1 (ko) * 2007-12-28 2010-03-11 한국과학기술원 가상음장을 이용한 다자간 동시 통화 방법 및 그 기록매체
US8787153B2 (en) 2008-02-10 2014-07-22 Cisco Technology, Inc. Forward error correction based data recovery with path diversity
WO2009116992A1 (fr) * 2008-03-17 2009-09-24 Hewlett-Packard Development Company, L.P. Système de téléprésence
WO2010053473A1 (fr) 2008-11-04 2010-05-14 Hewlett-Packard Development Company, L.P. Réglage d'une position de fenêtre vidéo par rapport à une position de caméra vidéo
US8860775B2 (en) 2009-04-14 2014-10-14 Huawei Device Co., Ltd. Remote presenting system, device, and method
CN101534413B (zh) * 2009-04-14 2012-07-04 华为终端有限公司 一种远程呈现的系统、装置和方法
US8301697B2 (en) * 2009-06-16 2012-10-30 Microsoft Corporation Adaptive streaming of conference media and data
EP2352290B1 (fr) * 2009-12-04 2012-11-21 Swisscom AG Méthode et dispositif pour aligner des signaux audio et vidéo pendant une vidéconférence
US8433755B2 (en) 2010-04-07 2013-04-30 Apple Inc. Dynamic designation of a central distributor in a multi-participant conference
US8786666B2 (en) * 2010-04-27 2014-07-22 Lifesize Communications, Inc. Providing separate video and presentation streams to a recording server
CN104038725B (zh) * 2010-09-09 2017-12-29 华为终端有限公司 多屏视频会议中对与会者图像显示进行调整的方法及装置
US8711736B2 (en) 2010-09-16 2014-04-29 Apple Inc. Audio processing in a multi-participant conference
GB2484944A (en) * 2010-10-27 2012-05-02 David Roger Sherriff Mimic video conference meeting place
US9015555B2 (en) 2011-11-18 2015-04-21 Cisco Technology, Inc. System and method for multicast error recovery using sampled feedback
US9232183B2 (en) * 2013-04-19 2016-01-05 At&T Intellectual Property I, Lp System and method for providing separate communication zones in a large format videoconference
US9883140B2 (en) * 2014-05-19 2018-01-30 Apple Inc. Using the location of a near-end user in a video stream to adjust audio settings of a far-end system
KR101685466B1 (ko) * 2014-08-28 2016-12-12 삼성에스디에스 주식회사 다자간 영상 회의 서비스의 참여자 확장 방법
CN105898185A (zh) * 2014-11-19 2016-08-24 杜比实验室特许公司 调节视频会议系统中的空间一致性
JP6507049B2 (ja) * 2015-06-30 2019-04-24 Necネッツエスアイ株式会社 映像システム
JP6284505B2 (ja) 2015-06-30 2018-02-28 Necネッツエスアイ株式会社 コミュニケーションシステム及びコミュニケーション方法
CN107333117B (zh) * 2016-04-29 2022-10-28 中兴通讯股份有限公司 投影设备、会议系统及投影设备控制方法
US10587978B2 (en) 2016-06-03 2020-03-10 Nureva, Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space
US10394358B2 (en) 2016-06-06 2019-08-27 Nureva, Inc. Method, apparatus and computer-readable media for touch and speech interface
US10338713B2 (en) 2016-06-06 2019-07-02 Nureva, Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location
CN107333094A (zh) * 2017-08-07 2017-11-07 西安万像电子科技有限公司 会议系统及显示处理方法、装置
CN109547734A (zh) * 2019-01-02 2019-03-29 姚树财 一种融入式vr视频会议远程呈现装置及系统
EP3926442A1 (fr) 2020-06-19 2021-12-22 Brainbox GmbH Procédé de vidéo conférence et système de vidéo conférence
US11792353B2 (en) * 2020-12-07 2023-10-17 Avaya Management L.P. Systems and methods for displaying users participating in a communication session
KR102326212B1 (ko) * 2021-05-25 2021-11-12 김우영 비대면 온오프라인 화상회의 시스템
US11758089B2 (en) * 2021-08-13 2023-09-12 Vtech Telecommunications Limited Video communications apparatus and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992017035A1 (fr) * 1991-03-15 1992-10-01 V.S.F. Video Scoper France Procede pour generer simultanement un ensemble d'images video sur un support de visualisation, et systemes pour sa mise en ×uvre
US5206721A (en) * 1990-03-08 1993-04-27 Fujitsu Limited Television conference system
WO1994016517A1 (fr) * 1993-01-12 1994-07-21 Bell Communications Research, Inc. Systeme de localisation du son pour teleconference utilisant des rangees de microphones auto-directionnels
JPH07135646A (ja) * 1993-11-11 1995-05-23 Nec Eng Ltd テレビ会議システム
EP0765084A2 (fr) * 1995-09-21 1997-03-26 AT&T Corp. Système automatique de poursuite vidéo

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1438293A (en) * 1972-09-28 1976-06-03 Post Office Television system for transmitting two or more pictures along a common communication channel
FR2484747A1 (fr) * 1980-06-11 1981-12-18 Faye Andre Procede et dispositif pour etablir des communications bidirectionnelles et/ou multidirectionnelles entre differentes personnes regroupees en differentes stations geographiquement eloignees et reliees entre elles par des lignes telephoniques
US5280540A (en) * 1991-10-09 1994-01-18 Bell Communications Research, Inc. Video teleconferencing system employing aspect ratio transformation
JP3305037B2 (ja) * 1993-04-07 2002-07-22 富士通株式会社 多地点制御装置、テレビ会議端末装置及び多地点テレビ会議システム
US5818616A (en) * 1993-08-23 1998-10-06 Canon Kabushiki Kaisha Optical communication apparatus and conference system
US5548346A (en) * 1993-11-05 1996-08-20 Hitachi, Ltd. Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
US5533021A (en) * 1995-02-03 1996-07-02 International Business Machines Corporation Apparatus and method for segmentation and time synchronization of the transmission of multimedia data
US5793415A (en) * 1995-05-15 1998-08-11 Imagetel International Inc. Videoconferencing and multimedia system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5206721A (en) * 1990-03-08 1993-04-27 Fujitsu Limited Television conference system
WO1992017035A1 (fr) * 1991-03-15 1992-10-01 V.S.F. Video Scoper France Procede pour generer simultanement un ensemble d'images video sur un support de visualisation, et systemes pour sa mise en ×uvre
WO1994016517A1 (fr) * 1993-01-12 1994-07-21 Bell Communications Research, Inc. Systeme de localisation du son pour teleconference utilisant des rangees de microphones auto-directionnels
JPH07135646A (ja) * 1993-11-11 1995-05-23 Nec Eng Ltd テレビ会議システム
EP0765084A2 (fr) * 1995-09-21 1997-03-26 AT&T Corp. Système automatique de poursuite vidéo

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PATENT ABSTRACTS OF JAPAN vol. 095, no. 008 29 September 1995 (1995-09-29) *
SUSUMU ICHINOSE: "VISUAL TELEPHONE", 1 March 1993, NTT REVIEW, VOL. 5, NR. 2, PAGE(S) 59 - 66, XP000364720 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502381A (ja) * 2000-07-04 2004-01-22 フランス テレコム 通信端末装置および通信システム
US7391439B2 (en) * 2001-11-12 2008-06-24 France Telecom Modular audio-visual system to bring together a local scene and a remote scene
WO2009042530A1 (fr) * 2007-09-26 2009-04-02 Cisco Technology, Inc. Commande de directivité audio pour un système de videoconference à commutation multi-écrans

Also Published As

Publication number Publication date
CN1257631A (zh) 2000-06-21
US6624841B1 (en) 2003-09-23
DE69803168D1 (de) 2002-02-21
DK0970584T3 (da) 2002-04-22
EP0970584A1 (fr) 2000-01-12
EP0970584B1 (fr) 2002-01-02
ES2171016T3 (es) 2002-08-16
CA2284884C (fr) 2006-06-13
CA2284884A1 (fr) 1998-10-08
FR2761562A1 (fr) 1998-10-02
JP2009081861A (ja) 2009-04-16
DE69803168T2 (de) 2002-08-22
JP4885928B2 (ja) 2012-02-29
JP4699574B2 (ja) 2011-06-15
JP2001517395A (ja) 2001-10-02
CN1147143C (zh) 2004-04-21
FR2761562B1 (fr) 2004-08-27

Similar Documents

Publication Publication Date Title
CA2284884C (fr) Systeme de visioconference
US9426419B2 (en) Two-way video conferencing system
US6466248B1 (en) Videoconference recording
Mouzourakis Videoconferencing: Techniques and challenges
US9113034B2 (en) Method and apparatus for processing audio in video communication
US8289367B2 (en) Conferencing and stage display of distributed conference participants
JP2001517395A5 (fr)
EP2352290B1 (fr) Méthode et dispositif pour aligner des signaux audio et vidéo pendant une vidéconférence
US20040008423A1 (en) Visual teleconferencing apparatus
WO2003043324A1 (fr) Systeme audiovisuel modulaires pour met tre en presence une scene locale et une scene distante
FR2811501A1 (fr) Terminal et systeme de communication
EP1088452B1 (fr) Systeme de visioconference multipoints par satellite
WO2011087356A2 (fr) Visioconférence utilisant une caméra panoramique unique
Batke et al. Spatial audio processing for interactive TV services
FR2896648A1 (fr) Procede et systeme de conversation multimedia
CN116954349A (zh) Mr元宇宙远程心理咨询ai交互沉浸系统
WO2023150486A1 (fr) Rendu audio et/ou visuel commandé par geste
Naemura et al. Multiresolution stereoscopic immersive communication using a set of four cameras
CN116095295A (zh) 一种全景多屏互动数字展示系统
Kropp et al. Format-Agnostic approach for 3d audio
Gräff et al. Immersive High Quality Communication.
FR2711874A1 (fr) Terminal de télécommunications visuelles et sonores.
FR2722356A1 (fr) Terminal de communication audiovisuelle de type visiophone

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98805462.0

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CA CN JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2284884

Country of ref document: CA

Ref document number: 2284884

Country of ref document: CA

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 1998 541238

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1998917253

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1998917253

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09402022

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 1998917253

Country of ref document: EP