DE69924922T2

DE69924922T2 - Audiokodierungsmethode und Audiokodierungsvorrichtung

Info

Publication number: DE69924922T2
Application number: DE69924922T
Authority: DE
Inventors: Eiji Hiroshimaken Kawahara
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1998-06-15
Filing date: 1999-06-14
Publication date: 2006-12-21
Anticipated expiration: 2019-06-15
Also published as: US6697775B2; KR20000006157A; US20020138259A1; CN1327619C; EP0966109A2; DE69924922D1; EP0966109B1; US6393393B1; KR100548891B1; EP0966109A3; CN1247415A

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Audiokodierungsverfahren, eine Audiokodierungsvorrichtung und ein Datenspeichermedium. Genauer bezieht sich die vorliegende Erfindung auf ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung, die ein Unterbandkodierschema in Übereinstimmung mit einer MPEG-(Motion Picture Experts Group) Norm verwenden, sowie auf ein Datenspeichermedium, das ein Programm zur Implementierung des Audiokodierungsverfahrens enthält.
HINTERGRUND DER ERFINDUNG
Mit der Verbreitung eines Multimedia-Personalcomputers oder des Internets ist es in den letzten Jahren möglich geworden, ein bewegtes Bild oder Audio in Übereinstimmung mit der MPEG-Norm durch Software auf dem Personalcomputer (PC) wiederzugeben, und nach der MPEG-Norm kodierte Daten haben breite Verwendung gefunden.
Teure Hardware wird allgemein als Kodierer zur Erzeugung kodierter Daten verwendet. Obwohl die kodierten Daten manchmal durch Software erzeugt werden, hat sich dies nicht sehr weit verbreitet, weil dieser Kodierprozess eine Verarbeitungszeit erfordert, die mehrere Male länger als die Echtzeit ist, die zur Wiedergabe eines Bewegtbildes oder von Audio erforderlich ist und viel Zeit und Mühe erforderlich wird.
Damit ein PC-Benutzer kodierte Daten leicht und billig erzeugen kann, ist es erforderlich,
dass die kodierten Daten durch Softwareverarbeitung in Echtzeit erzeugt werden.
Hierunter wird ein Beispiel eines herkömmlichen Audiokodierungsverfahrens beschrieben. 11 ist ein Blockdiagramm, das einen MPEG-Audiokodierer zeigt, der durch ISO/IEC11172-3 als Format fur kodierte Audiodaten normiert wurde.
Auf 11 Bezug nehmend, teilt das Unterband-Analyseorgan 202 ein eingegebenes digitales Audiosignal in 32 Frequenzkomponenten auf, während das Skalierfaktorberechnungsorgan 203 Skalierfaktoren für die betreffenden Unterbandsignale berechnet und dynamische Bereiche für die betreffenden Unterbandsignale gleichförmig macht. Das digitale Audio-Eingangssignal wird auch einem schnellen Fourier-Transformations- (FFT: fast Fourier transform) prozess durch das FFT-Organ 204 unterworfen. Auf der Basis dieses Ergebnisses leitet das psychoakustische Analyseorgan 205 auf der Basis eines psychoakustischen Modells, das eine Charakteristik des menschlichen Gehörsinns verwendet, ein Beziehungsmodell eines Signal-Maske-Verhältnisses (SMR: Signal-to-Mask Ratio) ab. Unter Verwendung dieses Modells bestimmt dann das Bitzuweisungsorgan 206 die Anzahl von Bits, die jedem Unterbandsignal zuzuweisen sind. Je nach der Anzahl von Bits, die jedem Unterbandsignal zugewiesen werden, quantisiert/kodiert das Quantisier- und Kodierorgan 207 jedes Unterbandsignal. Das Bitstromerzeugungsorgan 209 erzeugt einen Bitstrom, der quantisierte/kodierte Daten vom Quantisier- und Kodierorgan 207 sowie Headerdaten und Hilfsdaten umfasst, die durch das Hilfsdatenkodierorgan 208 kodiert worden sind, und gibt den Bitstrom aus.
In diesem herkömmlichen Audiokodierungsverfahren wird für jedes Unterband ein Kodierprozess ausgeführt, indem die Tatsache genutzt wird, dass die Bandleistung nicht gleichförmig verteilt ist. Daher wird die Audioqualität durch die Bitverteilung für jedes Unterbandsignal unter Verwendung des psychoakustischen Modells bestimmt. Da das Audiokodierungsverfahren für die Zwecke der Verwendung eines Speichermediums genormt worden ist, ist es ausserdem gut dafür geeignet, kodierte Daten hoher Qualität zu erzeugen, aber es ist weniger gut für einen Kodierprozess in Echtzeit geeignet. Das psychoakustische Modell, das die Audioqualität bestimmt, verlangt eine grosse Menge von Arbeit.
Die EP 0 803 989 A1 offenbart eine Audiokodierungsvorrichtung, die ein Bitzuweisungsorgan, das eine Mehrzahl von psychoakustischen Modellen besitzt, sowie ein Auswahlorgan umfasst, um für jedes Unterband ein psychoakustisches Modell in Übereinstimmung mit Steuerdaten auszuwählen, die durch einen Benutzer von aussen eingegeben worden sind.
Das herkömmliche Audiokodierungsverfahren und die herkömmliche Audiokodierungsvorrichtung sind für die Erzeugung von kodierten Daten hoher Qualität für das Speichermedium aufgebaut und gut geeignet, aber sind in Anbetracht des Verarbeitungsvermögens von derzeitigen Zentraleinheiten für eine Echtzeitverarbeitung durch Software auf dem PC weniger gut geeignet, da der Einsatz des psychoakustischen Modells ein hohes Verarbeitungsvermögen verlangt. Wenn die Verarbeitung auf einem PC ausgeführt wird, in den eine Hochleistungs-Zentraleinheit mit der Fähigkeit für Echtzeitverarbeitung eingebaut worden ist, kann die Verarbeitung dann nicht in Echtzeit erfolgen, wenn eine andere Anwendung einen grossen Teil der Verarbeitung durch die Zentraleinheit besetzt. Audiounterbrechungen sind folglich möglich.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist ein Ziel der vorliegenden Erfindung, wie durch die beigefügten unabhängigen Ansprüche definiert, ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung zur Verfügung zu stellen, die in der Lage sind, kodierte Daten hoher Qualität und ohne Unterbrechungen zu erzeugen, ohne durch das Verarbeitungsvermögen einer CPU eines Personalcomputers bzw. dadurch beeinträchtigt zu werden, wieviel von der Verarbeitung der CPU durch eine andere Anwendung besetzt ist, sowie auch ein Datenspeichermedium zur Verfügung zu stellen, das ein Programm enthält, um diesen Kodierprozess zu implementieren.
Weitere Ziele und Vorteile der Erfindung werden aus der folgenden eingehenden Beschreibung ersichtlich werden. Die eingehende Beschreibung und die beschriebenen konkreten Ausführungsformen sind nur zur Veranschaulichung vorgesehen, da verschiedene Hinzufügungen und Abwandlungen im Geiste und Rahmen der Erfindung für den Fachmann aus der eingehenden Beschreibung ersichtlich werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, in dem ein System gezeigt wird, das einen Personalcomputer als Implementierung einer Audiokodierungsvorrichtung verwendet, in der ein Audiokodierungsverfahren gemäss einer ersten Ausführungsform der vorliegenden Erfindung verwendet wird.
2 ist ein Blockdiagramm, das die Struktur eines Kodierers der Audiokodierungsvorrichtung der ersten Ausführungsform zeigt.
3 ist ein Blockdiagramm, das die detaillierte Struktur des im Kodierer enthaltenen High-Band-Kodierorgans zeigt.
4 ist ein Blockdiagramm, das die detaillierte Struktur des Kodierers der Audiokodierungsvorrichtung der ersten Ausführungsform zeigt.
5 ist ein Diagramm, das ein Beispiel eines Bitzuweisungsprozesses für jede Gruppe zeigt, der im Audiokodierungsverfahren der ersten Ausführungsform enthalten ist.
6 ist ein Diagramm, das ein weiteres Beispiel eines Bitzuweisungsprozesses für jede Gruppe zeigt, der im Audiokodierungsverfahren der ersten Ausführungsform enthalten ist.
7 ist ein Ablaufdiagramm, um die Kodierarbeit des Kodierers der Kodierungsvorrichtung der ersten Ausführungsform zu erklären.
8 ist ein Diagramm, das ein Beispiel eines Bitzuweisungsprozesses für jede Gruppe mit Verwendung einer Schwelle zeigt, der im Audiokodierungsverfahren der ersten Ausführungsform enthalten ist.
9 ist ein Blockdiagramm, das die detaillierte Struktur einer Abwandlung des Kodierers der Kodierungsvorrichtung der ersten Ausführungsform zeigt.
10 ist ein Blockdiagramm, das ein Datenspeichermedium sowie den Aufbau einer das Datenspeichermedium verwendenden Audiokodierungsvorrichtung gemäss einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
11 ist ein Blockdiagramm, das einen Kodierer einer herkömmlichen Audiokodierungsvorrichtung zeigt.
12 ist ein Diagramm, das die detaillierte Struktur des Low-Band-Kodierorgans zeigt, das in einer Audiokodierungsvorrichtung gemäss einer dritten Ausführungsform der vorliegenden Erfindung enthalten ist.
13 ist ein Diagramm, um ein psychoakustisches Modell für jeden Datenblock in einem Low-Band-Kodierprozess zu erklären, der durch die Audiokodierungsvorrichtung der dritten Ausführungsform ausgeführt wird.
14 ist ein Diagramm, das die detaillierte Struktur des Low-Band-Kodierorgans zeigt, das in einer Audiokodierungsvorrichtung gemäss einer vierten Ausführungsform der vorliegenden Erfindung enthalten ist.
15 ist ein Diagramm, das ein Beispiel eines Bitzuweisungsprozesses der Audiokodierungsvorrichtung der vierten Ausführungsform zeigt.
16 ist ein Blockdiagramm, das die Struktur eines Kodierers einer Audiokodierungsvorrichtung gemäss einer fünften Ausführungsform der vorliegenden Erfindung zeigt.
17 ist ein Blockdiagramm, das die Struktur eines Kodierers zeigt, der ein Audiosignal und ein Videosignal verarbeitet.
18 ist ein Blockdiagramm, das einen Fall zeigt, wo die vorliegende Erfindung auf einen Kodierprozess angewendet wird, der durch eine Kodierungsvorrichtung ausgeführt wird, die einen Kodierprozess durch Zeit-Frequenz-Transformation ausführt.
EINGEHENDE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Jetzt werden ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung gemäss bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die Figuren beschrieben.
Ausführungsform 1
Hierunter wird ein Kodierungsverfahren beschrieben, bei dem ein Eingangssignal in eine Mehrzahl von Frequenzkomponenten aufgeteilt und ein Kodierprozess für jedes Unterband unter Ausnutzung der Tatsache ausgeführt wird, dass die Bandleistung ungleichförmig verteilt ist. 1 ist ein konzeptionelles Diagramm des ganzen Systems, in dem ein Personalcomputer (PC) als Audiokodierungsvorrichtung in Übereinstimmung mit dem Kodierungsverfahren verwendet wird. In 1 bezeichnet die Bezugszahl 1 einen Multimedia-PC, in den Daten von einem externen Gerät wie einer Kamera 17 und einem Mikrophon 19 eingegeben werden und der ein Festplattenlaufwerk (HDD: hard disc drive) 11 als ortsfestes Speichermedium, das ein hohes Speichervermögen zur Speicherung verschiedener Daten und Programme besitzt, sowie ein PD-Laufwerk 12a und ein FD-Laufwerk 12b als abnehmbare Speichermedien mit verhältnismässig kleinem Speichervermögen umfasst, um I/O-Operationen von Programmen oder Daten zwischen dem HDD 11 und diesen Laufwerken auszuführen. Das im HDD 11 gespeicherte Programm wird zweckmässig in Übereinstimmung mit einem Befehl seitens einer CPU (central processing unit: Zentraleinheit) 14 in einen Speicher 13, der aus einem RAM (random access memory: Speicher mit wahlfreiem Zugriff) oder dergleichen besteht, eingelesen und ausgeführt. Um Video and Audio von der Kamera 17 und vom Mikrophon 19 einzufangen, sind eine Videokarte 16 und eine Soundkarte 18 in den PC eingebaut. In dem so aufgebauten PC 1 sind die betreffenden Komponenten durch einen inneren Bus 15 verbunden.
2 ist ein Blockdiagramm, das einen Kodierer 20 einer Audiokodierungsvorrichtung zur Implementierung eines Audiokodierprozesses zeigt, der auf dem in 1 gezeigten PC ausgeführt wird, und der in Wirklichkeit durch das Programm implementiert wird, das aus dem HD 11 in den Speicher 13 eingelesen wurde. In 2 bezeichnet die Bezugszahl 21 CPU-Lastüberwachungsdaten, mit denen der Lastzustand der CPU 14 überwacht wird, während die Bezugszahl 22 ein Organ (ein Steuerorgan) für die Steuerung von Kodierorganen bezeichnet, das die Arbeit eines Low-Band-Kodierorgans 23 sowie eines High-Band-Kodierorgans 24 in Übereinstimmung mit den CPU-Lastüberwachungsdaten 21 steuert. Die Bezugszahl 25 bezeichnet ein Bitstromerzeugungsorgan zur Erzeugung eines Stromsignals aus den Ausgangssignalen der Kodierorgane 23 und 24. Bezugszahl 26 bezeichnet ein Kodiermode-Spezifikationssignal, das durch einen Benutzer in das Steuerorgan 22 eingegeben wird.
Der in 11 gezeigte Aufbau kann zum Beispiel als Aufbau des in 2 gezeigten Low-Band-Kodierorgans 23 eingesetzt werden. Als Aufbau des in 3 gezeigten High-Band-Kodierers 24 wird zum Beispiel wie in dem in 11 gezeigten herkömmlichen Beispiel ein Kodierschema zur Ausführung eines Kodierprozesses für jedes Unterband eingesetzt, in dem die Tatsache ausgenutzt wird, dass die Bandleistung ungleichförmig verteilt ist, obwohl eine Bitzweisung an jedes Unterbandsignal, bei dem das psychoakustische Modell verwendet wird, nicht erfolgt, sondern ein adaptives Bandausgangs-Bitzuweisungsorgan 304 vorgesehen ist, um auf der Basis der Charakteristik des menschlichen Hörsinnes Skalierfaktoren der Unterbandsignale zu wichten. Dieser Aufbau bezweckt statt einer Audioverarbeitung hoher Qualität eine Niederlastverarbeitung.
Ausserdem wird die Wichtung für jedes Unterband je Bitzuweisung angepasst, um eine Konzentration der Bitzuweisungen in einem gegebenen Unterband zu vermeiden.
4 ist ein Blockdiagramm, das die detaillierte Struktur des in 2 gezeigten Kodierers 20 zeigt. In 2 bezeichnet die Bezugszahl 101 einen Kodierer, der das Unterbandanalyseorgan 102, das Skalierfaktorberechnungsorgan 103, das FFT-Organ 104, das psychoakustische Analyseorgan 105, das Quantisier- und Kodierorgan 106, das Hilfsdatenkodierorgan 107, das Bitstromerzeugungsorgan 108, das adaptive Bandausgangs-Bitzuweisungsorgan 109, das psychoakustische Bitzuweisungsorgan 110, das Gruppierorgan 111, das Bitzuweisungsprozess-Steuerorgan 112 und das Organ 113 für die Berechnung zuweisbarer Bits umfasst.
Das Unterbandanalyseorgan 102 unterteilt ein digitales Audio-Eingangssignal in 32 Frequenzkomponenten. Das Skalierfaktorberechnungsorgan 103 berechnet Skalierfaktoren für die betreffenden Unterbandsignale und macht die dynamischen Bereiche für die betreffenden Unterbänder gleichförmig. Das Gruppierorgan 111 trennt die 32 Frequenzkomponenten in eine Anzahl von Gruppen auf, die durch Verarbeitungsmengesteuerdaten 121 als von aussen eingegebenen Steuerdaten vorgegeben wird. In dieser ersten Ausführungsform ist die Anzahl von Gruppen, wie in 5 gezeigt, mit „ 3" vorgegeben. In jeder der Gruppen sind die Unterbandsignale in der Richtung der Frequenzachse kontinuierlich. Die drei Gruppen sind eine Low-Band-Gruppe A, die aus den Unterbändern 0 bis 15 besteht, eine High-Band-Gruppe B, die aus den Unterbändern 16 bis 29 besteht, sowie eine unbedeutende Gruppe C, die aus den Unterbändern 30 und 31 besteht, für die eine Bitzuweisung nicht erfolgt. Es sei angenommen, dass die Verarbeitungsmengesteuerdaten 121 die CPU-Lastüberwachungsdaten 21 und das Kodiermodespezifikationssignal 26 enthalten. In dieser ersten Ausführungsform werden als Bitzuweisungsorgan für die Zuweisung von Bits an die Bänder in den betreffenden Gruppen das Bitzuweisungsorgan 110 des psychoakustischen Modells und das adaptive Bandausgangs-Bitzuweisungsorgan 109 verwendet. Das Bitzuweisungsorgan 110 des psychoakustischen Modells fuhrt die Bitzuweisung mit hohem Wirkungsgrad für das Low Band aus, für das menschliche Ohren hoch empfindlich sind, indem eine Beziehung des SMR verwendet wird, die auf dem gemäss MPEG-Norm vorgegebenen psychoakustischen Modell beruht. Das adaptive Bandausgangs-Bitzuweisungsorgan 109 führt die Bitzuweisung für das High Band aus, für das menschliche Ohren weniger empfindlich sind, mit einer niedrigeren Last aus als die. Bitzuweisung des psychoakustischen Modells, indem eine Kombination der Skalierfaktordaten aus dem Skalierfaktorberechnungsorgan 103 und dem im Voraus festgelegten minimalen Hörgrenzwert für jedes Unterband verwendet wird.
Das Bitzuweisungsprozess-Steuerorgan 112 steuert das FFT-Organ 104 so, dass das FFT-Organ 104 das digitale Audio-Eingangssignal dem FFT-Prozess vor einer psychoakustischen Analyse der aus den Unterbändern 0 bis 15 bestehenden Low-Band-Gruppe A unterwirft, die der Bitzuweisung des psychoakustischen Modells unterworfen werden sollen. Aus diesem Transformationsergebnis leitet das psychoakustische Analyseorgan 105 auf der Basis des psychoakustischen Modells und unter Verwendung der Charakteristik des menschlichen Hörsinnes das Beziehungsmodell des SMR-Wertes ab.
Das Organ 113 für die Berechnung zuweisbarer Bits berechnet die Anzahl von Bits, die den Gruppen zugewiesen werden können, die durch die Abtastfrequenzen oder Kodierbitraten festgelegt werden, in der Weise, dass es die Anzahl von zuweisbaren Bits für das Bitzuweisungsorgan für jede Gruppe berechnet, indem es das Verhältnis jeder Gruppe, der Bits zugewiesen werden sollen, zu allen Gruppen verwendet, aber gewichtet auf Grund der Eigenschaften der betreffenden Unterbänder in jeder Gruppe. In dieser ersten Ausführungsform wird die Anzahl von Bits festgelegt, die dem Bitzuweisungsorgan 110 des psychoakustischen Modells und dem adaptiven Bandausgangs-Bitzuweisungsorgan 113 zugeordnet werden sollen, indem Skalierfaktorindexwerte und ein Verhältnis des Low Band zum High Band angenommen und die Anzahl von Bits berücksichtigt wird, die allen Gruppen zugewiesen werden sollen. Aus den betreffenden Skalierfaktorindexwerten scf_index [i] werden in Übereinstimmung mit den folgenden Ausdrücken (1) und (2) konkret die Additionswerte Vpsy und Vnon der scf_index [i] für die betreffenden Gruppen durch das Skalierfaktorberechnungsorgan 103 berechnet:

wo psy_end = 16 die Anzahl von Unterbändern ist, für die eine Bitzuweisung mit dem psychoakustischen Modell erfolgen soll, und Unterband_end = 30 die Anzahl von Unterbändern ist, für die eine Bitzuweisung erfolgen soll.
Um dem Low Band, für das menschliche Ohren hoch empfindlich sind, mehr Bits zuzuweisen, wird dann Vspy wie folgt gewichtet: Vpsy = Vpsy·0,75.
Um die Anzahl von Bits „psy_num", die der Bitzuweisung des psychoakustischen Modells zugewiesen werden können, und die Anzahl von Bits „non_num", die der adaptiven Bandausgangs-Bitzuweisung zugewiesen werden können, zu finden, werden die folgenden Ausdrücke gewählt: Vnon = Vnon·psy_ratio psy_num = all_alloc_num·Vnon/(Vpsy + Vnon) non_num = all_num – psy_num,wo all_alloc num die Anzahl von Bits ist, die allen Gruppen zugewiesen werden sollen, während psy_ratio durch psy_end/(Unterband_end – psy_end) gegeben ist.
Innerhalb eines Bereichs von Bits, die jeder Gruppe zugewiesen werden können (psy_um, non_num), weist das Bitzuweisungsorgan 110 des psychoakustischen Modells den Unterbändern 0 bis 15 in der Low-Band-Gruppe A Bits zu, indem das Beziehungsmodell des SMR-Wertes aus dem psychoakustischen Analyseprozessorgan 105 verwendet wird, während das adaptive Bandausgangs-Bitzuweisungsorgan 109 den Unterbändern 16 bis 29 in der High-Band-Gruppe B Bits zuweist. Für die Unterbänder 30 und 31 in der unbedeutenden Gruppe C erfolgt keine Bitzuweisung, da angenommen wird, dass sie unbedeutende Unterbänder sind.
In Übereinstimmung mit der Anzahl von Bits, die den betreffenden Unterbandsignalen zuzuordnen sind und die durch diese Bitzuweisungsorgane festgelegt wird, quantisiert und kodiert das Quantisier- und Kodierorgan 106 die betreffenden Unterbandsignale, während das Bitstromerzeugungsorgan 108 dann auf der Basis der gewonnenen quantisierten bzw. kodierten Unterbandsignale sowie der Headerdaten und der Hilfsdaten, die durch das Hilfsdatenkodierorgan 107 kodiert worden sind, einen Bitstrom erzeugt.
Wenn die Verarbeitungsmengesteuerdaten 121 zum Beispiel eine Verringerung der kodierten Menge anzeigen, dann wird, wie in 6 gezeigt, die Bandbreite für die Low-Band-Gruppe A, die aus den Unterbändern 0 bis 15 besteht, denen das Bitzuweisungsorgan 110 des psychoakustischen Modells Bits zuweist, auf eine Low-Band-Gruppe A' verringert, die aus den Unterbändern 0 bis 7 besteht, während die Bandbreite für die High-Band-Gruppe B, die aus den Unterbändern 16 bis 29 besteht, denen das adaptive Bandausgangs-Bitzuweisungsorgan 109 Bits zuweist, auf eine High-Band-Gruppe B' vergrössert wird, die aus den Unterbändern 8 bis 29 besteht. Des Weiteren wird, um die geringste Kodiermenge zu realisieren, das adaptive Bandausgangs-Bitzuweisungsorgan 109 dafür eingerichtet, Bits den Unterbändern 0 bis 29 zuzuweisen. In diesem Falle ist das Bitzuweisungsorgan 110 des psychoakustischen Modells im Wesentlichen inoperativ, daher arbeiten das FFT-Organ 104 und das psychoakustische Analyseorgan 105 ebenfalls nicht.
Wenn andererseits die Verarbeitungsmengesteuerdaten 121 zum Beispiel anzeigen, dass die Qualität der kodierten Audiodaten verbessert werden soll, dann wird die Bandbreite der Unterbänder erhöht, denen das Bitzuweisungsorgan 110 des psychoakustischen Modells, das einer hoch wirksamen Bitzuweisung zur Realisierung von Audiodaten hoher Qualität fähig ist, Bits zuweisen sollte. Des Weiteren wird, um die höchstmögliche Qualität zu realisieren, das Bitzuweisungsorgan 110 des psychoakustischen Modells dafür eingerichtet, Bits den Unterbändern 0 bis 29 zuzuweisen.
In dieser Ausführungsform wird eine Erhöhung/Verringerung in den Unterbändern bzw. ein Wechsel des Bitzuweisungsorgans Datenblock um Datenblock in Übereinstimmung mit einer minimalen Einheit ausgeführt, die zu einem Audiosignal dekodiert werden kann, wodurch die Kodiermenge in Echtzeit gesteuert wird.
Nachstehend wird der Arbeitsfluss der Audiokodierungsvorrichtung der ersten Ausführungsform unter Bezugnahme auf 7 beschrieben. Zu Beginn wird der in 7(a) gezeigte Aufbau verwendet. Um die auf jeden der Kodierer entfallende Verarbeitungslast zu erkennen, werden während einer vorbestimmten Zeitdauer in jedem Mode jedes Kodierers (entsprechend der Änderung der Bandbreite der Unterbänder, an die eine Bitzuweisung erfolgen soll) Scheindaten kodiert, wodurch eine CPU-Lastüberwachungseinheit 700 in jedem Mode einen CPU-Lastwert in einer Datentabelle 701 speichert.
Wenn eine Stichprobe (Daten) eingegeben wird, wird in dem in 7(b) gezeigten Schritt S70 eine Unterbandanalyse der Stichprobedaten ausgeführt, und die Stichprobedaten werden in 32 Frequenzkomponenten unterteilt. Dann werden im Schritt S71 die Skalierfaktoren der betreffenden Unterbänder berechnet.
Sodann wird im Schritt S72 entschieden, ob eine CPU-Last erkannt worden ist oder nicht. Da die Arbeit eben erst beginnt, wird keine CPU-Last erkannt, daher wird zu Schritt S74 weitergegangen, wo eine normale Gruppierung erfolgt, so dass die höchste Audioqualität reproduziert wird. Dann wird im Schritt S75 der Bitzuweisungsprozess des psychoakustischen Modells ausgeführt. Im Schritt S76 wird ein Quantisier- und Kodierprozess ausgeführt. Schliesslich wird im Schritt S79 der Bistrom erzeugt, womit eine Verarbeitungsreihe abgeschlossen ist. Beim Abschluss dieser Verarbeitung wird die für die Kodierung einer vorbestimmten Anzahl von Stichproben erforderliche Zeit an die CPU-Lastüberwachungseinheit 700 gepostet, wodurch eine laufende CPU-Last erkannt wird.
In einer nachfolgenden Verarbeitung wird daher im Schritt S72 entschieden, dass die CPU-Last erkannt worden ist. Wenn im Schritt S73 entschieden worden ist, dass die erkannte CPU-Lasts nicht in Echtzeit kodiert werden kann, wird im Schritt S77 unter Bezugnahme auf die Datentabelle 701 ein optimaler Mode (eine optimale Gruppierung) ausgewählt.
Dann werden der Schritt S78 (adaptiver Bandausgangs-Bitzuweisungsprozess) und der Schritt S75 (Bitzuweisungsprozess des psychoakustischen Modells) mit einer vorbestimmten Geschwindigkeit ausgeführt. Im Schritt S76 wird dann der Quantisier- und Kodierprozess ausgeführt. Schliesslich werden im Schritt S79 die erhaltenen kodierten Daten zu einem Bitstrom geformt.
Während in der ersten Ausführungsform das Organ 113 für die Berechnung zuweisbarer Bits die Anzahl von Bits berechnet, die dem Bitzuweisungsorgan für jede Gruppe zugewiesen werden sollen, wobei die Skalierfaktorindexwerte und das Verhältnis von Low Band zu High Band berücksichtigt werden, können die Skalierfaktorindexwerte durch Spektrumsignalniveaus der betreffenden Gruppen aus dem FFT-Organ 104 oder durch die minimalen Hörgrenzwerte ersetzt werden, die für die betreffenden Unterbänder vorgegeben werden.
Ausserdem kann, während der Kodierer 101 das CPU-Lastüberwachungsorgan 700 enthält, um die Verarbeitungsmenge der CPU zu überwachen und die Verarbeitungsmenge des Kodierers 101 so zu steuern, dass der Kodierer 101 innerhalb des Verarbeitungsvermögens der CPU arbeitet, diese Information auch aus durch einen Benutzer von aussen eingegebenen Steuerdaten bestehen. Die Benutzereingaben ermöglichen einen Kodierprozess, der zu einer Audioqualität und zu einer Bildqualität in Übereinstimmung mit der Vorliebe des Benutzers führt.
Des Weiteren werden als Bitzuweisungsorgane des Kodierers 101 auf einer fixen Basis in der ersten Ausführungsform das Bitzuweisungsorgan 110 des psychoakustischen Modells, das eine Bitzuweisung an das Low Band ausführt, für das menschliche Ohren hoch empfindlich sind, mit einem höheren Wirkungsgrad, aber das adaptive Bandausgangs-Bitzuweisungsorgan 109, das eine Bitzuweisung an das High Band ausführt, für das menschliche Ohren weniger empfindlich sind, mit einer geringeren, auf die CPU gelegten Belastung eingesetzt. Wenn auf der Basis des Signals vom Skalierfaktorberechnungsorgan 103 entschieden wird, dass die Niveaus der Unterbandsignale in jeder Gruppe unterhalb von vorgegebenen Schwellen für die betreffenden Unterbänder liegen, d.h. weniger signifikante kodierte Daten im Low Band als im High Band vorhanden sind, wie in 8 gezeigt, dann braucht das Bitzuweisungsorgan nicht auf einer fixen Basis in Übereinstimmung mit den betreffenden Bändern verwendet zu werden. Stattdessen kann das Bitzuweisungsorgan des psychoakustischen Modells 110 für das High Band verwendet werden.
Ausserdem kann statt eines Vergleichs zwischen den Niveaus der Unterbandsignale in jeder Grupper und den Schwellen auf der Basis des Signals vom Skalierfaktorberechnungsorgan 103, wie in 9 gezeigt, ein Signal vom FFT-Organ 104, das ein höhere Frequenz als das Signal vom Skalierfaktorberechnungsorgan 103 hat, in das Bitzuweisungsprozess-Steuerorgan 112 eingegeben werden, so dass ein Vergleich zwischen den Niveaus der Unterbandsignale in jeder Gruppe und den vorgegebenen Schwellen angestellt werden kann.
Ausführungsform 2
Ein Datenspeichermedium gemäss einer zweiten Ausführungsform der vorliegenden Erfindung wird beschrieben.
Wenn ein Kodierprogramm für die Realisierung des Aufbaus der Audiokodierungsvorrichtung oder des Kodierungsverfahrens der ersten Ausführungsform in einem Datenspeichermedium wie einer Diskette gespeichert ist, kann die in der ersten Ausführungsform beschriebene Verarbeitung leicht in einem unabhängigen Computersystem implementiert werden.
10(a) und 10(b) sind Diagramme, die den Fall erklären, wo der Kodierprozess der ersten Ausführungsform unter Verwendung einer Diskette, die das Bildkodierprogramm enthält, auf einem Computersystem ausgeführt wird.
10(a) zeigt eine Vorderansicht der Diskette FD (floppy disk), ihre Querschnittsansicht sowie einen Diskettenkörper D. 10(b) zeigt ein Beispiel des physischen Formats des Diskettenkörpers D.
Die Diskette FD hat die Konfiguration, in der ein Diskettenhalter FC den Diskettenkörper D enthält. Auf der Oberfläche des Diskettenkörpers D sind konzentrisch vom äusseren zum inneren Umfang eine Mehrzahl von Spuren Tr (tracks) ausgebildet. Jede Spur ist im Winkel in 16 Sektoren (Se) unterteilt. Daher sind auf der Diskette FD mit dem oben erwähnten Programm die Programmdaten in den zugewiesenen Sektoren des Diskettenkörpers D gespeichert.
10(c) veranschaulicht den Aufbau für die Speicherung des Programms in der Diskette FD und für die Bildverarbeitung unter Verwendung des in der Diskette FD gespeicherten Programms.
Konkret werden, wenn das Programm in der Diskette FD gespeichert wird, die Daten des Programms aus dem Computersystem Cs über das Diskettenlaufwerk FDD (floppy disk drive) in die Diskette FD geschrieben. Wenn die oben beschriebene Audiokodierungsvorrichtung im Computersystem Cs durch das in der Diskette FD aufgezeichnete Programm aufgebaut wird, wird das Programm durch das Diskettenlaufwerk FDD von der Diskette FD gelesen und in das Computersystem Cs geladen.
Während in der obigen Beschreibung die Diskette als Datenspeichermedium verwendet wird, kann eine optische Diskette eingesetzt werden, um wie die Diskette einen Audiokodierprozess durch Software auszuführen. Des Weiteren ist das Datenspeichermedium nicht auf Diskette und optische Diskette beschränkt. Jedes Medium kann eingesetzt werden, solange es das Programm aufnehmen kann, zum Beispiel eine IC-Karte, eine ROM-Kassette usw. Auch in diesen Fällen kann der Audiokodierprozess durch Software in der gleichen Weise wie bei Verwendung einer Diskette ausgeführt werden.
Ausführungsform 3
Ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung gemäss einer dritten Ausführungsform der vorliegenden Erfindung werden unter Bezugnahme auf Figuren beschrieben. Als Aufbau für das in 2 gezeigte High-Band-Kodierorgan 24 wird zum Beispiel der in 3 gezeigte Aufbau eingesetzt. Als Aufbau für das Low-Band-Kodierorgan 23 wird ein Kodierschema eingesetzt, bei dem unter Ausnutzung, der Tatsache, dass die Bandleistung wie in dem in 11 gezeigten Fall ungleichförmig verteilt ist, ein Kodierprozess für jedes Unterband ausgeführt wird, obwohl eine Bitzuweisung an jedes Unterbandsignal unter ausschliesslicher Verwendung des vorbestimmten psychoakustischen Analyseorgans nicht erfolgt. Stattdessen ist, wie in 12 gezeigt, eine vereinfachte psychoakustische Modelleinheit 4062 vorgesehen, um eine geringere Verarbeitungsmenge zu bewältigen, wobei ein Bitzuweisungsprozess in Übereinstimmung mit Bitzuweisungsdaten erfolgt, die auf der Basis einer Maskierschwelle für einen vorangehenden Datenblock, der von der psychoakustischen Einheit 4601 ausgegeben wird, sowie von Unterbandsignalen eines laufenden Datenblocks erzeugt werden.
12 ist ein Blockdiagramm, das die detaillierte Struktur des in 2 gezeigten Low-Band-Kodierorgans zeigt. In 12 bezeichnet die Bezugszahl 401 einen Kodierer, der ein Unterbandanalyseorgan 402, ein Skalierfaktorberechnungsorgan 403, ein Bitzuweisungsprozess-Steuerorgan 404, ein FFT-Prozessorgan 405, ein psychoakustisches Analyseorgan 406, ein Bitzuweisungsorgan 407 des psychoakustischen Modells, ein Quantisier- und Kodierorgan 408, ein Hilfsdatenkodierorgan 409 und ein Bitstromerzeugungsorgan 410 umfasst.
Im Folgenden wird die Funktion beschrieben.
Das Unterbandanalyseorgan 402 unterteilt ein digitales Audio-Eingangssignal in 32 Frequenzkomponenten. Das Skalierfaktorberechnungsorgan 403 berechnet Skalierfaktoren für die betreffenden Unterbandsignale und macht die betreffenden dynamischen Unterbandbereiche gleichförmig. Das FFT-Prozessorgan 405 unterwirft das digitale Audio-Eingangssignal einem FFT-Prozess. Das psychoakustische Analyseorgan 406 besteht aus einer normalen psychoakustischen Modelleinheit 4061, die gemäss MPEG-Norm spezifiziert ist, sowie der vereinfachten psychoakustischen Modelleinheit 4062, die weniger Verarbeitung als die normale psychoakustische Modelleinheit 4061 ausführt, wobei beide das SMR berechnen.
Die normale psychoakustische Modelleinheit 4061 berechnet das SMR jedes Unterbandsignals nach dem folgenden Ausdruck (3), während die vereinfachte psychoakustische Modelleinheit 4062 das minimale Maskierniveau jedes Unterbands im laufenden Datenblock nicht berechnet, sondern das SMR auf der Basis des minimalen Maskierniveaus des vorangehenden (jüngsten) Datenblocks, das durch die normale psychoakustische Modelleinheit berechnet worden war, sowie einen Schalldruck auf der Basis eines Skalierfaktorwertes des laufenden Datenblocks, der vom Skalierfaktorberechnungsorgan 403 berechnet wurde, berechnet. SMRUB(n) = LUB(n) – LTmin(n) db (3)wo L_UB(n) ein Schalldruck jedes Unterbandes ist, während LT_min(n) das minimale Maskierniveau jedes Unterbandes ist. SMRUB(n) = LUB(n) – LTmin(n) db (4)wo LUB(n) = 20 log (scfmax(n)·32768 – 10) db,scf_max(n) ist ein Skalierfaktorwert jedes Unterbandes im laufenden Datenblock und
LT_min ist das durch die normale psychoakustische Modelleinheit 4061 berechnete, jüngste minimale Maskierniveau jedes Unterbandes.
Das Bitzuweisungsprozess-Steuerorgan 404 steuert in Übereinstimmung mit den Verarbeitungsmengesteuerdaten 121 und unter der Annahme, dass „N" = 3, wie in 13 gezeigt, die Verarbeitung in der vereinfachten psychoakustischen Modelleinheit 4062, die eine Niedriglastverarbeitung realisiert, sowie die Verarbeitung in der normalen psychoakustischen Modelleineit 405, die optimale Bitzuweisungsdaten ausgibt, mit denen Audio höherer Qualität realisiert wird, d.h., sie entscheidet über das Nutzungsverhältnis dieser Einheiten bezüglich der Datenblöcke und steuert ferner den FFT-Prozess des FFT-Prozessorgans 405, d.h: sie entscheidet, ob der FFT-Prozess durch das FFT-Prozessorgan 405 ausgeführt werden sollte oder nicht.
Zum Beispiel wird in dem in 13 gezeigten Beispiel der Wert von „N" erhöht, wenn Verarbeitungsmenge-Steuerdaten 121, die das Verhältnis des Kodierprozesses zur CPU-Verarbeitung herabsetzen, zum Bitzuweisungsprozess-Steuerorgan 404 gepostet werden, um die Nutzung der vereinfachten psychoakustischen Modelleinheit 4062, die weniger Verarbeitung leistet, zu steigern. Wenn umgekehrt Daten, die das Verhältnis des Kodierprozesses zur CPU-Verarbeitung erhöhen, zum Bitzuweisungsprozess-Steuerorgan 404 gepostet werden, wird der Wert von „N" herabgesetzt, um die Nutzung der normalen psychoakustischen Modelleinheit 4061 zu steigern, die Audio hoher Qualität realisiert. So kann die Verarbeitungsmenge gesteuert werden.
Das Bitzuweisungsorgan 407 des psychoakustischen Modells weist jedem der durch das Unterbandanalyseorgan 402 unterteilten Unterbandsignale Bits in Übereinstimmung mit der Beziehung des MSR als Daten vom psychoakustischen Analyseorgan 406 zu. Das Quantisier- und Kodierorgan 408 quantisiert und kodiert die betreffenden Unterbandsignale. Das Bitstromerzeugungsorgan 410 erzeugt den Bitstrom von den gewonnenen quantisierten bzw. kodierten Signalen und den Hilfsdaten vom Hilfsdatenkodierorgan 409.
So kann gemäss der dritten Ausführungsform die in Richtung der Zeitachse auf die CPU gelegte Last verringert werden, da die Bitzuweisung alle N Datenblöcke erfolgt. Während in dieser Ausführungsform das in 2 gezeigte Low-Band-Kodierorgan als der Kodierer 401 verwendet wird, kann der Kodierer 401 alle Unterbandsignale ebenso wie die Low-Band-Signale kodieren.
Ausführungsform 4
Ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung werden unter Bezugnahme auf Figuren beschrieben. Wie die in 11 gezeigte Kodierungsvorrichtung verwendet eine in 14 gezeigte Kodierungsvorrichtung das Kodierschema, bei dem der Kodierprozess für jedes Unterband unter Berücksichtigung der Tatsache ausgeführt wird, dass die Bandleistung ungleichförmig verteilt ist, während der Unterschied zwischen ihnen darin besteht, dass die in 14 gezeigte Vorrichtung die Fähigkeit besitzt, externe Daten, die keine Audiodaten sind, zu einem auszugebenden Bitstrom hinzuzufügen. Bilddaten oder Textdaten können als externe Daten verwendet werden.
Auf 14 Bezug nehmend, umfasst ein Kodierer 501 ein Unterbandanalyseorgan 502, ein Skalierfaktorberechnungsorgan 503, ein FFT-Prozessorgan 504, ein psychoakustisches Analyseorgan 505, ein Bitzuweisungsorgan 506, ein Quantisier- und Kodierorgan 507, ein Hilfsdatenkodierorgan 508, ein Bitstromerzeugungsorgan 509, ein Bitzuweisungsprozess-Steuerorgan 510 sowie ein Organ 511 zur Kodierung von hinzuzufügenden Daten.
Die Funktion wird beschrieben.
Das Unterbandanalyseorgan 502 unterteilt ein digitales Audio-Eingangssignal in 32 Frequenzkomponenten. Das Skalierfaktorberechnungsorgan 503 berechnet Skalierfaktoren der betreffenden Unterbänder und macht die betreffenden dynamischen Unterbandbereiche gleichförmig. Das FFT-Prozessorgan 504 unterwirft das digitale Audio-Eingangssignal dem FFT-Prozess. Das psychoakustische Analyseorgan 505 berechnet auf der Basis des psychoakustischen Modells, das in Übereinstimmung mit der MPEG-Norm vorgegeben wird, das SMR.
Das Bitzuweisungsprozess-Steuerorgan 510 überwacht einen Puffer 512 für die vorübergehende Speicherung von Daten, die dem auszugebenden Datenstrom hinzugefügt werden sollen, und gibt in Übereinstimmung mit den Zuweisungsbereichssteuerdaten 513, die je nach der Entscheidung, ob hinzuzufügende Daten im Puffer 512 vorhanden sind oder nicht, oder der Entscheidung, ob hinzuzufügende Daten in den Puffer 512 überfliessen oder nicht, durch das Bitzuweisungsorgan 506 einen Bereich der Bitzuweisung vor.
Wenn zum Beispiel keine Daten im Puffer 512 vorhanden sind, wie in 15 gezeigt, werden Bits den Unterbändern 0 bis 29 zugewiesen. In diesem Falle werden von 100 an alle Unterbänder zuzuweisenden Bits 80 Bits den Unterbändern 0 bis 15 und 20 Bits den Unterbändern 16 bis 29 zugewiesen.
Daten werden von aussen in den Puffer 512 geschrieben, und wenn entschieden wird, dass hinzuzufügende Daten im Speicher 512 vorhanden sind, werden dadurch die Zuweisungsbereichssteuerdaten 513 für das Einfügen von hinzuzufügenden Daten zum Bitzuweisungsprozess-Steuerorgan 510 gepostet. In Übereinstimmung mit den Daten 513 werden in dieser vierten Ausführungsform 80 Bits den Unterbändern 0 bis 15 zugewiesen, aber den Unterbändern 16 bis 29, denen ursprünglich Bits zugewiesen werden sollten, werden keine Bits zugewiesen, und die übrigen 20 Bits werden den hinzuzufügenden Daten zugewiesen. Für auf das Unterband 15 folgende Unterbänder brauchen der FFT-Prozess und der psychoakustische Analyseprozess nicht ausgeführt zu werden, um die Verarbeitungsmenge zu verringern.
Danach quantisiert und kodiert das Quantisier- und Kodierorgan 507 Unterbänder, denen Bits zugewiesen worden sind, und dann erzeugt das Bitstromerzeugungsorgan 509 auf der Basis der quantisierten und kodierten Unterbandsignale und der vom Hilfsdatenkodierorgan 508 kommenden Hilfsdaten, zum Beispiel der MPEG-Norm entsprechenden Hilfsdaten, einen Bitstrom und sendet ihn aus.
So wird in Übereinstimmung mit der vierten Ausfhrungsform und der hinzuzufügenden Menge von Daten, die keine Audiodaten sind, der Bereich der Bitzuweisung im Kodierprozess gesteuert und die Menge von zu kodierenden Audiodaten wird variabel gemacht, wodurch die hinzuzufügenden Daten in den kodierten Datenstrom eingefügt werden, wenn mit einer gegebenen Bitrate gesendet wird. Im Ergebnis wird durch Verwendung verschiedener Daten für die überzähligen Unterbänder eine wirksame Verwendung eines Bandes realisiert.
Der Bereich der durch das Bitzuweisungsprozess-Steuerorgan 510 ausgeführten Bitzuweisung wird Datenblock um Datenblock ausgeführt und je nach der Datenmenge im Puffer 512 variabel gemacht.
Diese Verarbeitung ermöglicht eine Steuerung der in Echtzeit einzufügenden Datenmenge ohne Verlust an Audioqualität innerhalb des Bereichs der Bitzuweisung, wenn hinzuzufügende Daten eingefügt werden.
Ausführungsform 5
Ein Audiokodierungsverfahren und eine Audiokodierungsvorrichtung gemäss einer fünften Ausführungsform der vorliegenden Erfindung werden unter Bezugnahme auf Figuren beschrieben. 16 ist ein Blockdiagramm, das die Struktur eines Kodierers der Audiokodierungsvorrichtung zeigt, die das Audiokodierungsverfahren der fünften Ausführungsform verwendet. In der Figur bezeichnen die gleichen Bezugszahlen wie die in 2 gezeigten die gleichen oder entsprechende Teile. Bezugszahlen 160 bis 162 bezeichnen Kodierorgane A bis C, die unabhängig betrieben werden können, 163 bezeichnet einen Verarbeitungslastwert-Speicherpuffer zur Speicherung von Verarbeitungslastwertdaten der betreffenden Kodierorgane A bis C, und Bezugszahl 164 bezeichnet einen Stichprobedatenpuffer für die Versorgung der betreffenden Kodierorgane A bis C mit Stichprobedaten.
Die Funktion wird beschrieben. Vor dem Kodierprozess werden bei der Initialisierung vorbestimmte, im Stichprobedatenspeicher 164 gespeicherte Stichprobedaten an die betreffenden Kodierorgane A bis C geliefert, und die sich ergebenden Verarbeitungslastwerte der Kodierorgane A bis C bzw. die psychoakustischen Modelle werden im Puffer 163 gespeichert.
Die Verarbeitungslastwerte werden in aufsteigender oder absteigender Ordnung ausgegeben, wodurch Kodierorgane, die der Leistung der in der Vorrichtung verwendeten CPU angepasst sind, rasch ausgewählt werden, so dass der Kodierprozess mit dem gewählten Kodierorgan ausgeführt wird.
Der Kodierprozess wird ebenso wie in der ersten Ausführungsform ausgeführt und daher nicht erörtert.
In Übereinstimmung mit der fünften Ausführungsform arbeiten daher bei der dem Kodierprozess vorangehenden Initialisierung die betreffenden Kodierorgane in Übereinstimmung mit den Stichprobedaten, wodurch die Lastwerte zu diesem Zeitpunkt gewonnen werden, und in Übereinstimmung mit den Lastwerten wird das dem Verarbeitungsvermögen der CPU angepasste Kodierorgan ausgewählt. Dadurch wird ein optimaler Kodierprozess ausgeführt.
Während in jedem der obigen Ausführungsformen die Audiokodierungsvorrichtung durch Verwendung des PC implementiert worden ist, können eine VTR-Kamera, ein DVD-Kodierer und dergleichen, die eingebaute Geräte sind, eingesetzt werden.
Ausserdem können, während in jeder der obigen Ausführungsformen nur Audio bewältigt wurde, in der folgenden Weise sowohl Audio als auch Video verarbeitet werden. Auf 17 Bezug nehmend, sind das Low-Band-Kodierorgan 23 und das High-Band-Kodierorgan 24 in dem in 2 gezeigten Aufbau durch ein Videokodierorgan 170 und ein Audiokodierorgan 171 ersetzt worden, die ein Videosignal bzw. ein Audiosignal empfangen, und das Bitstromerzeugungsorgan 25 in dem in 2 gezeigten Aufbau ist durch das Systemstromverarbeitungsorgan 172 ersetzt worden. Mit diesem Aufbau wird die Arbeitsmenge des Audiokodierprozesses verändert, oder es erfolgt in Übereinstimmung mit von aussen eingegebenen Steuerdaten und durch die in den obigen Ausführungsformen beschriebenen Verfahren ein Umschalten zwischen einer Mehrzahl von Kodierschemata mit verschiedenen Arbeitsmengen, wodurch die Gesamtarbeitsmenge der CPU gesteuert werden kann. Des Weiteren kann je nach der Menge der zu kodierenden Audiosignale die Menge der zu kodierenden Videosignale verändert werden.
Ausserdem werden, wenn Kodierschemata in Übereinstimmung mit der MPEG2-Norm fur die Zeit-Frequenz-Transformation, AAC, Dolby AC-3 oder ATRAC (MD) anstatt des Unterband-Kodierschemas gemäss MPEG1 verwendet werden, wie in 18 gezeigt, die betreffenden Organe für den Kodierprozess durch erste und zweite Quantisierdatenberechnungsorgane 181 und 182 mit unterschiedlichen Arbeitsmengen ersetzt, wobei eines dieser Organe durch das Organ zur Steuerung des Quantisierorgans 180 ausgewählt und zur Verarbeitung von Quantisierdaten, nicht aber zur Datenkodierung verwendet wird.

Claims

Audiokodierungsvorrichtung (101), die ein eingegebenes digitales Audiosignal auf eine Mehrzahl von Frequenz-Unterbändern aufteilt und einen Kodierungsprozess für jedes Unterband ausführt, umfassend: ein Bitzuweisungsorgan mit mehreren Typen von Rechenprozessen (109, 110), in dem verschiedene Rechenlasten und Algorithmen als Prozesse zur Berechnung der Anzahl von Bits verwendet werden, die den betreffenden unterteilten Unterbändern zugewiesen werden; ein Auswahlorgan (112), um für jedes Unterband in Übereinstimmung mit externen Steuerdaten (121) aus den mehreren Typen von Rechenprozessen einen Rechenprozess auszuwählen, der durch das Bitzuweisungsorgan ausgeführt werden soll, wobei die externen Steuerdaten ein Lastwert sind, der eine Verarbeitungsmenge einer Zentraleinheit anzeigt, die durch den Kodierungsprozess beansprucht werden kann; und ein Kodierungsorgan (106), um innerhalb eines Bereichs der Anzahl von Bits, die den betreffenden Unterbändern nach Berechnung durch das Bitzuweisungsorgan zugewiesen worden sind, die Quantisierung und Kodierung für jedes Unterband auszuführen.
Audiokodierungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass das digitale Audiosignal eine Mehrzahl von Audio-Datenübertragungsblöcken in Richtung der Zeitachse enthält; und das Auswahlorgan die Rechenprozesse für jeden Audio-Datenübertragungsblock auswählt.
Audiokodierungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass das Auswahlorgan die Rechenprozesse für Unterbänder, die zu einer Hochfrequenz-Unterbandgruppe gehören, und für Unterbänder, die zu einer Niederfrequenz-Unterbandgruppe gehören, auswählt.
Audiokodierungsvorrichtung nach Anspruch 1, weiter umfassend: ein Analyseorgan, um auf der Basis der Eigenschaften, die durch Fourier-Transformation des digitalen Audiosignals gewonnen werden, und auf der Basis der Hörcharak teristik dynamisch ein Beziehungsmodell des digitalen Audiosignal-Maske-Verhältnisses zu berechnen; und dadurch gekennzeichnet, dass zumindest einer der Rechenprozesse des Bitzuweisungsorgans ein Rechenprozess ist, um auf der Basis des dynamisch berechneten Beziehungsmodells die Anzahl von Bits zu berechnen, die jedem Unterband zugewiesen werden.
Audiokodierungsvorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass das dynamisch berechnete Beziehungsmodell nach der Berechnung statisch in dieser Vorrichtung gespeichert wird und zumindest einer der Rechenprozesse des Bitzuweisungsorgans ein Rechenprozess ist, um die Anzahl von Bits zu berechnen, die auf der Basis des zurückbehaltenen statischen Beziehungsmodells jedem Unterband zugewiesen werden.
Audiokodierungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass zumindest einer der Rechenprozesse des Bitzuweisungsorgans ein Rechenprozess ist, um die Anzahl von Bits zu berechnen, die auf der Basis eines Signalniveaus jedes Unterbandes und des zurückbehaltenen statischen Beziehungsmodells jedem Unterband zugewiesen werden.
Audiokodierungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass das digitale Audiosignal eine Mehrzahl von Audio-Datenübertragungsblöcken in Richtung der Zeitachse enthält; und das Auswahlorgan mit einem im Voraus festgelegten Zyklus von Audio-Datenübertragungsblöcken zwischen einem Rechenprozess, der auf dem dynamischen Beziehungsmodell beruht, und einem Rechenprozess, der auf dem statischen Beziehungsmodell beruht, wählt.
Audiokodierungsmethode, in der ein eingegebenes digitales Audiosignal auf eine Mehrzahl von Frequenz-Unterbändern aufgeteilt und ein Kodierungsprozess für jedes Unterband ausgeführt wird, umfassend: einen Bitzuweisungsschritt mit mehreren Typen von Rechenprozessen, die verschiedene Rechenlasten und Algorithmen als Prozesse zur Berechnung der Anzahl von Bits besitzen, die den betreffenden unterteilten Unterbändern zugewiesen werden; einen Auswahlschritt, um in Übereinstimmung mit externen Steuerdaten aus den mehreren Typen von Rechenprozessen einen Rechenprozess auszuwählen, der während des Bitzuweisungsschrittes ausgeführt werden soll, wobei ein Lastwert, der eine Verarbeitungsmenge einer Zentraleinheit anzeigt, die durch den Kodierungsprozess beansprucht werden kann, als externe Steuerdaten verwendet wird; und einen Kodierungsschritt, um innerhalb eines Bereichs der Anzahl von Bits, die den betreffenden Unterbändern nach Berechnung durch den Bitzuweisungsschritt zugewiesen worden sind, die Quantisierung und Kodierung für jedes Unterband auszuführen.
Audiokodierungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass als Lastwert Steuerdaten der Verarbeitungsmenge vom Überwachungsorgan zur Überwachung der Verarbeitungsmenge der Zentraleinheit dienen, die durch den Kodierungsprozess beansprucht werden kann.
Audiokodierungsmethode nach Anspruch 8, dadurch gekennzeichnet, dass Steuerdaten der Verarbeitungsmenge vom Überwachungsorgan zur Überwachung der Verarbeitungsmenge der Zentraleinheit, die durch den Kodierungsprozess beansprucht werden kann, als der Lastwert verwendet werden.