WO2003094153A1 - Method and device for handling speech information - Google Patents

Method and device for handling speech information Download PDF

Info

Publication number
WO2003094153A1
WO2003094153A1 PCT/EP2002/004738 EP0204738W WO03094153A1 WO 2003094153 A1 WO2003094153 A1 WO 2003094153A1 EP 0204738 W EP0204738 W EP 0204738W WO 03094153 A1 WO03094153 A1 WO 03094153A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
search
voice
information
patterns
Prior art date
Application number
PCT/EP2002/004738
Other languages
German (de)
French (fr)
Inventor
Joseph Wallers
Original Assignee
Digital Design Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Design Gmbh filed Critical Digital Design Gmbh
Priority to AU2002319158A priority Critical patent/AU2002319158A1/en
Priority to PCT/EP2002/004738 priority patent/WO2003094153A1/en
Priority to CN02828981.1A priority patent/CN1628338A/en
Priority to EP03090131A priority patent/EP1359566A1/en
Publication of WO2003094153A1 publication Critical patent/WO2003094153A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Definitions

  • the invention relates to a method and a device for handling voice information for realizing a language-based database such as storage and / or playback and / or transmission, the means for input and / or storage and / or acoustic playback and / or for the transmission of voice - and have data information on other devices for storage and / or playback there and contain means for searching for one or more language segments in the stored voice information.
  • a language-based database such as storage and / or playback and / or transmission
  • the published patent application DE 33 33 958 AI describes a device for storing voice information, which contains a controllable generator, by means of which digital identification signal words are generated by means of a keyboard. These are recorded with or separately from the speech information and are used in later searches to find the information sought.
  • US Pat. No. 5,602,963 describes an electronic personal organizer which can record and play back voice memos. The organizer also has a function that enables the user, after recording a voice memo, to mark it by entering one or more spoken words for later retrieval.
  • This procedure has the disadvantage that for each note, if a classification is desired, the user must explicitly classify it after recording the note.
  • the amount of words that can be searched for must be determined beforehand. These words must be spoken beforehand in a training phase.
  • the speech signals in the organizer are processed by different processing functions, depending on whether the speech is to be recorded or compared with a predefined vocabulary.
  • US Pat. No. 6,041,300 describes a method and a device according to which, in order to improve the choice of language, the language is to be mapped into a sequence of "Lefern n n", which are compared with previously stored "Lefeme sequences".
  • the recognized word is synthesized and output for confirmation by the user from the sequence of "learn n n" stored in the database.
  • the first step is to set up an additional (waveform) database with information about the “lefeme” display.
  • the object of the invention is to develop a generic method and a generic device with which the disadvantages of the prior art are avoided and with which a language-based database is provided and with which a recording and search / playback of voice information without manual Labeling and classification and can be guaranteed without the specification of a vocabulary.
  • the method is characterized in that spoken words and / or coherent sentences are recorded digitally as speech signals of the note in a memory, with an analysis of the speech signals and their direct representation in the time and / or frequency range taking place, which are in a partial scope of at least one Word for searching is spoken again and compared and evaluated in a device with the recordings, from which a distance value between the speech patterns is determined and notes containing one or more words with short distance values to one or more searched keywords are output acoustically.
  • the user Compared to speech recognition systems, the user has a greater tolerance for errors in the classification.
  • the speaker dependency is not disadvantageous in the search, but is a pleasant side effect with regard to. of confidentiality.
  • the device for carrying out the method is characterized in that a telecommunications terminal such as a cell phone / telephone with a memory card such as FlashROM and / or a data processing device such as a PC, a server equipped with special additional software are used.
  • a telecommunications terminal such as a cell phone / telephone with a memory card such as FlashROM and / or a data processing device such as a PC, a server equipped with special additional software are used.
  • notes are in the form of individual, spoken key words, e.g. Terms, names, numbers, or related sentences are recorded. Keywords that the user is particularly interested in finding can be spoken several times within a note. In a preferred embodiment, the keywords are spoken at the beginning of the note and repeated again at the end of the note.
  • the recording can be done both in the device (device), e.g. on a memory card built into a cell phone, as well as by voice / data transmission on a remote device, e.g. a server or a PC.
  • the user speaks the searched keywords, names, etc.
  • the spoken speech patterns are compared with the stored speech information and evaluated for their similarity, or a distance value between the two speech patterns is determined.
  • the notes, which words with the greatest similarity (smallest distance value) included, are then reproduced acoustically. If there are several locations, the playback can take place in the order of the recording (eg last recordings first) or according to the similarity of the searched speech pattern and stored speech information.
  • Search commands can contain one or more keywords. If there are several keywords, you can search for notes that contain one or more or all of the keywords.
  • the notes which contain the highest number of keywords searched are reproduced first.
  • the notes are searched in reverse order of their recording: the last spoken first.
  • the speech signals are recorded in compressed form.
  • a number of methods of speech compression are known in practice, e.g. the Recommendations G.723 or G.729 of the ITU (International Telecommunication Union) or the Recomendation GSM 06.10 from ETSI. These processes work in several stages. After pretreatment by filters, there is a division into segments and a signal analysis, e.g. using LPC (Linear Predictive Coding). The segments determined (speech / speech pause, voiced / unvoiced) and the calculated parameters (e.g. energy content, the
  • Autocorrelation coefficients, the LPC coefficients, the LSP line spectral pair coefficients and parameters of further processing levels are also suitable for comparing speech patterns.
  • the decomposition of the language with these methods and the compressed saving reduce the required Storage space compared to uncompressed storage. At the same time, the later pattern comparison is accelerated.
  • Another embodiment of the invention stores not only the compressed speech information but also uncompressed signals.
  • the purpose of this procedure is to be able to use better algorithms at a later point in time.
  • the recorded voice information may be required over a longer period (decades). With most speech compressions, detailed information is inevitably lost. Since both the performance of the information processing devices and the quality of the algorithms for pattern matching are likely to continue to develop, the original signals should be retained for later use. The expected further continuous capacity increase (with simultaneous price drop) of the storage media makes this option affordable for the user.
  • the uncompressed signals can also be stored on another memory, an offline memory.
  • the method also allows hidden searches. If a voice memo was found during a search process, in which the comparison of the voice pattern of the search command and voice pattern of the voice memo exceeds a predetermined threshold of similarity, this is reproduced. The search continues in the background during playback. This partially hides the user from searching.
  • a hidden search is carried out during the recording. Keywords that were spoken at the beginning of the recording are searched while speaking and recording the rest of the note. If appropriate speech patterns are found in the notes already stored, the speech pattern found is reproduced acoustically at the end of the recording. The user can then decide whether it is identical to what they are looking for. The user's response is recorded, e.g. B.
  • the speech patterns of the keywords contained in the search commands, the pointers to the speech notes found, the calculated distance values and the reaction of the user are also stored.
  • the user makes a rating after playing back a note: GOOD, FALSE.
  • This reaction is saved together with the pointers to the played note.
  • the current speech pattern of the search command is compared with the speech pattern from previous searches. If the patterns match or if they are very similar, the stored previous reaction of the user is checked and, if positive, the voice note to which the pointer of the recording of the previous search command points is output. The subsequent reaction of the user is saved again with the pointer to the output voice memo.
  • the evaluations are carried out in finer stages: e.g. VERY WRONG, VERY GOOD.
  • a GANZ-FALSCH rating then prevents the corresponding note from being reproduced in a later search.
  • a FALSE rating will reset the note in the order of the candidates found, e.g. by increasing its distance value by multiplying it by a factor greater than one. Accordingly, a VERY GOOD rating in a later search will prefer the note found, provided that its distance value is below a predetermined threshold, in the order in which it is output.
  • a pointer to the record of the previous search command is also added to the pointer on the note, saved with the user's rating to record the current search command.
  • the device searches for the keywords contained in the search command. If it finds the searched keywords in an earlier search command or in a note, and if the previous search command or the voice memo contains further keywords, the device asks by acoustic reproduction of these keywords whether the search process should be expanded to include these keywords.
  • the additional language patterns with the most frequent occurrence are reproduced first.
  • the user can then expand the list of the speech patterns to be searched for by these patterns, which have patterns ignored, or exclude voice memos which contain this speech pattern from the reproduction.
  • this function allows you to successively limit the number of voice memos found, on the other hand, you can find related recordings.
  • the device can create a list with keywords and pointers to voice memos in which these keywords occur.
  • the list belonging to a keyword can contain one or more pointers. If there are several pointers per keyword, the list can contain the distance value for each pointer between the keyword (language pattern) ' in the index list and the keyword (language pattern) in the referenced note.
  • the user can be provided with a special function with which he can dictate key points for each note. Alternatively, all words that are spoken individually can be automatically added to the index list (with a clear pause at the beginning and end of the word).
  • the compilation of this list requires computing power. Therefore, it is preferred to compile it if the device is connected to an external power supply, eg while charging the battery.
  • the list can also be created in another device (e.g. server).
  • An example of this is image data from a digital camera integrated in the device, which are stored together with voice memos.
  • the search is carried out by comparing the speech pattern contained in the search command and the stored speech signals.
  • the found notes are played back together with the other saved data.
  • Text data or images are e.g. output on a screen; Melodies, music, links can also be output on websites and e-mails, for example.
  • images are stored in a digital camera together with the speech patterns of key words and / or annotations for these images.
  • the pictures can later be found by speaking key words and searching for the corresponding speech patterns in the speech data recorded with the pictures and output, for example, on a display or printer.
  • Another example of storing other data is the recording of telephone calls or parts thereof, with or without additional comments and the telephone numbers. You can search for keywords, together with phone numbers, and, using the associative function described above, for the speech pattern of the person you are talking to, for example, the language pattern of his or her name when reporting at the beginning of the call.
  • time restrictions in the search can of course also be used to restrict the search space.
  • the input and output device (cell phone) is connected to a remote storage and computing device by means of a voice or data transmission device
  • the following additional functional sequences result: entering offline, searching offline, separate memories with different storage volumes , Need for encryption.
  • search offline if the search is to take place on the remote device, there is no need for a permanent connection between the two devices. It is sufficient if the search command with the speech patterns, for example by IP packet, is transmitted to the remote device and the result is also transmitted by IP packet or callback.
  • voice recordings on different devices at the same time.
  • the user will typically carry an input and output device in the form of a cell phone.
  • voice recordings up to a total of a few hours can be stored there in a flash memory card.
  • This memory can e.g. contain the last recordings (enter offline) and the current as well as frequently used notes.
  • the recordings in the cell phone are periodically transferred to the remote device, see 'Enter offline'. Searching can be done on the local device in the local recordings or on the remote device.
  • the remote device can be a large server provided by a provider, similar to voice mail services.
  • encrypted transmission and storage on the provider's server is particularly important.
  • Methods for encrypting voice and data are known.
  • the data should never be unencrypted on the server or on the transmission link.
  • the search is carried out exclusively in the cell phone using the index lists or by searching the keywords and pointers of previous, stored search commands.
  • the server is only used to save the notes.
  • the index list or the recording of the previous search commands can partly be on the server.
  • the index list is structured hierarchically, the List of previous search commands is broken down by time.
  • FIG. 1 shows the schematic representation of a possible communication configuration.
  • buttons are triggered by pressing buttons. These can also be soft keys. It is also possible according to the invention to give the commands by voice commands.
  • the user presses the RECORD button on a cell phone 10 and speaks his note into the cell phone 10. At the end he presses the STOP button. The language is input via a microphone of the mobile phone 10.
  • the analog voice signals are digitized in an analog-digital converter and sent to a DSP 11. There the signals are passed through a pre-filter
  • the signal values in the segments are weighted using a Hamming window function.
  • the autocorrelation function of the signal values in the individual segments is then calculated.
  • the LPC coefficients are calculated from this.
  • For the purpose of compression and storage these coefficients and the speech signals are further processed in accordance with the specifications of the compression standard used.
  • the LPC coefficients or transformed representations eg cepstrum coefficients, PARCOR coefficients
  • a date and time stamp is also saved.
  • the recording can also take place by means of a voice / data transmission 13 on a remote device, here a computer 14 or a server 15.
  • the device 10 searches for corresponding notes and acoustically reproduces the first voice information found.
  • the processing of the speech signals is carried out analogously to that described in the 'recording'.
  • the speech patterns are also saved.
  • the LPC parameters or transformed representations, for example ceptrum coefficients, are then fed to the pattern recognition.
  • the parameters are combined into vectors for pattern recognition.
  • the individual keywords are combined into groups of vectors. Then they are compared with the stored voice information.
  • the adaptation The different speech speed of the patterns is done using the method known as 'dynamic programming'.
  • the distance value (score) for the most similar saved pattern is determined in each note.
  • the first note found which contains patterns whose distance values are below a predefined threshold value, is output and searched further.
  • all records are searched first, the notes are sorted according to their distance values and those with the smallest distance values are output first.
  • the NEXT button is pressed, the note with the next lower rating is displayed. Before a note is played back, the pointer to this note is added to record the search command. Ratings that the user enters after hearing the note are also added to record the pointer.
  • Speech recognition systems are designed for other tasks. Their purpose is to convert a dictated input into written form as error-free as possible.
  • spoken language is mapped onto a predetermined, generally expandable set of words or functions.
  • the algorithms are structured accordingly. The mapping takes place in several steps. The last steps in particular differed from the procedure according to this invention. They use statistical models (mostly hidden Markov models) with information about the frequency of transitions between speech segments (speech sounds or phonemes). These are partly created by a training phase that is annoying for the user before the first use. The training phase is omitted in the method according to the invention the first use.
  • the vocabulary (keywords) is also not defined a priori, but results dynamically and automatically when recording and searching. Another difference: in the speech recognition system, there is a 'correct' illustration for each spoken word, namely that which the user intended. In the device according to the invention, a keyword can have several correct "hits".
  • FIG. 1 shows a cell phone 10 with a DSP 11 and a memory card 12.
  • the memory card 12 can contain the voice memos and / or the index file.
  • This constellation has a disadvantage: with most of the small memory cards in use today, e.g. MultiMediaCard, Memory Stick, the data is transferred to the host system via a serial bus. These serial buses have such a small bandwidth that the search process, provided the search program is running in the cell phone 10 or in the DSP 11, and the data is on the memory card 12, is considerably slowed down.
  • special cards are used which, in addition to the memory for the index files and / or the voice memos, contain a search processor on the card. Only the search commands with the associated language patterns or the results in the form of pointers to the found note (s) or voice data of the found notes are transmitted via the interface to the card. If the memory card 12 contains only the index files, the voice memos can be on a server 15 or PC 14. After the search process in the card, the found notes are then retrieved from the server 15 / PC 14.
  • the architecture presented has another advantage: access protection.
  • the memory card 12 can be protected against unauthorized access by means of a password or other authentication mechanisms (for example biometric methods). If the notes and, if available, the index files in the Card storage, there is good protection against unauthorized access. If only the index files are saved on the card, the notes can be stored encrypted on a server / PC. The notes found are first transferred to the card before being output, decrypted there and forwarded to the cell phone 10 for playback. When recording voice memos, the transfer takes place in reverse: the voice data is transferred from the mobile phone 10 to the memory card 12, where, if available, the index files are expanded, the voice data of the note is stored and / or encrypted and then forwarded to the server 15 / PC 14. The bandwidth of the serial interfaces is sufficient for the transmission of voice data in encrypted and unencrypted form in real time.

Abstract

The invention relates to a method and a corresponding device for implementing a speech-based database and for storing and/or reproducing and/or transmitting speech information. Said method uses means for entering and/or storing and/or acoustically reproducing speech and data information and/or transmitting said information to other devices, where it is stored and/or reproduced, in addition to means for searching for one or more speech segments in the stored speech information. The aim of the invention is to develop a method and a device of this type, which overcomes the disadvantages of prior art and guarantees that speech information can be recorded, searched and reproduced without manual identification and classification and without the specification of a vocabulary. To achieve this, spoken words and/or coherent phrases (memoranda) are digitally recorded as speech signals in a memory, are spoken again in the partial form of at least one word for search purposes and are compared with the recordings in a device and evaluated. A distance value between the two speech patterns is determined and the memorandum with the lowest distance value is output acoustically.

Description

Verfahren und Vorrichtung zur Behandlung von SprachinformationenMethod and device for handling speech information
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Behandlung von Sprachinformationen zur Realisierung einer auf Sprache basierenden Datenbank wie Abspeicherung und/oder Wiedergabe und/oder Übertragung, die Mittel zur Eingabe und/oder Abspeicherung und/oder akustischen Wiedergabe und/oder zur Übertragung von Sprach- und Dateninformationen zu anderen Vorrichtungen zur dortigen Abspeicherung und/oder Wiedergabe aufweisen sowie Mittel zum Suchen nach einem oder mehreren Sprachsegmenten in den abgespeicherten Sprachinformationen enthalten.The invention relates to a method and a device for handling voice information for realizing a language-based database such as storage and / or playback and / or transmission, the means for input and / or storage and / or acoustic playback and / or for the transmission of voice - and have data information on other devices for storage and / or playback there and contain means for searching for one or more language segments in the stored voice information.
Es sind bereits Verfahren und Vorrichtungen bekannt, mit denen es möglich ist, Sprachinformationen abzuspeichern, wobei die abgespeicherten Sprachinformationen mit Digital- Kennzeichnungssignalworten versehen werden, um das Auffinden bestimmter Sprachinformationen zur Wiedergabe oder zur Übertragung zu erleichtern.Methods and devices with which it is possible to store voice information are already known, the stored voice information being provided with digital identification signal words in order to make it easier to find certain voice information for playback or transmission.
In der Offenlegungsschrift DE 33 33 958 AI ist eine Vorrichtung zum Abspeichern von Sprachinformationen beschrieben, die einen steuerbaren Generator enthält, durch welchen mittels Tastatur Digital-Kennungssignalworte erzeugt werden. Diese werden mit oder getrennt von den Sprachinformationen aufgezeichnet und beim späteren Suchen zum Auffinden der gesuchten Information verwendet.The published patent application DE 33 33 958 AI describes a device for storing voice information, which contains a controllable generator, by means of which digital identification signal words are generated by means of a keyboard. These are recorded with or separately from the speech information and are used in later searches to find the information sought.
Nachteilig ist es, dass der Benutzer die Sprachinformationen klassifizieren muss, um einen Suchvorgang nach bestimmten Sprachinformationen starten zu können. In der US 5,602,963 wird ein elektronischer Personal Organizer beschrieben, welcher Sprachnotizen aufzeichnen und wiedergeben kann. Der Organizer weist auch eine Funktion auf, welche es dem Benutzer ermöglicht, nach dem Aufzeichnen einer Sprachnotiz, diese durch Eingabe eines oder mehrerer gesprochener Worte zum späteren Wiederauffinden zu markieren.It is disadvantageous that the user has to classify the speech information in order to be able to start a search process for certain speech information. US Pat. No. 5,602,963 describes an electronic personal organizer which can record and play back voice memos. The organizer also has a function that enables the user, after recording a voice memo, to mark it by entering one or more spoken words for later retrieval.
Diese Vorgehensweise hat den Nachteil, dass für jede Notiz, sofern eine Klassifikation erwünscht ist, die Klassifikation vom Benutzer explizit nach dem Aufzeichnen der Notiz vorgenommen werden muss. Die Menge der Worte, nach denen gesucht werden kann, muss vorher festgelegt werden. Diese Worte müssen vorher in einer Trainingsphase vorgesprochen werden. Die Verarbeitung der Sprachsignale im Organizer erfolgt durch unterschiedliche Verarbeitungsfunktionen, je nachdem, ob die Sprache aufgezeichnet oder mit vorgezeichnetem Wortschatz verglichen werden soll.This procedure has the disadvantage that for each note, if a classification is desired, the user must explicitly classify it after recording the note. The amount of words that can be searched for must be determined beforehand. These words must be spoken beforehand in a training phase. The speech signals in the organizer are processed by different processing functions, depending on whether the speech is to be recorded or compared with a predefined vocabulary.
In der US 4,829,576 wird zur Erhöhung der Wahrscheinlichkeit für die richtige Erkennung eines Wortes vorgeschlagen, aus dem vorgegebenen Wortschatz nur diejenigen Worte zum Vergleich heranzuziehen, welche in dem zu durchsuchenden Textteil enthalten sind. Dazu wird in einem gesonderten Schritt eine SEARCH-WORD-LIST gebildet.In US 4,829,576 to increase the probability of the correct recognition of a word it is proposed to use for comparison only those words from the given vocabulary which are contained in the text part to be searched. For this purpose, a SEARCH WORD LIST is created in a separate step.
In der US 6,041,300 werden ein Verfahren und eine Vorrichtung beschrieben, nach denen zur Verbesserung der Sprachwahl die Sprache in eine Folge von „Lefernenn" abzubilden ist, die mit zuvor abgespeicherten „Lefeme-Folgen" verglichen werden. Das erkannte Wort wird zur Bestätigung durch den Benutzer aus der in der Datenbank abgespeicherten Folge von „Lefernenn" synthetisiert und ausgegeben. Nachteilig ist dabei insbesondere, dass als erster Schritt der Aufbau einer zusätzlichen (waveform) Datenbank mit Informationen über die „Lefeme"-Darstellung notwendig ist.US Pat. No. 6,041,300 describes a method and a device according to which, in order to improve the choice of language, the language is to be mapped into a sequence of "Lefern n n", which are compared with previously stored "Lefeme sequences". The recognized word is synthesized and output for confirmation by the user from the sequence of "learn n n" stored in the database. It is particularly disadvantageous that the first step is to set up an additional (waveform) database with information about the “lefeme” display.
Aufgabe der Erfindung ist es, ein gattungsgemäßes Verfahren und eine gattungsgemäße Vorrichtung zu entwickeln, mit denen die Nachteile des Standes der Technik vermieden werden, und mit denen eine auf Sprache gestützte Datenbank bereitgestellt wird und mit denen ein Aufzeichnen und Suchen/Wiedergeben von Sprachinformationen ohne manuelle Kennzeichnung und Klassifizierung und ohne die Vorgabe eines Wortschatzes gewährleistet werden.The object of the invention is to develop a generic method and a generic device with which the disadvantages of the prior art are avoided and with which a language-based database is provided and with which a recording and search / playback of voice information without manual Labeling and classification and can be guaranteed without the specification of a vocabulary.
Erfindungsgemäß wird diese Aufgabe durch die Merkmale der Ansprüche 1 und 22 gelöst.According to the invention, this object is achieved by the features of claims 1 and 22.
Das Verfahren ist dadurch gekennzeichnet, dass gesprochene Worte und/oder zusammenhängende Sätze als Sprachsignale der Notiz in einem Speicher digital aufgezeichnet werden, wobei eine Analyse der Sprachsignale und ihre direkte Darstellung im Zeit- und/oder Frequenzbereich erfolgen, die in einem Teilumfang von mindestens einem Wort zum Suchen erneut gesprochen und in einer Vorrichtung mit den Aufzeichnungen verglichen und bewertet werden, woraus ein Abstandswert zwischen den Sprachmustern ermittelt wird und Notizen, welche eines oder mehrere Worte mit geringen Abstandswerten zu einem oder mehreren gesuchten Stichworten enthalten, akustisch ausgegeben werden.The method is characterized in that spoken words and / or coherent sentences are recorded digitally as speech signals of the note in a memory, with an analysis of the speech signals and their direct representation in the time and / or frequency range taking place, which are in a partial scope of at least one Word for searching is spoken again and compared and evaluated in a device with the recordings, from which a distance value between the speech patterns is determined and notes containing one or more words with short distance values to one or more searched keywords are output acoustically.
Im Vergleich zu Spracherkennungssystemen hat der Benutzer eine größere Toleranz gegenüber Fehlern beim Klassifizieren. Die Sprecherabhängigkeit ist bei der Suche nicht nachteilig, sondern , ein angenehmer Nebeneffekt hinsichtlich. der Vertraulichkeit . Es erfolgt keine explizite Zuordnung der Sprachnotizen zu bestimmten Worten durch den Benutzer, der Wortschatz muss nicht explizit vorgegeben werden. Es wird keine Trainingsphase benötigt .Compared to speech recognition systems, the user has a greater tolerance for errors in the classification. The speaker dependency is not disadvantageous in the search, but is a pleasant side effect with regard to. of confidentiality. There is no explicit assignment of the voice memos to certain words by the user, the vocabulary does not have to be specified explicitly. No training phase is required.
Die Vorrichtung zur Durchführung des Verfahrens ist dadurch gekennzeichnet, dass ein Telekommunikationsendgerät wie ein Handy/Telefon mit einer Speicherkarte wie FlashROM und/oder eine Datenverarbeitungseinrichtung wie ein PC, ein Server mit einer speziellen Zusatzsoftware ausgestattet verwendet werden.The device for carrying out the method is characterized in that a telecommunications terminal such as a cell phone / telephone with a memory card such as FlashROM and / or a data processing device such as a PC, a server equipped with special additional software are used.
Die Grundfunktionen des Verfahrens und der Vorrichtung gemäss dieser Erfindung können durch zwei Vorgänge beschrieben werden: Aufzeichnen und Suchen/Wiedergeben.The basic functions of the method and the device according to this invention can be described by two processes: recording and searching / reproducing.
Beim Aufzeichnen werden Notizen in Form von einzelnen, gesprochenen Stichworten, z.B. Begriffe, Namen, Nummern, oder zusammenhängenden Sätzen aufgezeichnet. Stichworte, an deren sicherem Wiederfinden dem Benutzer besonders gelegen ist, kann er mehrfach innerhalb einer Notiz sprechen. In einer bevorzugten Ausführung werden die Stichworte am Anfang der Notiz gesprochen und am Ende der Notiz nochmals wiederholt. Die Aufzeichnung kann sowohl in der Vorrichtung (Gerät), z.B. auf einer in einem Handy eingebauten Speicherkarte, als auch mittels Sprach/Datenübertragung auf einem entfernten Gerät, z.B. einem Server oder einem PC, erfolgen.When recording, notes are in the form of individual, spoken key words, e.g. Terms, names, numbers, or related sentences are recorded. Keywords that the user is particularly interested in finding can be spoken several times within a note. In a preferred embodiment, the keywords are spoken at the beginning of the note and repeated again at the end of the note. The recording can be done both in the device (device), e.g. on a memory card built into a cell phone, as well as by voice / data transmission on a remote device, e.g. a server or a PC.
Zum Suchen spricht der Benutzer die gesuchten Stichworte, Namen, usw. vor. In der Vorrichtung (z.B. Handy) oder in dem anderen, entfernten Gerät (Server oder PC) werden die vorgesprochenen Sprachmuster mit den abgespeicherten Sprachinformationen verglichen und hinsichtlich ihrer Ähnlichkeit bewertet bzw. es wird ein Abstandswert zwischen den beiden Sprachmustern ermittelt. Die Notizen, welche Worte mit der größten Ähnlichkeit (geringstem Abstandswert) enthalten, werden dann akustisch wiedergegeben. Bei mehreren Fundstellen kann die Wiedergabe in der Reihenfolge der Aufzeichnung (z.B. letzte Aufzeichnungen zuerst) oder nach der Ähnlichkeit von gesuchtem Sprachmuster und gespeicherten Sprachinformationen erfolgen. Suchbefehle können ein oder mehrere Stichworte enthalten. Bei mehreren Stichworten kann die Suche nach Notizen, welche eines der Stichworte, mehrere oder alle enthalten, erfolgen.To search, the user speaks the searched keywords, names, etc. In the device (eg cell phone) or in the other, remote device (server or PC), the spoken speech patterns are compared with the stored speech information and evaluated for their similarity, or a distance value between the two speech patterns is determined. The notes, which words with the greatest similarity (smallest distance value) included, are then reproduced acoustically. If there are several locations, the playback can take place in the order of the recording (eg last recordings first) or according to the similarity of the searched speech pattern and stored speech information. Search commands can contain one or more keywords. If there are several keywords, you can search for notes that contain one or more or all of the keywords.
In einer bevorzugten Ausführung werden die Notizen zuerst wiedergegeben, welche die höchste Anzahl der gesuchten Stichworte enthalten. In einer weiteren bevorzugten Ausführungsform werden die Notizen in umgekehrter Reihenfolge ihrer Aufzeichnung durchsucht: die zuletzt gesprochenen zuerst .In a preferred embodiment, the notes which contain the highest number of keywords searched are reproduced first. In a further preferred embodiment, the notes are searched in reverse order of their recording: the last spoken first.
In einer bevorzugten Ausführung der Erfindung werden die Sprachsignale komprimiert aufgezeichnet.In a preferred embodiment of the invention, the speech signals are recorded in compressed form.
In der Praxis sind eine Reihe von Verfahren zur Sprachkompression bekannt, z.B. die Recommendations G.723 oder G.729 der ITU (International Telecommunication Union) oder die Recomendation GSM 06.10 von ETSI . Diese Verfahren arbeiten mehr-stufig. Nach einer Vorbehandlung durch Filter folgt eine Unterteilung in Segmente und eine Signalanalyse, z.B. mittels LPC (Linear Predictive Coding) . Die dabei bestimmten Segmente (Sprache/Sprachpause, stimmhaft/stimmlos) und die berechneten Parameter (z.B. Energiegehalt, dieA number of methods of speech compression are known in practice, e.g. the Recommendations G.723 or G.729 of the ITU (International Telecommunication Union) or the Recomendation GSM 06.10 from ETSI. These processes work in several stages. After pretreatment by filters, there is a division into segments and a signal analysis, e.g. using LPC (Linear Predictive Coding). The segments determined (speech / speech pause, voiced / unvoiced) and the calculated parameters (e.g. energy content, the
Autokorrelationskoeffizienten, die LPC Koeffizienten, die LSP Line Spectral Pair Koeffizienten und Parameter weiterer Verarbeitungsstufen) eignen sich auch zum Vergleich von Sprachmustern. Die Zerlegung der Sprache mit diesen Verfahren und das komprimierte Abspeichern reduzieren den benötigten Speicherplatz gegenüber der unkomprimierten Abspeicherung. Gleichzeitig wird der spätere Mustervergleich beschleunigt .Autocorrelation coefficients, the LPC coefficients, the LSP line spectral pair coefficients and parameters of further processing levels) are also suitable for comparing speech patterns. The decomposition of the language with these methods and the compressed saving reduce the required Storage space compared to uncompressed storage. At the same time, the later pattern comparison is accelerated.
Eine weitere Ausführung der Erfindung speichert neben der komprimierten Sprachinformation auch unkomprimierte Signale.Another embodiment of the invention stores not only the compressed speech information but also uncompressed signals.
Zweck dieser Vorgehensweise ist, zu einem späteren Zeitpunkt bessere Algorithmen einsetzen zu können. Die aufgezeichneten Sprachinformationen können über einen längeren Zeitraum (Jahrzehnte) benötigt werden. Bei den meisten Sprachkompressionen gehen unweigerlich Detailinformationen verloren. Da sich sowohl die Leistungsfähigkeit der Informationsverarbeitungsgeräte als auch die Qualität der Algorithmen zum Mustervergleich ständig weiterentwickeln dürften, sollen die Originalsignale zur späteren Verwendung aufbewahrt werden. Der zu erwartende weitere kontinuierliche Kapazitätszuwachs (bei gleichzeitigem Preisverfall) der Speichermedien macht diese Option für den Benutzer erschwinglich.The purpose of this procedure is to be able to use better algorithms at a later point in time. The recorded voice information may be required over a longer period (decades). With most speech compressions, detailed information is inevitably lost. Since both the performance of the information processing devices and the quality of the algorithms for pattern matching are likely to continue to develop, the original signals should be retained for later use. The expected further continuous capacity increase (with simultaneous price drop) of the storage media makes this option affordable for the user.
Ebenso ist es erfindungsgemäß möglich, beim Eingeben anzugeben, welcher Teil der Sprachinformationen auch unkomprimiert gespeichert wird. Die unkomprimierten Signale können auch auf einem anderen Speicher, einem Offline- Speicher, abgelegt werden.It is also possible according to the invention to specify when entering which part of the speech information is also stored uncompressed. The uncompressed signals can also be stored on another memory, an offline memory.
Das Verfahren erlaubt es ferner, verdeckt zu suchen. Wenn bei einem Suchvorgang eine Sprachnotiz gefunden wurde, bei welcher der Vergleich der Sprachmuster des Suchbefehls und Sprachmustern der Sprachnotiz eine vorgegebene Schwelle von Ähnlichkeit überschreitet, wird diese wiedergegeben. Während der Wiedergabe wird die Suche im Hintergrund weitergeführt . Der Zeitaufwand zum Suchen wird hierdurch dem Benutzer teilweise verdeckt. In einer bevorzugten Ausführung wird während des Aufzeichnens verdeckt gesucht. Stichworte, welche am Anfang der Aufzeichnung gesprochen wurden, werden während des Sprechens und Aufzeichnen des Restes der Notiz gesucht. Werden in den bereits abgespeicherten Notizen entsprechende Sprachmuster gefunden, so wird am Ende der Aufzeichnung das gefundene Sprachmuster akustisch wiedergegeben. Der Benutzer kann dann entscheiden, ob es identisch zu dem gesuchten ist. Die Reaktion des Benutzers wird aufgezeichnet, z. B. indem ein Zeiger auf das gefundene Sprachmuster zu dem neu aufgezeichneten Stichwort gespeichert wird. Damit wird eine Liste von Sprachmustern identischer Worte aufgebaut. Diese wird bei späteren Suchvorgängen zur Verbesserung der Trefferrate und Erhöhung der Suchgeschwindigkeit verwendet. Auch bei Nichtübereinstimmung kann ein Zeiger mit einer entsprechenden Kennzeichnung abgespeichert werden. Dieses Vorgehen verhindert, dass bei späteren Suchvorgängen die beiden Sprachmuster nochmals als identisch angenommen werden. Der Suchvorgang nach bereits abgespeicherten, identischen Stichworten kann, in einer weiteren Ausführung dieser Erfindung, länger dauern, als das Sprechen der neuen Notiz.The method also allows hidden searches. If a voice memo was found during a search process, in which the comparison of the voice pattern of the search command and voice pattern of the voice memo exceeds a predetermined threshold of similarity, this is reproduced. The search continues in the background during playback. This partially hides the user from searching. In a preferred embodiment, a hidden search is carried out during the recording. Keywords that were spoken at the beginning of the recording are searched while speaking and recording the rest of the note. If appropriate speech patterns are found in the notes already stored, the speech pattern found is reproduced acoustically at the end of the recording. The user can then decide whether it is identical to what they are looking for. The user's response is recorded, e.g. B. by storing a pointer to the speech pattern found for the newly recorded keyword. This creates a list of speech patterns of identical words. This is used in later searches to improve the hit rate and increase the search speed. Even if there is a mismatch, a pointer can be saved with the appropriate identification. This procedure prevents the two language patterns from being assumed to be identical again in later searches. In a further embodiment of this invention, the search process for identical keywords which have already been stored may take longer than speaking the new note.
In einer weiteren Ausführung werden auch die Sprachmuster der in den Suchbefehlen enthaltenen Stichworte, die Zeiger auf die gefundenen Sprachnotizen, die berechneten Abstandswerte und die Reaktion des Benutzers gespeichert. In dieser Ausführung wird davon ausgegangen, dass der Benutzer nach der Wiedergabe einer Notiz eine Wertung vornimmt: GUT, FALSCH. Diese Reaktion wird zusammen mit den Zeigern auf die wiedergegebene Notiz abgespeichert . Bei einem neuen Suchbefehl werden die aktuellen Sprachmuster des Suchbefehls mit den Sprachmustern von früherer Suchvorgängen verglichen. Bei Übereinstimmung der Muster bzw. großer Ähnlichkeit, wird die gespeicherte frühere Reaktion des Benutzers geprüft und sofern positiv, die Sprachnotiz, auf welche der Zeiger der Aufzeichnung des früheren Suchbefehls zeigt, ausgegeben. Die anschließende Reaktion des Benutzers wird wieder mit dem Zeiger zur ausgegebenen Sprachnotiz gespeichert. Diese Vorgehensweise hat einige Vorteile :In a further embodiment, the speech patterns of the keywords contained in the search commands, the pointers to the speech notes found, the calculated distance values and the reaction of the user are also stored. In this version, it is assumed that the user makes a rating after playing back a note: GOOD, FALSE. This reaction is saved together with the pointers to the played note. With a new search command, the current speech pattern of the search command is compared with the speech pattern from previous searches. If the patterns match or if they are very similar, the stored previous reaction of the user is checked and, if positive, the voice note to which the pointer of the recording of the previous search command points is output. The subsequent reaction of the user is saved again with the pointer to the output voice memo. This procedure has several advantages:
• sie verkürzt das Suchen,• it shortens the search,
• die Treffsicherheit erhöht sich kontinuierlich,• the marksmanship increases continuously,
• allmähliche Veränderungen in der . Aussprache oder der Stimme des Benutzers werden kompensiert• gradual changes in the. Pronunciation or the user's voice are compensated
• die gespeicherten Sprachmuster und Wertungen von Entscheidungen können zur Optimierung der Verfahren benutzt werden.• The saved speech patterns and evaluations of decisions can be used to optimize the procedures.
Das Durchsuchen der Originalnotizen ist weiterhin möglich.It is still possible to search the original notes.
Ferner ist es erfindungsgemäß möglich, nach dem indirekten Suchen mittels Zeiger eines vorherigen Suchbefehls, die Sprachmuster des neuen Suchbefehls mit den Sprachmustern der aufgezeigten Notiz zu vergleichen, und das Ergebnis zur Bestimmung des Abstandswertes zu verwenden.Furthermore, according to the invention it is possible, after the indirect search by means of a pointer of a previous search command, to compare the speech pattern of the new search command with the speech pattern of the note shown, and to use the result to determine the distance value.
Ebenso ist es erfindungsgemäß möglich, dass die Wertungen feinstufiger erfolgen: z.B. GANZ FALSCH, SEHR-GUT.It is also possible, according to the invention, that the evaluations are carried out in finer stages: e.g. VERY WRONG, VERY GOOD.
Eine GANZ-FALSCH-Wertung unterbindet dann auf jeden Fall eine Wiedergabe der entsprechenden Notiz bei einem späteren Suchvorgang. Eine FALSCH-Wertung stellt die Notiz in der Reihenfolge der gefundenen Kandidaten zurück, z.B. indem dessen Abstandswert durch Multiplikation mit einem Faktor größer eins vergrößert wird. Entsprechend wird eine SEHR-GUT- Bewertung bei einer späteren Suche die gefundene Notiz, sofern deren Abstandswert unter einer vorgegebenen Schwelle liegt, in der Reihenfolge der Ausgabe bevorzugen.A GANZ-FALSCH rating then prevents the corresponding note from being reproduced in a later search. A FALSE rating will reset the note in the order of the candidates found, e.g. by increasing its distance value by multiplying it by a factor greater than one. Accordingly, a VERY GOOD rating in a later search will prefer the note found, provided that its distance value is below a predetermined threshold, in the order in which it is output.
In einer weiteren Ausführung wird auch ein Zeiger auf die Aufzeichnung des früheren Suchbefehls, zusätzlich zum Zeiger auf die Notiz, mit der Wertung des Benutzers zur Aufzeichnung des aktuellen Suchbefehls abgespeichert.In another embodiment, a pointer to the record of the previous search command is also added to the pointer on the note, saved with the user's rating to record the current search command.
Eine zusätzliche Verfeinerung der Suchfunktion erweitert die Suchfunktionalität: Assoziationen. Das Gerät sucht nach den im Suchbefehl enthalten Stichworten. Findet es die gesuchten Stichworte in einem früheren Suchbefehl oder in einer Notiz, und enthält der frühere Suchbefehl oder die Sprachnotiz weitere Stichworte, fragt das Gerät durch akustische Wiedergabe dieser Stichworte, ob der Suchvorgang um diese Stichworte erweitert werden soll .An additional refinement of the search function extends the search functionality: associations. The device searches for the keywords contained in the search command. If it finds the searched keywords in an earlier search command or in a note, and if the previous search command or the voice memo contains further keywords, the device asks by acoustic reproduction of these keywords whether the search process should be expanded to include these keywords.
In einer weiteren Verfeinerung werden nur solche Stichworte abgefragt, welche bei mehreren gefundenen Suchbefehlen oder Notizen mehrfach vorkommen.In a further refinement, only those keywords are queried which occur several times when several search commands or notes are found.
In der bevorzugten Ausführung werden die zusätzlichen Sprachmuster mit dem häufigsten Vorkommen zuerst wiedergegeben.In the preferred embodiment, the additional language patterns with the most frequent occurrence are reproduced first.
Der Benutzer kann dann die Liste der zu suchenden Sprachmuster um diese Muster erweitern, die Muster ignorieren lassen, oder Sprachnotizen, welche dieses Sprachmuster enthalten, von der Wiedergabe ausschließen. Diese Funktion erlaubt es zum Einen, die Menge der gefundenen Sprachnotizen sukzessive einzugrenzen, zum Anderen, themenverwandte Aufzeichnungen zu finden.The user can then expand the list of the speech patterns to be searched for by these patterns, which have patterns ignored, or exclude voice memos which contain this speech pattern from the reproduction. On the one hand, this function allows you to successively limit the number of voice memos found, on the other hand, you can find related recordings.
Zur Beschleunigung des Suchens in umfangreicheren Aufzeichnungen kann das Gerät eine Liste mit Stichworten und Zeigern auf Sprachnotizen, in welchen diese Stichworte vorkommen, anlegen. Die zu einem Stichwort gehörende Liste, kann einen oder mehrere Zeiger enthalten. Bei mehreren Zeigern pro Stichwort, kann die Liste zu jedem Zeiger den Abstandswert zwischen dem Stichwort (Sprachmuster)' in der Index-Liste und dem Stichwort (Sprachmuster) in der referenzierten Notiz enthalten. Dem Benutzer kann eine Sonderfunktion zur Verfügung gestellt werden, mit welcher er zu jeder Notiz Stichpunkte diktieren kann. Alternativ können automatisch alle Worte welche einzeln gesprochen werden, (mit deutlicher Pause am Wortanfang und -ende) in die Indexliste aufgenommen werden. Die Erstellung dieser Liste erfordert Rechenleistung.. Deshalb wird sie bevorzugt erstellt, wenn das Gerät an eine externe Stromversorgung angeschlossen ist, z.B. während dem Laden des Akkus. Die Liste kann auch in einem anderen Gerät (z.B. Server) erstellt werden.To speed up the search in more extensive recordings, the device can create a list with keywords and pointers to voice memos in which these keywords occur. The list belonging to a keyword can contain one or more pointers. If there are several pointers per keyword, the list can contain the distance value for each pointer between the keyword (language pattern) ' in the index list and the keyword (language pattern) in the referenced note. The user can be provided with a special function with which he can dictate key points for each note. Alternatively, all words that are spoken individually can be automatically added to the index list (with a clear pause at the beginning and end of the word). The compilation of this list requires computing power. Therefore, it is preferred to compile it if the device is connected to an external power supply, eg while charging the battery. The list can also be created in another device (e.g. server).
Darüber hinaus können zusammen mit den Sprachinformationen andere Daten gespeichert werden.In addition, other data can be stored together with the voice information.
Ein Beispiel hierfür sind Bilddaten von einer im Gerät integrierten digitalen Kamera, welche zusammen mit Sprachnotizen gespeichert werden. In dieser Ausführung erfolgt die Suche, wie bereits dargelegt, mittels Vergleich der im Suchbefehl enthaltenen Sprachmuster und den abgespeicherten Sprachsignalen. Die gefundenen Notizen werden zusammen mit den anderen gespeicherten Daten wiedergegeben. Textdaten oder Bilder werden z.B. auf einem Bildschirm ausgegeben; auch Melodien, Musik, Links können zum Beispiel auf Web-Seiten und E-mails ausgegeben werden.An example of this is image data from a digital camera integrated in the device, which are stored together with voice memos. In this embodiment, as already explained, the search is carried out by comparing the speech pattern contained in the search command and the stored speech signals. The found notes are played back together with the other saved data. Text data or images are e.g. output on a screen; Melodies, music, links can also be output on websites and e-mails, for example.
In einer Ausführung dieser Erfindung werden in einer digitalen Kamera Bilder zusammen mit den Sprachmustern von Stichworten und/oder von Anmerkungen (Notizen) zu diesen Bildern gespeichert . Die Bilder können später durch Sprechen von Stichworten und Suche nach den entsprechenden Sprachmustern in den mit den Bildern aufgezeichneten Sprachdaten wiedergefunden und z.B. auf einem Display oder Drucker ausgegeben werden. Ein weiteres Beispiel für das Abspeichern anderer Daten ist die Aufzeichnung von Telefonaten oder Teilen davon, mit oder ohne zusätzlichen Kommentaren und den Telefonnummern. Gesucht werden kann nach Stichworten, zusammen mit Telfonnummern, und mittels der oben beschriebenen Assoziativ-Funktion nach Sprachmustern des Gesprächspartners, z.B. nach dem Sprachmuster seiner Namensnennung beim Melden am Gesprächsanfang .In one embodiment of this invention, images are stored in a digital camera together with the speech patterns of key words and / or annotations for these images. The pictures can later be found by speaking key words and searching for the corresponding speech patterns in the speech data recorded with the pictures and output, for example, on a display or printer. Another example of storing other data is the recording of telephone calls or parts thereof, with or without additional comments and the telephone numbers. You can search for keywords, together with phone numbers, and, using the associative function described above, for the speech pattern of the person you are talking to, for example, the language pattern of his or her name when reporting at the beginning of the call.
Bei allen Suchvorgängen können natürlich auch zeitliche Einschränkungen bei der Suche (zwischen Datum und Datum, nach Tageszeit, nach Wochentag, Jahreszeit, usw.) zur Einschränkung des Suchraumes verwendet werden.In all searches, time restrictions in the search (between date and date, by time of day, by day of the week, season, etc.) can of course also be used to restrict the search space.
In einer Ausführung dieser Erfindung, bei der das Ein- und Ausgabegerät (Handy) mittels Sprach- oder Datenübertragungsvorrichtung an eine entfernte Speicher- und Rechenvorrichtung angeschlossen ist, ergeben sich die folgenden, zusätzlichen Funktionsabläufe: offline Eingeben, offline Suchen, getrennte Speicher mit unterschiedlichem Speicherumfang, Notwendigkeit von Verschlüsselung.In one embodiment of this invention, in which the input and output device (cell phone) is connected to a remote storage and computing device by means of a voice or data transmission device, the following additional functional sequences result: entering offline, searching offline, separate memories with different storage volumes , Need for encryption.
Offline Eingeben: zur Aufzeichnung neuer Sprachnotizen ist es nicht notwendig, dass eine Kommunikationsverbindung zu dem entfernten Gerät besteht. Die Informationen werden z.B. auf einer Flash-Speicherkarte komprimiert oder unkomprimiert zwischengespeichert. Es können mehrere Notizen gesammelt und zusammen übertragen werden. Die Übertragung kann zu Zeiten erfolgen, in denen günstigere Verbindungstarife gelten oder der Benutzer ohnehin in der Nähe des zweiten Gerätes ist, z.B. Überspielung im Büro auf Arbeits-PC.Enter offline: to record new voice memos, it is not necessary that there is a communication connection to the remote device. The information is e.g. cached or uncompressed on a flash memory card. Several notes can be collected and transferred together. The transmission can take place at times when cheaper connection rates apply or the user is already in the vicinity of the second device, e.g. Transfer in the office to a work PC.
Offline Suchen: wenn der Suchvorgang auf dem entfernten Gerät erfolgen soll, muss keine ständige Verbindung zwischen den beiden Geräten bestehen. Es genügt, wenn der Suchbefehl mit den Sprachmustern, z.B. per IP-Paket, an das entfernte Gerät übertragen wird und das Ergebnis ebenfalls per IP-Paket oder Rückruf übermittelt wird.Search offline: if the search is to take place on the remote device, there is no need for a permanent connection between the two devices. It is sufficient if the search command with the speech patterns, for example by IP packet, is transmitted to the remote device and the result is also transmitted by IP packet or callback.
Ebenso ist es erfindungsgemäß möglich, Sprachaufzeichnungen auf verschiedenen Geräten gleichzeitig zu speichern. Der Benutzer wird typischerweise ein Ein- und Ausgabegerät in Form eines Handy mit sich führen. Dort können in einer Flash- Speicherkarte, nach heutigem Stand der Speichertechnik und der Kompressionsalgorithmen, Sprachaufzeichnungen bis zu einer Gesamtzeit von einigen Stunden gespeichert werden. Dieser Speicher kann z.B. die letzten Aufzeichnungen (offline Eingeben) und die aktuell sowie die häufig benötigten Notizen beinhalten. Die Aufzeichnungen im Handy werden periodisch, siehe , offline Eingeben', auf das entfernte Gerät übertragen. Das Suchen kann auf dem lokalen Gerät in den lokalen Aufzeichnungen oder auf dem entfernten Gerät erfolgen.It is also possible according to the invention to save voice recordings on different devices at the same time. The user will typically carry an input and output device in the form of a cell phone. According to the current state of storage technology and compression algorithms, voice recordings up to a total of a few hours can be stored there in a flash memory card. This memory can e.g. contain the last recordings (enter offline) and the current as well as frequently used notes. The recordings in the cell phone are periodically transferred to the remote device, see 'Enter offline'. Searching can be done on the local device in the local recordings or on the remote device.
Das entfernte Gerät kann ein großer, von einem Provider, ähnlich wie bei Sprachboxdiensten, bereitgestellter Server sein. In dieser Ausführung ist eine verschlüsselte Übertragung und eine verschlüsselte Speicherung auf dem Server des Providers besonders wichtig. Verfahren zur Verschlüsselung von Sprache und Daten sind bekannt . Die Daten sollten zu keinem Zeitpunkt unverschlüsselt auf dem Server oder auf der Übertragungsstrecke vorliegen. Die Suche erfolgt ausschließlich im Handy anhand der Index-Listen oder mittels Durchsuchen der Stichworte und Zeiger von vorherigen, gespeicherten Suchbefehlen. Der Server dient nur zum Abspeichern der Notizen.The remote device can be a large server provided by a provider, similar to voice mail services. In this version, encrypted transmission and storage on the provider's server is particularly important. Methods for encrypting voice and data are known. The data should never be unencrypted on the server or on the transmission link. The search is carried out exclusively in the cell phone using the index lists or by searching the keywords and pointers of previous, stored search commands. The server is only used to save the notes.
In einer weiteren Ausführung kann die Index-Liste oder die Aufzeichnung der früheren Suchbefehle teilweise auf dem Server liegen. Die Indexliste ist dazu hierarchisch gegliedert, die Liste der früheren Suchbefehle ist zeitlich untergliedert.In a further embodiment, the index list or the recording of the previous search commands can partly be on the server. The index list is structured hierarchically, the List of previous search commands is broken down by time.
Listen mit älteren Suchbefehlen liegen auf dem Server. ZumLists with older search commands are on the server. To the
Durchsuchen werden die Listen bei Bedarf in das Handy übertragen.Search the lists are transferred to the cell phone if necessary.
Neben den dargelegten Such- und Klassifizierungsverfahren mittels Abstandswerten (Scores) und , Dynamischer Programmierung' können auch andere, dem Fachmann bekannte Verfahren, wie z. B. Markov Modelle oder ,Neuronale Netze' zur Realisierung dieser Erfindung verwendet werden.In addition to the described search and classification methods using distance values (scores) and "dynamic programming", other methods known to the person skilled in the art, such as B. Markov models or 'neural networks' can be used to implement this invention.
Nachfolgend wird die Erfindung in einem Ausführungsbeispiel näher erläutert. Die Fig. 1 zeigt die schematische Darstellung einer möglichen Kommunikationskonfiguration.The invention is explained in more detail below in an exemplary embodiment. 1 shows the schematic representation of a possible communication configuration.
In der folgenden Beschreibung werden die Befehle des Benutzers durch Betätigung von Tasten ausgelöst. Dies können auch Soft- Tasten sein. Es ist auch erfindungsgemäß möglich, die Befehle durch Sprachkommandos zu geben .In the following description, the user's commands are triggered by pressing buttons. These can also be soft keys. It is also possible according to the invention to give the commands by voice commands.
Aufzeichnen: Der Benutzer betätigt die RECORD-Taste eines Handys 10 und spricht seine Notiz in das Handy 10. Am Ende drückt er die STOP-Taste. Die Eingabe der Sprache erfolgt über ein Mikrofon des Handys 10. Die analogen Sprachsignale werden in einem Analog-Digital-Wandler digitalisiert und in einen DSP 11 geleitet. Dort werden die Signale durch einen VorfilterRecording: The user presses the RECORD button on a cell phone 10 and speaks his note into the cell phone 10. At the end he presses the STOP button. The language is input via a microphone of the mobile phone 10. The analog voice signals are digitized in an analog-digital converter and sent to a DSP 11. There the signals are passed through a pre-filter
(Hoch- und Tiefpass) geführt, anschließend in Segmente unterteilt (typischerweise 10 bis 20 ms Segmente) . Je nach verwendetem Kompressionsstandard überlappen sich die Segmente(High and low pass), then divided into segments (typically 10 to 20 ms segments). Depending on the compression standard used, the segments overlap
(z.B. um 10ms). Die Signalwerte in den Segmenten werden durch eine Hamming-Window-Funktion gewichtet . Danach erfolgt die Berechnung der Autokorrelationsfunktion der Signalwerte in den einzelnen Segmenten. Daraus werden die LPC-Koeffizienten berechnet. Zum Zwecke der Kompression und der Abspeicherung werden diese Koeffizienten und die Sprachsignale entsprechend den Vorgaben des verwendeten Kompressions-Standards weiter verarbeitet . Zum Zwecke des Mustervergleichs werden die LPC- Koeffizienten, oder transformierte Darstellungen (z.B. Cepstrum-Koeffizienten, PARCOR-Koeffizienten) als Bestandteil der komprimierten Sprachinformation in einer Speicherkarte 12 abgespeichert. Zusätzlich wird eine Datum- und Zeitmarke abgespeichert .(e.g. around 10ms). The signal values in the segments are weighted using a Hamming window function. The autocorrelation function of the signal values in the individual segments is then calculated. The LPC coefficients are calculated from this. For the purpose of compression and storage these coefficients and the speech signals are further processed in accordance with the specifications of the compression standard used. For the purpose of pattern comparison, the LPC coefficients or transformed representations (eg cepstrum coefficients, PARCOR coefficients) are stored in a memory card 12 as part of the compressed speech information. A date and time stamp is also saved.
An Stelle der Verwendung des LPC-Verfahrens können auch andere Verfahren zur Sprachkompression und Mustererkennung eingesetzt werden, welche z.B. auf der Kurzzeit-Fourier-Analyse oder Filterbänken beruhen.Instead of using the LPC method, other methods for speech compression and pattern recognition can also be used, e.g. based on short-term Fourier analysis or filter banks.
Die Aufzeichnung kann auch mittels einer Sprach-/Datenübertragung 13 auf einem entfernten Gerät, hier einem Rechner 14 oder einem Server 15, erfolgen.The recording can also take place by means of a voice / data transmission 13 on a remote device, here a computer 14 or a server 15.
Suchen: Der Benutzer drückt die SEARCH-Taste des Handys 10 und spricht während er die Taste gedrückt hält die zu suchenden Stichworte. Das Gerät 10 sucht nach entsprechenden Notizen und gibt die erste, gefundene Sprachinformation akustisch wieder. Der Benutzer kann dann zum Weitersuchen bzw. zur Ausgabe der nächsten gefundenen Notizen die NEXT-Taste drücken, oder eine Taste zur Bewertung (GUT, FALSCH) drücken und anschließend bei Bedarf die NEXT-Taste. Die Verarbeitung der Sprachsignale erfolgt analog der beim ,Aufzeichnen' beschriebenen. Die Sprachmuster werden ebenso abgespeichert . Anschließend werden die LPC-Parameter oder transformierte Darstellungen, z.B. Ceptrum-Koeffizienten, der Mustererkennung zugeführt. Zur Mustererkennung werden die Parameter zu Vektoren zusammengefasst . Die einzelnen Stichworte werden zu Gruppen von Vektoren zusammengefasst . Anschließend werden sie mit den abgespeicherten Sprachinformationen verglichen. Die Anpassung an die unterschiedliche Sprechgeschwindigkeit der Muster erfolgt mit dem als ,Dynamische Programmierung' bekannten Verfahren. Für jedes Stichwort werden in jeder Notiz der Abstandswert (Score) zu dem ähnlichsten abgespeicherten Muster ermittelt. Je nach Einstellung des Gerätes wird die erste gefundene Notiz, welche Muster enthält, deren Abstandswerte unter einem vorgegebenen Schwellenwert liegen, ausgegeben und weitergesucht . In einer anderen Einstellung werden zuerst alle Aufzeichnungen durchsucht, die Notizen nach ihren Abstandswerten sortiert und die mit den kleinsten Abstandswerten zuerst ausgegeben. Bei jedem Betätigen der NEXT-Taste wird die Notiz mit der nächst niedrigeren Wertung wiedergegeben. Vor dem Wiedergeben einer Notiz wird der Zeiger auf diese Notiz zur Aufzeichnung des Suchbefehls hinzugefügt. Ebenso werden Wertungen, welche der Benutzer nach Anhörung der Notiz eingibt, zur Aufzeichnung des Zeigers hinzugefügt.Search: The user presses the SEARCH button on the cell phone 10 and speaks while holding the button the keywords to be searched. The device 10 searches for corresponding notes and acoustically reproduces the first voice information found. The user can then press the NEXT button to continue searching or to output the next notes found, or press a button to evaluate (GOOD, FALSE) and then, if necessary, the NEXT button. The processing of the speech signals is carried out analogously to that described in the 'recording'. The speech patterns are also saved. The LPC parameters or transformed representations, for example ceptrum coefficients, are then fed to the pattern recognition. The parameters are combined into vectors for pattern recognition. The individual keywords are combined into groups of vectors. Then they are compared with the stored voice information. The adaptation The different speech speed of the patterns is done using the method known as 'dynamic programming'. For each keyword, the distance value (score) for the most similar saved pattern is determined in each note. Depending on the setting of the device, the first note found, which contains patterns whose distance values are below a predefined threshold value, is output and searched further. In another setting, all records are searched first, the notes are sorted according to their distance values and those with the smallest distance values are output first. Each time the NEXT button is pressed, the note with the next lower rating is displayed. Before a note is played back, the pointer to this note is added to record the search command. Ratings that the user enters after hearing the note are also added to record the pointer.
Unterschiede zu SpracherkennungsSystemenDifferences to speech recognition systems
Spracherkennungssysteme sind für andere Aufgaben konstruiert. Ihr Zweck besteht darin, eine diktierte Eingabe möglichst fehlerfrei in Schriftform zu konvertieren. In Spracherkennungssystemen erfolgt eine Abbildung von gesprochener Sprache auf eine vorgegebene, im allgemeinen erweiterbare Menge von Worten oder Funktionen. Entsprechend ist der Aufbau der Algorithmen. Die Abbildung erfolgt in mehreren Schritten. Insbesondere die letzten Schritte unterschieden sich von der Vorgehensweise gemäß dieser Erfindung. Sie verwenden statistische Modelle (meistens Hidden-Markov-Modelle) mit Angaben über die Häufigkeiten von Übergängen zwischen Sprachsegmenten (Sprachlaute oder Phoneme) . Diese werden teilweise durch eine für den Benutzer lästige Trainingsphase vor der Erstbenutzung erstellt. Bei dem erfindungsgemäßen Verfahren entfällt die Trainingsphase vor der Erstbenutzung. Auch ist der Wortschatz (Stichworte) nicht a priori festgelegt, sondern ergibt sich dynamisch und automatisch beim Aufzeichnen und Suchen. Ein weiterer Unterschied: beim Spracherkennungssystem gibt es zu jedem gesprochenen Wort eine , richtige' Abbildung, nämlich die, welche der Benutzer beabsichtigt hat. Im erfindungsgemäßen Gerät kann ein Stichwort mehrere richtige , Treffer' haben.Speech recognition systems are designed for other tasks. Their purpose is to convert a dictated input into written form as error-free as possible. In speech recognition systems, spoken language is mapped onto a predetermined, generally expandable set of words or functions. The algorithms are structured accordingly. The mapping takes place in several steps. The last steps in particular differed from the procedure according to this invention. They use statistical models (mostly hidden Markov models) with information about the frequency of transitions between speech segments (speech sounds or phonemes). These are partly created by a training phase that is annoying for the user before the first use. The training phase is omitted in the method according to the invention the first use. The vocabulary (keywords) is also not defined a priori, but results dynamically and automatically when recording and searching. Another difference: in the speech recognition system, there is a 'correct' illustration for each spoken word, namely that which the user intended. In the device according to the invention, a keyword can have several correct "hits".
Nachfolgend wird eine Erweiterung auf Suchfunktionen in Flash- Speicherelementen beschrieben. Diese hat zwei entscheidende Vorteile: Performance und Zugangsschutz . In Fig. 1 ist ein Handy 10 mit einem DSP 11 und einer Speicherkarte 12 dargestellt. Die Speicherkarte 12 kann die Sprachnotizen und/oder die Index-Datei enthalten. Diese Konstellation hat einen Nachteil : bei den meisten der heute gebräuchlichen kleinen Speicherkarten, z.B. MultiMediaCard, Memory Stick, erfolgt die Übertragung der Daten zum Host-System über einen seriellen Bus . Diese seriellen Busse haben eine so geringe Bandbreite, dass der Suchvorgang, sofern das Suchprogramm im Handy 10 oder im DSP 11 abläuft, und die Daten sich auf der Speicherkarte 12 befinden, erheblich verlangsamt wird. Deshalb werden in einer Ausführung dieser Erfindung spezielle Karten verwendet, welche neben dem Speicher für die Indexdateien und/oder die Sprachnotizen einen Suchprozessor auf der Karte enthalten. Über die Schnittstelle zur Karte werden dabei nur die Suchbefehle mit den zugehörigen Sprachmustern, bzw. die Resultate in Form von Zeigern auf die gefunden Notiz (en) , oder von Sprachdaten der gefundenen Notizen übertragen. Wenn die Speicherkarte 12 nur die Indexdateien enthält, können die Sprachnotizen auf einem Server 15 oder PC 14 liegen. Nach dem Suchvorgang in der Karte, werden anschließend die gefundenen Notizen vom Server 15 / PC 14abgerufen.An extension to search functions in flash memory elements is described below. This has two decisive advantages: performance and access protection. 1 shows a cell phone 10 with a DSP 11 and a memory card 12. The memory card 12 can contain the voice memos and / or the index file. This constellation has a disadvantage: with most of the small memory cards in use today, e.g. MultiMediaCard, Memory Stick, the data is transferred to the host system via a serial bus. These serial buses have such a small bandwidth that the search process, provided the search program is running in the cell phone 10 or in the DSP 11, and the data is on the memory card 12, is considerably slowed down. Therefore, in one embodiment of this invention, special cards are used which, in addition to the memory for the index files and / or the voice memos, contain a search processor on the card. Only the search commands with the associated language patterns or the results in the form of pointers to the found note (s) or voice data of the found notes are transmitted via the interface to the card. If the memory card 12 contains only the index files, the voice memos can be on a server 15 or PC 14. After the search process in the card, the found notes are then retrieved from the server 15 / PC 14.
Die vorgestellte Architektur hat einen weiteren Vorteil : den Zugangsschutz . Die Speicherkarte 12 kann mittels Passwort oder anderer Authentifizierungsmechanismen (z.B. biometrische Verfahren) gegen unberechtigte Zugriffe geschützt werden. Wenn die Notizen und, sofern vorhanden, die Indexdateien in dem Kartenspeicher liegen, ist damit ein guter Schutz gegen unberechtigte Zugriffe gegeben. Wird nur die Indexdateien auf der Karte gespeichert, so können die Notizen verschlüsselt auf einem Server / PC abgelegt werden. Die gefundenen Notizen werden vor der Ausgabe erst zur Karte transferiert, dort entschlüsselt und in das Handy 10 zur Wiedergabe weitergeleitet. Bei der Aufnahme von Sprachnotizen erfolgt der Transfer umgekehrt: die Sprachdaten werden vom Handy 10 zur Speicherkarte 12 transferiert, dort werden, sofern vorhanden, die Indexdateien erweitert, die Sprachdaten der Notiz gespeichert und/oder verschlüsselt und dann zum Server 15 / PC 14 weitergeleitet . Für die Übertragung der Sprachdaten in verschlüsselter und unverschlüsselter Form in Echtzeit reicht die Bandbreite der seriellen Schnittstellen. The architecture presented has another advantage: access protection. The memory card 12 can be protected against unauthorized access by means of a password or other authentication mechanisms (for example biometric methods). If the notes and, if available, the index files in the Card storage, there is good protection against unauthorized access. If only the index files are saved on the card, the notes can be stored encrypted on a server / PC. The notes found are first transferred to the card before being output, decrypted there and forwarded to the cell phone 10 for playback. When recording voice memos, the transfer takes place in reverse: the voice data is transferred from the mobile phone 10 to the memory card 12, where, if available, the index files are expanded, the voice data of the note is stored and / or encrypted and then forwarded to the server 15 / PC 14. The bandwidth of the serial interfaces is sufficient for the transmission of voice data in encrypted and unencrypted form in real time.
BezugszeichenlisteLIST OF REFERENCE NUMBERS
Handy Digital Signal Prozessor DSP Speicherkarte EPO-BERLIN Sprach-/Datenübertragung 2 9 -04- 2002 Rechner Server Cell phone digital signal processor DSP memory card EPO-BERLIN voice / data transmission 2 9 -04- 2002 computer server

Claims

EPO-BERLIN2 9 -04- 2002Patentansprüche EPO-BERLIN2 9 -04- 2002 Patent claims
1. Verfahren zur Behandlung von Sprachinformationen zur Realisierung einer auf Sprache basierenden Datenbank mit Funktionen zur Abspeicherung und/oder Wiedergabe und/oder Übertragung, wobei das Verfahren Mittel zur Eingabe und/oder Abspeicherung und/oder akustischen Wiedergabe und/oder zur Übertragung von Sprach- und Dateninformationen sowie digitalen Bildinformationen mit Sprachdaten verwendet sowie Mittel zum Suchen nach einem oder mehreren Sprachsegmenten in den abgespeicherten Sprachinformationen benutzt, dadurch gekennzeichnet, dass gesprochene Worte und/oder zusammenhängende Sätze (Notizen) als Sprachsignale in einem Speicher digital aufgezeichnet werden, wobei Mittel zur Transformation der Sprachsignale in eine Darstellung im Frequenzbereich und/oder in eine komprimierte Darstellung im Zeitbereich vorgesehen werden, die in einem Teilumfang von mindestens einem Wort zum Suchen erneut gesprochen und in einer Vorrichtung mit den Aufzeichnungen verglichen und bewertet werden, woraus ein Abstandswert zwischen den beiden Sprachmustern auf der Basis ihrer Parameter im Zeit- und/oder Frequenzbereich ermittelt und Notizen, welche Sprachsegmente mit den geringsten Abstandswerten enthalten, akustisch ausgegeben werden.1. A method for handling voice information for realizing a language-based database with functions for storage and / or playback and / or transmission, the method comprising means for input and / or storage and / or acoustic playback and / or for the transmission of voice and data information and digital image information with speech data is used and means for searching for one or more speech segments in the stored speech information are used, characterized in that spoken words and / or related sentences (notes) are recorded digitally as speech signals in a memory, whereby means for transformation the speech signals are provided in a representation in the frequency domain and / or in a compressed representation in the time domain, which are spoken again in part by at least one word for searching and are compared and evaluated in a device with the recordings, where a distance value between the two speech patterns is determined on the basis of their parameters in the time and / or frequency range and notes which contain language segments with the smallest distance values are output acoustically.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachsignale komprimiert aufgezeichnet werden und/oder neben der komprimierten Sprachinformation auch unkomprimierte Signale gespeichert werden. 2. The method according to claim 1, characterized in that the speech signals are recorded in compressed form and / or in addition to the compressed speech information, uncompressed signals are also stored.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass weitere Informationen wie Sprachmuster der in den Suchbefehlen enthaltenen Stichworte, wie Zeiger auf die gefundenen Sprachnotizen, wie berechnete Abstandswerte und wie Reaktionen und/oder Bewertungen des Benutzers gespeichert werden und/oder bei späteren Suchvorgängen die Sprachmuster der früheren Suchbefehle unter Berücksichtigung der aufgezeichneten Bewertungen und/oder Benutzerreaktionen und/oder Abstandswerten und/oder Zeiger durchsucht werden.3. The method according to claim 1, characterized in that further information such as language patterns of the keywords contained in the search commands, such as pointers to the found voice memos, such as calculated distance values and how reactions and / or evaluations of the user are stored and / or in later searches the Speech patterns of the previous search commands can be searched taking into account the recorded ratings and / or user reactions and / or distance values and / or pointers.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Notizen zuerst wiedergegeben werden, welche die höchste Anzahl der gesuchten Stichworte enthalten.4. The method according to claim 1, characterized in that the notes are reproduced first, which contain the highest number of searched keywords.
5. Verfahren nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, dass die Sprachmuster beim Suchen mit den gleichen Datensätzen verglichen werden, welche auch zur Wiedergabe verwendet werden.5. The method according to claims 1 to 4, characterized in that the speech patterns are compared when searching with the same data sets that are also used for playback.
6. Verfahren nach den Ansprüchen 1 bis 5, dadurch gekennzeichnet, dass während des AufZeichnens verdeckt gesucht und/oder während der Wiedergabe einer Fundstelle verdeckt weitergesucht wird.6. The method according to claims 1 to 5, characterized in that a hidden search is carried out during the recording and / or a hidden search is continued during the playback of a site.
7. Verfahren nach den Ansprüchen 1 bis 6, dadurch gekennzeichnet, dass die Suchalgorithmen und Parameter auf der Grundlage der au gezeichneten Muster und Wertungen optimiert werden.7. The method according to claims 1 to 6, characterized in that the search algorithms and parameters are optimized on the basis of the au drawn patterns and ratings.
8. Verfahren nach den Ansprüchen 1 bis 7, dadurch gekennzeichnet, dass verschlüsselt gespeichert und ein Zugangsschutz installiert werden. 8. The method according to claims 1 to 7, characterized in that encrypted storage and access protection are installed.
9. Verfahren nach den Ansprüchen 1 bis 8, dadurch gekennzeichnet, dass die Spracheingabe über Mikrofon, Telefon oder offline über Diktiergerät, Sprachbox und die Wiedergabe über Kopfhörer, Lautsprecher, Telefon erfolgt.9. The method according to claims 1 to 8, characterized in that the voice input via microphone, telephone or offline via dictation machine, voice box and playback via headphones, speakers, telephone.
10. Verfahren nach den Ansprüchen 1 bis 9, dadurch gekennzeichnet, dass eine Kurzzeitspeicherung in einem Handy, eine Langzeitspeicherung auf einem Server vorgenommen werden, wobei periodisch und/oder bei Zugriff in den Langzeitspeicher überspielt wird oder Sprachaufzeichnungen auf verschiedenen Geräten gleichzeitig vorgenommen werden.10. The method according to claims 1 to 9, characterized in that a short-term storage in a cell phone, a long-term storage are carried out on a server, with periodic and / or when accessing the long-term storage is dubbed or voice recordings are made on different devices simultaneously.
11. Verfahren nach den Ansprüchen 1 bis 10, dadurch gekennzeichnet, dass ein Index aufgebaut wird, indem einzelne Sprachmuster gesondert abgelegt und mit Zeigern auf die aufgezeichneten Notizen versehen werden oder Zeiger zusammen mit Übereinstimmungskoeffizienten (Scores) gespeichert werden und/oder die Indexmuster durch den Benutzer durch das Sprechen einzelner Worte festgelegt werden.11. The method according to claims 1 to 10, characterized in that an index is built up by storing individual speech patterns separately and providing pointers to the recorded notes, or storing pointers together with matching coefficients (scores) and / or the index pattern by the Users can be determined by speaking individual words.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Erstellung der Indexdateien und die Optimierung der Indexdateien erfolgen, wenn das Handy an die Stromversorgung (Netz) angeschlossen ist, oder offline erfolgen, auf einem leistungsfähigerem Rechner.12. The method according to claim 11, characterized in that the creation of the index files and the optimization of the index files take place when the cell phone is connected to the power supply (network), or take place offline, on a more powerful computer.
13. Verfahren nach den Ansprüchen 1 bis 10, dadurch gekennzeichnet, dass das Suchen mit einer Zeitangabe erfolgt . 13. The method according to claims 1 to 10, characterized in that the search is carried out with a time.
14. Vorrichtung zur Durchführung des Verfahrens nach den Ansprüchen 1 bis 13, dadurch gekennzeichnet, dass ein Telekommunikationsendgerät wie ein Handy/Telefon (10) mit einem . Speichermedium wie FlashROM und/oder14. Device for performing the method according to claims 1 to 13, characterized in that a telecommunications terminal such as a cell phone / telephone (10) with a. Storage medium like FlashROM and / or
Speicherkarte (12) und/oder eineMemory card (12) and / or one
Datenverarbeitungseinrichtung wie PC, Server mit einer speziellen Zusatzsoftware (11) ausgestattet verwendet werden.Data processing device such as PC, server equipped with special additional software (11) can be used.
15. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 14, dadurch gekennzeichnet, dass eine spezielle Software auf einem Rechner (14) wie PC mit Spracheingabe und Sprachausgabe verwendet wird.15. The device for performing the method according to claim 14, characterized in that a special software on a computer (14) such as PC with voice input and output is used.
16. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 14, dadurch gekennzeichnet, dass ein Telefon über ein Netz an einen Rechner wie PC oder an einen speziellen Server angeschlossen verwendet wird.16. The device for performing the method according to claim 14, characterized in that a telephone is used via a network connected to a computer such as a PC or to a special server.
17. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 14, dadurch gekennzeichnet, dass die Speicherkarte (12) zusätzlich zu dem Speicher für die Indexdateien und/oder die Sprachnotizen einen Suchprozessor und/oder Einrichtungen zum Zugangsschutz enthält. 17. The apparatus for performing the method according to claim 14, characterized in that the memory card (12) contains a search processor and / or devices for access protection in addition to the memory for the index files and / or the voice memos.
PCT/EP2002/004738 2002-04-29 2002-04-29 Method and device for handling speech information WO2003094153A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
AU2002319158A AU2002319158A1 (en) 2002-04-29 2002-04-29 Method and device for handling speech information
PCT/EP2002/004738 WO2003094153A1 (en) 2002-04-29 2002-04-29 Method and device for handling speech information
CN02828981.1A CN1628338A (en) 2002-04-29 2002-04-29 Method and device for handling speech information
EP03090131A EP1359566A1 (en) 2002-04-29 2003-04-29 Method and apparatus for voice-based use of memory systems, a corresponding computer software and a corresponding computer readable memory medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2002/004738 WO2003094153A1 (en) 2002-04-29 2002-04-29 Method and device for handling speech information

Publications (1)

Publication Number Publication Date
WO2003094153A1 true WO2003094153A1 (en) 2003-11-13

Family

ID=29286074

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2002/004738 WO2003094153A1 (en) 2002-04-29 2002-04-29 Method and device for handling speech information

Country Status (3)

Country Link
CN (1) CN1628338A (en)
AU (1) AU2002319158A1 (en)
WO (1) WO2003094153A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112009003930B4 (en) * 2009-01-30 2016-12-22 Mitsubishi Electric Corporation Voice recognition device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5602963A (en) * 1993-10-12 1997-02-11 Voice Powered Technology International, Inc. Voice activated personal organizer
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
EP0938053A1 (en) * 1998-02-20 1999-08-25 Hewlett-Packard Company Methods of refining descriptors
EP1056265A2 (en) * 1999-05-26 2000-11-29 Lucent Technologies Inc. Voice message search system and method
EP1209658A2 (en) * 2000-11-03 2002-05-29 Digital Design GmbH Method and device for the treatment of speech information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5602963A (en) * 1993-10-12 1997-02-11 Voice Powered Technology International, Inc. Voice activated personal organizer
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
EP0938053A1 (en) * 1998-02-20 1999-08-25 Hewlett-Packard Company Methods of refining descriptors
EP1056265A2 (en) * 1999-05-26 2000-11-29 Lucent Technologies Inc. Voice message search system and method
EP1209658A2 (en) * 2000-11-03 2002-05-29 Digital Design GmbH Method and device for the treatment of speech information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WILCOX L ET AL: "WORDSPOTTING FOR VOICE EDITING AND AUDIO INDEXING", STRIKING A BALANCE. MONTEREY, MAY 3 - 7, 1992, PROCEEDINGS OF THE CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS, READING, ADDISON WESLEY, US, 3 May 1992 (1992-05-03), pages 655 - 656, XP000426848 *

Also Published As

Publication number Publication date
AU2002319158A1 (en) 2003-11-17
CN1628338A (en) 2005-06-15

Similar Documents

Publication Publication Date Title
DE10054583C2 (en) Method and apparatus for recording, searching and playing back notes
DE4397100C2 (en) Method for recognizing speech signals and speech recognition system with recursive grammar with a finite number of states
DE69822296T2 (en) PATTERN RECOGNITION IN A DISTRIBUTED SYSTEM
DE69922104T2 (en) Speech recognizer with vocabulary adaptable by spelled word input
DE69923191T2 (en) INTERACTIVE USER INTERFACE WITH LANGUAGE RECOGNITION AND NATURAL LANGUAGE PROCESSING SYSTEM
DE69839068T2 (en) System and method for automatic processing of call and data transmission
DE60126564T2 (en) Method and arrangement for speech synthesis
DE602004012909T2 (en) A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text
EP1649450A1 (en) Speech recognition method, and communication device
DE102018113034A1 (en) VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS
EP1648151A1 (en) Method and arrangement for processing messages concerning an integrated messaging system
DE112005000924T5 (en) Voice over Short Message Service
DE202017106303U1 (en) Determine phonetic relationships
DE60128372T2 (en) METHOD AND SYSTEM FOR IMPROVING ACCURACY IN A LANGUAGE IDENTIFICATION SYSTEM
EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
EP0508547B1 (en) Circuit for speech recognition
DE60300374T2 (en) Voice activated music playback system
CN111429914A (en) Microphone control method, electronic device and computer readable storage medium
US5987412A (en) Synthesising speech by converting phonemes to digital waveforms
US5970454A (en) Synthesizing speech by converting phonemes to digital waveforms
EP1359566A1 (en) Method and apparatus for voice-based use of memory systems, a corresponding computer software and a corresponding computer readable memory medium
WO2003094153A1 (en) Method and device for handling speech information
CN114927122A (en) Emotional voice synthesis method and synthesis device
DE4111781A1 (en) COMPUTER SYSTEM FOR VOICE RECOGNITION
Kopylov et al. Detection of interactive voice response (IVR) in phone call records

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20028289811

Country of ref document: CN

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP