DE102013219828A1

DE102013219828A1 - Method for phonetizing text-containing data records with multiple data record parts and voice-controlled user interface

Info

Publication number: DE102013219828A1
Application number: DE102013219828.0A
Authority: DE
Inventors: Jens Walther
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2015-04-02
Anticipated expiration: 2033-10-01
Also published as: WO2015043802A1; DE102013219828B4

Abstract

Es wird ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen beschrieben, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden. Dabei ist vorgesehen, dass der gesamte Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung (6) in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung (7) Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung (6) gebildeten zusammenhängenden Phonemkette (7) befinden. Ferner wird eine entsprechend eingerichtete, sprachgesteuerte Benutzerschnittstelle beschrieben.A method is described for phonetizing text-containing data records (2) having a plurality of data record parts, in which the data records (2) present as graphemes are converted into phonemes and stored as a phoneme string (9). It is provided that the entire data record (2) with the several data record parts in a grapheme-to-phoneme conversion (6) is converted into a contiguous phoneme string (9) and subsequently metadata are determined in a phonetic reworking (7), indicating where each of the plurality of data record portions are located in the contiguous phoneme string (7) formed by the grapheme-to-phoneme conversion (6). Furthermore, a correspondingly configured, voice-controlled user interface is described.

Description

Die Erfindung betrifft ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze in Phoneme konvertiert und als Phonemkette, teilweise auch als Phonemkette bezeichnet, abgespeichert werden. Bei den Datensatzteilen handelt es sich typischer Weise um Worte. The invention relates to a method for phonetizing text-containing data records having a plurality of data record parts, in which the data records present as graphemes are converted into phonemes and stored as a phoneme string, sometimes also called a phoneme string. The record parts are typically words.

Für sprachgesteuerte Benutzerschnittstellen ist es notwendig, meist in Datenbanken vorliegende Datensätze, beispielsweise in Form von Textlisten, zu phonetisieren, um den Inhalt der Datensätze einer Sprachsteuerung zuzuführen, bei der ein Benutzer durch Sprechen der Inhalte der Datensätze in der Benutzerschnittstelle den Datensatz auswählen und eine definierte Aktion auslösen kann. For voice-controlled user interfaces, it is necessary to phonetize mostly databanks, for example in the form of text lists, to feed the contents of the datasets to a voice control, where a user selects the dataset and a defined one by speaking the contents of the datasets in the user interface Action can trigger.

Ein typisches Anwendungsfeld, auf welches sich die Erfindung auch bevorzugt bezieht, ist die Verwendung einer sprachgesteuerten Benutzerschnittstelle in einer Multimedia-Einheit eines Kraftfahrzeugs, die als sprachgesteuerte Benutzerschnittstelle insbesondere u. a. ein Autotelefon und/oder eine Freisprecheinrichtung eines Kraftfahrzeugs aufweisen kann, so dass der Fahrer des Kraftfahrzeugs durch Angabe eines Kontaktnamens des Telefons die sprachgesteuerte Benutzerschnittstelle für das Aufbauen und Führen eines Telefonats nutzen kann. Natürlich kann die Sprachsteuerung auch zur Steuerung weiterer Funktionen der Multimedia-Einheit genutzt werden, beispielsweise durch Auswahl von Musiktitel, Interpret oder Album zur Wiedergabe durch die Multimediaeinheit. A typical field of application, to which the invention also preferably relates, is the use of a voice-controlled user interface in a multimedia unit of a motor vehicle, which, in particular, functions as a voice-controlled user interface. a. a car phone and / or a speakerphone of a motor vehicle may have, so that the driver of the motor vehicle by specifying a contact name of the phone can use the voice-activated user interface for setting up and conducting a phone call. Of course, the voice control can also be used to control other functions of the multimedia unit, for example, by selecting a song, artist or album for playback by the multimedia unit.

Grundsätzlich lässt sich die Erfindung bevorzugt bei sprachgesteuerten Schnittstellen nutzen, bei denen textbasierte Dateneinträge umsortierbar sind. Auch wenn die vorbeschriebenen Anwendungen einen bevorzugten Anwendungsfall der Erfindung darstellt, ist diese jedoch nicht auf genau diese Funktion beschränkt, sondern auch allgemein für sprachgesteuerte Benutzerschnittstellen anwendbar, in denen eine in Textform vorliegende Datenliste (Textliste) als textenthaltender Datensatz zur Erkennung durch die Sprachsteuerung phonetisiert werden soll, wobei jeder Listeneintrag der Textliste vorzugsweise mindestens zwei Datensatzteile aufweist. In principle, the invention can preferably be used in voice-controlled interfaces in which text-based data entries can be re-sorted. Although the above-described applications constitute a preferred application of the invention, it is not limited to this exact function but is also generally applicable to voice-controlled user interfaces in which a textual data list (text list) is phonetized as a text-containing voice recognition record should, each list entry of the text list preferably has at least two parts of the record.

Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchstabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als Phonemkette, also phonetisierte Datensätze beispielsweise in einer phonetisierten Datenliste, gespeichert. In the method proposed by the invention, the graphemes, d. H. as a consequence of individual grapheme symbols, in particular as a letter sequence or standardized letter sequence, existing data records in phonemes, d. H. a sequence of individual phoneme symbols, converted and stored as a phoneme string, that is, phonetized records, for example, in a phonetized data list.

Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, d. h. eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorliegenden Text insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert. In accordance with the usual definition, a phoneme is a phoneme representing the smallest unit of meaning in a language, i. H. has a distinctive function. The term "phonemes" is understood in the present text particularly as a consequence of a plurality of individual phoneme symbols. The same applies to the term grapheme, which is understood in the present text in particular as a consequence of individual grapheme symbols. Similar to a phoneme, a grapheme (Graphem symbol) represents the smallest meaningful unit in the graphical representation of a text, and is often defined by the letters of a script.

Wie es bei derartigen sprachgesteuerten Benutzerschnittstellen bereits üblich ist, sollen Listeneinträge der Datensätze der sprachgesteuerten Benutzerschnittstelle für die Spracherkennung zur Verfügung gestellt werden, um bestimmte Listeneinträge aus gesprochenen Befehlen des Benutzers identifizieren zu können. Bei einem dazu notwendigen Verfahren zum Phonetisieren der Datensätze wird ein als Grapheme, d. h. eine Folge einzelner Graphem-Symbole bzw. Textzeichen, welche in beispielsweise der Buchstabendarstellung oder einer standardisierten Buchstabenstellung entsprechen können, vorliegender Datensatz in Phoneme konvertiert und als Phonemkette, d. h. eine Folge einzelner Phonem-Symbole, abgespeichert. As is already customary in such voice-controlled user interfaces, list entries of the voice-controlled user interface data records are to be made available for speech recognition in order to be able to identify specific list entries from spoken commands of the user. In a necessary method for phononizing the data sets, a grapheme, i. H. a sequence of individual grapheme symbols or text characters, which may correspond in, for example, the letter representation or a standardized letter position, this record converted into phonemes and as a phoneme string, d. H. a sequence of individual phoneme symbols, stored.

Diese als Phoneme, d. h. als Folge einzelner Phonem-Symbole bzw. Phonemkette, vorliegenden phonetisierten Datensätze können bei der Spracherkennung in der sprachgesteuerten Benutzerschnittstelle dazu verwendet werden, das durch den Benutzer gesprochene Wort mit einem textenthaltenden Listeneintrag aus dem Datensatz in Verbindung zu bringen und so die entsprechend vorgegebenen Funktionen auszuführen. Üblicherweise werden in dieser phonetisierten Datenliste Phoneme als zusammenhängende Phonemkette gespeichert und insbesondere der Spracherkennung bzw. deren Spracherkenner in der sprachgesteuerten Benutzerschnittstelle zur Verfügung gestellt, so dass diese einfach auf die phonetisierte Datenliste zugreifen kann. These as phonemes, d. H. as a result of individual phoneme symbols or phoneme string present phonetized data sets can be used in speech recognition in the voice-controlled user interface to bring the word spoken by the user with a text-containing list entry from the record in connection and so perform the corresponding predetermined functions. Usually in this phonetized data list phonemes are stored as a contiguous phoneme string and in particular the speech recognition or their speech recognizer provided in the voice-controlled user interface, so that they can easily access the phonetized data list.

Die Datenlisten bzw. -sätze können aus mehreren Worten bzw. Datensatzteilen bestehen, Akronyme enthalten und sind mitunter auch multilingual. Um eine möglichst einfache, natürliche Eingabe von beispielsweise Telefonbuchkontakten zu ermöglichen, werden der Spracherkennung viele mögliche Kombinationen aus Vor-, Nachnamen sowie Teilelemente (Mittelname) derselben angeboten, d. h. allgemein verschiedene Kombinationen der verschiedenen Datensatzteile. Weiterhin gibt es Anforderungen, wie die Expansion von Titeln (Dr.) und Verkettung von häufigen Teilworten (z. B. "de la" im mexikanischen Spanisch). The data lists or sentences may consist of several words or data record parts, contain acronyms and may also be multilingual. In order to enable a simple, natural input of, for example, telephone book contacts, the speech recognition many possible combinations of first, last name and sub-elements (middle name) are offered the same, d. H. in general, different combinations of the different parts of the record. Furthermore, there are requirements, such as the expansion of titles (Dr.) and concatenation of frequent partial words (eg "de la" in Mexican Spanish).

Die Bereitstellung vieler Kombinationen von Vor- und Nachnamen sowie deren Unterelementen, d. h. allgemein vieler Kombinationen von Datensatzteilen, kann beispielsweise in einer in der sprachgesteuerten Benutzerschnittstelle vorhandenen Spracherkennung bzw. dem Spracherkenner erfolgen. The provision of many combinations of first and last names as well as their subelements, ie in general many combinations of data record parts, can take place, for example, in a speech recognition system or the speech recognizer present in the speech-controlled user interface.

Bei den bisherigen Systemen wurde das Neuerstellen der Phonemketteen bzw. der sprachgesteuerten Datenliste durch eine Neuphonetisierung der umgestellten Datensätze realisiert. Um eine Teildatensatzerkennung zu realisieren, werden Teilworte aus den Datensätzen bzw. Datenlisten nach bestimmten Regeln ermittelt und neu kombiniert. So werden beispielsweise bei Kontaktdaten bestehend aus Vorname, Mittelname und Nachname alle Permutationen erstellt. So entstehen fünf Textvarianten. In the previous systems, the rebuilding of the phoneme strings or the voice-controlled data list was realized by a re-honoring of the converted data records. In order to realize partial data record recognition, partial words from the data records or data lists are determined according to specific rules and recombined. For example, all permutations are created for contact data consisting of first name, middle name and last name. This creates five text variants.

Bei einer noch größeren Anzahl von Datensatzteilen steigt die Anzahl der Textvarianten exponentiell. Zusätzlich müssen noch Duplikate ermittelt und bestimmte Akronyme (wie beispielsweise "Dr.") expandiert werden. With an even larger number of data records, the number of text variants increases exponentially. In addition, duplicates must still be identified and certain acronyms (such as "Dr.") must be expanded.

Bei bisher bekannten Lösungen wird die so erzeugte Vielzahl von Textvarianten anschließend mit einer Graphem-zu-Phonem-Konvertierung in verschiedene Phonemketten umgewandelt. So werden mehrere Varianten von phonetisierten Datensätzen erzeugt und beispielsweise in die sprachgesteuerte Benutzerschnittstelle zur Spracherkennung eingefügt. Die Prozessorlast und der Speicherbedarf für diesen Prozess sind erheblich. Da die Phonetisierung sehr rechen- und damit ressourcenaufwendig ist, kommt es bei der Neuphonetisierung einer größeren Datenliste und deren Varianten für den Benutzer zu einer spürbaren Latenz bzw. Wartezeit, bis die sprachgesteuerte Benutzerschnittstelle zur Erkennung von Namen aus der Datenliste bzw. allgemeiner von Listeneinträgen verwendet werden kann. In previously known solutions, the plurality of text variants generated in this way is subsequently converted into different phoneme chains with a grapheme-to-phoneme conversion. Thus, several variants of phonetized data records are generated and inserted, for example, in the voice-controlled user interface for speech recognition. The processor load and memory requirements for this process are significant. Since the phononization is very computationally and therefore resource-consuming, the re-honoring of a larger data list and its variations for the user to a noticeable latency or waiting time until the voice-controlled user interface for recognizing names from the data list or more generally used by list entries can be.

Ein ähnliches Verfahren ist aus der EP 1 798 723 A1 bekannt, bei der einem auswählbaren Listeneintrag (in dem Beispiel einem Radiosender) mehrere Phonemketten (Sprachmuster) zugeordnet werden. A similar procedure is from the EP 1 798 723 A1 in which a plurality of phoneme chains (speech patterns) are assigned to a selectable list entry (in the example a radio station).

Dies ist insbesondere deshalb nachteilig, weil ein Benutzer daran gewöhnt ist, die in mobilen Datengeräten mit Datenbankfunktion, beispielsweise Mobiltelefonen mit einer Kontaktdatenbank, gespeicherten Daten direkt nach Start des Infotainment-Systems bzw. Verbindung der Freisprecheinrichtung zur Verfügung stehen. Die Phonetisierung vieler verschiedenere Textvarianten erfordert jedoch eine zu große Rechenzeit. This is particularly disadvantageous because a user is accustomed to the data stored in mobile data devices with database function, such as mobile phones with a contact database, directly after the start of the infotainment system or connection of the handsfree available. However, the phonetization of many different text variants requires too much computation time.

Zur Vermeidung dieser Problematik wurde bereits vorgeschlagen, dass in dem Text eines Listeneintrags, beispielsweise zwischen Vor- und Nachnamen, ein Trennzeichen zwischen den jeweiligen Datenfeldern des Listeneintrags eingefügt, mit in die Phonemkette konvertiert und dort als Phonem-Symbol (einzelnes Phonem) in der den phonetisierten Datensatz bildenden Phonemkette abgespeichert wird. Bei dem Erzeugen des phonetisierten Datensatzes in der Spracherkennung bleibt das das Trennzeichen in dem Text des Listeneintrags symbolisierende Phonem-Symbol dagegen unberücksichtigt, d. h. es wird nicht in die Phoneme eines Listeneintrags integriert. Hierdurch wird vermieden, dass das das Trennzeichen symbolisierende Phonem-Symbol mit gesprochen werden muss, damit der gesprochene Text erkannt werden kann. To avoid this problem has been proposed that inserted in the text of a list entry, for example, between first and last names, a delimiter between the data fields of the list entry, with converted into the phoneme chain and there as a phoneme symbol (single phoneme) in the phonetized record forming phoneme string is stored. By contrast, when generating the phonetized data record in the speech recognition, the phoneme symbol symbolizing the delimiter in the text of the list entry remains unconsidered, i. H. it is not integrated into the phonemes of a list entry. This avoids that the phoneme symbol symbolizing the delimiter must be spoken, so that the spoken text can be recognized.

Auch dies ist jedoch umständlich, da in dem System Phoneme identifiziert werden müssen, die für eine Spracherkennung unberücksichtigt bleiben. Dies führt auch dazu, dass sich die erzeugte Phonemkette nicht universell zur Spracherkennung in beliebigen Geräten nutzen lässt, weil in Geräten die Phonem-Symbole, welche bei der Spracherkennung unberücksichtigt bleiben sollen, nicht unbedingt kennen und diese Phoneme in den Befehlen so mit gesprochen werden müssten. Außerdem müssen die Grapheme zuvor durch Ergänzung von speziellen Zeichen verändert werden, um eine Art Indexierung zu erzeugen. However, this too is cumbersome, since in the system phonemes must be identified that are disregarded for speech recognition. This also means that the generated phoneme chain can not be universally used for speech recognition in any device, because in devices the phoneme symbols, which should be disregarded in speech recognition, not necessarily know and these phonemes should be spoken in the commands so , In addition, the graphemes must be previously modified by supplementing special characters to produce a kind of indexing.

Aufgabe der Erfindung ist es, eine einfachere und insgesamt wenig Latenzzeit erfordernde Möglichkeit vorzuschlagen, mit der textenthaltende Datensätze insbesondere für eine sprachgesteuerte Benutzerschnittstelle phonetisiert werden können und bei der einzelne Datensatzteile in der Phonemkette umgestellt werden können. The object of the invention is to propose a simpler and generally less latency requiring possibility, can be phonetized with the text-containing data records in particular for a voice-controlled user interface and can be switched in the individual data record parts in the phoneme chain.

Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des Anspruchs 1 gelöst. This object is achieved with the features of claim 1.

Dazu ist bei einem Verfahren der eingangs genannten Art insbesondere vorgesehen, dass jeweils ein gesamter Datensatz mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung eine zusammenhängend Phonemkette konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung, insbesondere durch einen Phonetik-Postprozessor, Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten, zusammenhängenden Phonemkette befinden. Dadurch wird nur einmal für den vollständigen Datensatz eine Graphemzu-Phonem-Konvertierung durchgeführt. Dies ist anders als im Stand der Technik nicht für jeden Teildatensatz, d. h. die einzelnen Datensatzteile des textenthaltenden Datensatzes, und deren Kombinationen notwendig. Vielmehr liegt sofort eine vollständige Phonemkette zu dem als Graphem gespeicherten Datensatz vor, die unmittelbar in einer Spracherkennung verwendet werden kann. Für je nach Datensatz speziell ausgewählte Kriterien, beispielsweise Pausen zwischen den einzelnen Datenworten oder der Erkennung von Textelementen oder Zahlen oder dergleichen, werden dann aus der Phonemkette Metadaten ermittelt, die die Position der einzelnen ermittelten Datensatzteile in der zusammenhängenden Phonemkette anzeigt. Dies erlaubt einen gezielten Zugriff auf bestimmte Positionen in der Phonemkette, so dass es nicht notwendig ist, verschiedene Sortierungen der einzelnen Datensatzteile in jeweils eigenständige Phonemketten zu wandeln oder in der Phonemkette selbst als Phonem gespeicherte Ordnungskennzeichen vorzusehen, die von den Geräten entsprechend erkannt und verarbeitet werden müssen. For this purpose, it is provided in a method of the type mentioned in particular that in each case an entire data set with the several data record parts in a grapheme-to-phoneme conversion a contiguous phoneme string is converted and then in a phonetics post-processing, in particular by a phonetic post-processor Metadata may be determined that indicates where individual ones of the multiple sets of data are located in the contiguous phoneme string formed by grapheme-to-phoneme conversion. As a result, a grapheme to phoneme conversion is performed only once for the complete data set. Unlike the prior art, this is not necessary for every partial data record, ie the individual data record parts of the text-containing data record, and their combinations. Rather, there is immediately a complete phoneme string to the dataset stored as grapheme, the can be used directly in a speech recognition. For specially selected criteria depending on the data set, for example pauses between the individual data words or the recognition of text elements or numbers or the like, metadata are then determined from the phoneme chain, which displays the position of the individual determined data record parts in the contiguous phoneme string. This allows targeted access to certain positions in the phoneme string, so that it is not necessary to convert different sorts of the individual parts of the data into separate phoneme strings or to provide them in the phoneme string as phoneme-stored order labels which are recognized and processed accordingly by the devices have to.

Gemäß einer bevorzugten Ausführungsform können die Metadaten zusammen mit der Phonemkette abgespeichert werden, d. h. insbesondere in dem Phonetik-Datensatz selbst oder einem damit verbundenen Datensatz, so dass der Bezug der Metadaten zu der Position in der Phonemkette einfach und ohne große Prozessorleistung zuordenbar ist. According to a preferred embodiment, the metadata may be stored together with the phoneme string, i. H. in particular in the phonetic data record itself or a related data record, so that the reference of the metadata to the position in the phoneme string can be assigned easily and without much processor power.

Dazu kann beispielsweise vorgesehen werden, dass die Metadaten einen Zeiger auf die Position in der Phonemkette aufweisen, die jeweils dem durch die Metadaten gekennzeichneten Datensatzteil entspricht. Dies kann entweder durch eine Kennzeichnung des Speicherorts des Phonems erfolgen, das den Beginn des gekennzeichneten Datensatzteils anzeigt. Dies ermöglicht einen besonders einfachen Zugriff. For this purpose, provision may be made, for example, for the metadata to have a pointer to the position in the phoneme string which corresponds in each case to the record part identified by the metadata. This can be done either by marking the location of the phoneme indicating the beginning of the designated part of the record. This allows a particularly easy access.

Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die Metadaten zusätzlich eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen, so dass durch die Kennung die Datensatzteile identifizierbar sind, auf die sich die Metadaten beziehen. Dies kann beispielsweise durch eine Verlinkung zwischen dem Datensatzteil in der Graphem-Darstellung des Datensatzes und dem entsprechenden Eintrag in den Metadaten erfolgen. Damit kann aus dem Datensatzteil des Datensatzes direkt auf die Metadaten zugegriffen werden. According to a particularly preferred embodiment of the proposed method, the metadata can additionally have an identifier for the data record parts related to the respective metadata, so that the data record parts to which the metadata relate can be identified by the identifier. This can be done for example by linking between the record part in the graphem representation of the record and the corresponding entry in the metadata. This makes it possible to access the metadata directly from the record part of the data record.

Eine erfindungsgemäß vorgeschlagene Weiterentwicklung kann für eine neue Phonemkette kann, dass die neue Phonemkette durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination Datensatzteilen erzeugt wird. In diesem Fall muss keine neue Phonemfolge gespeichert werden, sondern lediglich eine Folge von Zeigern, die die einzelnen Datensatzteile in ihrer neuen Wortfolge zusammensetzt. Dies ist durch die Verwendung von Metadaten, die insbesondere als Zeiger ausgebildet sind, besonders einfach möglich. Die einzelnen Bereiche in der Phonemkette werden dann jeweils durch einen Zeiger bzw. Pointer angesprochen, um die dem jeweiligen Datensatzteil entsprechende Phonemkette auszuwählen. A further development proposed according to the invention can, for a new phoneme string, generate the new phoneme string by stringing together pointers in the order of a selected combination of record parts. In this case, it is not necessary to store a new phoneme sequence, but only a sequence of pointers that composes the individual parts of the data in their new word sequence. This is particularly easy by the use of metadata, which are designed in particular as a pointer. The individual regions in the phoneme string are then each addressed by a pointer or pointer in order to select the phoneme string corresponding to the respective data record part.

Sobald der dem Datensatzteil entsprechende Bereich aus der Phonemkette abgearbeitet ist, springt der die Metadaten darstellende Zeiger auf den nächsten Datensatzteil. Dies reduziert den Speicherbedarf, wenn verschiedene Sortierungen der Phonemkette im Rahmen der sprachgesteuerten Benutzerschnittstelle zur Identifikation des Sprachbefehls verglichen werden müssen. Außerdem lässt sich die Reihenfolge der Zeiger in einer neuen Zeigerdatei so schnell speichern, dass der Benutzer bei einer Phonetisierung der textenthaltenden Datensätze keine Latenz mehr feststellt. As soon as the region corresponding to the record part has been processed from the phoneme string, the pointer representing the metadata jumps to the next record part. This reduces memory requirements when different phoneme chain sorts need to be compared within the voice user interface to identify the voice command. In addition, the order of the pointers in a new pointer file can be stored so quickly that the user no longer detects latency when phonetizing the text-containing data records.

Gemäß einer erfindungsgemäß vorgeschlagenen Variante können die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert aufbereitet werden. Dabei können u.a. Akronyme für eine Phonetisierung vorbereitet und Sprachen der Datensatzteile erkannt werden, um die Phonetisierung in der gewünschten Sprache durchzuführen. According to a variant proposed according to the invention, the graphemes can be processed in a preprocessing for the phononization, in particular by the graphemes being processed in a language-defined and / or user-defined manner. It can u.a. Preparing acronyms for phonetization and recognizing languages of the record parts to perform the phonetization in the desired language.

Es ist besonders bevorzugt, die soeben angesprochene Präprozessierung der Grapheme, die Graphem-zu-Phonem-Konvertierung und die Phonetik-Nachbearbeitung zur Ermittlung der Metadaten, wie sie erfindungsgemäß nun vorgesehen ist, parallel für verschiedene Datensätze vorzunehmen. Durch diese parallele Prozessierung können mehrere Datensätze parallel verarbeitet werden, so dass die Bearbeitungszeit für die Phonetisierung einschließlich der Aufbereitung der phonetisierten Datensätze mittels Metadaten schnell erfolgen kann. It is particularly preferred to carry out the preprocessing of the graphemes, the grapheme-to-phoneme conversion and the phonetics post-processing for the determination of the metadata, which is now provided according to the invention, in parallel for different data sets. By means of this parallel processing, several data records can be processed in parallel, so that the processing time for the phonation, including the processing of the phonetized data records, can be carried out quickly by means of metadata.

Die Erfindung bezieht sich auch auf eine sprachgesteuerte Benutzerschnittstelle mit einer Spracherkennung, einer Datenschnittstelle zum Anbinden an textenthaltende Datensätze und eine Recheneinheit zur Steuerung der Benutzerschnittstelle, wobei die Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet ist. The invention also relates to a voice-controlled user interface with speech recognition, a data interface for linking to text-containing data records and a computing unit for controlling the user interface, wherein the arithmetic unit is adapted to carry out the above-described method or parts thereof.

Die Erfindung betrifft auch ein Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittstelle zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon, wenn die Programmcodemittel von einem Prozessor der Recheneinheit ausgeführt werden. The invention also relates to a computer program product with program code means for the establishment of a processing unit of a voice-controlled user interface for carrying out the above-described method or parts thereof, when the program code means are executed by a processor of the processing unit.

Weitere Vorteile, Merkmale oder Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnung. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezügen. Further advantages, features or applications of the present invention will become apparent from the following description of an embodiment and the drawing. In this case, all described and / or illustrated features, alone or in any combination, the subject matter of the present invention, regardless of their summary in the claims or their back references.

Die einzige 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zum Phonetisieren textenthaltender Datensätze mit mehreren Wortbestandteilen. The only 1 schematically shows an embodiment of the proposed device with the procedure of the method for phonetizing text-containing data records with multiple word components.

Danach ist eine sprachgesteuerte Benutzerschnittstelle mit einer Einrichtung zum Phonetisieren oder eine Einreichung zum Phonetisieren 1 vorgesehen, die zur Phonetisierung der textenthaltenden Datensätze 2 eingerichtet ist. Diese textenthaltenden Datensätze 2 erhält die sprachgesteuerte Benutzerschnittstelle respektive die Einrichtung zum Phonetisieren 1 über eine Datenschnittstelle 3, über die die Datensätze 2 in die sprachgesteuerte Benutzerschnittstelle bzw. Einrichtung 1 eingelesen werden können. Die Datensätze 2 liegen als Grapheme vor und werden in einer in der Benutzerschnittstelle 1 vorgesehenen Recheneinrichtung 4 in Phoneme konvertiert. Thereafter, a voice-controlled user interface is provided with a means for phonetizing or phoneticising 1 provided for the phonetization of the text-containing data records 2 is set up. These text-containing records 2 receives the voice-controlled user interface or the device for phonetizing 1 via a data interface 3 about which the records 2 in the voice-controlled user interface or device 1 can be read. The records 2 are available as graphemes and are in one in the user interface 1 provided computing device 4 converted to phonemes.

Dieser Aspekt der Recheneinrichtung 4 ist in 1 der Deutlichkeit halber neben der sprachgesteuerten Benutzerschnittstelle bzw. Einrichtung 1 dargestellt, obwohl diese Recheneinheit 4 Teil der Benutzerschnittstelle bzw. allgemeiner der Einrichtung 1 zur Phonetisierung von Datensätzen 2 ist. This aspect of the computing device 4 is in 1 for the sake of clarity next to the voice-controlled user interface or device 1 shown, although this arithmetic unit 4 Part of the user interface or more generally the device 1 for phonetizing records 2 is.

Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5, eine zweite Recheneinheit 6 und eine dritte Recheneinheit 7 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten und Abläufen geeignet sind. This computing device 4 has a first arithmetic unit 5 , a second arithmetic unit 6 and a third arithmetic unit 7 auf, which are suitable according to the invention for the parallel, independent processing of data and processes.

Es wird darauf hingewiesen, dass die in 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung wiedergibt und nicht sämtliche, auf der Recheneinrichtung 4 bzw. in den Recheneinheiten 5, 6, 7 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren. It should be noted that the in 1 illustrated computing device 4 only reproduces the functions of the inventive solution to be described in more detail below and not all, on the computing device 4 or in the arithmetic units 5 . 6 . 7 the computing device 4 ongoing processes and procedures.

Die erste Recheneinheit 5 ist zur Präprozessierung der Grapheme, die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme und die dritte Recheneinheit 7 zur Phonetik-Nachbearbeitung bzw. -Postprozessierung eingerichtet. Die zweite Recheneinheit 6 zur Konvertierung kann vorzugsweise auch einen Spracherkenner aufweisen, der durch eine sprachgesteuerte Benutzerschnittstelle verwendet wird und auf die gespeicherte Phonemkette 9 (phonetisierter Datensatz) zugreift. The first arithmetic unit 5 is for preprocessing the grapheme, the second arithmetic unit 6 to convert the grapheme into phonemes and the third arithmetic unit 7 set up for phonetic post-processing or post-processing. The second arithmetic unit 6 for conversion may also preferably comprise a speech recognizer used by a voice-controlled user interface and the stored phoneme string 9 (phonetic record).

Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisierung läuft gemäß einer bevorzugten Ausführungsform wie nachfolgend beschrieben ab: According to a preferred embodiment, the method of phononization proposed according to the invention proceeds as follows:

Nach dem Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung zum Phonetisieren 1 (bzw. die sprachgesteuerte Benutzerschnittstelle) werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, optional zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. -Einheiten zerlegt. Dies ist durch den Pfeil 8 dargestellt, der in 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 8 in einer (ggf. auch zusätzlichen) Recheneinheit 5, 6, 7 der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann. After reading the text-containing data records 2 via the data interface 3 into the device for phonetizing 1 (or the voice-controlled user interface), the graphemes, ie the sequence of the individual grapheme symbols, optionally first decomposed into grapheme subsequences of a predetermined length of, for example, 50 grapheme symbols or units. This is by the arrow 8th represented in 1 outside the computing device 4 although the process of decomposition is also shown 8th in a (possibly also additional) arithmetic unit 5 . 6 . 7 the computing device 4 takes place and can be understood, for example, as a first process step of preprocessing.

Anschließend wird die Graphem-Teilfolge der ersten Recheneinheit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzen von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen, Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind, und/oder dergleichen. Subsequently, the grapheme subsequence of the first arithmetic unit 5 which takes over the preprocessing of the grapheme. The graphemes of each grapheme subsequence may be modified in a language-defined and / or user-defined manner, for example by replacing abbreviations, recognizing foreign-language texts, omitting prefixes, expanding acronyms, offering language variants that can be selected by the user, and / or the like.

Die in der ersten Recheneinheit 5 implementierte Präprozessierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei ggf. unterschiedliche Sprachen berücksichtigt werden könne. Außerdem werden in der in der ersten Recheneinheit 5 implementieren Präprozessierung von durch das akustische Modell von Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in durch das akustische Modell unterstütze Graphem-Symbole konvertiert. The in the first arithmetic unit 5 Implemented preprocessing preferably comprises a grammar-based parser, which includes rules for the text modification and / or pronunciation variants, possibly different languages could be considered. In addition, in the first processing unit 5 implement pre-processing of characters unsupported by the acoustic model of grapheme-to-phoneme conversion converted into grapheme symbols supported by the acoustic model.

Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zu-Phonem-Konvertierung stattfindet. Dieses Verfahren ist allgemein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden. After preprocessing in the first processing unit 5 becomes the (pre-processed) grapheme subsequence of the second arithmetic unit 6 fed, in which the actual grapheme-to-phoneme conversion takes place. This method is well known and therefore need not be described in detail here.

Als Ergebnis der Graphem-zu-Phonem-Konvertierung liegt in der zweiten Recheneinheit 6 eine Phonemkette 9 im Sinne eines phonetisierten Datensatzes vor, der dem gesamten textenthaltenden Datensatz 2 entspricht. Gegebenenfalls werden hierfür Graphem-Teilfolgen, die in der Zerlegung 8 erzeugt wurden, wieder zusammengeführt. Im Ergebnis ist also der gesamte Datensatz 2 mit den mehreren Datensatzteilen in eine zusammenhängende Phonemkette 9 konvertiert. As a result of grapheme to phoneme conversion lies in the second arithmetic unit 6 a phoneme chain 9 in the sense of a phonetized data record preceding the entire text-containing data record 2 equivalent. If necessary, this grapheme subsequences, in the decomposition 8th were created, merged again. The result is the entire dataset 2 with the several Record parts in a contiguous phoneme string 9 converted.

Diese zusammenhängende Phonemkette 9 wird dann der dritten Recheneinheit 7 zugeleitet, in welcher eine Phonetik-Postprozessierung bzw. -Nachbearbeitung stattfindet. Ziel dieser Nachbearbeitung ist es, Metadaten zu ermitteln, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten zusammenhängenden Phonemkette 9 befinden. This coherent phoneme chain 9 then becomes the third arithmetic unit 7 in which a phonetic post-processing or post-processing takes place. The goal of this post-processing is to determine metadata that indicates where each of the several parts of the data set in the contiguous phoneme string formed by the grapheme-to-phoneme conversion 9 are located.

Dazu werden die einzelnen Phoneme der Phonemkette untersucht. Hierbei ist es z. B. möglich, durch die zwischen einzelnen Worten der Graphem-Darstellung eingefügten Phonem-Pausen unabhängige Wörter (Datensatzteile) zu identifizieren. For this purpose, the individual phonemes of the phoneme chain are examined. This is z. For example, it is possible to identify independent words (record parts) through the phoneme pauses inserted between individual words of the grapheme representation.

Nach der Erkennung der unabhängigen Worte werden diese bestimmten Regeln folgend, die sich aus der Gesamtzahl der Worte sowie der Zahl der Worte in Teilelementen des Datensatzes ergeben können, neu zusammengefügt und als Alternativen in der Phonemliste gespeichert. Konkret am Beispiel von Kontaktdaten werden z. B. Vor-, Mittel- und Nachname in allen Reihenfolgenpermutationen erzeugt, ohne dass dafür eine weitere Graphem-zu-Phonem-Konvertierung (6) verwendet werden muss. Durch diese effiziente Erzeugung der Varianten lässt sich die textbasierte Liste schneller verwenden, als wenn diese Kombinationen bereits auf Graphembasis erzeugt wurden. Grund für die Reduktion an Latenzzeit ist der Verzicht auf die Phonetisierung der Varianten für einen Datensatz, der in Recheneinheit 6 erfolgt. Following recognition of the independent words, following these particular rules, which may result from the total number of words and the number of words in subelements of the data set, are reassembled and stored as alternatives in the phoneme list. Specifically, the example of contact data z. For example, first, middle and last names are generated in all order permutations without the need for another grapheme-to-phoneme conversion ( 6 ) must be used. This efficient generation of variants makes the text-based list faster to use than if those combinations were already generated on a graph basis. The reason for the reduction in latency is the abandonment of the phonation of the variants for a data set that is in arithmetic unit 6 he follows.

Eine andere Möglichkeit zur Phonemkette-Nachbearbeitung liegt darin, dass zu erkennende Wortanfänge in dem textenthaltenden Datensatz erneut und temporär in Phoneme, vorzugsweise eine Folge von ein bis drei Phonemen, konvertiert werden, und diese Phoneme bzw. Phonemfolge in der Phonemkette 9 gesucht werden. Sobald eine Folge übereinstimmt, wird als Metadaten ein Zeiger auf den Speicherort dieser Phonemfolge in der Phonemkette 9 gelegt, beispielsweise durch Identifizierung des Speicherplatzes. Another possibility for phoneme chain post-processing is that word beginnings to be recognized in the text-containing data record are converted again and temporarily into phonemes, preferably a sequence of one to three phonemes, and these phonemes or phoneme sequences in the phoneme string 9 be searched. As soon as a sequence matches, the metadata becomes a pointer to the location of this phoneme sequence in the phoneme string 9 placed, for example by identifying the memory space.

Die vorbeschriebenen Maßnahmen stellen besonders bevorzugte Möglichkeiten zur Phonetik-Nachbearbeitung gemäß der Erfindung dar, ohne dass die Erfindung jedoch auf diese konkreten Möglichkeiten beschränkt wäre. The above-described measures represent particularly preferred possibilities for phonetics post-processing according to the invention, but without the invention being limited to these specific possibilities.

Die Metadaten werden zusammen mit der Phonemkette 9 in einem geeigneten Speicher gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle auf diese mit Metadaten versehene Phonemkette zugreifen kann, um aus dem Text enthaltenden Datensätze abgeleitete Sprachbefehle zu identifizieren, auch wenn die Datensatzteile der Text enthaltenden Datensätze in den Sprachbefehlen vertauscht wurden. The metadata will be along with the phoneme chain 9 stored in suitable memory so that a voice-activated user interface can access this metadata-driven phoneme string to identify voice commands derived from the text-containing data sets even if the record portions of the text-containing data sets in the voice commands have been swapped.

Durch das parallele Prozessieren der Präprozessierung, der Konvertierung und der Postprozessierung der Datensätze wird eine zeitökonomische Bearbeitung der Graphem-zu-Phonem-Konvertierung ohne Übergebühr große Latenzzeiten erreicht, wobei gleichzeitig eine einfache Such- und Sortiermöglichkeit der phonetisierten Datensätze 9 erhalten bleibt. Parallel processing of preprocessing, conversion, and post-processing of the data sets achieves time-lapse graphem-to-phoneme conversion without excessive latency, while providing easy searching and sorting of the phonetized data sets 9 preserved.

BezugszeichenlisteLIST OF REFERENCE NUMBERS

1 1: sprachgesteuerte Benutzerschnittstelle, Einrichtung zum Phonetisieren Voice-controlled user interface, device for phonetizing
2 2: textenthaltende Datensätze text-containing data records
3 3: Datenschnittstelle Data Interface
4 4: Recheneinrichtung computing device
5 5: erste Recheneinheit, Präprozessierung first arithmetic unit, preprocessing
6 6: zweite Recheneinheit, Graphem-zu-Phonem-Konvertierung second arithmetic unit, grapheme-to-phoneme conversion
7 7: dritte Recheneinheit, Postprozessierung mit Phonetik-Nachbearbeitungthird arithmetic unit, post-processing with phonetics post-processing
8 8th: Zerlegung in Graphem-Teilfolgen Decomposition into Graphem Subsequences
9 9: phonetisierter Datensatz, Phonemkette phonetized data set, phoneme chain

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

EP 1798723 A1 [0014]

Claims

Method for phonetizing text-containing data records ( 2 ) having a plurality of data record parts in which the data sets (graphemes) ( 2 ) converted into phonemes and as a phoneme chain ( 9 ), characterized in that the entire data set ( 2 ) with the plurality of record parts in a grapheme-to-phoneme conversion ( 6 ) into a coherent phoneme chain ( 9 ) and then in a phonetic post-processing ( 7 ) Metadata are specified, which indicate where individual of the several data record parts in the grapheme-to-phoneme conversion ( 6 ) formed contiguous phoneme chain ( 7 ) are located.

Method according to claim 1, characterized in that the metadata together with the phoneme chain ( 9 ) are stored.

Method according to Claim 1 or 2, characterized in that the metadata contains a pointer to the position in the phoneme string ( 9 ) corresponding to the record part identified by the metadata.

Method according to one of the preceding claims, characterized in that the metadata have an identifier for the data portions relating to the respective metadata.

Method according to one of the preceding claims, characterized in that the metadata are used to identify at least one new phoneme string ( 9 ) with different sorting of the record parts

Method according to one of the preceding claims, characterized in that the new phoneme chain ( 9 ) is generated by juxtaposing pointers in the order of a selected combination of record part words.

Method according to one of the preceding claims, characterized in that the graphemes in a preprocessing ( 5 ) are prepared for the phonation, in particular by the graphemes are prepared language-defined and / or user-defined.

Method according to claim 7, characterized in that the preprocessing ( 5 ) of the grapheme, the grapheme-to-phoneme conversion ( 6 ) and phonetics post-processing ( 7 ) for the determination of metadata in parallel for various text-containing data records ( 2 ) respectively.

Voice-controlled user interface with voice recognition, a data interface ( 3 ) for binding text-containing data records and a computing unit ( 4 ) for controlling the user interface ( 1 ), characterized in that the arithmetic unit for implementing the method according to one of claims 1 to 8 is set up.

Computer program product with program code means for setting up a processing unit of a voice-activated user interface ( 1 ) for carrying out a method according to one of claims 1 to 8.