CN1108603C - 声音合成方法和声音合成装置 - Google Patents

声音合成方法和声音合成装置 Download PDF

Info

Publication number
CN1108603C
CN1108603C CN00121651A CN00121651A CN1108603C CN 1108603 C CN1108603 C CN 1108603C CN 00121651 A CN00121651 A CN 00121651A CN 00121651 A CN00121651 A CN 00121651A CN 1108603 C CN1108603 C CN 1108603C
Authority
CN
China
Prior art keywords
model data
rhythm
rhythm model
phoneme
input characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN00121651A
Other languages
English (en)
Other versions
CN1282018A (zh
Inventor
笠井�治
沟口稔幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Co Ltd
Konami Group Corp
Original Assignee
Konami Corp
Konami Computer Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Corp, Konami Computer Entertainment Co Ltd filed Critical Konami Corp
Publication of CN1282018A publication Critical patent/CN1282018A/zh
Application granted granted Critical
Publication of CN1108603C publication Critical patent/CN1108603C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing

Abstract

本发明的声音合成方法是,决定输入文字串的语调类型(s1),依据该输入文字串与其语调类型,从收录表示单词辞典中的文字串的韵律信息的韵律模式中的代表性韵律模式的韵律辞典中选择韵律模式(s2),在该选择的韵律模式的文字串与输入文字串不一致时,使该韵律模式的韵律信息变形(s3),依据变形后的韵律模式从波形辞典选择与输入文字串各文字对应的波形数据(s4),将该选择的波形数据相互连接(s5),以此尽可能消除任意输入文字串与辞典中的文字串的差异,合成自然的声音。

Description

声音合成方法和声音合成装置
发明领域
本发明涉及声音合成方法、声音合成装置及记录声音合成程序的可用电脑读取的媒体的改良。
背景技术
已有的从机器中输出各种声音信息(人类交谈的语言)的方法,有预先把构成声音信息的各种语言对应的合成单位的声音数据加以存储,按照任意输入的文字串(text)把所述声音数据加以组合输出的输出方法、即所谓声音合成方法。
这样的声音合成方法中,通常把日常使用的各种单词(文字串)对应之处的发音记号等音韵信息和语调、声调、振幅等韵律信息收录于辞典里。然后,解析输入的文字串,如果相同的文字串在辞典中有收录,则依据该信息将合成单位的声音数据加以组合后输出,如果在辞典里没有收录,则根据输入的文字串按照预先决定的规则作成这些信息,以此为依据将合成单位的声音数据加以组合后输出。
但是,上述已有的声音合成方法中,在遇到辞典里没有记载的文字串的情况下,未必能够作成与实际声音信息对应的信息、特别是韵律信息,结果,或是得到不自然的声音,或是得到与希望的声音不同的印象的声音。
发明内容
本发明的目的在于,提供能在很大程度上消除任意输入的文字串与辞典中收录的文字串的差异,合成自然的声音的声音合成方法、声音合成装置及记录声音合成程序的电脑可读取的媒体。
在本发明中,为了达到上述目的,本发明提出了作成与输入的文字串对应的声音信息数据的声音合成方法,这种方法使用将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示对于该单词辞典中收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典,决定输入的文字串的语调类型,依据输入的文字串与语调类型从韵律词典中选择韵律模式数据,在该选择出的韵律模式数据的文字串与输入的文字串不一致的情况下,使该韵律模式数据的韵律信息对照着输入的文字串变形,依据韵律模型数据从辞典选择与输入文字串的各文字对应的波形数据,将该选择的数据相互连接。
采用本发明,即使是在输入的文字串在辞典里没有记录的情况下,也能够利用与该文字串接近的韵律模式数据,再使该韵律信息对照着输入的文字串变形,以此为依据选择波形数据,因此能够合成自然的声音。
在这里,韵律模式数据的选择可以这样进行,即利用收录包括文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典,作成输入文字串的音节信息,从韵律辞典中提取文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据的候补,对各韵律模式数据的候补,将其音节信息与输入的文字串的音节信息加以比较,分别作成韵律复原信息,依据各韵律模式数据候补的文字串及韵律复原信息,选择最合适的韵律模式数据。
这时,韵律模式数据的候补中,如果有其全部音素与输入的文字串的音素一致的候补、则以其为最佳韵律模式数据,如果没有全部音素一致的候补,则以韵律模式数据的候补中与输入文字串的音素一致的音素数目最大的候补作为最佳韵律模式数据,在一致的音素的数目为最大的候补为多个的情况下,其中的连续一致的音素数目以最大的候补作为最佳韵律模式数据,以此可以选择包含最多且连续的与输入的文字串相同位置的同一音素、即可以原封不动地利用的音素(下称复原音素)的韵律模式数据,可以进行更加自然的声音合成。
又,韵律模式数据的变形在选择的韵律模式数据的文字串与输入的文字串不一致的情况下,对于该韵律模式数据中的每一不一致的文字,根据对使用于声音合成全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度,求变形后的音节长度,以此可以使所选择的韵律模式数据的韵律信息相应于输入的文字串变形,能够合成更自然的声音。
而且,波形数据的选择利用在构成输入的文字串的各音素中,对复原的音素从波形辞典中选择韵律模式数据的相当的音素的波形数据;对其他音素则在对应的音素中,从波形辞典中选择出韵律模式数据与频率最接近的音素的波形数据,以此可以选择出与变形后的韵律模式数据最接近的波形数据,能够更自然地合成接近理想的声音。
又,本发明为了达到上述目的,提出了一种作成与输入的文字串对应的声音信息数据的声音合成装置,该装置具备,将许多包含至少一种文字的文字串及其语调类型一起收集的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以收录的声音作为合成单位的声音波形数据收录的波形辞典,决定输入的文字串的语调类型的语调类型决定装置,依据输入的文字串与其语调类型从韵律辞典中选择韵律模式数据的韵律模式选择装置,在该选择的韵律模式数据的文字串与输入的文字串不一致的情况下,使该韵律模式数据的韵律信息相应于输入文字串变化的韵律变形装置,依据韵律模式数据从波形辞典中选择与输入的文字串的各文字对应的波形数据的波形选择装置,以及把所选择的波形数据相互连接的波形连接装置。
附图说明
本发明的上述目的以及此外的其他目的、特征及利益从下述说明和附图中可以更加清楚地得到了解。
图1是表示本发明的声音合成方法的总流程图。
图2表示韵律辞典的一个例子。
图3是表示韵律模式选择处理的详细情况的流程图。
图4是表示具体的韵律模式选择处理的样子的一个例子的图。
图5是表示韵律变形处理的详细情况的流程图。
图6是表示具体的韵律变形的样子的一个例子的图。
图7是表示波形选择处理的详细情况的流程图。
图8是表示具体的波形选择处理的样子的一个例子的图。
图9是表示具体的波形选择处理的样子的一个例子的图。
图10是表示波形连接处理的详细情况的流程图。
图11是本发明的声音合成装置的功能方框图。
具体实施方式
图1表示本发明的声音合成方法的总流程。
首先,利用未图示的输入装置和游戏系统,一旦输入要合成的文字串,就根据单词辞典等决定其语调类型(s1)。在这里,所谓单词辞典是将包含至少一种文字的文字串(单词)与其语调类型一起大量收录的辞典,例如大量地把表示预料要输入的游戏者的特征的名字(实际上是名字的后面加上日语敬称“君”)的单词与其语调一起收录。
具体地决定是把输入的文字串与单词词典中收录的单词加以比较,如有相同的单词,就采用其语调,如果没有相同的单词,就采用相同拍数的单词中具有相似的文字串的单词的语调。
还有,在没有相同单词的情况下,也可以由操作者(游戏参加者)等利用未图示的输入装置从与输入的文字串相同拍数的单词中可能出现的所有的语调中任意选择决定。
接着,根据输入的文字串与语调从韵律辞典中选择韵律模式数据(s2)。这里,所谓韵律辞典是指收录表示收录单词辞典的单词的韵律信息的韵律模式数据中的代表性韵律模式数据的辞典。
接着,在所选择的韵律模式数据的文字串与输入的文字串不一致的情况下,使该韵律模式数据的韵律信息相应于输入的文字串变形(s3)。
接着,根据变形后的韵律模式数据(还有,所选择的韵律模式数据的文字串在与输入的文字串一致的情况下没有变形,因此变形后的韵律模式数据中,实际上也包含未变形的韵律模式数据),从波形辞典中选择与输入文字串的各文字对应的波形数据(s4)。这里所谓波形辞典是把收录的声音作为合成单位的声音波形数据收录的辞典,在本实施形态中,收录众所周知的VCV音素方式的声音波形数据(音素片)。
最后,把所选择的波形数据相互加以连接(s5),作成合成声音数据。
下面详细叙述韵律模式选择处理。
图2表示韵律辞典的一个例子,收录包含文字串、拍数、语调类型及音节信息的韵律模式数据,即收录与单词辞典中收录的一些文字串对应的代表性的多个韵律模式数据。这里所谓音节信息包含表示构成文字串的各种文字C相应于辅音+元音,V相应于元音,N′相应于拨间,Q′相应于促音,L相应于长音,#相应于无声的音节种类,以及表示是用ASJ(日本音响学会)表示法表示的表达声音用的记号的第几号(A(あ):1、I(い):2、U(ラ):3、E(ぇ):4、O(ぢ):5、KA(ガ):6、……)的音节编号(在图2中省略)。还有,韵律辞典实际上对于每一韵律模式数据具有构成的各音素的频率、音量、音节长度等详细信息,但是在图中省略了。
图3是韵律模式选择处理的详细流程图。
图4表示具体的韵律模式选择处理的样子的一个例子,下面详细说明。
首先,作成输入文字串的音节信息(s201)。具体地说,利用上述ASJ表示法把用平假名表示的文字串用罗马字(即利用ABC…拼音化)表示,作成由上述音节种类及音节编号构成的音节信息。例如上述图4所示,在文字串为「ガさいくん」的情况下,用罗马字拼写成「Kasaikun′」,再作成由音节种类「CCVCN′」及音节编号「6、11、2、8、98」构成的音节信息。
接着,为了以VCV音素单位看复原音素的个数,作成对于输入文字串的VCV音素串(s202)。例如上述「ガさいくん」表示为「Ka asa ai iku un」。
另一方面,从收录于韵律辞典中的韵律数据中只将输入文字串与语调类型及拍数(モ-ラ数)一致的韵律模式数据提取作为韵律模式数据的候补(s203)。例如在图2、图4的例子中为「ガまいくん」、「ささいくん」、「レさいくん」。
接着,对于各韵律模式数据候补,将其每一音节信息与输入文字串的音节信息加以比较,作成韵律复原信息(s204)。具体地说,把韵律模式数据候补与输入文字串的音节信息逐个文字加以比较,如果辅音与元音都一致,则赋予「11」的信息,辅音不同而元音一致时赋予「01」,辅音一致而元音不一致时赋予「10」,辅音与元音均不一致时赋予「00」的信息,再以VCV单位分段。
例如在图2、图4的例子中,比较信息「ガまいくん」为「11 01 11 11 11」、「ささいくん」为「01 11 11 11 11」、「レさいくん」为「00 11 11 11 11」,韵律复原信息「ガまいくん」为「11 101 111 111 111」、「ささいくん」为「01 111111 111 111」、「レさいくん」为「00 011 111 111 111」。
接着,从各韵律模式数据候补中选择一个(s205),查明该音素与输入文字串的音素在VCV单位上是否一致,即上述韵律复原信息是否是「11」或「111」。这里如果全部音素一致,就把这决定为最合适的韵律模式数据(s207)。
另一方面,即使只有一个音素不一致,就将在VCV单位一致的音素数目、即上述韵律复原信息中的「11」或「111」的数目加以比较(初始值为0)(s208),如果是最大值,则把该模式当作最合适的韵律模式数据的候补(s209)。再把按VCV单位一致的音素的连续数、即上述韵律复原信息中的「11」或「111」的连续数加以比较(初始值为0)(s210),如果是最大值,则把该模式当作最合适的韵律模式数据的候补(s211)。
把上述处理对于全部韵律模式数据候补反复进行(s212),在全部音素一致或一致的音素数最大或一致音素数目最大的模式有多个的情况下,把一致音素连续数目最大的模式决定为最合适的韵律模式数据。
如果用上述图2、图4的例子说明,文字串没有与输入的文字串相同的模式,一致的音素数目「ガまいくん」是4个,「ささいくん」是4个,「レさいくん」是3个,一致的音素的连续数目「ガまいくん」是3个,「ささいくん」是4个,因此,「ささいくん」决定为最合适的韵律模式数据。
下面对韵律变形处理进行详细叙述。
图5是韵律变形处理的详细流程图。图6是表示具体的韵律变形处理的样子的一个例子,下面进行详细叙述。
首先,对如前所述选择的韵律模式数据及输入文字串的文字从前头开始逐个文字进行选择(s301),这时,如果文字一致(s302),就照样反复进行下一文字的选择〔s303〕。在文字不一致时,按照下面所属方法求与韵律模式数据中的文字对应的变形后的音节长度,又根据需要求变形后的音量,改写韵律模式数据(s304、s305)。
变形后的音节长度y可以利用下式求得:
y=y’×(x/x’)其中x为模式数据中的音节长度,x’为与模式数据的文字对应的平均音节长度,y为变形后的音节长度,y’为与变形后的文字对应的平均音节长度。还有,平均音节长度预先对各文字求出并存储着。
图6表示输入文字串采用「さガいくん」,所选择的韵律数据采用「ガさいくん」的情况下的例子,使韵律模式数据中的文字「ガ」对应于输入文字串中的文字「さ」变形时,设文字「ガ」的音节长度为「22」,文字「さ」的音节长度为「25」,则变形后的「さ」的音节长度为:
「さ」的音节长度=「さ」的平均×(「ガ」的音节长度/「ガ」的平均)
                =25×(20/22)
                ≈23
同样,使韵律模式数据中的文字「さ」对应于输入文字串中的文字「ガ」变形时,变形后的「ガ」的音节长度为:
「ガ」的音节长度=「ガ」的平均×(「さ」的音节长度/「さ」的平均)
                =25×(30/25)
                ≈26还有,对于音量,可以与音节长度的情况一样进行计算求出并且变形,或是原封不动地使用韵律模式数据中的值。
对于韵律模式数据中的全部文字反复进行上述处理之后,将其变换为音素(VCV)信息(s306),作成各音素的连接信息(s307)。
还有,在上述输入文字串是「さガいくん」,所选择的韵律模式数据是「ガさいくん」的情况下,「い」、「く」、「ん」3个字由于其位置及音素一致,它们就成了可以原封不动利用的音素(复原音素)。
下面叙述波形选择处理的详细情况。
图7表示波形选择处理的详细流程图,下面进行详细说明。
首先,从前头起逐个选择构成输入文字串的音素(s401),如果这就是上述复原音素(s402),从波形辞典中选择如上所述选择、变形的韵律模式数据中的相当的音素的波形数据(s403)。
而如果不是复原音素,则把波形辞典中的具有相同分段记号的音素选择作为候补(s404),计算出与变形后的韵律模式数据中的相当的音素的频率差(s405)。这时,音素的V区间有2个,对此也考虑语调类型计算每一V区间的频率差的和。对全部候补将其反复进行(s406),从波形辞典选择差(或差的和)最小的候补音素的波形数据(s407)。还有,在这时也可以参考候补音素的音量,进行把数值极小的除外的处理等等。
对构成输入文字串的全部音素反复进行上述处理,(s408)。
图8、图9表示具体的波形选择处理的样子的一个例子,这里,对构成输入文字串「さガいくん」的VCV音素「sa aka ai iku un」中并非复原音素的「sa」、「aka」分别表示出变形后的韵律模式数据的相当的音素的频率及音量值,以及候补音素的频率及音量值。
具体地说,在图8中表示出变形后的韵律模式数据中的音素「sa」的频率「450」及音量值「1000」,以及候补音素,在这里是3个候补音素「sa-001」、「sa-002」、「sa-003」的频率「440」、「500」、「400」及音量值「800」、「1050」、「950」,在这种情况下,选择频率为440的最接近的候补音素「sa-001」。
又,在图9中,表示出变形后的韵律模式数据中的音素「aka」V区间1的频率「450」及音量值「1000」及V区间2的频率「400」及音量值「800」,以及候补音素,在这里是2个候补音素「aka-001」、「aka-002」的V区间1的频率「400」、「460」及音量值「1000」、「800」以及V区间2的频率「450」、「410」及音量值「800」、「1000」,在这种情况下,选择V区间1及V区间2每一频率差的和(对于候补音素「aka-001」为|450-400|+|400-450|=100,对于候补音素「aka-002」为|450-460|+|400-410|=20)为最小的候补音素「aka-002」。
图10表示波形连接处理的详细流程图,下面进行详细说明。
首先,从前头起逐个选择如上所述选择的音素的波形数据(s501),设定连接的候补位置(s502),这时,如果连接是能够复原的(s503),就以复原连接信息为依据进行连接(s504)。
又,如果不能复原,就判断音节长度(s505),与其相应,按照各种连接方法(元音区间连接、长音连接、无声化音节连接、促音连接、拨音连接等)进行连接(s506)。
对全部音素的波形数据反复进行上述处理(s507),作成合成声音数据。
图11表示本发明的声音合成装置的功能块图,在图中,11是单词辞典,12是韵律辞典,13是波形辞典,14是语调类型决定装置,15是韵律模式选择装置,16是韵律变形装置,17是波形选择装置,18是波形连接装置。
单词辞典11大量地将包含至少一种文字的文字串(单词)与其语调类型一起收录。而韵律辞典12收录包含文字串、拍数、语调类型及音节信息的韵律模式数据、相对于单词辞典中收录的一些文字串的代表性的多个韵律模式数据。波形辞典13把收录的声音作为合成单位的声音波形数据收录。
语调类型决定装置14所进行的处理是,将由输入装置或游戏系统等输入文字串与单词辞典11中收录的单词加以比较,如果有相同的单词,就将其语调类型决定为所述文字串的语调类型,如果没有相同的单词,就把具有类似的文字串的单词的语调类型决定为所述文字串的语调类型等处理。
韵律模式选择装置15进行的处理是,作成输入文字串的音节信息,从韵律辞典12中提取输入文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据候补,对各韵律模式数据的候补比较其音节信息与输入文字串的音节信息,分别作成韵律复原信息,依据韵律模式数据候补的文字串及韵律复原信息,选择最合适的韵律模式数据等处理。
韵律变形装置16进行的处理是,在所选择的韵律模式数据的文字串与输入文字串不一致的情况下,对该韵律模式数据中的每一不一致的文字,从对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度求变形后的音节长度的处理。
变形选择装置17进行的处理是这样的处理,即在构成输入文字串的各音素中,对于复原音素,从波形辞典中选择变形后的韵律模式数据中的相当的音素的波形数据,对于其他音素,从波形辞典中选择对应的音素中变形后的韵律模式数据与频率最接近的音素的波形数据。
波形连接装置18进行将所选择的波形数据相互连接作成合成声音数据的处理。
本说明书所述的最佳实施形态是一些例子,而本发明不限于此。本发明的范围根据权利要求书所示,这些权利要求的内容的全部变形例都属于本发明。

Claims (10)

1.一种声音合成方法,作成与输入文字串对应的声音信息数据,其特征在于,
使用将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典,
决定输入文字串的语调类型,
依据输入文字串与其语调类型从韵律辞典选择韵律模式数据,
在该选择的韵律模式数据的文字串与输入文字串不一致的情况下,使该韵律模式数据的韵律信息迎合输入文字串变形,
依据韵律模式数据从波形辞典选择与输入文字串的各文字对应的波形数据,
将该选择的波形数据相互连接。
2.根据权利要求1所述的声音合成方法,其特征在于,
使用收录包含文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典,
作成输入文字串的音节信息,
从韵律辞典中提取输入文字串与拍数及语调一致的韵律模式数据作为韵律模式数据的候补,
对各韵律模式数据的候补,将其音节信息与输入文字串的音节信息加以比较,分别作成韵律复原信息,
依据各韵律模式数据候补的文字串及韵律复原信息,选择最合适的韵律模式数据。
3.根据权利要求2所述的声音合成方法,其特征在于,
在韵律模式数据的候补中,如果有其全部音素与输入文字串的音素一致的候补,则将其作为最合适的韵律模式数据,
如果没有全部音素一致的候补,则将该韵律模式数据候补中与输入文字串的音素一致的音素数目最大的候补作为最合适的韵律模式数据,
在一致的音素数目最大的候补有多个的情况下,以其中的连续一致的音素的数目最大的候补作为最合适的韵律模式数据。
4.根据权利要求1所述的声音合成方法,其特征在于,
在所述选择的韵律模式数据的文字串与输入文字串不一致的情况下,对于该韵律模式数据中的每一不一致的文字,根据对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度,求变形后的音节长度。
5.根据权利要求1所述的声音合成方法,其特征在于,在构成输入文字串的各音素中,对于与韵律模式数据位置及音素一致的音素,从波形辞典中选择韵律模式数据中的相当的音素的波形数据,对于其他音素,则从波形辞典中选择对应的音素中韵律模式数据与频率最接近的音素的波形数据。
6.一种声音合成装置,作成与输入文字串对应的声音信息数据,其特征在于,具备
将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典,
决定输入文字串的语调类型的语调类型决定装置,
依据输入文字串与其语调类型从韵律辞典选择韵律模式数据的韵律模式选择装置,
在该选择的韵律模式数据的文字串与输入文字串不一致的情况下,使该韵律模式数据的韵律信息迎合输入文字串变形的韵律变形装置,
依据韵律模式数据从波形辞典选择与输入文字串的各文字对应的波形数据的波形选择装置,
将该选择的波形数据相互连接的波形连接装置。
7.根据权利要求6所述的声音合成装置,其特征在于,还具备
收录包含文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典,以及
作成输入文字串的音节信息,从韵律辞典中提取输入文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据的候补,对各韵律模式数据的候补,将其音节信息与输入文字串的音节信息加以比较,分别作成韵律复原信息,依据各韵律模式数据候补的文字串及韵律复原信息,选择最合适的韵律模式数据的韵律模式选择装置。
8.根据权利要求7所述的声音合成装置,其特征在于,
在韵律模式数据的候补中,如果有其全部音素与输入文字串的音素一致的候补,则将其作为最合适的韵律模式数据,
如果没有其全部音素一致的候补,则将该韵律模式数据候补中与输入文字串的音素一致的音素数目最大的候补作为最合适的韵律模式数据,
在一致的音素数目最大的候补有多个的情况下,以其中的连续一致的音素的数目最大的候补作为最合适的韵律模式数据。
9.根据权利要求6所述的声音合成装置,其特征在于,还具备
在所述选择的韵律模式数据的文字串与输入文字串不一致的情况下,对于该韵律模式数据中的每一不一致的文字,根据对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度,求变形后的音节长度的韵律变形装置。
10.根据权利要求6所述的声音合成装置,其特征在于,还具备
在构成输入文字串的各音素中,对于与韵律模式数据位置及音素一致的音素,从波形辞典中选择韵律模式数据中的相当的音素的波形数据,对于其他音素,则从波形辞典中选择对应的音素中韵律模式数据与频率最接近的音素的波形数据的波形选择装置。
CN00121651A 1999-07-23 2000-07-21 声音合成方法和声音合成装置 Expired - Fee Related CN1108603C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP20860699A JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP208606/1999 1999-07-23

Publications (2)

Publication Number Publication Date
CN1282018A CN1282018A (zh) 2001-01-31
CN1108603C true CN1108603C (zh) 2003-05-14

Family

ID=16559004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00121651A Expired - Fee Related CN1108603C (zh) 1999-07-23 2000-07-21 声音合成方法和声音合成装置

Country Status (8)

Country Link
US (1) US6778962B1 (zh)
EP (1) EP1071074B1 (zh)
JP (1) JP3361291B2 (zh)
KR (1) KR100403293B1 (zh)
CN (1) CN1108603C (zh)
DE (1) DE60035001T2 (zh)
HK (1) HK1034130A1 (zh)
TW (1) TW523733B (zh)

Families Citing this family (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7353164B1 (en) 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7912718B1 (en) 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100934288B1 (ko) * 2007-07-18 2009-12-29 현덕 한글을 이용한 음원 생성 방법 및 장치
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6567372B2 (ja) * 2015-09-15 2019-08-28 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082230A (zh) * 1992-08-08 1994-02-16 凌阳科技股份有限公司 声音合成的程序字控制器
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
EP0831460A2 (en) * 1996-09-24 1998-03-25 Nippon Telegraph And Telephone Corporation Speech synthesis method utilizing auxiliary information

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP3397406B2 (ja) * 1993-11-15 2003-04-14 ソニー株式会社 音声合成装置及び音声合成方法
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
KR970060042A (ko) * 1996-01-05 1997-08-12 구자홍 음성합성방법
AU1941697A (en) * 1996-03-25 1997-10-17 Arcadia, Inc. Sound source generator, voice synthesizer and voice synthesizing method
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout &amp; Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082230A (zh) * 1992-08-08 1994-02-16 凌阳科技股份有限公司 声音合成的程序字控制器
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
EP0831460A2 (en) * 1996-09-24 1998-03-25 Nippon Telegraph And Telephone Corporation Speech synthesis method utilizing auxiliary information

Also Published As

Publication number Publication date
HK1034130A1 (en) 2001-10-12
JP3361291B2 (ja) 2003-01-07
CN1282018A (zh) 2001-01-31
DE60035001D1 (de) 2007-07-12
KR100403293B1 (ko) 2003-10-30
EP1071074A3 (en) 2001-02-14
KR20010021106A (ko) 2001-03-15
JP2001034283A (ja) 2001-02-09
EP1071074A2 (en) 2001-01-24
US6778962B1 (en) 2004-08-17
EP1071074B1 (en) 2007-05-30
TW523733B (en) 2003-03-11
DE60035001T2 (de) 2008-02-07

Similar Documents

Publication Publication Date Title
CN1108603C (zh) 声音合成方法和声音合成装置
CN1260704C (zh) 语音合成方法
CN1117344C (zh) 声音合成方法和装置、用于声音合成的词典构筑方法
CN1176456C (zh) 数据档案系统中基于语义单元的自动索引和搜索方法及设备
US6188984B1 (en) Method and system for syllable parsing
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1333501A (zh) 一种动态汉语语音合成方法
CN1811912A (zh) 小音库语音合成方法
CN1032391C (zh) 基于波形编辑的汉语文字-语音转换方法及系统
CN1078565A (zh) 汉语和日语的双向机械翻译机
CN1787072A (zh) 基于韵律模型和参数选音的语音合成方法
CN1661673A (zh) 语音合成装置、方法和记录语音合成程序的记录介质
CN100337104C (zh) 语音合成装置、方法和记录语音合成程序的记录介质
CN1666253A (zh) 利用优化音素集进行普通话语音识别的系统和方法
EP1668630B1 (en) Improvements to an utterance waveform corpus
JP3314058B2 (ja) 音声合成方法及び装置
CN1257444C (zh) 计算机汉语全音输入法
CN1238805C (zh) 用于压缩语音库的方法和装置
CN1162836C (zh) 确定一系列声音模块以合成调性语言的语言信号的方法
CN1682281A (zh) 在语音合成中用于控制持续时间的方法
CN1674092A (zh) 连续数字识别的声韵母跨词建模、解码方法及系统
CN1299504A (zh) 包括子字存储器的语音识别设备
CN1979636A (zh) 一种音标到语音的转换方法
CN1211778C (zh) 基于乐器数字接口算法的汉语语音合成方法
JP3870583B2 (ja) 音声合成装置および記憶媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030514

Termination date: 20150721

EXPY Termination of patent right or utility model