CN103578464A

CN103578464A - 语言模型的建立方法、语音辨识方法及电子装置

Info

Publication number: CN103578464A
Application number: CN201310489580.0A
Authority: CN
Inventors: 张国峰
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2013-10-18
Filing date: 2013-10-18
Publication date: 2014-02-12
Anticipated expiration: 2033-10-18
Also published as: US20150112679A1; US20160314783A1; TWI532035B; US9711138B2; TW201517017A; US9711139B2; CN103578464B

Abstract

一种语言模型的建立方法、语音辨识方法及电子装置，其中语音辨识方法包括：根据声学模型获得语音信号的音标序列；依据音标序列以及音节声学词典，获得符合音标序列的多个拼音；依据这些拼音，自语言模型中获得多个文字序列及多个文字序列概率；以及，选择文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果。其中依据这些拼音获得文字序列及文字序列概率的步骤包括：将各拼音与备选句子列表进行匹配，而获得各拼音与多个备选句子中的各单词对应的单词拼音概率；以及并计算这些拼音所对应的单词拼音概率，而获得所述文字序列概率。本发明能够消除语音映射到文字所产生的歧义性，而保留原始语音输入的信息，使得语音辨识更加精准。

Description

语言模型的建立方法、语音辨识方法及电子装置

技术领域

本发明有关于一种语音辨识技术，且特别是有关于一种可用于识别不同语言、方言或发音习惯所发出的语音的语言模型的建立方法、语音辨识方法及其电子装置。

背景技术

语音辨识（speech recognition）毫无疑问的是一种热门的研究与商业课题。语音辨识通常是对输入的语音取出特征参数，再与数据库的样本相比对，找出与输入的语音相异度低的样本并取出。

目前常见做法大都是先采集语音语料（如录下来的人的语音），然后由人工进行标注（即，对每一句语音标注上对应的文字），然后使用这些语料来训练声学模型（acoustic model）和声学词典（transcription-syllable module）。其中，在训练声学模型和声学词典时，利用对应于多个词汇的多个语音语料以及这些词汇于字典中标注的多个音标来进行训练，借以获得声学模型和声学词典中与上述音标相对应的多个语音语料的数据。

然而，目前作法存在如下问题。问题1：由于声学模型中用以训练的词汇的音标，是来自于字典上所标注的音标，因此倘若用户的非标准发音（如翘舌音不分、前后鼻音不分等）进入声学模型，则这些发音会有很高的机率无法符合字典上所标注的音标，因而造成声学模型的模糊性变大。如拼音“in”在声学模型中会给出比较大的概率为“ing”，而为了向不标准发音妥协，会导致整体错误率的升高。问题2：由于不同地区的发音习惯不同，非标准发音有多种变形，导致声学模型的模糊性变得更大，因而使得识别准确率的进一步降低。问题3：无法识别方言，如标准汉语、沪语、粤语、闽南语等。问题4：无法识别容易读错的字，如一丘之貉（hé），很多人会把它念成（hè）。问题5：由于声学词典会将音标转换成字汇，因此会丢失了很多语音信息（如重音的位置），进而影响到意图识别的准确率，这将导致语义识别的错误率上升。

发明内容

本发明提供一种语言模型的建立方法、语音辨识方法及电子装置，其可消除语音映射到文字所产生的歧义性，以准确地辨识来自不同语言、方言或不同发音习惯的语音信号所对应的语言及语义。

本发明提出一种语言模型的建立方法，用于电子装置。语言模型的建立方法包括以下步骤。接收多个备选句子，以及根据语料库，获得与各备选句子中的各单词符合的多个拼音以及多个单词拼音概率，借以获得这些备选句子所对应的备选句子列表。

本发明提出一种语音辨识方法，用于电子装置。语音辨识方法包括以下步骤。首先，根据声学模型获得语音信号的多个音标，其中音标包括多个音素。并且，依据各音标以及音节声学词典，获得符合音标的多个拼音。接着，依据这些拼音，自语言模型中获得多个文字序列及多个文字序列概率，其中此步骤包括将各拼音与备选句子列表进行匹配，而获得各拼音与多个备选句子中的各单词对应的单词拼音概率，以及计算这些拼音所对应的单词拼音概率，而获得所述文字序列概率，其中对应于所述文字序列概率的备选句子为所述文字序列。最后，选择文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果。

本发明另提出一种电子装置，其包括储存单元以及处理单元。储存单元储存多个程序码片段。处理单元耦接至输入单元以及储存单元。处理单元通过所述程序码片段来执行多个指令。这些指令包括：接收多个备选句子，以及根据语料库，获得与各备选句子中的各单词符合的多个拼音以及多个单词拼音概率，借以获得所述备选句子所对应的备选句子列表。

本发明另提出一种电子装置，其包括输入单元、储存单元以及处理单元。输入单元接收语音信号。储存单元储存多个程序码片段。处理单元耦接至输入单元以及储存单元，其中处理单元通过所述程序码片段来执行多个指令。这些指令包括：根据声学模型获得语音信号的多个音标，所述音标包括多个音素。依据各音标以及音节声学词典，获得符合音标的多个拼音。依据所述拼音，自语言模型中获得多个文字序列及多个文字序列概率，其中处理单元所执行的这些指令包括：将各拼音与备选句子列表进行匹配，而获得各拼音与多个备选句子中的各单词对应的单词拼音概率，并计算这些拼音所对应的单词拼音概率，而获得所述文字序列概率，其中对应于所述文字序列概率的备选句子为所述文字序列。最后，选择所述文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果。

基于上述，当电子装置进行语音信号的语音辨识时，可根据声学模型获得符合真实发音的多个音标，以及在音节声学词典中获得符合音标的拼音。并且，电子装置会依据每个拼音，自语音模型中找出符合这些拼音的文字序列与文字序列概率，并从这些文字序列概率中最大者所对应的文字序列，来作为辨识结果。如此一来，本发明可依据语音输入的真实发音所对应的拼音来进行拼音到文字的辨识，借以消除语音映射到文字所产生的歧义性，而保留原始语音输入的信息，使得语音辨识更加精准。

附图说明

图1是依照本发明一实施例的电子装置的方块图。

图2是依照本发明一实施例的语音辨识模组的示意图。

图3是依照本发明一实施例所绘示的语音辨识方法的流程图。

图4是依照本发明一实施例的语音辨识模组的示意图。

图5是依照本发明一实施例所绘示的语音辨识方法的流程图。

图6是依照本发明一实施例所绘示的语音辨识方法的流程图。

附图中符号的简单说明如下：

100：电子装置

110：处理单元

120：储存单元

130：输入单元

140：输出单元

21、41：语音数据库

22、42：语料库

200、400：语音辨识模组

210、410：声学模型

220：声学词典

230、430：语言模型

240、440：解码器

420：音节声学词典

S1、S2：语音信号

S310、S320、S330、S340、S350、S510、S520、S530、S540、S550、S610、S620、S630、S640、S650：步骤。

具体实施方式

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

在传统语音辨识方法中，普遍存在以下问题，即，由于在不同地区的方言中的模糊音、使用者发音习惯的不同、或是不同的语言，会导致辨识率的精准度受到影响。此外，由于现有技术中的语音辨识一般是以文字输出，因而丢失了很多语音信息，例如随音调而异的语义表达。再者，在发音到文字的映射过程中，现有技术一般使用的概率是某个音是某个词的概率，因此相同的音会被映射到所有的同音字，而导致发音转文字时的错误率上升。为此，本发明提出一种语言模型的建立方法、语音辨识方法及其电子装置，可在原有语音识别的基础上，改进辨识率的精准度。为了使本发明的内容更为明了，以下特举诸实施例作为本发明确实能够据以实施的范例。

图1是依照本发明一实施例的电子装置的方块图。请参照图1，电子装置100包括处理单元110、储存单元120以及输入单元130，也可包括输出单元140。

电子装置100例如是移动电话（Cell phone）、个人数字助理（PersonalDigital Assistant，PDA）手机、智能手机（Smart phone）、掌上型电脑（PocketPC）、平板型电脑（Tablet PC）、笔记型电脑、个人电脑，车载电脑等具有运算功能的装置，在此并不限制其范围。

处理单元110耦接至储存单元120及输入单元130。处理单元110为具备运算能力的硬件（例如晶片组、处理器等），用以执行电子装置100中的硬件、固件以及处理软件中的数据。在本实施例中，处理单元110例如是中央处理单元（Central Processing Unit，CPU），或是其它可编程的微处理器（Microprocessor）、数字信号处理器（Digital Signal Processor，DSP）、可编程控制器、特殊应用集成电路（Application Specific Integrated Circuits，ASIC）、可编程逻辑装置（Programmable Logic Device，PLD）或其它类似装置。

储存单元120可储存一个或多个用来执行语音辨识方法的程序码以及数据（例如，使用者所输入的语音信号、执行语音辨识所需的声学模型（acousticmodel）、音节声学词典（acoustic lexicon）、语言模型（language model）及语料库等）等等。在本实施例中，储存单元120例如为非易失性存储器（Non-volatile memory，NVM）、动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）或静态随机存取存储器（Static Random AccessMemory，SRAM）等。

输入单元130例如为麦克风，用以接收使用者的声音，而将使用者的声音转换为语音信号。

在此，本实施例可以以程序码来实现电子装置100的语音辨识方法。具体而言，储存单元120中可储存有多个程序码片段，而上述程序码片段在被安装后，处理单元110会通过这些程序码片段来执行多个指令，借以实现本实施例的声学模型的建立方法以及语音辨识方法。更进一步地说，处理单元110会通过执行程序码片段中的多个指令，来建立声学模型、音节声学词典以及语言模型，并通过上述程序码片段来驱动语音辨识模组，以利用声学模型、音节声学词典以及语言模型来执行本实施例的语音辨识方法。其中，所述语音辨识模组可以是以计算机程序码来运行，或者在本发明另一实施例中，所述语音辨识模组可由一个或多个逻辑门组合而成的硬件电路来运行。据此，本实施例的处理单元110会将输入单元130所接收的语音信号通过上述语音辨识模组来进行语音辨识，以利用声学模型、音节声学词典以及语言模型而获得多个字串概率及多个字串。并且，处理单元110会选出字串概率中最大者所对应的字串，以作为语音信号的辨识结果。

另外，本实施例还可包括输出单元140，以输出语音信号的辨识结果。输出单元140例如为阴极射线管（Cathode Ray Tube，CRT）显示器、液晶显示器（Liquid Crystal Display，LCD）、等离子显示器（Plasma Display）、触控显示器（Touch Display）等显示单元，以显示所获得的字串概率中最大者所对应的候选字串。或者，输出单元140亦可以是扬声器，以播放所获得的字串概率中最大者所对应的候选字串。

需说明的是，本实施例的处理单元110会针对不同的语言、方言或发音习惯，分别建立上述声学模型、音节声学词典与语言模型，并将这些模型与词典存放于储存单元120。

详细而言，声学模型例如是一个统计分类器，其可利用混合高斯模型，以将所接收到的语音信号，解析成基本的音素（Phone），并将各音素分类至对应的基本音标。其中，声学模型可包括用来识别不同语言、方言或发音习惯的语音输入所对应的基本音标、音间过渡以及一些非语音的音素（例如咳嗽声等）。音节声学词典通常是由被识别语言的单词组成，一般可采用隐藏式马可夫模型（Hidden Markov Model，HMM）将声学模型输出的音标组成单词，其中对于单音节语言（例如中文），通常可通过音节声学词典以将声学模型所输出的音标转换成对应的词汇。语言模型（language model）主要是利用概率统计的方法来揭示语言单位内在的统计规律，其中N元语法（N-Gram）简单有效而被广泛使用。

以下举一实施例来说明。

图2是依照本发明一实施例的语音辨识模组的示意图。请参照图2，语音辨识模组200主要包括声学模型210、音节声学词典220、语言模型230以及解码器240。其中，声学模型210与音节声学词典是由语音数据库21经训练而获得，语言模型230是由语料库（text corpus）22经训练而获得。在本实施例中，语音数据库21以及语料库22具有多个语音信号，而这些语音信号例如是来自不同语言、方言或发音习惯的语音输入。

请同时参照图1与图2，声学模型210用以辨识来自不同语言、方言或发音习惯的语音信号，以识别出与语音信号的发音相符合的多个音标。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得声学模型210。详言之，处理单元110可自语音数据库21接收多个语音信号，以及接收与语音信号中发音相符合的多个音标，其中对应于各音标的发音具有多个音素。并且，处理单元110会依据语音信号与音标进行训练，而获得声学模型210中与音标相对应的多个音素的数据。更具体而言，处理单元110可从语音数据库21中取得不同语言、方言或发音习惯的语音输入所对应的语音信号，解析出各语音信号的音素以获得对应于各语音信号的特征参数。之后，再利用这些特征参数与已标注对应音标的语音信号进行训练，而获得语音信号的特征参数与音标相符合的关系，进而建立声学模型210。

音节声学词典220具有多个词汇，以及各音标与各词汇匹配的模糊音概率。在此，处理单元110可通过音节声学词典220而查询出与各音标相符的多个词汇，以及每一个词汇与其相匹配的音标之间的模糊音概率。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得音节声学词典。详言之，处理单元110可根据语音信号的音标与语音信号分别对应的词汇进行训练，而获得各音标与各词汇匹配的模糊音概率。值得一提的是，处理单元110亦会对语音信号中的每一音标标注对应的编码。也就是说，对于每一具有发音相异而字形相同的词汇（即多音字）而言，此词汇对应于每一种发音具有不同的音标，并且，此词汇具有至少一编码，而每一编码对应于这些相异音标的其中之一。如此一来，本实施例的音节声学词典220可包括来自不同发音的语音输入的音标所对应的词汇，以及各音标所对应的编码。

语言模型230是基于历史信息的模型（History-based Model）的设计理念，即，根据经验法则，统计先前已出现的一连串事件与下一个出现的事件之间的关系。在此，语言模型230用以依据不同词汇的编码，以辨识出与此编码相符合的字串以及此编码与此字串相符合的字串概率。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的多个语料，经由训练而获得语言模型230，其中所述语料具有多个发音的语音输入以及此语音输入对应的字串。在此，处理单元110会自语料库22获得字串，并且将字串与字串的词汇所分别对应的编码进行训练，而获得编码与各字串匹配的数据。

解码器240是语音辨识模组200的核心之一，其任务是对输入的语音信号，根据声学模型210、音节声学词典220以及语言模型230，寻找能够以最大概率输出的字串。举例来说，利用声学模型210获得对应的音素（phone）或音节（syllable），再由音节声学词典220来获得对应的字或词，之后由语言模型230来判断一连串的字成为句子的概率。

以下即搭配上述电子装置100与语音辨识模组200来说明本发明的语音辨识方法。图3是依照本发明一实施例所绘示的语音辨识方法的流程图。请同时参照图1、图2与图3，本实施例中的语音辨识方法，适于通过电子装置100来对语音信号进行语音辨识。其中，处理单元110能针对不同的语言、方言或发音习惯，利用声学模型210、音节声学词典220、语言模型230以及解码器240以自动地辨识出语音信号所对应的语言。

于步骤S310中，输入单元130接收语音信号S1，其中语音信号S1例如是来自使用者的语音输入。更具体而言，语音信号S1例如为单音节语言的语音输入，而单音节语言例如为中文。

于步骤S320中，处理单元110会根据声学模型210获得语音信号S1的多个音标，其中音标包括多个音素。在此，对于单音节语言来说，语音信号S1中的各音节具有多个音素，而音节会对应于的一个音标。举例来说，以“前进”这两单词而言，它的音节为“前”与“进”，以及具有“ㄑ”、“ㄧㄢ”、“ˊ”、“ㄐ”、“ㄧㄣ”及“ˋ”这些音素。其中，“ㄑ”、“ㄧㄢ”及“ˊ”可对应于音标“qián”，而“ㄐ”、“ㄧㄣ”及“ˋ”可对应于音标“jìn”。

在本实施例中，处理单元110可根据预先设定，从声学模型210中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。在此，处理单元110可利用声学模型210，并选择训练数据中的语音信号以及这些语音信号所对应的基本音标，来查询出符合语音信号S1的多个音标。

详言之，上述预先设定指的是电子装置100被设定为依据哪一种发音来进行语音辨识。举例来说，假设电子装置100被设定为依据北方人的发音习惯来进行语音辨识，则处理单元110会在声学模型210中，选择由北方人的发音习惯所训练而成的训练数据。类似地，假设电子装置100被设定为进行闽南语的语音辨识，则处理单元110会在声学模型210中选择由闽南语所训练而成的训练数据。上述所列举的预先设定为举例说明，于其它实施例中，电子装置100亦可被设定为依据其它语言、方言或发音习惯来进行语音辨识。

进一步而言，处理单元110会根据所选择的声学模型210以及语音信号S1中的音素，计算语音信号S1中的音素与每一个基本音标相符的音标匹配概率。尔后，处理单元110会从所计算出的这些音标匹配概率中，选择音标匹配概率中最大者所对应的各基本音标，以作为语音信号S1的音标。更具体来说，处理单元110可将所接收到语音信号S1切割为多个音框，而这些音框中的两相邻音框之间可以有一段重叠区域。之后，再从每个音框中取出特征参数而获得一特征向量。例如，可利用梅尔倒频谱系数（Mel-frequency CepstralCoefficients，MFCC）自音框中取出36个特征参数，而获得一个36维的特征向量。在此，处理单元110可将语音信号S1的特征参数与声学模型210所具有的音素的数据进行匹配，以计算出语音信号S1中的各音素与相符的各基本音标之间的音标匹配概率。如此一来，处理单元110可在这些音标匹配概率选择最大者所对应的各基本音标，以作为语音信号S1的音标。

于步骤S330中，处理单元110会根据各音标以及音节声学词典220，获得符合音标的多个词汇。其中，音节声学词典220具有音标对应的词汇，而各词汇具有至少一编码，且对应于具有相异音标而字型相同的词汇（即多音字）而言，此词汇的各编码分别对应于词汇的其中的一音标。

在此，处理单元110亦可根据预先设定，从音节声学词典220中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。并且，处理单元110会依据自音节声学词典220中所选择的训练数据与语音信号S1的各音标，而获得音标与各词汇匹配的模糊音概率。需说明的是，由于多音字可因不同语言、方言或发音习惯而具有不同的音标，因此在音节声学词典220中，每一种音标所对应的词汇皆会具有模糊音概率，其中模糊音概率会因不同语言、方言或发音习惯而改变。换言之，经由不同语言、方言或发音习惯所训练的训练数据，音节声学词典220中的各种音标与对应的词汇会具有不同的模糊音概率。

举例来说，当预先设定为选择音节声学词典220中，以北方人的发音训练而成的训练数据时，则对于音标为“fú”而言，其对应的词汇有较大的模糊音概率为“福”、“符”、“芙”等字，而“fú”对应的词汇则有较低的模糊音概率为“胡”、“湖”、“壶”等字。又例如，当预先设定为选择音节声学词典220中，以大多数人习惯的发音训练而成的训练数据时，则对于音标为“hè”而言，其对应的词汇有较大的模糊音概率为“贺”、“荷”以及“貉”等字。值得一提的是，由于大多数人习惯将“一丘之‘貉’”中的‘貉（ㄏㄜˋ）’这个词汇的发音念成“ㄏㄜˋ”，因此，在“hè”对应至“貉”的模糊音概率仍会较高。如此一来，通过选择模糊音概率中最大者所对应的词汇，处理单元110可依据特定的语言、方言或发音习惯，获得语音信号S1中的各音标相匹配的词汇。

另一方面，由于具有不同发音的多音字，其依据不同的发音会有不同的涵义，因此在本实施例中，对应于具有相异音标而字型相同的多音字而言，处理单元110可取得每一词汇的编码，借以区别每一词汇的不同发音。以多音字“长”这个词汇为例，其汉语发音的音标可例如为“cháng”、“zhǎng”，而对于不同方言或发音习惯来说，“长”的音标亦可例如是“cêng”、“zêng”（粤音）。因此，对于上述“长”的音标，则音节声学词典会将这些音标对应至四种编码，例如“c502”、“c504”、“c506”以及“c508”。此处所指的编码仅为举例说明，其编码亦可以其它形式（如数值、字母或符号其中之一或其组合）来呈现。换言之，本实施例的音节声学词典220可将多音字视为不同的词汇，借以使得多音字在语言模型230中可对应到具有不同涵义的字串。如此一来，当处理单元110利用音节声学词典220以获得具有不同音标的多音字时，由于此多音字所具有的不同音标会对应到不同的编码，因此处理单元110可区别出此多音字的不同发音，借以保留此多音字于不同发音时的歧异性。

于步骤S340中，处理单元110会依据各词汇的编码，自语言模型230中获得多个字串及多个字串概率。详细而言，语言模型230用以依据不同词汇的编码，以辨识出与此编码相符合的字串以及此编码与此字串相符合的字串概率。因此，处理单元110可依据自音节声学词典220所获得的词汇的编码，通过语言模型230来计算此编码符合各字串的字串概率。其中，倘若处理单元110计算出的字串概率较低，则表示此编码所对应的音标用于这个字串的机率甚低。反之，倘若处理单元110计算出的字串概率较高，则表示此编码所对应的音标有很大的机率是对应于这个字串。

同样以多音字“长”这个词汇为例，其音标（例如“cháng”、“zhǎng”、“cêng”及“zêng”等）所对应的编码可例如为“c502”、“c504”、“c506”以及“c508”等。在此，假设南京的市长的名字为江大桥，若音标为“zhǎng”所对应的编码“c504”于“…南京市‘长（ㄓㄤˇ）’江大桥…”这个字串中的字串概率很高，则处理单元110会判断音标为“zhǎng”的“长”这个词汇，在“南京市‘长’江大桥”中出现的概率很大，且“长”前面所接的词汇为“市”的概率亦高。并且，此时处理单元110会判断出音标“zhǎng”所对应的编码“c504”于“南京是‘长（ㄔㄤˊ）’江大桥的…”这个字串中的字串概率较低。

从另一观点看，若音标为“cháng”所对应的编码“c502”于“南京是‘长（ㄔㄤˊ）’江大桥的…”这个字串中的字串概率较高时，则处理单元110会判断音标为“cháng”的“长”这个词汇，在“南京是‘长’江大桥的…”中出现的概率很大，且“长”前面所接的词汇为“是”的概率亦高。此时，处理单元110便会判断音标“cháng”所对应的编码“c502”于“南京市‘长（ㄓㄤˇ）’江大桥”这个字串中的字串概率会较低。

再举一例，对于“长”这个词汇而言，其音标可为“cháng”或“zhǎng”等。虽然一般来说，当“长”这个词汇前面接“市”这个词汇时，“长”通常是以音标“zhǎng”来发音，但也有可能是以音标“cháng”来发音。例如，“南京市长江大桥”可以指的是“‘南京市’-‘长（ㄔㄤˊ）江大桥’”，亦可指的是“‘南京’-‘市长（ㄓㄤˇ）’-‘江大桥’”。因此，处理单元110会依据音标“cháng”所对应的编码“c502”，以及音标“zhǎng”所对应的编码“c504”，根据语言模型230来计算编码“c502”与“c504”在“南京市长江大桥”这个字串中的字串概率。

举例来说，倘若对应于音标“cháng”的编码“c502”在“南京市长江大桥”这个字串中的字串概率较高，则表示音标为“cháng”的“长”这个词汇在“‘南京市’-‘长（ㄔㄤˊ）江大桥’”的概率亦较高。或者，倘若对应于音标“zhǎng”的编码“c504”在“南京市长江大桥”这个字串中的字串概率较高，则表示音标为“zhǎng”的“长”这个词汇在“‘南京’-‘市长（ㄓㄤˇ）’-‘江大桥’”的概率亦会较高。

接后，于步骤S350中，处理单元110会选择字串概率中最大者所对应的字串，以作为语音信号S1的辨识结果S2。举例来说，处理单元110例如是计算每一来自音节声学词典220的模糊音概率与来自语言模型230的字串概率的乘积为联合概率，以选择模糊音概率与字串概率的联合概率中最大者所对应的字串，来作为语音信号S1的辨识结果S2。也就是说，处理单元110不限于从音节声学词典220中选择与音标最相符的词汇，而是处理单元110可依据从音节声学词典220所获得的与音标相符合的多个词汇以及其编码，并在语言模型230中选择字串概率最大者来作为辨识结果S2。当然，本实施例的处理单元110亦可分别在音节声学词典220中选择模糊音概率中最大者所对应的词汇，以作为语音信号的各音标所匹配的词汇，并且根据所述匹配的词汇的编码来计算各编码于语言模型230中所获得的字串概率，来计算模糊音概率与字串概率的乘积为联合概率，借以从联合概率中选出最大者所对应的字串。

具体而言，同样以多音字“长”这个词汇以及“南京市长江大桥”这个词汇为例，其中“长”的音标例如为“cháng”、“zhǎng”、“cêng”及“zêng”等，且其音标所分别对应的编码例如为“c502”、“c504”、“c506”以及“c508”等。在此，当音标“cháng”经音节声学词典220所获得的词汇为“长”的模糊音概率较高时，处理单元110会依据“长”以及音标“cháng”所对应的编码“c502”，在语言模型230中选择字串概率最高者所对应的字串为辨识结果。举例来说，倘若“长”的编码“c502”在“南京是‘长（ㄔㄤˊ）’江大桥的…”中出现的字串概率为最大时，则处理单元110可获得“南京是‘长’江大桥的…”这个字串为辨识结果。然而，倘若“长”的编码“c502”在“‘南京市’-‘长（ㄔㄤˊ）江大桥’”中出现的字串概率为最大时，则处理单元110可获得“‘南京市’-‘长（ㄔㄤˊ）江大桥’”这个字串为辨识结果。或者，当音标“zhǎng”经音节声学词典220所获得的词汇为“长”的模糊音概率较高时，处理单元110会依据“长”以及音标“zhǎng”所对应的编码“c504”，在语言模型230中选择字串概率最高者所对应的字串为辨识结果。举例来说，倘若“长”的编码“c504”在是“‘南京’-‘市长’-‘江大桥’”中出现的字串概率为最大时，则处理单元110可获得是“‘南京’-‘市长’-‘江大桥’”个字串为辨识结果。如此一来，电子装置100不仅可依序到音标和音标所对应的词汇输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与词汇匹配的模糊音概率。并且根据此词汇的编码，电子装置100可获得此词汇套用在不同字串中的字串概率，借以更能准确地辨识出与语音信号S1相符的字串，而提高语音辨识的准确率。

综上所述，在本实施例的声学模型的建立方法、语音辨识方法及电子装置中，电子装置会基于不同语言、方言或不同发音习惯的语音信号，经由训练来建立声学模型、音节声学词典以及语言模型。并且，对于具有一个发音以上的多音字，电子装置会依据多音字的各音标，分别赋予不同的编码，借以在语言模型中保留多音字的歧异性。因此，当电子装置进行语音信号的语音辨识时，可根据声学模型中所获得的多个音标，在音节声学词典中获得符合真实发音的词汇。特别是，由于在音节声学词典中，具有一个或多个音标的词汇具有对应于各音标的各编码，因此电子装置能依据每一个编码，自语言模型中获得相符合的字串及其字串概率。借此，电子装置即可选择出字串概率最大者所对应的字串，以作为语音信号的辨识结果。

如此一来，本发明可依据来自不同语言、方言或发音习惯的语音输入，在声学模型、音节声学词典和语言模型中进行解码，且解码结果不仅可依序到音标和音标所对应的词汇输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与词汇匹配的模糊音概率，以及此词汇套用在不同字串中的字串概率，据以选出概率最大的输出，作为语音信号的辨识结果。相比于传统方法，本发明不仅可以准确地进行声音至文字的转换，同时还可知道语言、方言或发音习惯的类型。这对后续的机器语音对话会有帮助，例如对粤语发音的输入直接用粤语回答。另外，本发明还可将区别多音字的各发音的涵义，使得语音信号的辨识结果更可符合语音信号对应的意思。

值得一提的是，为了避免在发音与文字的映射过程中，丢失了很多语音信息，例如随音调而异的语义表达，在本发明的语音辨识方法中所得到的解码结果，还可依序得到音标序列和音标序列所对应的音节序列输出，同时也能得到这个音标序列在不同语言、方言或发音习惯的情况下与音节序列匹配的概率，以及此音节序列套用在不同文字序列中的概率，据以选出概率最大的输出作为语音信号的辨识结果。如此一来，在原有语音识别的基础上，本发明更可提高语音辨识的准确率。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例。

本实施例仍搭配图1的电子装置的方块图来进行说明。本实施例亦可以程序码来实现电子装置100的语音辨识方法。具体而言，储存单元120中可储存有多个程序码片段，而上述程序码片段在被安装后，处理单元110会通过这些程序码片段来执行多个指令，借以实现本实施例的语音辨识方法。更进一步地说，处理单元110会通过执行程序码片段中的多个指令，来建立语音辨识模组，其中包括声学模型、音节声学词典以及语言模型。并且，处理单元110可通过上述程序码片段来驱动语音辨识模组，以利用声学模型、音节声学词典以及语言模型来执行本实施例的语音辨识方法。据此，本实施例的处理单元110会将输入单元130所接收的语音信号通过上述语音辨识模组来进行语音辨识，以利用声学模型、音节声学词典以及语言模型而获得多个音节序列概率及多个音节序列。并且，处理单元110会选出音节序列概率中最大者所对应的音节序列或文字序列，以作为语音信号的辨识结果。

当然，本实施例亦可包括输出单元140，用以输出语音信号的辨识结果，例如通过输出单元140显示所获得的拼音序列概率中最大者所对应的拼音序列或此拼音序列所对应的字串。或者，输出单元140亦可以是扬声器，以通过语音方式来播放所述拼音序列。此外，关于本实施例语音辨识方法所适用的电子装置100的详细说明，可参考前述实施例，在此不再重复赘述。

以下再举一实施例来说明本实施例的语音辨识方法，其中仍搭配图1的电子装置100。

图4是依照本发明一实施例的语音辨识模组的示意图。请参照图1与图4，语音辨识模组400主要包括声学模型410、音节声学词典420、语言模型430以及解码器440。声学模型410与音节声学词典是由语音数据库41经训练而获得，语言模型430是由语料库（text corpus）42经训练而获得。其中，语音数据库41以及语料库42具有多个语音信号，而这些语音信号例如是来自不同语言、方言或发音习惯的语音输入，且语料库42更具有这些语音信号所对应的拼音。在本实施例中，处理单元110可针对不同的语言、方言或发音习惯进行语音辨识的训练，而分别建立声学模型410、音节声学词典420、语言模型430，并将这些模型与词典存放于储存单元120，以用于本实施例的语音辨识方法中。

详细而言，声学模型410用以辨识来自不同语言、方言或发音习惯的语音信号，以识别出与语音信号的发音相符合的多个音标。进一步地说，声学模型410例如是一个统计分类器，其可利用混合高斯模型，以将所接收到的语音信号，解析成基本的音素（Phone），并将各音素分类至对应的基本音标。其中，声学模型410可包括用来识别不同语言、方言或发音习惯的语音输入所对应的基本音标、音间过渡以及一些非语音的音素（例如咳嗽声等）。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得声学模型410。详言之，处理单元110可自语音数据库41接收多个语音信号，以及接收与语音信号中发音相符合的多个音标，其中对应于各音标的发音具有多个音素。并且，处理单元110会依据语音信号与音标进行训练，而获得声学模型410中与音标相对应的多个音素的数据。更具体而言，处理单元110可从语音数据库41中取得不同语言、方言或发音习惯的语音输入所对应的语音信号，解析出各语音信号的音素以获得对应于各语音信号的特征参数。之后，再利用这些特征参数与已标注对应音标的语音信号进行训练，而获得语音信号的特征参数与音标相符合的关系，进而建立声学模型410。

处理单元110可通过音节声学词典420，以将声学模型410所输出的多个音标映射成对应的音节。其中，音节声学词典420具有多个音标序列以及各音标序列所映射的音节。需说明的是，每一个音节都有一个音调，其中音调例如是指阴、阳、上、去及轻声等，而对于方言来说，音标亦可包括其它音调。为了保留使用者所发出的发音及音调，处理单元110会根据声学模型410所输出的多个音标，将这些音标映射成对应的带音调的音节。

具体来说，处理单元110可通过音节声学词典420，而将多个音标转换成音节。进一步而言，根据声学模型210所输出的音标，处理单元110会自音节声学词典420输出带音调的音节，计算出与声学模型410所输出的音标匹配的多个音节序列概率，再从这些音节序列概率中选取最大者所对应的音节序列，来作为这些音标对应的拼音。举例来说，假设声学模型410所输出的音标为“b”以及“a”，则处理单元110可通过音节声学词典420而获得拼音及其音调为ba(上声)。

语言模型430用以依据不同词汇的拼音以及此拼音对应的音调信息，来辨识出与此拼音相符合的拼音序列，并获得此拼音与此拼音序列相符合的拼音序列概率，其中拼音序列例如表示相关词汇的拼音。详细而言，语言模型430是基于历史信息的模型（History-based Model）的设计理念，即，根据经验法则，统计先前已出现的一连串事件与下一个出现的事件之间的关系。例如，语言模型430可利用概率统计的方法来揭示语言单位内在的统计规律，其中N元语法（N-Gram）简单有效而被广泛使用。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的多个语料，经由训练而获得语言模型430，其中所述语料具有多个发音的语音输入以及此语音输入对应的拼音序列。在此，处理单元110会自语料库42获得拼音序列，并且将拼音序列与其对应的音调进行训练，而获得不同音调的拼音与各拼音序列匹配的数据，例如各拼音与音调信息匹配于各拼音序列的拼音序列概率。

解码器440是语音辨识模组400的核心之一，其任务是对输入的语音信号，根据声学模型410、音节声学词典420以及语言模型430，寻找能够以最大概率输出的拼音序列。举例来说，利用声学模型410获得对应的音标（phonetic transcription），再由音节声学词典420来获得对应的拼音（phoneticspelling），之后由语言模型430来判断出一连串的拼音序列成为语音信号所欲表达的语义的概率。

以下即搭配上述图1的电子装置100与上述语音辨识模组400来说明本发明的语音辨识方法。图5是依照本发明一实施例所绘示的语音辨识方法的流程图。请同时参照图1、图4与图5，本实施例中的语音辨识方法，适于通过电子装置100来对语音信号进行语音辨识。其中，处理单元110能针对不同的语言、方言或发音习惯，利用声学模型410、音节声学词典420、语言模型430以及解码器440以自动地辨识出语音信号所对应的语义。

于步骤S510中，输入单元130接收语音信号S1，其中语音信号S1例如是来自使用者的语音输入。更具体而言，语音信号S1例如为单音节语言的语音输入，而单音节语言例如为中文。

于步骤S520中，处理单元110会根据声学模型410获得语音信号S1的多个音标，其中音标包括多个音素。在此，对于单音节语言来说，语音信号S1中具有多个音素，而用来表示这些音素的发音的符号为所谓的音标，亦即每个音标代表一个音素。举例来说，对于“福”这个字而言，其依据不同语言或方言会具有不同的发音。例如，以国语来说，“福”的音标例如是“fú”，而以潮汕话来说，“福”的音标例如是“hog4”。又例如，对于“人”这个字而言，以国语来说，“人”的音标例如是“rén”。以粤语来说，“人”的音标例如是“jan4”。以闽南语来说，“人”的音标例如是“lang2”。以广韵来说，“人”的音标例如是“nin”。换言之，处理单元110从声学模型410所获得的各音标是直接映射到语音信号S1的发音。

为了提高语音信号S1的发音映射至音标时的准确度，本实施例的处理单元110可根据预先设定，从声学模型410中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。借此，处理单元110可利用声学模型410，并选择训练数据中的语音信号以及这些语音信号所对应的基本音标，来查询出符合语音信号S1的多个音标。

详言之，上述预先设定指的是电子装置100被设定为依据哪一种发音来进行语音辨识。举例来说，假设电子装置100被设定为依据北方人的发音习惯来进行语音辨识，则处理单元110会在声学模型410中，选择由北方人的发音习惯所训练而成的训练数据。类似地，假设电子装置100被设定为进行闽南语的语音辨识，则处理单元110会在声学模型410中选择由闽南语所训练而成的训练数据。上述所列举的预先设定为举例说明，于其它实施例中，电子装置100亦可被设定为依据其它语言、方言或发音习惯来进行语音辨识。

进一步而言，处理单元110会根据所选择的声学模型410以及语音信号S1中的音素，计算语音信号S1中的音素与每一个基本音标相符的音标匹配概率。尔后，处理单元110会从所计算出的这些音标匹配概率中，选择音标匹配概率中最大者所对应的各基本音标，以作为语音信号S1的音标。更具体来说，处理单元110可将所接收到语音信号S1切割为多个音框，而这些音框中的两相邻音框之间可以有一段重叠区域。之后，再从每个音框中取出特征参数而获得一特征向量。例如，可利用梅尔倒频谱系数（Mel-frequency CepstralCoefficients，MFCC）自音框中取出36个特征参数，而获得一个36维的特征向量。在此，处理单元110可将语音信号S1的特征参数与声学模型410所具有的音素的数据进行匹配，以计算出语音信号S1中的各音素与相符的各基本音标之间的音标匹配概率。如此一来，处理单元110可在这些音标匹配概率选择最大者所对应的各基本音标，以作为语音信号S1的音标。

于步骤S530中，处理单元110会根据各音标以及音节声学词典420，获得符合音标的多个拼音以及这些拼音所分别对应的音调信息。其中，音节声学词典420具有符合各音标的多个拼音，以及发音为此音标时，针对不同语义所伴随的可能的音调。在本实施例中，处理单元110也可根据预先设定，从音节声学词典420中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。并且，处理单元110会依据自音节声学词典420中所选择的训练数据与语音信号S1的各音标，而获得音标与各拼音匹配的拼音匹配概率。需说明的是，由于每一个词汇可因不同语言、方言或发音习惯而具有不同的音标，且每一个词汇也可依据不同的语义而具有不同音调的发音，因此在音节声学词典420中，每一种音标所对应的拼音皆会具有拼音匹配概率，其中拼音匹配概率会因不同语言、方言或发音习惯而改变。换言之，经由不同语言、方言或发音习惯所训练的训练数据，音节声学词典420中的各种音标与对应的拼音会具有不同的拼音匹配概率。

举例来说，当预先设定为选择音节声学词典420中，以北方人的发音训练而成的训练数据时，则对于发音为“fú”这个音标而言，其对应的拼音有较大的拼音匹配概率为“Fú”，而有较低的拼音匹配概率为“Hú”。具体来说，当北方人说“福”这个词汇的时候，处理单元110可自声学模型410获得“fú”这个音标，并从音节声学词典420中，获得“Fú”为具有较大拼音匹配概率的拼音，而获得“Hú”为具有较小拼音匹配概率的拼音。在此，“fú”这个音标所对应的拼音，会因不同地区的发音习惯而有不同的拼音匹配概率。

在另一例中，当预先设定为选择音节声学词典420中，以大多数人的发音习惯所训练而成的训练数据时，则对于发音为“yíng”这个音标而言，其对应的拼音有较大的拼音匹配概率为“Yíng”，而有较低的拼音匹配概率为“Xiǎng”。具体来说，通常用户说“‘影’响”这个词汇的时候，处理单元110可自声学模型410获得“yíng”这个音标，并从音节声学词典420中，获得“Xiǎng”以及“Yíng”这些拼音所分别对应的拼音匹配概率。在此，“yíng”这个音标所对应的拼音，会随着不同的语义而有不同的拼音匹配概率。

值得一提的是，由于相同文字所组成的语音输入，可根据不同语义或意图而具有不同音调的语音信号，因此处理单元110可根据音节声学词典420中的拼音与音调信息，而获得与音调相符的拼音，借以对不同语义的拼音进行区分。举例来说，对于“今天很好”这句话所对应的语音输入来说，其表达的语义可以是疑问句，或者是肯定句。亦即，“今天很好？”中的“好”所对应的音调较高，而“今天很好。”中的“好”所对应的音调会较低。因此，对于发音为“hǎo”这个音标而言，处理单元110可从音节声学词典420中，获得“háo”以及“hǎo”这些拼音所分别对应的拼音匹配概率。

换言之，处理单元110可根据音节声学词典420中的音调，而识别出具有相同拼音而不同音调的语音输入，使得这些具有不同音调的拼音在语言模型430中可对应到具有不同含意的拼音序列。如此一来，当处理单元110利用音节声学词典420以获得拼音时，同时可获得发出此拼音时的音调信息，因此处理单元110可辨识具有不同语义的语音输入。

于步骤S540中，处理单元110会依据各拼音与音调信息，自语言模型430中获得多个拼音序列及多个拼音序列概率。在此，由于不同的音调信息在语言模型430可被区分为不同的语义，而这些语义会对应于不同的拼音序列，因此处理单元110可依据自音节声学词典420所获得的拼音以及音调信息，通过语言模型430来计算此拼音以及音调信息符合各拼音序列的拼音序列概率，进而找出符合此音调信息的拼音序列。

更具体而言，本实施例的语言模型430中更具有多个关键字所对应的拼音序列，其中关键字例如是地名、人名等名词或其它固定用语或惯用语等等。例如，语言模型430具有对应于“长江大桥”这个关键字的拼音序列“Cháng-Jiāng-Dà-Qiáo”。因此，当处理单元110依据自音节声学词典420所获得的拼音以及音调信息与语言模型430中的拼音序列进行匹配时，可比较这个拼音是否符合语言模型430中的各关键字所对应的拼音序列，而若是这个拼音较符合关键字所对应的拼音序列，则处理单元110可获得较高的拼音序列概率。如此一来，倘若处理单元110计算出的拼音序列概率较低，则表示此拼音所对应的音调信息用于这个拼音序列的机率很低。反之，倘若处理单元110计算出的拼音序列概率较高，则表示此拼音所对应的音调信息有很大的机率是对应于这个拼音序列。

接后，于步骤S550中，处理单元110会选择拼音序列概率中最大者所对应的拼音序列，以作为语音信号S1的辨识结果S2。举例来说，处理单元110例如计算每一来自音节声学词典420的拼音匹配概率与来自语言模型430的拼音序列概率的乘积为联合概率，再从拼音匹配概率与拼音序列概率的联合概率中选择最大者所对应的拼音序列，来作为语音信号S1的辨识结果S2。也就是说，处理单元110不限于从音节声学词典420中选择与音标最相符的拼音以及音调信息，而是处理单元110可依据从音节声学词典420所获得的与音标相符合的多个拼音以及音调信息，并在语言模型430中选择拼音序列概率最大者的拼音序列来作为辨识结果S2。当然，本实施例的处理单元110亦可分别在音节声学词典420中选择拼音匹配概率中最大者所对应的拼音以及音调信息，以作为语音信号的各音标所匹配的拼音，并且根据所述匹配的拼音的来计算各拼音于语言模型430中所获得的拼音序列概率，再来计算拼音匹配概率与拼音序列概率的乘积为联合概率，借以从联合概率中选出最大者所对应的拼音。

值得一提的是，处理单元110自上述所获得的拼音序列，还可通过语义识别模组（未绘示）以将拼音序列转换成对应的文字序列，其中语义识别模组可根据以拼音为基础的识别数据库（未绘示），查询拼音序列对应的文字。具体来说，识别数据库具有拼音序列与文字序列对应的数据，因此处理单元110通过语义识别模组以及识别数据库，可进一步将拼音序列转换成文字序列，再通过输出单元140显示给用户。

以下再举一实施例来说明本实施例的语音辨识方法，其中假设来自用户的语音输入S1为对应于“南京市长江大桥”这个问句。在此，输入单元130接收语音信号S1，而处理单元110会根据声学模型410获得语音信号S1的多个音标，即“‘nán’‘jīng’‘shì’‘cháng’‘jiāng’‘dà’‘qiáo’”。接着，处理单元110会根据这些音标以及音节声学词典420，获得符合音标的多个拼音以及这些拼音所分别对应的音调信息，而这些拼音以及对应的音调信息分别有部分的拼音匹配概率为“‘Nán’‘Jīng’‘Shì’‘Cháng’‘Jiāng’‘Dà’‘Qiáo’”，或者有部分的拼音匹配概率为“‘Nán’‘Jīng’‘Shì’‘Zhǎng’‘Jiāng’‘Dà’‘Qiáo’”。在此，假设“‘nán’‘jīng’‘shì’‘cháng’‘jiāng’‘dà’‘qiáo’”这些音标对应到“‘Nán’‘Jīng’‘Shì’‘Cháng’‘Jiāng’‘Dà’‘Qiáo’”这些拼音时，分别具有较高的拼音匹配概率。

之后，处理单元110会依据“Nán”、“Jīng”、“Shì”、“Cháng”、“Jiāng”、“Dà”、“Qiáo”这些拼音以及“Nán”、“Jīng”、“Shì”、“Zhǎng”、“Jiāng”、“Dà”、“Qiáo”这些拼音，分别自语言模型230中获得多个拼音序列及多个拼音序列概率。此时，假设“Cháng”、“Jiāng”、“Dà”、“Qiáo”可在语言模型430中匹配到“长江大桥”这个关键字的拼音序列“Cháng-Jiāng-Dà-Qiáo”，因而“Nán-Jīng-Shì-Cháng-Jiāng-Dà-Qiáo”会有较大的拼音序列概率。如此一来，处理单元110即会以“Nán-Jīng-Shì-Cháng-Jiāng-Dà-Qiáo”作为输出的拼音序列。

综上所述，在本实施例的语音辨识方法及电子装置中，电子装置会基于不同语言、方言或不同发音习惯的语音信号，经由训练来建立声学模型、音节声学词典以及语言模型。因此，当电子装置进行语音信号的语音辨识时，可根据声学模型获得符合真实发音的多个音标，以及在音节声学词典中获得符合音标的拼音。特别是，由于音节声学词典具有各拼音用于不同语义时的音调信息，因此电子装置能依据音调信息，自语言模型中获得与拼音相符合的拼音序列及其拼音序列概率。借此，电子装置即可选择出拼音序列概率最大者所对应的拼音序列，以作为语音信号的辨识结果。

如此一来，本发明可依据来自不同语言、方言或发音习惯的语音输入，在声学模型、音节声学词典和语言模型中进行解码。并且，解码结果不仅可依据音标所对应的拼音输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与拼音匹配的拼音匹配概率，以及各拼音套用在不同拼音序列中的拼音序列概率。最后，本发明会选出上述概率最大的输出，作为语音信号的辨识结果。相比于传统方法，本发明可获得语音输入的真实发音所对应的拼音序列，因此可保留原始语音输入的信息，例如保留多音字在不同发音时的信息。此外，本发明还可依据语言、方言或发音习惯的类型，来将语音输入的真实发音转换成对应的拼音序列。这对后续的机器语音对话会有帮助，例如对粤语（或其它方言/语言）发音的输入直接用粤语（或其它方言/语言）回答。另外，本发明还可依据真实发音中的音调信息，区别各拼音的涵义，使得语音信号的辨识结果更可符合语音信号对应的意思。如此一来，本发明的语音辨识方法及电子装置，可准确地辨识来自不同语言、方言或不同发音习惯的语音信号所对应的语言以及语义，使得语音辨识更加精准。

值得一提的是，上述处理单元110在通过语言模型430而获得拼音序列及拼音序列概率的过程中，获得某个拼音映射到某个词汇的拼音序列的概率，在此定义为正向概率。本实施例的语音辨识方法，还可通过反向概率来达到更高的语音辨识准确率，进一步地判断出相同的发音所分别对应的不同文字。也就是说，处理单元110会通过语言模型430进一步处理拼音到所对应的文字的映射。其中，处理单元110会查询各个备选句子中的每一个单词与所述单词可能的发音之间相匹配的概率，以获得匹配于上述拼音所对应的多个文字，以及此拼音匹配各文字的概率，最后再从这些概率中选取最大者来作为语音辨识结果，即语音信号所对应的文字序列。如此一来，对于同音字或不同习惯性的变音(如方言口音导致的发音)，本实施例的语音辨识方法可直接依据这些发音，更准确地获得对应于这些发音的文字，大大地提高识别的准确率。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例，其中仍搭配上述图1的电子装置100与上述语音辨识模组400来说明本发明的语音辨识方法。

本实施例与前述实施例相似，其不同之处在于：本实施例的处理单元110会将输入单元130所接收的语音信号S1，通过声学模型410、音节声学词典420以及语言模型430而获得多个文字序列概率及多个文字序列。并且，处理单元110会选出文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果S2。

图6是依照本发明一实施例所绘示的语音辨识方法的流程图。请同时参照图1、图4与图6，于步骤S610中，输入单元130接收语音信号S1，其中语音信号S1例如是来自使用者的语音输入。于步骤S620中，处理单元110会根据声学模型410获得语音信号S1的多个音标，其中这些音标包括多个音素。于步骤S630中，处理单元110会依据各音标以及音节声学词典420，获得符合音标的多个拼音。上述步骤S610至步骤S630与步骤S510至步骤S530相似，故可参考前述相关段落的说明。

于步骤S640中，处理单元110会依据各拼音，自语言模型430中获得多个文字序列及多个文字序列概率。在此，处理单元110会将各拼音与备选句子列表进行匹配，其中备选句子列表记录有多个备选句子，且记录有备选句子中的各单词所符合的拼音以及各单词与各拼音之间的单词拼音概率。因此，处理单元110可通过备选句子列表而获得各拼音与多个备选句子中的各单词对应的单词拼音概率。并且，处理单元110会计算这些拼音所对应的这些单词拼音概率，而获得所述文字序列概率，其中对应于文字序列概率的这个备选句子为所述文字序列。

详言之，处理单元110可预先产生上述的备选句子列表，以建立语言模型430。其中，处理单元110会接收多个备选句子，并且根据语料库42，获得与各备选句子中的各单词符合的多个拼音以及多个单词拼音概率，借以获得备选句子所对应的备选句子列表。具体而言，处理单元110可通过输入单元130以接收多个语音信号，并且基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得语料库42。在此，处理单元110会根据这些用来训练的语音信号中所对应的多个单词，接收与各单词发音相符合的拼音，据以依据各单词与这些拼音来进行训练，而获得语料库42中各单词对应于各拼音的单词拼音概率。

举例来说，处理单元110会从输入单元130接收来自不同语言、方言或不同发音习惯所发出的“你好”这个语音信号。由于不同语言、方言或不同发音习惯的发音不尽相同，因此“你好”这个语音信号所对应的发音，其拼音可以是“nǐ-hǎo”(对应于北方人的发音)、“něi-hǒu”或“nhij-ho”(对应于南方人的发音)等或其它不同的拼音。此时，处理单元110会依据“你好”这个语音信号与其所对应的“nǐ-hǎo”、“něi-hǒu”或“nhij-ho”等这些拼音来进行训练，以分别计算出“你”与“好”所对应的可能拼音有哪些，以及对应的概率(即单词拼音概率)是多少。例如，对于北方人的发音而言，“你”这个语音信号对应到“nǐ”、“něi”与“nhij”的单词拼音概率依序是90%、8%以及2%，而“好”这个语音信号对应到“hǎo”、hǒu”与“ho”的单词拼音概率依序是82%、10%以及8%。换言之，处理单元110所获得的备选句子列表记录有各单词与其可能的发音之间的关系，其中每个可能的发音是以拼音来标注，且当各单词越有机会对应到某一个拼音时，则单词拼音概率越高。借此，在语言模型430中，处理单元110便可依据各拼音而获得这个拼音可能的单词。

更进一步而言，处理单元110在计算这些拼音所对应的这些单词拼音概率时，会将对应于语音信号S1中的每一个拼音的单词拼音概率相乘，而获得对应于这个语音信号S1的概率乘积来作为文字序列概率，同时获得这些拼音所对应的单词所组成的备选句子来作为文字序列。举例来说，假设处理单元110自音节声学词典420所获得的拼音为“něi-hǒu”，则依据备选句子列表，处理单元110可将“něi”这个拼音对应到“你”这个单词，将“hǒu”这个拼音对应到“好”这个单词，且处理单元110会将“něi”所对应的单词拼音概率以及“hǒu”所对应的单词拼音概率相乘，而获得对应于“你好”这个备选句子作为文字序列，以及此时的文字序列概率。当然，此时处理单元110也有机会将“něi-hǒu”这些拼音对应到其它的单词(例如对应到“内讧”这个文字序列)，而获得其它的文字序列概率(例如对应到“内讧”这个文字序列的概率)。

于步骤S650中，处理单元110会选择文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果S2。举例来说，假设对于“něi-hǒu”这些拼音而言，处理单元110获得对应于“你好”这个文字序列的文字序列概率为P1，获得对应于“内讧”这个文字序列的文字序列概率为P2，且获得对应于“泥濠”这个文字序列的文字序列概率为P3，其中P1大于P2，且P1大于P3，则处理单元110会选择文字序列概率为P1所对应的“你好”这个文字序列来作为辨识结果S2。当然，处理单元110亦可通过输出单元140来显示所获得的文字序列概率中最大者所对应的文字序列或者其它可能的文字序列，以让使用者直觉地辨识这个辨识结果S2。

另外需说明的是，上述处理单元110在获得文字序列以及计算对应的文字序列概率的步骤中，还可依据不同的阈值来筛选出较高概率的结果(即，处理单元110自声学模型410所获得的各音标及音标匹配概率，自音节声学词典420所获得的各个拼音及拼音匹配概率，及自语言模型430所获得的各拼音所对应的单词及单词拼音概率)，并据以在不同的模型中计算。具体而言，处理单元110可依据第一阈值，来筛选出音标匹配概率大于第一阈值的音标，并依据这些音标在音节声学词典420来产生对应的拼音。此时，处理单元110可依据第二阈值，来筛选出拼音匹配概率大于第二阈值的拼音，并依据这些拼音在语言模型430来产生对应的文字序列与文字序列概率。也就是说，处理单元110所计算出的文字序列概率为上述音标匹配概率、拼音匹配概率以及单词拼音概率的乘积，故处理单元110可选择音标匹配概率、拼音匹配概率以及单词拼音概率的联合概率中最大者所对应的文字序列，以作为语音信号的辨识结果S2。如此一来，本实施例的语音辨识方法，可精准地依据使用者的发音而获得符合这个发音的文字序列，借以消除语音映射到文字所产生的大量歧义性，而大大地提升语音辨识的准确率。

综上所述，在本实施例的语言模型的建立方法、语音辨识方法及电子装置中，当电子装置进行语音信号的语音辨识时，可根据声学模型获得符合真实发音的多个音标，以及在音节声学词典中获得符合音标的拼音。特别是，电子装置会依据每个拼音，自语音模型中找出符合这个拼音的单词以及单词拼音概率。最后，电子装置可经由计算这些拼音对应到这些单词的单词拼音概率而获得文字序列概率，并从这些文字序列概率中最大者所对应的文字序列，来作为辨识结果。相比于传统方法，由于本发明可依据语音输入的真实发音所对应的拼音，来进行拼音到文字的辨识，因此可消除语音映射到文字所产生的歧义性，借以保留原始语音输入的信息，例如保留多音字在不同发音时的信息。如此一来，本发明的语言模型的建立方法、语音辨识方法及电子装置，可准确地辨识来自不同语言、方言或不同发音习惯的语音信号所对应的语义，使得语音辨识更加精准。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims

1.一种语言模型的建立方法，用于一电子装置，其特征在于，该语言模型的建立方法包括：

接收多个备选句子；以及

根据一语料库，获得与各该备选句子中的各单词相符合的多个拼音以及多个单词拼音概率，借以获得所述备选句子所对应的一备选句子列表。

2.根据权利要求1所述的语言模型的建立方法，其特征在于，还包括：

基于不同语言、方言或不同发音习惯的多个语音信号，经由训练而获得该语料库。

3.根据权利要求2所述的语言模型的建立方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该语料库的步骤包括：

根据所述语音信号中所对应的所述单词，接收与各该单词发音相符合的所述拼音；以及

依据各该单词与所述拼音进行训练，而获得该语料库中各单词对应于各该拼音的所述单词拼音概率。

4.一种语音辨识方法，用于一电子装置，其特征在于，该语音辨识方法包括：

根据一声学模型获得一语音信号的一音标序列，该音标序列包括多个音素；

依据该音标序列以及一音节声学词典，获得符合该音标序列的多个拼音；

依据所述拼音，自一语言模型中获得多个文字序列及多个文字序列概率，其包括：

将各该拼音与一备选句子列表进行匹配，而获得各该拼音与多个备选句子中的各单词对应的一单词拼音概率；以及

计算所述拼音所对应的所述单词拼音概率，而获得所述文字序列概率，其中对应于所述文字序列概率的所述备选句子为所述文字序列；以及

选择所述文字序列概率中最大者所对应的该文字序列，以作为该语音信号的辨识结果。

5.根据权利要求4所述的语音辨识方法，其特征在于，还包括：

基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型。

6.根据权利要求5所述的语音辨识方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤包括：

接收与所述语音信号中发音相符合的所述音标序列；以及

依据所述语音信号与所述音标序列进行训练，而获得该声学模型中与所述音标序列相对应的所述音素的数据。

7.根据权利要求4所述的语音辨识方法，其特征在于，根据该声学模型获得该语音信号的该音标序列的步骤包括：

根据一预先设定，从该声学模型中选择一训练数据，其中该训练数据来自于不同语言、方言或不同发音习惯的训练结果；

根据所选择的该训练数据以及该语音信号的各该音素，计算所述音素符合该音标序列的一音标匹配概率；以及

选择所述音标匹配概率中最大者所对应的该音标序列，以作为该语音信号的该音标序列。

8.根据权利要求4所述的语音辨识方法，其特征在于，依据该音标序列以及该音节声学词典获得符合该音标序列的所述拼音的步骤包括：

依据该音标序列的一音调，获得各该拼音对应的一音调信息。

9.根据权利要求4所述的语音辨识方法，其特征在于，依据该音标序列以及该音节声学词典获得符合该音标序列的所述拼音的步骤包括：

依据该音标序列以及该音节声学词典，获得符合该音标序列的所述拼音，并获得该音标序列与各该拼音匹配的一拼音匹配概率；以及

选择所述拼音匹配概率中最大者所对应的该拼音，以作为符合各该音标序列的该拼音。

10.根据权利要求9所述的语音辨识方法，其特征在于，还包括：

选择所述拼音匹配概率与所述文字序列概率的联合概率中最大者所对应的该文字序列，以作为该语音信号的辨识结果。

11.根据权利要求4所述的语音辨识方法，其特征在于，还包括：

接收多个备选句子；以及

根据一语料库，获得与各该备选句子中的各单词相符合的多个拼音以及多个单词拼音概率，借以获得所述备选句子所对应的该备选句子列表。

12.根据权利要求11所述的语音辨识方法，其特征在于，还包括：

基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该语料库。

13.根据权利要求12所述的语音辨识方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该语料库的步骤包括：

根据所述语音信号中所对应的所述单词，接收与各该单词的发音相符合的所述拼音；以及

14.根据权利要求12所述的语音辨识方法，其特征在于，依据所述拼音自该语言模型中获得所述文字序列及所述文字序列概率的步骤包括：

根据一预先设定，选择该备选句子列表，其中该备选句子列表对应于基于不同语言、方言或不同发音习惯的所述语音信号，经由训练所获得该语料库。

15.一种电子装置，其特征在于，包括：

一储存单元，储存多个程序码片段；以及

一处理单元，耦接至该储存单元，该处理单元通过所述程序码片段来执行多个指令，所述指令包括：

接收多个备选句子；以及

16.根据权利要求15所述的电子装置，其特征在于，还包括：

一输入单元，接收多个语音信号，且所述指令还包括：

17.根据权利要求16所述的电子装置，其特征在于，所述指令在基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该语料库的步骤中包括：

18.一种电子装置，其特征在于，包括：

一输入单元，接收一语音信号；

一储存单元，储存多个程序码片段；以及

一处理单元，耦接至该输入单元以及该储存单元，该处理单元通过所述程序码片段来执行多个指令，所述指令包括：

根据一声学模型获得该语音信号的一音标序列，该音标序列包括多个音素；

19.根据权利要求18所述的电子装置，其特征在于，所述指令还包括：

20.根据权利要求19所述的电子装置，其特征在于，所述指令在基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤中包括：

接收与所述语音信号中发音相符合的所述音标序列；以及

21.根据权利要求18所述的电子装置，其特征在于，所述指令在根据该声学模型获得该语音信号的所述音标序列的步骤中包括：

根据一预先设定，从该声学模型中选择一训练数据，其中该训练数据来自于不同语言、方言或不同发音习惯；

22.根据权利要求18所述的电子装置，其特征在于，所述指令在依据该音标序列以及该音节声学词典获得符合该音标序列的所述拼音的步骤中包括：

23.根据权利要求18所述的电子装置，其特征在于，所述指令在依据该音标序列以及该音节声学词典，获得符合该音标序列的所述拼音的步骤中还包括：

24.根据权利要求23所述的电子装置，其特征在于，所述指令还包括：

25.根据权利要求18所述的电子装置，其特征在于，所述指令还包括：

接收多个备选句子；以及

26.根据权利要求25所述的电子装置，其特征在于，所述指令还包括：

27.根据权利要求26所述的电子装置，其特征在于，所述指令在基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该语料库的步骤中包括：

28.根据权利要求26所述的电子装置，其特征在于，所述指令在依据所述拼音自该语言模型中获得所述文字序列及所述文字序列概率的步骤中包括：