CN1503937A

CN1503937A - 扩展精度累加器

Info

Publication number: CN1503937A
Application number: CNA028086333A
Authority: CN
Inventors: M; M·斯特里贝克; P·帕里尔
Original assignee: MIPS Technologies Inc
Current assignee: Arm Overseas Finance Co ltd; Overpass Bridge Co ltd
Priority date: 2001-02-21
Filing date: 2002-02-15
Publication date: 2004-06-09
Anticipated expiration: 2022-02-15
Also published as: JP2013080487A; EP1374034A2; EP1374034A4; JP5231336B2; CN1503937B; JP2005505023A; US20060190519A1; DE60226222D1; WO2002069081A2; WO2002069081A3; EP1374034B1; US7225212B2; US20020178203A1; US7181484B2; DE60226222T2; JP2009266239A; US7860911B2; US20020116432A1

Abstract

乘法单元包括一个扩展精度累加器。提供用于操作扩展精度累加器的各部分的微处理器指令，包括一个将扩展累加器的一部分的内容转移到一个通用寄存器的指令(“MFLHXU”)和一个将一个通用寄存器的内容转移到扩展累加器的一部分的指令(“MTLHX”)。

Description

扩展精度累加器

技术领域

本发明涉及微处理器乘法器，更具体来说涉及带有扩展精度累加器的微处理器乘法器。

背景技术

精简指令集计算机(RISC)体系结构被开发成作为朝向更大、更复杂指令集的技术趋势。通过简化指令集设计，RISC使得更容易使用诸如管线和高速缓存等技术，由此提高系统性能。

RISC体系结构通常具有定长度指令(例如16位、32位或64位)，指令格式没有多少变化。指令集体系(ISA)中的每个指令可以具有总是在相同位置的源寄存器。例如，一个32位的ISA可以总是具有由位16-20和21-25指定的源寄存器。这允许所指定的寄存器为每一个指令被提取，而不要求任何复杂的指令解码。

发明内容

密码系统越来越多地被用来保护事务处理、加密通信、验证用户、以及保护信息。许多私钥密码系统，诸如数字加密标准(DES)，对于在数据块上执行一系列的XORs、循环(rotation)、以及置换(permutation)的硬件解决方案来说在计算上相对简单并经常是可精简的。另一方面，公钥密码系统可能比私钥系统在数学上更精细并且计算上更困难。

尽管不同的公钥加密方案在数学上有不同的根据，它们倾向于共同需要在1024位量级上的大范围数值上进行整数计算。这种扩展精度算术经常是模运算的(即对一个数值范围进行取模运算)，并且在有些情况下是多项式的而不是二进制补码的。例如，RSA公钥密码系统用扩展精度模取幂(modular exponentiation)来加密和解密信息，而椭圆曲线密码系统用扩展精度模多项式乘法(modularpolynomial multiplication)。

公钥密码系统已经被广泛地用于用户验证和安全密钥交换，而私钥密码系统已经被广泛用于加密通信信道。由于对公钥密码系统的使用的增加，需要提高扩展精度模算术计算的性能。

在本发明的一个方面，提供一个用于微处理器的乘法单元，该微处理器带有至少一个用于存储预定数目的位的通用寄存器。该乘法单元包括一个乘法器和一个扩展精度累加器，该扩展精度累加器包含比每一个通用寄存器更多的位。

具体实现方案包括：用乘法器提供乘-加运算，从而使得乘法单元的操作数被相乘，然后与扩展精度累加器的内容相加。乘法器可包括一个算术乘法器和一个多项式乘法器。

在多项式乘法器的实现方案中，乘-加运算将两个操作数相乘，然后用异或运算将结果与扩展精度累加器的内容相加。在有些实现方案中，乘法器包括用于选择把哪些值装入扩展精度累加器的结果逻辑。例如，结果逻辑可以以多路转换器的形式实现。

在有些实现方案中，扩展精度累加器包括一个扩展寄存器、一个高阶(high-order)寄存器和一个低阶(low-order)寄存器。例如，扩展寄存器可以存储8位的值，其它两个寄存器可以存储32位的值。提供用于操作扩展精度累加器的内容的指令。一个指令把扩展精度累加器中的值转移到通用寄存器，一个逆(inverse)指令把通用寄存器中的值转移到扩展精度累加器。这些指令此外还可以对扩展精度累加器的内容移位。

在附图和以下的说明中给出一个或多个实现的细节。其它特征和优点见于说明和附图以及权利要求书。

附图说明

图1是一个可以在RISC体系结构中使用的示例性五阶段管线(five-stage pipeline)的框图；

图2是一个包括一个执行单元和一个乘法单元的处理器内核的框图；

图3是在支持二进制多项式算术的乘法单元的实现方案中的数据路径的框图；

图4是在一个实现方案中支持算术和二进制多项式乘法的乘法器阵列的框图；

图5是可在图4所示的实现方案中使用的算术乘法器阵列的框图；

图6是可在图4所示的实现方案中使用的二进制多项式乘法器阵列的框图；

图7A是表示在一个实现方案中的32位乘以16位乘法器的操作的定时图；

图7B是表示在一个实现方案中的32位乘以32位乘法器的操作的定时图；

图7C是表示在一个实现方案中的除法操作的定时图；

图8是执行乘法指令的有限状态机实现步骤；

图9是执行除法指令的有限状态机实现步骤；

图10A和10B是表示操作扩展精度乘法器的示例性指令的指令编码。

具体实施方式

许多公钥密码系统用扩展精度模算术来加密和解密数据。例如，许多椭圆曲线(EC)密码系统广泛地用多项式乘法和加法来加密和解密数据。通过将可编程CPU乘法器修改得响应新定义的专用于多项式运算的指令，可以增强椭圆曲线密码系统的性能。

当使用定义在GF(2¹⁶³)上的椭圆曲线时(如IEEE 1363-20000标准所推荐的那样)，所需要的主要操作是在域GF(2¹⁶³)上的乘法。2¹⁶³个元素(elements)的每一个都能被表示为一个次数(degree)最多为163、系数等于0或1的多项式。在这种表示中，两个元素可以通过使用一个简单的按位的XOR相加，和两个多项式a(X)和b(X)可以通过计算a(X)b(X)mod P(X)而相乘，其中积a(X)b(X)是一个326次多项式，P(X)是一个如IEEE 1363-2000标准所规定的不可约多项式。

多项式乘法与对整数的模乘法(modular multiplication)abmod p除了以下的两个区别外具有相同的形式，这两个区别是：(1)普通加法被代之以XOR；(2)普通32位乘法被代之以32位无进位(carry-free)乘法。因此，可以用移位和XORs代替移位和加法来进行多项式模乘法。

需要提供一种为提高密码系统和其它系统的性能而支持快速多项式乘法和各种其它运算的乘法单元。

对扩展精度模算术和多项式运算提供支持，能提高密码系统的性能。有些密码系统，诸如那些进行RSA密码签名验证的密码系统，进行连续的扩展精度模乘法并累加结果。通过在乘法器中支持一条乘两个操作数再将结果加到累加器的指令，可以提高这些系统的性能。在进行连续的乘/加时，累加器可能溢出。需要提供一种扩展精度累加器来提高密码系统和其它系统的性能。

参看图1，这是一个可以用来实现多项式乘法的示例性微处理器体系结构，它包括一个五阶段管线，其中，每个时钟周期可以发出一个指今，然后以诸如四个时钟周期的固定时间量执行指令。每个指令的执行被划分为5个阶段：取指(IF)阶段1001；寄存器读(RD)阶段1002；算术/逻辑单元(ALU)阶段1003；存储器(MEM)阶段1004和写回(WB)阶段1005。在IF阶段1001，从指令高速缓存中取出一条指定的指令。所取出的指令的一部分被用来指定可在执行该指令中使用的源寄存器。在寄存器读(RD)阶段1002，系统取出所指定源寄存器的内容。这些被取出的值可以被用来在ALU阶段1003中进行算术或逻辑运算。在MEM阶段1004，正在执行的指令可以在数据高速缓存中读/写存储器。最后，在WB阶段1005，可以将通过执行指令而获得的值写回到一个寄存器中。

因为有些运算—诸如浮点计算和整数乘/除—并不能总是在一个时钟周期内执行，有些指令只不过开始某个指令的执行。在经过足够的时钟周期后，可以用另一个指令来取得结果。例如，当一个整数乘法指令花费5个时钟周期时，一个指令可以启动该乘法计算，另一个指令可以在乘法完成后把乘法的结果装入一个寄存器中。如果在结果被请求时乘法尚未完成，管线可以停滞，直到该结果可用。

参看图2，这是作为举例的一个示例性RISC体系结构。处理器内核2000(也称作微处理器内核)包括以下单元：执行单元2010、乘法/除法单元(MDU)2020、系统控制协处理器(CP0)2030、存储器管理单元2040、高速缓存控制器2050和总线接口单元(BIU)2060。

执行单元2010是处理器内核2000内执行指令的主要机构。执行单元2010包括寄存器文件(file)2011和算术逻辑单元(ALU)2012。在一个实现中，寄存器文件2011包括32个32位通用寄存器，它们可以例如用于标量整数运算和地址计算。寄存器文件2011包括两个读端口和一个写端口，可以被完全绕过，以使管线中的操作延迟最小化。AUL 2012支持逻辑和算术两种运算，诸如加法、加法和移位。

MDU 2020可被用来进行包括如下所述的一些或全部指令的各种操作：DIV、DIVU、MADD、MADDU、MFHI、MFLO、MSUB、MSUBU、MTHI、MTLO、MUL、MUTL、MULTU、MFLHXU、MTLHX、MADDP、MULTP和PPERM。

在一个实现中，LO寄存器2023和HI寄存器2022每个都是32位宽并起着MDU 2020的专用输出寄存器的作用。在一个实现中，ACX寄存器2021提供由HI/LO寄存器对所提供的位以外的额外的8位整数精度。精确的位数是与具体实现有关的，优选的最小大小是8位。对于具有32位数据路径的处理器来说，ACX寄存器的优选的最大大小是32位。与此对照，对于具有64位数据路径的处理器，ACX寄存器的优选最大规模是64位。因此在一个具有32位宽的HI和LO寄存器的处理器中，寄存器ACX/HI/LO的组合可存放一个多于64位的串联值。

在图2和3中所描述的实现中，MDU 202包括一个除法单元。然而，其它实现或者在乘法单元中、或者在除法单元中、或者在乘法单元和除法单元二者中提供一个单独的实现扩展累加器的乘法和除法单元。

指令MUL、MULT和MULTU可以被用来把两个32位的数字在一起相乘。对于MUL来说，相乘的结果被存储在一个指定寄存器中，对于MULT和MULTU来说，结果被存储在HI/LO寄存器中。例如，“MUL$7，$6，$5”将寄存器$6和$5的内容在一起相乘，并将结果存储在寄存器$7中。指令“MULT$6，$5”将寄存器$6和$5的内容在一起相乘，并将结果存储在HI/LO寄存器中。MULTU指令与MULT执行相同的操作，不过MULTU应用于无符号操作数，而MULT应用于带符号操作数。此外，MULTU指令把ACX寄存器清除成全零。

指令DIV和DIVU执行除法运算并将结果存储在ACX/HI/LO寄存器中。例如，“DIV $6，$5”将寄存器$6的内容除以寄存器$5的内容，并将结果存储在ACX/HI/LO寄存器中。DIVU对无符号操作数执行相同的运算。

指令MSUB、MSUBU、MADD和MADDU可被用来将两个寄存器的内容相乘后与ACX/HI/LO寄存器的内容相加或相减。例如，″MSUB $6，$5″将寄存器$6和$5的内容在一起相乘后，从结果减去ACX/H I/LO寄存器的内容，然后将差值存储在ACX/HI/LO寄存器中。MADD指令类似地将两个寄存器的内容相乘后与ACX/HI/LO寄存器的内容相加，然后将结果存储在ACX/HI/LO寄存器中。MSUBU和MADDU对无符号操作数执行相同的运算。在有些实现中，ACX寄存器在有些运算中不使用，ACX寄存器的内容在这种运算后可能是无定义的。

MFHI、MFLO、MTHI、MTLO、MFLHXU和MLTHX指令被用来在ACX/HI/LO寄存器与通用寄存器之间移动数据。第一个指令MFHI把HI寄存器的内容装入通用寄存器中。例如，″MFHI $5″把HI寄存器的内容装入寄存器$5中。类似地，MFLO把LO寄存器的内容装入通用寄存器中。相反，指令MTHI、MTLO被用来把通用寄存器的内容装入HI和LO寄存器中。例如，″MTHI $5″把寄存器$5的内容装入HI寄存器中。

更一般来说，图10A中表示MFLHXU(″Move From Extended Carry，Hiand Lo(Unsigned)″)的指令格式。如图10A中所示，当被执行时，LO寄存器2023中的值被写入由该指令所指定的通用寄存器″rd″。HI寄存器2022中的值然后被写入LO寄存器2023，ACX寄存器2021中的位是零扩展(zero-extended)的并且被拷贝到HI寄存器2022，然后将ACX寄存器位清除。ACX寄存器位的数目与具体实现方案有关，范围例如可以从0到64位。如果在特定实现中没有ACX寄存器位被实现，则ACX寄存器的值将被清零。

类似地，图10B中显示了MTLHX(″Move to Lo，Hi and ExtendedCarry″)的指令格式。当被执行时，HI寄存器2002中的值的适当数目的(例如8)位被写入ACX寄存器2021中。LO寄存器2023中的值然后被写到HI寄存器，通用寄存器″rs″(由该指令所指定的，如图10B中所示)中的值被写到LO寄存器。这是MFLHXU指令的操作的逆操作(reverse)。ACX寄存器位的数目还是与具体实现有关的，范围例如可以从0到64位。如果HI寄存器2022含有比在ACX寄存器2021中实现的数目更多的有效位，该信息被丢弃而不产生例外。如果没有ACX寄存器位被实现，则从HI寄存器到ACX寄存器的转移被认为是″空操作″(no-op)。

在一个实施例中，ACX寄存器的内容是不能直接访问的。为了讨论的目的，在这个实现中ACX寄存器是8位宽的，HI寄存器和LO寄存器各为32位宽。为了间接访问ACX寄存器，可以将存储在ACX/HI/LO寄存器中的值向左或向右移位。例如，″MFLHXU $5″把ACX、HI和LO寄存器的内容向右移动一个寄存器位置，把LO寄存器的内容装入寄存器$5。这样，在执行该操作后，ACX寄存器是零，HI寄存器含有ACX寄存器以前的内容，LO寄存器含有HI寄存器以前的内容，$5寄存器含有LO寄存器以前的内容。因为8位的ACX寄存器的内容被装入32位的寄存器，可以将这个8位值零扩展到32位后再装入HI寄存器。

MTLHX执行相反的操作。例如，″MFLHX$5″用HI寄存器以前的内容装ACX寄存器，用LO寄存器以前的内容装HI寄存器，用$5寄存器以前的内容装LO寄存器。

PPERM操作执行如寄存器中所指定的置换，并将结果存储在ACX/HI/LO寄存器中。例如，″PPERM $5，$6″使ACX/HI/LO寄存器中向左移动6位。然后，如由寄存器$6所指定的那样从寄存器$5中选择低阶的6位。寄存器$6的32位内容被用来选择寄存器$5的那些位将被用来填充ACX/HI/LO寄存器的低阶位。因为寄存器$5中有32位，所以需要5位来指定这32位的一个特定位。例如，″01101″是13的二进制数。因此，这五位可以指定位13。类似地，″00000″是0的二进制数，″11111″是31的二进制数。因此，所有的32位都可以用一个5位的区分符(specifier)指定。

寄存器$6可以如下地指定被用来填充ACX/HI/LO寄存器的低阶位的$5的位：位0-4被用来指定位0的源，位5-9被用来指定位1，位10-14被用来指定位2，位15-19被用来指定位3，位20-24被用来指定位4，位25-29被用来指定位5。其余的位30-31可以不用。这样，利用所述的区分符，指令的执行使LO寄存器的最低6位被用$5寄存器中指定的位填充。

最后，MULTP可以被用来执行二进制多项式乘法，而MADDP则可以被用来执行二进制多项式乘法且其结果被加到ACX/HI/LO寄存器。这些操作类似于MULT和MADD，只是对二进制多项式操作数操作。

MULTP和MADDP的多项式操作数被编码在32位寄存器中，每个位都代表一个多项式系数。例如，多项式″X⁴+X+1″要被编码成″10011″，因为X3和X2的系数是″0″而其余的系数是″1″。MULTP指令对两个操作数进行二进制多项式乘法，例如，

(X⁴+X+1)(X+1)＝X⁵+X⁴+X²+2X+1。

减去多项式模2(modulo two)，产生X⁵+X⁴+X²+1。如果多项式是以上述的二进制表示编码的，则可以将相同的乘法表达为(10011)(11)＝110101。

MADDP指令就像MULTP一样地执行乘法，把结果加到ACX/HI/LO寄存器。可以用一个按位异或进行多项式加法。例如，二进制多项式加法(X⁴+X+1)+(X+1)产生X⁴+2X+2。减去系数模2后，于是产生X⁴，可以表达为″10000″。

参看图2和图3，MDU 2020接收两个32位操作数RS和RT。利用这些操作数，MDU 2020执行被请求的运算并将结果存储在ACX2021、HI 2022和LO 2023。图3中显示了可以被用来执行这些运算的主要数据路径。RShold寄存器3010和RThold寄存器3012被用来保存操作数RS和RT。多路转换器3020、3022和3024被用来选择是直接使用操作数RS和RT还是使用存储在RShold寄存器3010和RThold寄存器3012中的值。此外，多路转换器3022还可以被用来在RT或存储在RThold寄存器3012中的值的低阶位和高阶位之间进行选择。

RThold寄存器3012与多路转换器3022相连。多路转换器3022通过选择RThold寄存器3012的高阶位、RThold寄存器3012的低阶位、RT操作数的高阶位或RT操作数的低阶位而产生一个16位的结果。多路转换器3022的输出被Booth重编码器3040处理后存储在寄存器RTB 3042中。Booth重编码是一项准许乘法器阵列相同地对待有符号和无符号操作数的技术。寄存器RTB 3042的输出变成阵列单元3030的输入SEL 3034。

阵列单元3030被用来执行如下结合图4所述的算术和二进制多项式乘法。阵列单元3030以ACC1 3031、ACC2 3032、M 3033、SEL 3034和RThold 3012作为输入。输入ACC1 3031和ACC2 3032是累积的结果，用于先执行乘法再从一个累积结果加上或减去乘法结果的操作。输入SEL 3034(由寄存器RTB 3042决定)和M 3033(由寄存器RShold 3010决定)构成算术运算的操作数。输入RThold 3012(或RThold 3012的高阶位或低阶位)和M 3033(由寄存器RShold 3010决定)构成多项式运算和置换的操作数。这些输入的组合被用来执行如下文详细说明的各种计算。

阵列单元3030也包括两个输出，结果C 3035和结果S 3036。在执行算术运算时，可以用进位保留加法器(CSAs)来建立一个乘法阵列。进位保留加法器单独地计算和(sums)和进位(carries)，而产生两个输出。所以，结果C 3035和结果S 3036分别表示CSAs乘法阵列的进位输出和和输出。在一个实施例中，ACC1 3031、ACC2 3032、结果C 3035和结果S 3036每个是72位长的，其余的输入最多是32位长的。输入ACC1 3031和ACC2 3032可以用多路转换器3037和3038选择。

多路转换器3050和3052被用来选择作为寄存器CPAA 3054和CPAB 3056的输入的值。例如，多路转换器3050可用来在结果C3035、CPA 3058的输出或多路转换器3020的输出(即操作数RS或RShold 3010)之间进行选择。类似地，多路转换器3052可用来在结果S 3036、值0和多路转换器3024的输出(即操作数RT或CPAA 3054和CPAB 3056的输出)之间进行选择。这些寄存器把输入存储到进位传送(carry-propagate)加法器(CPA)3058。CPA 3058可用来完成乘法运算(乘法)以及执行循环的除法运算(除法)，如下文讨论的那样。

寄存器RDM 3060存储CPA 3058的结果。最后，多路转换器3070和3072选择那些值形成要被装入寄存器ACX、HI和LO的结果。多路转换器3070可用来选择ACX/HI/LO寄存器、RDM 3060或CPA 3058的结果。而多路转换器3072则可用来装入由多路转换器3070所选择的结果的各种置换。多路转换器3072用来通过准许以下值(当连接起来时形成72位的值)的选择而执行ACX/HI/LO寄存器的各种循环和装载(loads)：(1)ahl，多路转换器3070的72位输出；(2)arl，多路转换器3070的8个高阶位，RShold 3010的内容，和多路转换器3070的32个低阶位；(3)ahr，多路转换器3070的40个高阶位，和RShold 3010的内容；(4)hlr，多路转换器3070的40个低阶位，和RShold 3010的内容；(5)Oah，多路转换器3070的40个高阶位(具有32个前导零)。

HI/LO寄存器用来存储乘法的结果以及用来提供对累加器操作的支持。在一个实施例中，HI/LO寄存器的精度通过增加寄存器ACX作为扩展累加器而得到提高。因此，ACX/H I/LO寄存器可以存储72位的值。也可以增加图3中所示的对应的数据路径以及阵列3030的累加器功能，以支持72位的值。有些操作导致存储在ACX、HI、LO寄存器中的结果被覆盖。为此，可以提供一个单独的结果寄存器3080来在没有累加器ACX的情况下存储高阶和低阶结果。

因为扩展精度累加器ACX/HI/LO可以比通用寄存器有更高的精度，因此把所有72位装入一个通用寄存器是不可能的。于是，需要提供支持装载和操作ACX/HI/LO寄存器的内容的指令(例如MFLHXU和MTLHX)。

下面描述的数据路径包括六个主要部分：(1)输入寄存和选择；(2)Booth重编码；(3)乘法器阵列和置换逻辑；(4)进位传送加法器；(5)结果寄存和选择；(6)用于表示结果的一个单独的32位输出寄存器。

使用RShold和RThold寄存器执行输入寄存和选择来保存RS和RT操作数。多路转换器选择是直接用这些操作数还是用寄存的版本。Booth重编码是在向乘法器阵列和置换逻辑提供输入时对半个RT操作数执行的。

Booth重编码是一种准许乘法器阵列相同地对待有符号操作数和无符号操作数的技术。该技术以从2的次高次方中减的形式对操作数″重新编码″。例如，可以按下列方式对7进行Booth重编码。8-1＝1000₂-0001₂＝1001，其中1代表-1。Hennessy和Patterson在附录A的″Computer Architecture：A Quantitative Approach″中描述了Booth重编码(Morgan Kaufmann Publishers，Inc.1996)特此全文引用作为参考。

阵列单元3030的一个阵列执行算术乘法，并且阵列单元3030的一个阵列执行二进制多项式乘法。在一个实施例中，这两个阵列都是32×16位的，被使用一次还是两次要取决于RT操作数的大小(例如，如果RT是16位长的，相应的阵列被使用一次；如果是32位长的，相应的阵列被使用两次)。CPA可用来完成乘法并执行迭代(iterative)除法。其它实现可包括更快的执行除法的机制。

算术乘法阵列可以用在本文引用的Hennessy和Patterson所著的″Computer Architecture：A Quantitative Approach″(MorganKaufmann Publishers，Inc.1996)中描述的任何技术实现。例如，Hennessy和Patterson的附录A描述了若干种加速算术乘法的方法。所述的任何技术都可以被用作以下描述的多项式乘法扩展的基础。

参看图4，阵列单元3030包括两个并行乘法器(Marray 4100和Mparray 4200)和置换逻辑4300。第一个阵列Marray 4100执行算术乘法，如下文结合图5所说明的那样。Marray 4100用如上文所述的下列输入：ACC1 3031、ACC2 3032、M 3033和SEL 3034。输出包括结果C 3035和结果S 3036。第二个阵列MParray 4200执行二进制多项式乘法，如下文结合图6所说明的那样。MParray 4200用如上文所述的下列输入：RThold 3012的低阶位或RThold 3012的高阶位；RShold 3010和ACC1 3031。MParray 4200的输出是结果C 3036。最后，用置换逻辑4300根据RThold 3012中存储的值对RShold 3010的低阶位执行各种置换。

参看图5，Marray 4100是一个32位×16位的wallace树乘法器阵列，已经被修改得能支持两个宽72位的操作数ACC1和ACC2的加(the addition)。操作数ACC1和ACC2保存一个72位值的进位保留表示。因为已经为执行乘法而执行了加法(例如通过进位选择加法器(CSAs))，可以将一个额外的加法器包括到所有要被加到乘法的中间结果的ACC1和ACC2。Marray 4100生成一个进位保留表示的宽72位的结果。因为每个周期处理32×16位，因此对于32×32位的乘法来说需要在该阵列经过两个回合。

Marray 4100是作为从进位保留加法器阵列构造的Wallace树的形式实现的。这些阵列的宽度可以不同。这种设计可以用一种自动化的安置和路由(place and route)而不用数据路径样式来实现。因为前一个阵列回合的累积值以后被输入到该阵列，所以累积值不需要直接来自寄存器。用重叠三元组(overlapping triplets)进行Booth重编码，以更高效地处理乘法。Booth重编码的输出告诉对于每个4的幂加上是乘以-2、-1、0还是2中哪一个的操作数M。顶层CAS输入的多路转换器被用来选择M的对应倍数。

Marray 4100累积来自Booth重编码的八个积加上一个特殊的部分积。后者可以用于采用来自多路转换器的”0”和”1x”选择的32位无符号计算。在wallace树内，操作数可以是符号扩展的(sign-extended)，以正确地累积二进制补码(2’s complement)结果。

参看图6，基于二进制多项式的乘法运算是类似于对应的无符号算术运算被处理的。在一个实施例中，Mparray 4200是一个32×16位的阵列，它也用对例如ACC1的操作数异或(XOR)执行加法。与Marray 4100一样，每个周期处理32×16位，对于32×32乘法可以使用通过两个通过该阵列的回合。在第一个周期，ACC1是零(对于MULTP运算来说)或者前一个结果(对于MADDP运算来说)。在第二个周期，ACC1是来自第一周期的输出的高阶位。

Mparray 4200用一个阵列来乘两个操作数(例如OpA和OpB)，该阵列通过取OpA和OpB的一位的AND而构成每一行。例如，第一行是OpA和OpB的位0的逻辑AND。第二行是OpA和OpB的位1的逻辑AND。每个连续行的结果被向左移动一位。取每个列的异或(XOR)形成最终结果。因为可以在二进制多项式算术中用一个按位XOR来执行加法，可以把一个累加器行加到阵列Mparray 4200，以支持诸如MADDP的指令。

图4中所示的三个多路转换器被用来选择或者零或者Marray4100的和输出，以构成结果S 3036；以及Marray 4100、MParray 4200或置换逻辑4300的输出，以构成结果C 3035。

再次参看图1，MDU 2020在管线1003的执行阶段的第一周期开始一个计算。如果计算在指令已经被转移过了管线中的存储阶段1004之前完成，则将结果在该点保存。如果操作在指令已经被转移过了管线中的存储阶段1004时完成，则该指令已经被执行，结果被直接写到ACX/HI/LO寄存器。

将MDU 2020与环境管线断开；它不随环境而停滞。就是说，MDU2020将在管线停滞期间继续其计算。这样，多周期的MDU操作可以被系统停滞和/或其它的非MDU指令部分地屏蔽。

图7A表示经过32×16位乘法器的MDU 2020的管线流。RS和RT迟到，因此可以将第一周期用于Booth重编码。第二周期是阵列运行的地方，第三周期是CPA 3058完成计算的地方。因为结果总是可被MFxx指令读取的，所以32×16位乘法器可以不停地运行。一个直接向通用寄存器(GPR)返回结果的32×16 MUL可以停滞一个周期。

参看图7B，对于32×32位的乘法器，阵列被用两次，它把一个额外的时钟周期加到32×16位乘法上。在为操作数RT的第一部分的第一阵列回合完成时，对该操作数的第二部分进行Booth重编码。这样，紧接着第一回合完成之后，RT的Booth重编码的部分就可用于经过阵列的第二回合。乘法结果然后被用CPA 3058计算。

参看图7C，可以对正操作数采用一个简单的非恢复的(non-restoring)除法算法。如果需要的话，第一周期被用来对RS求反。由于定时的原因，这个周期即使在RS为正的情况下也被采用。接着，执行32、25、18或10个周期的迭代加/减操作。实际的数是以正的RS操作数上的先导零的数量为基础的。如果余数(remainder)是负的，则可能需要最后的余数调整。由于定时的原因，这个周期即使在不需要余数调整情况下也被采用。最后，如果需要的话对商和/或余数进行符号调整。如果两个操作数都为正，则可以省略这个周期。

在一个实施例中，目标应用要求快速的除法。可以用许多技术来提高除法的性能。例如可以使用Sweeney、Robertson和Tocher(SRT)算法或其某种变种。

参看图8，用一个有限状态机进行乘法运算。在空闲(IDLE)状态8010中，乘法开始。乘法器在空闲状态中一直停留到开始信号被建立(asserted)。乘法器然后根据操作数RT究竟含有32位的还是16位的值而要么转换到ARR1状态8020、要么转换到ARR2A状态8030。如果在RT中存储的是16位的值，则系统转换到ARR2A状态8030，在这里运行第一阵列回合。然后，乘法器转换到ARR2B状态8040，在这里运行第二阵列回合。如果在操作数RT中存储的是16位的值，则乘法在ARR1状态8020中运行通过阵列单元。

在这个实施例中，乘法器是管线化的。一个乘法可以通过阵列单元运行，另一个通过CPA。这样，乘法器或者在没有另外的乘法要执行时从ARR1状态8020或ARR2B状态8040转换到状态CPA 8050，或者开始第二个乘法。如果不需要另外的乘法，乘法器就通过CPA 8050运行，然后或者返回到空闲状态8010，或者如上所述的那样开始一个新的乘法。

在第一个乘法已经准备好通过CPA运行时，如果第二个乘法准备好被执行，则乘法器或者转换到CPA1 8060(用于32×16乘法)或者转换到CPA2A 8070(用于32×32乘法)。在状态CPA1 8060中，第一个乘法通过CPA运行，第二个乘法通过阵列单元运行。乘法器然后转换到状态CPA 8050以最终完成第二个乘法。

如果第二个乘法是32位乘法，则在状态CPA2A 8070中，第一个乘法通过CPA运行，第二个乘法通过阵列单元运行。乘法器然后转换到状态ARR2B 8040以完成该32×32位乘法。这个管线化的方法允许每个时钟周期发出32×16个乘法，具有两周期的延迟。每个其它时钟周期也可以发出32×32个乘法，具有三周期的延迟。

参看图9，可以用一个有限状态机进行迭代除法运算。在一个实施例中，MDU在空闲状态9010中开始。当收到一个要开始除法运算的信号时，MDU或者在操作是有符号的情况下转换到DIV1 9020，或者在操作是无符号的情况下转换到DIV1U 9030。状态DIV1 9020和ERLY 9040被用来为除法准备带符号操作数，必要时调整符号。状态DIV1U 9030和ERLYU 9050被用来准备一个无符号除法运算。在状态ERLY 9040和ERLYU 9050中，检测操作数RS中的前导零，以在必要时调整除法迭代的次数。

迭代除法在状态DIV 9060和DIVU 9070中进行。可以通过使用迭代加/减和移位进行除法。最后，在状态REM 9080和REMU 9090将余数最终化。如果哪一个操作数是负的，则在状态SGN 9100中进行符号调整。

再次参看图4，在一个实施例中，置换逻辑4300被用来支持上述的PPERM指令。置换逻辑4300由六个单一位32：1选择器组成，它们可被用来根据TRhold 3012的值选择Rshold 3010的32位的任何一位。这个逻辑可以直接在数据路径模块中实现。

例如，置换逻辑4300可以被用来执行指令”PPERM$5，$6”。置换逻辑4300用由TRhold 3012所决定的6个5位选择器来标识作为Rshold 3010的输出的要包括哪些位。例如，如果寄存器$5含有低阶位”010101”，则选择器”00010”就选择含有1的位2(即右边的第3位)。如果TRThold 3012含有低阶位”0001000011”，则位2(含有”1”的)和位3(含有”0”的)将被选择产生”10”。使用这个方法，置换逻辑4300可以根据Rthold 3012选择Rshold 3010中的位来生成6位。所产生的6位与ACC1的66个低阶位连接起来形成结果。这实际上把ACC1的66个低阶位向左移6位并以置换逻辑4300的输出代替6个低阶位。

除了使用硬件(例如在微处理器或微控制器内)的乘法器实现方案外，实现方案也可以体现在例如在为存储软件而配置的计算机可用的(即可读的)介质中设置的软件(即计算机可读的程序码)中。程序码使得本申请公开的系统和技术的功能或制造或两方面都能实现。例如，这可以通过使用通用计算机程序设计语言(例如C++)、包括Verilog HDL、VHDL、AHDL(Altera HDL)等的硬件描述语言(HDL)、或者其它可用的程序设计语言和/或电路(即图解)捕获工具来实现。程序码能被设置于任何已知的包括半导体、磁盘、光盘(例如CD-ROM、DVD-ROM)的计算机可用介质中，以及以计算机数据信号的形式体现在计算机可用的(例如可读的)传输介质(例如载波或包括数字、光学和基于模拟的介质等任何其它介质)中。因此，程序码可以在包括因特网和内部网的通信网络上传输。

应当明白，上述系统和技术实现和/或提供的功能可以在一个体现在程序码的内核(例如微处理器内核)中表示，并可以转换为作为集成电路制造的一部分的硬件。上述系统和技术也可以体现为硬件和软件的组合。因此，其它实现方案都应该落入后附的权利要求书的范围内。

Claims

1.一种用于微处理器的乘法单元，该微处理器带有至少一个用于存储预定数目的位的通用寄存器，该乘法单元包含：

至少一个输入数据路径，用于供乘法单元接收一个或多个输入操作数；

一个相连的乘法器，用于接收该一个或多个输入操作数并使用一个或多个输入操作数进行乘法；和

一个相连的扩展精度累计输出数据路径，用于接收乘法器的输出，其中包含比该一个或多个输入操作数的长度的总和的更多的位。

2.权利要求1的乘法单元，进一步包含一个扩展精度累加器，其中，来自扩展精度累计输出数据路径的数据被存储在扩展精度累加器中。

3.权利要求1的乘法单元，其中，乘法器提供乘-加运算，由此，至少两个操作数被相乘，然后与扩展精度累加器的内容相加。

4.权利要求1的乘法单元，其中，乘法器包括：

一个算术乘法器；和

一个多项式乘法器。

5.权利要求1的乘法单元，其中，算术乘法器是一个二进制补码的二进制算术乘法器，多项式乘法器是一个基于多项式的算术乘法器。

6.权利要求4的乘法单元，其中，多项式乘法器提供乘-加运算，由此，至少两个操作数被进行基于多项式的相乘，然后与扩展精度累加器的内容相加。

7.权利要求1的乘法单元，其中，乘法器包括用于选择把哪些值装入扩展精度累加器的结果逻辑。

8.权利要求7的乘法单元，其中，结果逻辑是多路转换器。

9.权利要求1的乘法单元，其中，来自扩展精度累计输出数据路径的数据被存储在累加器中，该累加器包括：

一个扩展寄存器；

一个高阶寄存器；和

一个低阶寄存器。

10.权利要求9的乘法单元，其中，扩展寄存器、高阶寄存器和低阶寄存器中的每一个包括至少一个通用寄存器。

11.权利要求9的乘法单元，其中，扩展寄存器存储8位的值，高阶寄存器存储32位的值，低阶寄存器存储32位的值。

12.权利要求1的乘法单元，其中，微处理器包括至少一条用于操作扩展精度累加器的内容的指令。

13.权利要求12的乘法单元，其中，该至少一条指令包括一条把扩展精度累加器中的值转移到通用寄存器的指令。

14.权利要求13的乘法单元，其中，该指令进一步包括对扩展精度累加器的内容移位。

15.权利要求14的乘法单元，其中，扩展精度累加器的内容被向右移位，移动位数由从扩展精度累加器转移到通用寄存器的值的大小决定。

16.权利要求12的乘法单元，其中，该至少一条指令包括一条把通用寄存器中的值转移到扩展精度累加器的指令。

17.权利要求16的乘法单元，其中，该指令进一步包括对扩展精度累加器的内容移位。

18.权利要求17的乘法单元，其中，扩展精度累加器的内容被向左移位，移动位数由从通用寄存器转移到扩展精度累加器的值的大小决定。

19.一种用于在具有至少一个通用寄存器的微处理器内核中进行算术运算的方法，该方法包含：

从一个数据存储器取出一条执行运算的指令；

读取一个或多个寄存器；

用一个乘法单元执行该运算，该乘法单元包含：

至少一个输入寄存器，用于供乘法单元接收一个或多个输入操作数；

一个相连的扩展精度累计输出数据路径，用于接收乘法器的输出，其中包含比该一个或多个输入操作数的长度的总和更多的位。

20.权利要求19的方法，进一步包含在扩展精度累加器中存储来自扩展精度累计输出数据路径的数据。

21.权利要求19的方法，进一步包含使用乘法器进行乘-加运算，该乘-加运算包括把至少两个操作数相乘，然后将相乘的结果与扩展精度累加器的内容相加。

22.权利要求19的方法，其中，乘法器包括：

一个算术乘法器；和

一个多项式乘法器。

23.权利要求19的方法，其中，算术乘法器是一个二进制补码的二进制算术乘法器，多项式乘法器是一个基于多项式的算术乘法器。

24.权利要求22的方法，进一步包含用多项式乘法器进行乘-加运算，该乘-加运算包括把至少两个操作数相乘，然后将相乘的结果与扩展精度累加器的内容相加。

25.权利要求19的方法，其中，乘法器包括用于选择把哪些值装入扩展精度累加器的结果逻辑。

26.权利要求25的方法，其中，结果逻辑是多路转换器。

27.权利要求19的方法，进一步包含把来自扩展精度累计输出数据路径的数据存储在累加器中，该累加器包括：

一个扩展寄存器；

一个高阶寄存器；和

一个低阶寄存器。

28.权利要求27的方法，其中，扩展寄存器、高阶寄存器和低阶寄存器每个包括至少一个通用寄存器。

29.权利要求27的方法，其中，扩展寄存器存储8位的值，高阶寄存器存储32位的值，低阶寄存器存储32位的值。

30.权利要求19的方法，进一步包含操作扩展精度累加器的内容。

31.权利要求30的方法，其中，操作该内容包括把扩展精度累加器中的值转移到通用寄存器。

32.权利要求31的方法，其中，操作该内容进一步包括对扩展精度累加器的内容移位。

33.权利要求32的方法，对内容移位包括将扩展精度累加器的内容向右移位，移动位数由从扩展精度累加器转移到通用寄存器的值的大小决定。

34.权利要求30的方法，其中，操作该内容进一步包括把通用寄存器中的值转移到扩展精度累加器。

35.权利要求34的方法，其中，操作该内容进一步包括对扩展精度累加器的内容移位。

36.权利要求35的方法，其中，对内容移位进一步包括把扩展精度累加器的内容向左移位，移动位数由从通用寄存器转移到扩展精度累加器的值的大小决定。

37.一种计算机可读介质，包含以软件体现的微处理器内核，微处理器内核包括至少一个通用寄存器和一个乘法单元，乘法单元包含：

一个相连的乘法器，用于接收该一个或多个输入操作数并用一个或多个输入操作数进行乘法；和

38.权利要求37的计算机可读介质，进一步包含一个扩展精度累加器，其中，来自扩展精度累计输出数据路径的数据被存储在扩展精度累加器中。

39.权利要求37的计算机可读介质，其中，乘法器提供乘-加运算，由此，至少两个操作数被相乘，然后与扩展精度累加器的内容相加。

40.权利要求37的计算机可读介质，其中，乘法器包括：

一个算术乘法器；和

一个多项式乘法器。

41.权利要求37的计算机可读介质，其中，算术乘法器是一个二进制补码的二进制算术乘法器，多项式乘法器是一个基于多项式的算术乘法器。

42.权利要求40的计算机可读介质，其中，多项式乘法器提供乘-加运算，由此，至少两个操作数被进行基于多项式的相乘，然后与扩展精度累加器的内容相加。

43.权利要求37的计算机可读介质，其中，乘法器包括用于选择把哪些值装入扩展精度累加器的结果逻辑。

44.权利要求43的计算机可读介质，其中，结果逻辑是多路转换器。

45.权利要求37的计算机可读介质，其中，来自扩展精度累计输出数据路径的数据被存储在累加器中，该累加器包括：

一个扩展寄存器；

一个高阶寄存器；和

一个低阶寄存器。

46.权利要求45的计算机可读介质，其中，扩展寄存器、高阶寄存器和低阶寄存器每个包括至少一个通用寄存器。

47.权利要求45的计算机可读介质，其中，扩展寄存器存储8位的值，高阶寄存器存储32位的值，低阶寄存器存储32位的值。

48.权利要求37的计算机可读介质，其中，微处理器包括至少一条用于操作扩展精度累加器的内容的指令。

49.权利要求48的计算机可读介质，其中，该至少一条指令包括一条把扩展精度累加器中的值转移到通用寄存器的指令。

50.权利要求49的计算机可读介质，其中，该指令进一步包括对扩展精度累加器的内容移位。

51.权利要求50的计算机可读介质，其中，扩展精度累加器的内容被向右移位，移动位数由从扩展精度累加器转移到通用寄存器的值的大小决定。

52.权利要求48的计算机可读介质，其中，该至少一条指令包括一条把通用寄存器中的值转移到扩展精度累加器的指令。

53.权利要求52的计算机可读介质，其中，该指令进一步包括对扩展精度累加器的内容移位。

54.权利要求53的计算机可读介质，其中，扩展精度累加器的内容被向左移位，移动位数由从通用寄存器转移到扩展精度累加器的值的大小决定。

55.一种微处理器，包含：

一个扩展精度累加器，其中，所述扩展精度累加器包括一个扩展寄存器、一个高阶寄存器和一个低阶寄存器；

一个通用寄存器；和

一个指令执行单元，它能够响应第一转移指令而便于第一数据转移，所述第一数据转移包括(1)将所述低阶寄存器的内容转移到所述通用寄存器，(2)将所述高阶寄存器的内容转移到所述低阶寄存器和(3)将所述扩展寄存器的内容转移到所述高阶寄存器。

56.权利要求55的微处理器，其中，所述指令执行单元能够响应第二转移指令而便于第二数据转移，所述第二数据转移包括(1)将所述高阶寄存器的内容转移到所述扩展寄存器，(2)将所述低阶寄存器的内容转移到所述高阶寄存器和(3)将所述通用寄存器的内容转移到所述低阶寄存器。

57.权利要求55的微处理器，其中，扩展寄存器、高阶寄存器和低阶寄存器中的每一个包含一个通用寄存器。

58.一种用于移动数据的方法，包含：

提供一个扩展精度累加器，所述累加器包括一个扩展寄存器、一个高阶寄存器和一个低阶寄存器；

提供一个通用寄存器；和

响应第一指令而将数据(1)从所述低阶寄存器转移到所述通用寄存器，(2)从所述高阶寄存器转移到所述低阶寄存器和(3)从所述扩展寄存器转移到所述高阶寄存器。

59.权利要求58的方法，进一步包含响应第二指令而将数据(1)从所述高阶寄存器转移到所述扩展寄存器，(2)从所述低阶寄存器转移到所述高阶寄存器和(3)从所述通用寄存器转移到所述低阶寄存器。

60.权利要求58的方法，其中，扩展寄存器、高阶寄存器和低阶寄存器中的每一个包含一个通用寄存器。

61.一种体现在传输介质中的计算机数据信号，包含：

计算机可读的第一程序码，用于提供一个扩展精度累加器，所述累加器包括一个扩展寄存器、一个高阶寄存器和一个低阶寄存器；

计算机可读的第二程序码，用于提供一个通用寄存器；和

计算机可读的第三程序码，用于提供一个指令执行单元，它能够响应第一转移指令而便于第一数据转移，所述第一数据转移包括(1)将所述低阶寄存器的内容转移到所述通用寄存器，(2)将所述高阶寄存器的内容转移到所述低阶寄存器和(3)将所述扩展寄存器的内容转移到所述高阶寄存器。

62.权利要求61的计算机数据信号，其中，所述指令执行单元能够响应第二转移指令方便于第二数据转移，所述第二数据转移包括(1)将所述高阶寄存器的内容转移到所述扩展寄存器，(2)将所述低阶寄存器的内容转移到所述高阶寄存器和(3)将所述通用寄存器的内容转移到所述低阶寄存器。

63.权利要求61的计算机数据信号，其中，扩展寄存器、高阶寄存器和低阶寄存器中的每一个包含一个通用寄存器。

64.一种移动数据的方法，包含：

提供一个通用寄存器；和

响应一条指令而将数据(1)从所述高阶寄存器转移到所述扩展寄存器，(2)从所述低阶寄存器转移到所述高阶寄存器和(3)从所述通用寄存器转移到所述低阶寄存器。

65.权利要求64的方法，其中，扩展寄存器宽X位，高阶寄存器宽Y位，且X小于Y。

66.权利要求58的方法，其中，扩展寄存器宽X位，高阶寄存器宽Y位，且X小于Y。

67.权利要求66的方法，其中，被从扩展寄存器转移到高阶寄存器的数据是零扩展的。

68.权利要求67的方法，其中，在数据被转移后扩展寄存器被清除。