CN1326033C

CN1326033C - 可以对复合操作数进行压缩操作的微处理器

Info

Publication number: CN1326033C
Application number: CNB021261601A
Authority: CN
Inventors: A·皮莱格; Y·雅列; M·米陶尔; L·M·门纳梅尔; B·艾坦
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1994-12-02
Filing date: 1995-12-01
Publication date: 2007-07-11
Anticipated expiration: 2015-12-01
Also published as: US7966482B2; US20060236076A1; EP0795153A1; US20130117540A1; US6516406B1; KR100329338B1; US20130124833A1; EP0795153A4; JP3615222B2; US20120198210A1; US8190867B2; US20130124832A1; WO1996017291A1; US20030115441A1; EP1265132A2; US6119216A; US8521994B2; BR9509845A; US8639914B2; US8793475B2

Abstract

一个处理器包括用于存储第一压缩数据的第一寄存器(209)，解码器(202)和功能单元(203)。解码器有一个控制信号输入(207)，用以接收第一控制信号和第二控制信号。第一控制信号用以指示压缩操作，而第二控制信号用以指示拆开操作。功能单元连接到解码器(202)和寄存器(209)上。功能单元除执行移动操作外还使用第一压缩数据执行压缩操作和拆开操作。

Description

可以对复合操作数进行压缩操作的微处理器

发明领域

本发明包括使用单个控制信号处理多个数据元素而执行操作的一种装置和方法。本发明允许对压缩数据类型执行移动、压缩和拆开的操作。

背景技术

当今，大多数个人计算机系统的工作机制是使用一个指令产生一个结果。通过增加指令的执行速度和处理器指令的复杂程度以及并行执行多个指令来增加处理器性能，这种计算机称为复杂指令集计算机(CISC)。例如加里福尼亚州Santa Clara的INTEL公司的INTEL80386^TM微处理器就属于CISC类型的处理器。

先前的计算机系统结构经过优化以利用CISC概念。这样的系统通常具有32位宽的数据总线。然而，针对计算机支持的协作(CSC-电话会议与混合媒体数据操作集成)、2维/3维图像、图像处理、视频压缩/解压、识别算法和音频处理方面的应用增加了对更高性能的需求。但是，执行速度和指令复杂性的增加只是一种解决方案。

这些应用的一个共同的特征是它们常常操作大量的数据，其中只有少数位是重要的。也就是说，是有关位用比数据总线大小少得多的位表示的数据。例如，处理器的许多操作是就8位和16位数据执行的(例如视频图像中的像素彩色分量)，但是具有宽得多的数据总线和寄存器。因此，具有32位数据总线和寄存器并且执行这样一种算法的处理器可能损失多达75％的数据处理、运载和存储能力，因为只有前8位数据是重要的。

因此，希望有一个处理器，它通过更加有效地利用表示被操作数据需要的位数和处理器实际数据运载和存储容量之间的差，从而提高其性能。

发明内容

本文说明一种改进了数据处理操作的处理器。

一种处理器，它包括存储第一压缩数据的第一寄存器，一个解码器和一个功能单元。解码器有一个控制信号输入。控制信号输入用于接收第一控制信号和第二控制信号。第一控制信号用于指示一个压缩操作。第二控制信号用于指示一个拆开操作。功能单元连接到解码器和寄存器。功能单元使用第一压缩数据执行压缩和拆开操作。处理器还支持移动操作。

根据本发明，提供了一种方法，包括：接收第一指令，所述第一指令包括一个操作码字段、表明具有第一组多个数据元素的第一操作数的一个第一字段以及表明具有第二组多个数据元素的第二操作数的一个第二字段，第一组多个数据元素和第二组数据元素中的每个数据元素的长度是N比特；响应于所述第一指令，存储长度为至少N比特的第一压缩数据到目标位置，所述第一压缩数据包括第一组多个数据元素中的每个数据元素和第二组多个数据元素中的每个数据元素的转换形式，每个所述转换形式是长度小于N比特的多比特元素。

根据本发明，还提供了一种装置，包括：接收第一指令的解码器，所述第一指令表明具有第一组多个数据元素的第一操作数和具有第二组多个数据元素的第二操作数，所述第一组多个数据元素和第二组多个第二数据元素中的每一个的长度是N比特；与所述解码器耦接的一个功能单元，响应于所述解码器解码第一指令而存储长度为2N比特的第一压缩数据，所述第一压缩数据包括含有对应于第一组多个数据元素和第二组多个数据元素中的每一个的转换数据元素的多个转换数据元素，其中所述转换数据元素是长度小于N比特的多比特元素。

根据本发明，还提供了一种微处理器，包括：保持第一压缩数据的第一源寄存器，所述第一压缩数据具有包含第一压缩数据元素和第二压缩数据元素的第一组多个压缩数据，每个第一压缩数据元素和第二压缩数据元素的长度是N比特；保持第二压缩数据的第二源寄存器，所述第二压缩数据具有包含第三压缩数据元素和第四压缩数据元素的第二组多个压缩数据，每个第三压缩数据元素和第四压缩数据元素的长度是N比特；被耦接的电路，用于从第一源寄存器接收第一压缩数据和从第二源寄存器接收第二压缩数据，并响应于一个压缩指令压缩所述第一压缩数据和所述第二压缩数据，其中第一压缩数据元素的第一部分和第二压缩数据元素的所述第一部分被压缩到目标寄存器中，而第三压缩数据元素的第二部分和第四压缩数据元素的所述第二部分被压缩到目标寄存器中，每个第一和第二部分的长度是N/2比特。

根据本发明，还提供了一种设备，包括：用于接收第一指令的装置，所述第一指令包括一个操作码字段、表明具有第一组多个数据元素的第一操作数的一个第一字段以及表明具有第二组多个数据元素的第二操作数的一个第二字段，第一组多个数据元素和第二组数据元素中的每个数据元素的长度是N比特；以及用于响应于所述第一指令而存储长度为至少N比特的第一压缩数据到目标位置的装置，所述第一压缩数据包括第一组多个数据元素中的每个数据元素和第二组多个数据元素中的每个数据元素的转换形式，每个所述转换形式是长度小于N比特的多比特元素。

虽然在说明书和附图中包含了大量的细节，但是，本发明由权利要求的范围限定。只有在这些权利要求中提到的限制适用于本发明。

附图说明

本发明用附图中的、但不限于附图中的实例说明，相同的参考标号表示相似的元件。

图1表示使用本发明的方法和装置的计算机系统的一个实施例；

图2表示本发明的处理器的一个实施例；

图3是说明由本发明的处理器使用的操作寄存器文件中的数据的总步骤的流程图；

图4a说明存储器数据类型；

图4b、图4c和图4d说明整数数据的寄存器内表示；

图5a表示压缩数据类型；

图5b，图5c和图5d说明压缩数据的寄存器内表示；

图6a表示在该计算机系统中使用的指示使用压缩数据的控制信号格式；

图6b表示第二控制信号格式，它可以用于该计算机系统指示使用压缩数据或者整数数据；

图7表示由处理器在对压缩数据执行压缩操作时所遵循的方法的一个实施例；

图8a表示能够对压缩字节数据实现压缩操作的电路；

图8b表示能够对压缩字数据实现压缩操作的电路；

图9表示由处理器在对压缩数据执行拆开操作时所遵循的方法的一个实施例；

图10表示能够对压缩数据实现拆开操作的电路。

具体实施方式

本文叙述了对多个数据元素进行移动、压缩和拆开操作的处理器。

在下面的说明中，叙述了大量的诸如电路等这样的细节，以便提供对本发明彻底的了解。在另外的场合，为避免不必要地冲淡对本发明的理解，对熟知的结构和技术未作详细的叙述。

定义

为了对理解本发明的实施例的说明提供基础，提供下面的定义。

位X到位Y：定义二进制数的一个子字段。例如字节00111010₂(以2为基表示)的位6到位0表示子字段111010₂，二进制数后面的2表示以2为基。因此，1000₂等于8₁₀，而F₁₆等于15₁₀。

Rx：是一个寄存器。寄存器是能够存储和提供数据的任何设备。寄存器的另外的功能下面说明。一个寄存器不一定是处理器组件的一部分。

DEST：是一个数据地址。

SRC1：是一个数据地址。

SRC2：是一个数据地址。

Result：要存储在由DEST寻址的寄存器中的数据。

Source1：存储在由SRC1寻址的寄存器中的数据。

Source2：存储在由SRC2寻址的寄存器中的数据。

计算机系统

参考图1，可以实现本发明的实施例的计算机系统作为计算机系统100表示。计算机系统100包括总线101或者其它传输信息的通信硬件和软件以及与总线101连接的处理信息的处理器109。计算机系统100另外还包括一个随机存取存储器(RAM)或者其它动态存储设备(称为主存储器104)，它连接到总线101上，用于存储信息和要由处理器109执行的指令。主存储器104也可以用于暂存变量或者其它在处理器109执行指令时期的中间信息。计算机系统100还包括连接在总线101上的只读存储器(ROM)106，和/或其它静态存储设备，用于存储静态信息和处理器109要执行的指令。数据存储设备107连接到总线101上用于存储信息和指令。

另外，数据存储设备107，例如磁盘或光盘以及它们相应的驱动器，可以连接到计算机100上。计算机系统100也可以通过总线101连接到一个显示设备121上，以便显示信息给计算机用户。显示设备121可以包括一个帧缓冲器，专用图形处理设备，一个阴极射线管(CRT)，和/或一个平面面板显示器。通常一个包括字母数字和其它键的字母数字输入设备122连接到总线101上，用于给处理器109传输信息和命令选择。另一类型的用户输入设备是光标控制设备123，例如鼠标、轨迹球、光笔、触摸屏、或者光标指示键，用于给处理器109传输方向信息和命令选择以及控制光标在显示设备121上的移动。这种输入设备通常在两个轴上有两个自由度，第一轴(例如x轴)和第二轴(例如y轴)，它们允许光标控制设备在一个平面内指定位置。然而本发明不应该局限于只有两个自由度的输入设备。

另一个可以连接到总线101上的设备是硬拷贝设备124，它可能用于在诸如纸、胶片、或者类似类型介质上打印指令、数据或者其它信息。另外计算机系统100可以连接到声音记录和/或回放设备125上，例如连接到一个麦克风上记录信息的音频数字转换器。另外，该设备还可能包括一个连接到数/模(D/A)转换器的扬声器，用于回放数字化的声音。

还有，计算机系统100可以是一个计算机网络(例如一个局域网)的一个终端。这样，计算机系统100便是包括若干连网设备的一个计算机系统的一个计算机子系统。计算机系统100可以包括视频数字化设备126。视频数字化设备126可以用于获取视频图像，而传输给网络中的其它设备。

计算机系统100对于支持计算机支持的协作(CSC-电话会议与混合介质数据操作的集成)、2维/3维图形、图像处理、视频压缩/解压、识别算法和音频操作十分有用。

处理器

图2表示处理器109的详图。处理器109可以在使用一层或多层诸如BiCMOS、CMOS和NMOS等工艺技术的基底上实现。

处理器109包括一个解码由处理器109使用的控制信号和数据的解码器202。然后数据可以通过内部总线205存储在寄存器文件204中。显然，一个实施例的寄存器不应该局限于特定类型的电路，相反，一个实施例的寄存器只需要能够存储和提供数据，以及执行这里叙述的功能。

根据不同的数据类型，数据可能存储在整数寄存器组201、寄存器组209、状态寄存器组208或者指令指针寄存器211中。其它的寄存器例如浮点寄存器可以包含在寄存器文件204中。在一个实施例中，整数寄存器组201存储32位整数数据。在一个实施例中寄存器209组包括8个寄存器，R₀ 212a到R₇ 212b。寄存器组209中的每一个寄存器为64位长。R₁ 212a、R₂ 212b和R₃ 212c是寄存器组209中单个寄存器的例子。寄存器组209中的一个寄存器的32位可以移动到整数寄存器组201中的一个整数寄存器中。类似地，一个整数寄存器中的值可以移动到寄存器组209中的一个寄存器的32位中。

状态寄存器组208指示处理器109的状态。指令指针寄存器211存储下一要执行的指令的地址。整数寄存器组201、寄存器组209、状态寄存器组208、和指令指针寄存器211都连接到内部总线205上。任何另外的寄存器也都应该连接到内部总线205上。

在另一个实施例中，这种寄存器中的某一些可以用于两种类型的数据。例如，寄存器组209和整数寄存器组201可以组合，其中每一个寄存器既可以存储整数数据也可以存储压缩数据。在另一个实施例中，寄存器组209可以用作浮点寄存器组。在这一实施例中，压缩数据或者浮点数据可以存储在寄存器组209中。在一个实施例中，组合寄存器为64位长，而整数用64位表示。在该实施例中，在存储压缩数据和整数数据时，寄存器不需区分这两种数据类型。

功能单元203执行由处理器109执行的操作。这样的操作包括移位、加法、减法和乘法等。功能单元203连接到内部总线205。高速缓冲存储器206是处理器109的一个选件，可以用于缓冲存储例如来自主存储器104的数据和/或控制信号。高速缓冲存储器206连接到解码器202以接收控制信号207。

图3表示处理器109的总操作。也就是说，图3表示处理器109在对压缩数据执行操作，对未压缩数据执行操作或者执行某个其它操作时遵循的步骤。例如这样的操作包括用从高速缓冲存储器206、主存储器104、只读存储器(ROM)106或者数据存储设备107的数据加载寄存器文件204中的一个寄存器的加载操作。在本发明的一个实施例中，处理器109支持由加里福尼亚州圣大克拉热INTEL公司的INTEL80486^TM支持的大多数指令。在本发明另一个实施例中，处理器109支持由加里福尼亚州圣大克拉热INTEL公司的INTEL 80486^TM支持的全部操作。在本发明的再一个实施例中，处理器109支持由加里福尼亚州圣大克拉热INTEL公司制造的奔腾处理器、INTEL 80486^TM处理器、80386^TM处理器、INTEL 80286^TM处理器、和INTEL 8086^TM处理器支持的全部操作。在本发明的另一个实施例中，处理器109支持由加里福尼亚州Santa Clara的INTEL公司定义的IATM-INTEL结构支持的全部操作(参见“微处理器”，INTEL数据丛书卷1和卷2，1992年和1993年，加里福尼亚州Santa Clara INTEL公司出版)。一般来说，处理器109可以支持奔腾处理器的当前指令集，但是也可以修改为支持未来指令以及这里叙述的指令集的集合。重要的是，处理器109除这里叙述的操作外，可以支持先前所用的操作。

在步骤301，解码器202从高速缓冲存储器206或者总线101接收一个控制信号207。解码器202解码控制信号以判定要执行的操作。

在步骤302，解码器202访问寄存器204或者存储器中的一个存储单元。根据在控制信号207中指定的寄存器地址访问寄存器文件204中的寄存器或在存储器中的存储单元。例如，为对压缩数据进行操作，控制信号207可以包括SRC1、SRC2和DEST寄存器地址。SRC1是第一源寄存器地址，SRC2是第二源寄存器地址。在一些情况下，SRC2地址是可选项，因为并非所有的操作需要两个源地址。如果一个操作不需要SRC2地址，则只使用SRC1地址。DEST是存储结果数据的目的寄存器的地址。在一个实施例中，SRC1或SRC2也用作DEST。SRC1、SRC2和DEST将结合图6a和图6b更充分地说明。存储在相应寄存器中的数据分别称为Source1、source2和Result。它们每一个为64位长。

在本发明的另一个实施例中，SRC1、SRC2和DEST中的任何一个或者全部可以定义为处理器109中的可寻址存储器空间的一个存储单元。例如，SRC1可能确定在主存储器104中的一个存储单元，而SRC2确定在整数寄存器组201中的第一寄存器，以及DEST确定寄存器组209中的第二寄存器。这里为说明简单起见，参考标号是对寄存器文件204的访问标注的，然而这些访问也可以对存储器进行。

在本发明的另一个实施例中，操作码只包含两个地址，SRC1和SRC2。在该实施例中，运算结果存储在SRC1或SRC2寄存器中，也就是说，SRC1(或SRC2)用作DEST。这种类型的寻址与前面只具有两个地址的CISC指令兼容。这简少了解码器202的复杂性。注意，在这一实施例中，如果在SRC1寄存器中包含的数据不准备破坏，则在执行操作前必须首先把该数据复制到另一个寄存器中。这一复制需要一个另外的指令。这里为说明简单起见，将使用三地址寻址模式(亦即SRC1、SRC2和DEST)。然而应当记住，在一个实施例中，控制信号可能只包括SRC1和SRC2，以及SRC1(或SRC2)标识目的寄存器。

在控制信号需要一个操作时，在步骤303，允许功能单元203对来自寄存器文件204的被访问的数据执行该项操作。一旦功能单元203执行完这一操作，在步骤304，则根据控制信号207的要求把结果回存到寄存器文件204中。

数据和存储格式

图4a表示可以用于图1的计算机系统的一些数据格式。这些数据格式是定点格式。处理器109可以操作这些数据格式。多媒体算法常常使用这些数据格式。一个字节401包含8个信息位。一个字402包含16个信息位，或者两个字节。一个双字403包含32个信息位，或者4个字节。于是，处理器109执行可能操作这些存储器数据格式中任何一个的控制信号。

在下面的说明中，对位、字节、字、和双字的子字段加参考标号。例如，字节00111010₂(以2为基表示)的位6到位0表示子字段111010₂。

图4b到图4d表示本发明的实施例中使用的寄存器内表示。例如无符号字节寄存器内表示410可以表示存储在整数寄存器组201中的一个寄存器中的数据。在一个实施例中，整数寄存器组201中的一个寄存器为64位长。在另一个实施例中，整数寄存器组201中的一个寄存器为32位长。为说明简单起见，下面叙述64位的整数寄存器，然而也可以使用32位的整数寄存器。

无符号字节的寄存器内表示410示出处理器109在整数寄存器组201中存储一个字节401，在该寄存器中的头8位，即位7到位0用于该数据字节401。这些位表示为{b}。为适当地表示这一字节，其余的56位必须为0。对于一个有符号字节的寄存器内表示411，整数寄存器组201在头7位，即位6到位0存储该数据，为数据部分，第7位表示符号位，图中表示为{S}。其余的位63到位8为该字节的符号的延续。

无符号字的寄存器内表示412存储在整数寄存器组201中的一个寄存器中。位15到位0包含一个无符号字402。这些位表示为{w}。为适当地表示该字，其余的位63到位16必须为0。带符号的字402存储在位14到位0，如带符号字的寄存器内表示413所示。其余的位64到位15是符号字段。

双字403可以作为无符号双字的寄存器内表示414存储，或者作为带符号双字的寄存器内表示415存储。无符号双字的寄存器内表示414的位31到位0为数据。这些位表示为{d}。为适当表示该无符号双字，其余的位63到位32必须为0。整数寄存器组201在其位30到位0存储一个带符号双字的寄存器内表示415，其余的位63到位31是符号字段。

如上面图4b到图4d所示，一些数据类型在64位宽的寄存器中的存储是一种低效的存储方法。例如，为存储一个无符号字节的寄存器内表示410，位63到位8必须为0，而只有位7到位0可能包含非0位。因此，在一个64位寄存器中存储一个字节的处理器只使用寄存器容量的12.5％。相似地，由功能单元203执行的操作只有前几位是重要的。

图5a表示压缩数据的数据格式。每一压缩数据包括多于一个独立的数据元素。图中说明3种压缩数据格式：压缩字节501，压缩字502和压缩双字503。在本发明的一个实施例中，压缩字节为64位长，包含8个数据元素，每一个数据元素为一字节长。一般来说，一个数据元素是一个单个的数据，它与具有同样长度的其它数据元素存储在一个单一寄存器中(或存储单元)。在本发明的一个实施例中，存储在一个寄存器中的数据元素的数目等于64除以数据元素的位长。

压缩字502为64位长，包含4个字402数据元素。每一个字402数据元素包含16个信息位。

压缩双字503为64位长，包含两个双字403数据元素。每一个双字403数据元素包含32个信息位。

图5b到图5d表示寄存器内压缩数据存储表示。无符号压缩字节的寄存器内表示510示出压缩字节501在寄存器组R₀ 212a到寄存器组R_n212af中的一个寄存器中的存储方式。每个字节数据元素的信息对于字节0存储在位7到位0，对于字节1存储在位15到位8，对于字节2存储在位23到位16，对于字节3存储在位31到位24，对于字节4存储在位39到位32，对于字节5存储在位47到位40，对于字节6存储在位55到位48，对于字节7存储在位63到位56。因此寄存器中所有可用的位都被使用。这种存储安排增加了处理器的存储效率。另外，通过访问8个数据元素，现在可以同时对8个数据元素执行操作。带符号压缩字节的寄存器内表示511类似地存储在寄存器组209中的一个寄存器中。注意，每一字节数据元素只有第8位是必须的符号位，其它位可以用于或者可以不用于指示符号。

无符号压缩字的寄存器内表示512示出字3到字0是怎样存储在寄存器组209中的一个寄存器中的。位15到位0包含对于字0的数据元素信息，位31到位16包含对于字1的数据元素信息，位47到位32包含对于字2的数据元素信息，而位63到位48包含对于字3的数据元素信息。带符号压缩字的寄存器内表示513类似于无符号压缩字的寄存器内表示512。注意，每一字数据元素只有第16位包含必要的符号指示符。

无符号压缩双字的寄存器内表示514表示寄存器组209怎样存储两个双字数据元素。双字0存储在寄存器的位31到位0。双字1存储在寄存器的位63到位32。带符号压缩双字的寄存器内表示515类似于无符号压缩双字的寄存器内表示514。注意，必要的符号位是该双字数据元素的第32位。

如前所述，寄存器组209既可以用于压缩数据，也可以用于整数数据。在本发明的这一实施例中，可以要求单个程序处理器109跟踪一个被寻址的寄存器，例如R₁ 212a，是否正在存储压缩数据或者简单整数/定点数据。在另一可选实施例中，处理器109可以跟踪存储在寄存器组209中的单个寄存器中的数据类型。因此，如果例如试图对简单/定点整数数据施行一个压缩的加法运算的话，这一可选实施例可能产生错误。

控制信号格式

下面说明处理器109所用操作压缩数据的控制信号格式的一个实施例。在本发明的一个实施例中，控制信号用32位表示。解码器202可以从总线101接收控制信号207。在另一个实施例中，解码器202也可以从高速缓冲存储器206接收这样的控制信号。

图6a表示对压缩数据进行操作的控制信号的一般格式。操作字段OP601，即位31到位26，提供关于由处理器109要执行的操作的信息；例如压缩加，压缩减等。SRC1602，即位25到位20，提供寄存器组209中的一个寄存器的源寄存器地址。该源寄存器包含在控制信号执行中要用的第一压缩数据，Source1。相似地，SRC2 603，即位19到位14，包含寄存器组209中的一个寄存器的地址。这一第二源寄存器包含执行操作期间要用到的压缩数据，Source2。DEST605，即位5到位0包含寄存器组209中的一个寄存器的地址。该目的寄存器将存储压缩数据操作的结果压缩数据Result。

控制位SZ610，即位12和位13，指示在第一和第二压缩数据源寄存器中的数据元素的长度。如果SZ610等于01₂，则压缩数据作为压缩字节501格式化。如果SZ610等于10₂，则压缩数据作为压缩字502格式化。SZ610等于00₂或11₂预留，然而，在另一个实施例中，其中的一个可以用来指示压缩双字503。

控制位T611，即位11，指示该操作是否以饱和方式执行。如果T611等于1，则执行饱和操作。如果T611等于0，则执行非饱和操作。后面说明饱和操作。

控制位S612，即位10，指示使用带符号操作。如果S612等于1，则执行带符号操作；如果S612等于0，则执行无符号操作。

图6b表示操作压缩数据的控制信号的第二种一般格式。该格式相应于在“奔腾处理器系列用户手册”中叙述的一般整数操作码格式，该手册由INTEL公司文献销售部出版，地址为P.O，Box 7641，Mt，prospect，IL，60056-7641。注意，OP601，SZ610，T611，和S612都结合在一个大字段中。对于一些控制信号，位3到位5是SRC1 602。在一个实施例中，其中有一个SRC1 602地址，则位3到位5也相应于DEST605。在一个可选的实施例中，其中有一个SRC2 603地址，则位0到位2也相应于DEST605。对于其它的控制信号，例如压缩移位立即操作，位3到位5表示操作码场的扩展。在一个实施例中，这种扩展允许程序员把一个立即数与控制信号结合，例如一个移位计数值。在一个实施例中，立即数跟着控制信号。这在“奔腾处理器系列用户手册”一书的附录F，从F-1到F-3页有详细介绍。位0到位2表示SRC2603。这种一般格式允许寄存器到寄存器，存储器到寄存器，由存储器对寄存器，由寄存器对寄存器，由立即数对寄存器，由寄存器到存储器寻址。在一个实施例中，这种一般格式也可以支持整数寄存器到寄存器和寄存器到整数寄存器寻址。

饱和/非饱和的说明

如前所述，T611指示操作是否可选为饱和。在允许饱和的场合，当一个操作的结果溢出或下溢数据的范围时，其结果被箝位。箝位指的是如果结果超过该范围的最大或最小值时把结果设定在最大或最小值。在下溢的场合，饱和把结果箝位在该范围的最小值，而在溢出的场合，饱和把结果箝位在最大值。对于每一种数据格式允许的范围示于表1。

数据格式	最小值	最大值
数据格式	最小值	最大值	无符号字节	0	255
带符号字节	-128	127	无符号字节	0	255
带符号字节	-128	127	无符号字	0	65535
带符号字	-32768	32767	无符号字	0	65535
带符号字	-32768	32767	无符号双字	0	2⁶⁴-1
带符号双字	-2⁶³	2⁶³-1	无符号双字	0	2⁶⁴-1

表1

如上所述，T611指示是否正在执行饱和操作。因此，使用无符号字节数据格式，如果一个运算结果＝258并且允许饱和，则在该结果被存储在该操作的目的寄存器之前被箝位在255。类似地，如果运算的结果＝-32999且处理器109使用带符号字数据格式同时允许饱和，则运算结果在被存储在该运算的目的寄存器之前被箝位在-32768。

数据处理操作

在本发明的一个实施例中，多媒体应用的性能不仅通过支持标准的CISC指令集(未压缩数据操作)，而且通过支持对压缩数据的操作而得以改善。这样的压缩数据操作可能包括加法、减法、乘法、比较、移位、与和异或。然而，为充分使用这些操作，已经确定，应该包括数据处理操作。这样的数据处理操作可能包括移动、压缩和拆开。移位、压缩和拆开由于产生出允许程序员容易使用的格式的压缩数据而方便了其它操作的执行。

对于其它压缩操作的进一步的背景，参见流水号为—，于—申请的“具有比较操作的微处理器”，流水号为—于—申请的“具有移位操作的新型处理器”，流水号为08/176123，于1993年12月30日申请的“处理器中使用压缩数据的方法和装置”，流水号为08/175772，于19933年12月30日申请的“在处理器中使用新型操作的方法和装置”，所有这些申请都转让给本发明的受让人。

移动操作

移动操作把数据传输给寄存器209或从寄存器209传输出数据。在一个实施例中，SRC2 603是包含源数据的地址，而DEST605是数据要传输到的地址。在该实施例中，不用SRC1 602。在另一个实施例中，SRC1 602就是DEST605。

为解释移动操作，要区分寄存器和存储单元这两种情况。寄存器在寄存器文件204中寻找，而存储器可以是高速缓冲存储器206、主存储器104，ROM106，数据存储设备107。

移动操作可以从存储器到寄存器组209、从寄存器组209到存储器、和从寄存器组209中的一个寄存器到寄存器组209中的另一个寄存器移动数据。在一个实施例中。压缩数据存储在不同于存储整数数据的寄存器中。在该实施例中，移动操作可以把数据从整数寄存器组201移动到寄存器组209中。例如，在处理器109中，如果压缩数据存储在寄存器组209中而整数数据存储在整数寄存器组201中，则可以使用移动指令从整数寄存器组201移动数据到寄存器组209，反之亦然。

在一个实施例中，当为移动指定一个存储器地址时，在存储单元(指示最低有效字节的存储器单元)中的数据的8个字节加载到寄存器组209中的一个寄存器或从该寄存器存储数据的8个字节到该存储单元。当指定寄存器组209中的一个寄存器时，该寄存器中的内容被移动到寄存器组209中的第二寄存器或从寄每器组209中的第二寄存器加载内容到该寄存器。如果整数寄存器201为64位长，旦指定一个整数寄存器，则在该整数寄存器中的数据的8个字节加载到寄存器209中的一个寄存器中或从后者存储在该整数寄存器中。

在一个实施例中，整数用32位表示。当从寄存器组209到整数寄存器组201执行移动操作时，则只有低32位压缩数据移动到指定的整数寄存器。在一个实施例中，高阶32位被置0。相似地，当执行从整数寄存器组201到寄存器组209的移动时，只加载寄存器组209中的一个寄存器的低32位。在一个实施例中，处理器109支持在寄存器组209的一个寄存器到存储器之间的32位移动操作。在另一个实施例中，只有32位的移动操作是就压缩数据的高阶32位进行的。

压缩操作

在本发明的一个实施例中，SRC1 602寄存器包含数据(Source1)，SRC2 603寄存器包含数据(Source2)，而DEST605寄存器包含运算的结果数据(Result)。也就是说，Source1的各部分和Source2的各部分压缩在一起产生Result。

在一个实施例中，压缩操作通过把源压缩字(或双字)的低位字节(或字)压缩到Result的字节(或字)中而把压缩字(或双字)变换为压缩字节(或字)。在一个实施例中，压缩操作把四压缩字变换为压缩双字。这一操作可选使用带符号数据执行。另外，该操作可选使用饱和方式执行。

图7表示对压缩数据执行压缩操作的方法的实施例。该实施例可以在图2中的处理器109中实现。

在步骤701、解码器202解码由处理器109接收的控制信号207。于是，解码器202解码：适当的压缩操作的操作码；寄存器组209中的SRC1 602、SRC2 603和DEST605的地址；饱和/非饱和、带符号/无符号、和在压缩数据中的数据元素的长度。如前所述，SRC1602(或SRC2 603)可以用作DEST605。

在步骤702，通过内部总线205，解码器202访问寄存器

文件204中的寄存器组209，给出SRC1 602和SRC2603的地址。寄存器组209供给功能单元203存储在SRC1602寄存器中的数据(Source1)和存储在SRC2 603寄存器中的数据(Source2)、也就是说，寄存器组209通过内部总线205给功能单元203传输数据。

在步骤703，解码器202允许功能单元203执行适当的压缩操作。解码器202通过内部总线205进一步传输在Source1和Source2中的数据元素的饱和和大小。饱和作为选项用以使在结果数据元素中的数据取最大值。如果在Source1和Source2中的数据元素的值大于或者小于在Result中的数据元素所能表示的值的范围，则相应的结果数据元素设定为其最大或最小值。例如，如果在Source1和Source2中的字数据元素中的带符号值小于0X80(或对双字来说为0X8000)，则结果字节(或字)数据元素箝位在0X80(或对双字来说为0X8000)。如果在Source1和Source2中的字数据元素中的带符号值大于0X7F(或对双字来说为0X7FFF)，则结果字节(或字)数据元素箝位在0X7F(或0X7FFF)。

在步骤710，数据元素的大小决定下一步要执行哪个步骤。如果数据元素的大小为16位(压缩字502数据)，则功能单元203执行步骤712。然而，如果压缩数据的数据元素的大小为32位(压缩双字503数据)，则功能单元203执行步骤714。

假定源数据元素的大小为16位，则执行步骤712。在步骤712，执行下面的内容。Source1位7到0为Result位7到0。Source1位23到16为Result位15到8。Source1位39到32为Result位23到16。Source1位63到56为Result位31到24。Source2位7到0为Result位39到32。Source2位23到16为Result位47到40。Source2位39到32为Result位55到48。Source2位63到56为Result31到24。如果设定了饱和，则测试每一字的高阶位以判定是否要箝位Result数据元素。

假定源数据元素的大小为32位，则执行步骤714。在步骤714，执行下面的内容。Source1位15到0为Result位15到0。Source1位47到32为Result位31到16。Source2位15到0为Result位47到32。Source2位47到32为Result位63到48。如果设定了饱和，则测试每一双字的高阶位以判定是否要箝位Result数据元素。

在一个实施例中，步骤712的压缩操作同时执行。然而，在另一个实施例中，这一压缩操作顺序执行。在再一个实施例中，一部分压缩操作同时执行，而一部分顺序执行。这一讨论也适用于步骤714的压缩操作。

在步骤720，Result存储在DEST605寄存器中。

表2表示非饱和无符号字压缩操作的寄存器内表示。第一行的位为Source1的压缩数据表示。第二行的位为Source2的数据表示。第三行的位为Result的压缩数据表示。每一数据元素位下面的数字是该数据元素的号码。例如，Source1数据元素3是10000000₂。

Source1

00101010 01010101

01010101 11111111

10000000 01110000

10001111 10001000

3 2 0

1

Source2

00000000 00000000

11000000 00000000

11110011 00000000

10001110 10001000

3 2 0

1

Result

00000000

10001000

01010101

11111111

01110000

10001000

7 6 5 4 3 2 1 0

表2

表3表示饱和带符号双字压缩操作的寄存器内表示。

Source1

00101010 01010101 01010101 11111111

10000000 01110000 10001111 10001000

1 0

Source2

00000000 00000000 11000000 00000000

11110011 00000000 10001110 10001000

1 0

Result

11000000 00000000

10000000 00000000

01111111 11111111

10000000 00000000

3 2 1 0

表3

压缩电路

在本发明的一个实施例中，为有效地执行压缩操作，使用并行方法。图8a和图8b表示能够对压缩数据执行压缩操作的一个电路的实施例。该电路可选执行饱和压缩操作。

图8a和图8b的电路包括操作控制电路800，结果寄存器852，结果寄存器853，8个16位到8位的饱和测试电路，和4个32位到16位的饱和测试电路。

操作控制电路800从解码器202接收信息以允许压缩操作。操作控制电路800使用饱和值允许对每一饱和测试电路进行饱和测试。如果源压缩数据的大小为字压缩数据503，则输出许可信号831由操作控制电路800置位。这就允许输出寄存器852输出。如果源压缩数据的大小是双字压缩数据504，则输出许可信号832由操作控制电路800置位。这就允许输出寄存器853输出。

每一饱和测试电路可以选择测试饱和。如果饱和测试被禁止，则每一饱和测试电路仅仅把低阶位传送给一个结果寄存器的相应位置。如果饱和测试被许可，则每一饱和测试电路测试高阶位以判定是否应该对结果箝位。

饱和测试810到饱和测试817有16位输入和8位输出。8位输出是输入的低8位，或可选为一个箝位值(0X80，0X7F，或0XFF)。饱和测试810接收Source1位15到0而为结果寄存器852输出位7到0。饱和测试811接收Source1位31到16而为结果寄存器852输出位15到8。饱和测试812接收Source1位47到32而为结果寄存器852输出位23到16。饱和测试813接收Source1位63到48而为结果寄存器852输出位31到24。饱和测试814接收Source2位15到0而为结果寄存器852输出位39到32。饱和测试815接收Source2位31到16而为结果寄存器852输出位47到40。饱和测试816接收Source2位47到32而为结果寄存器852输出位55到48。饱和测试817接收Source2位63到48而为结果寄存器852输出位63到56。

饱和测试820到823有32位输入和16位输出。16位输出是输入的低16位，或可选为一个箝位值(0X8000，0X7FFF，或0XFFFF)。饱和测试820接收Source1位31到0而为结果寄存器853输出位15到0。饱和测试821接收Source1位63到32而为结果寄存器853输出位31到16。饱和测试822接收Source2位31到0而为结果寄存器853输出位47到32。饱和测试823接收Source2位63到32而为结果寄存器853输出位63到48。

例如在表4中，执行无符号不饱和字压缩操作。操作控制电路800许可结果寄存器852输出结果[63:0]860。

Source1

...

00001110 01110000

00001110 00001000

3 2 0

1

Source2

...

00001110 10000001

3 2 0

1

Result

...

10000001

...

01110000

00001000

7 6 5 4 3 2 1 0

表4

然而，如果执行无符号不饱和双字压缩操作，则操作控制电路800许可结果寄存器853输出结果[63:0]860。表5表示这一结果。

Source1

... ...

00001110 01000001 00001110 00001000

1 0

Source2

... ...

00001110 00000001 00001110 10000001

1 0

Result

...

00001110 10000001

...

00001110 00001000

3 2 0

表5

拆开操作

在一个实施例中，拆开操作交错放置两个源压缩数据的低阶压缩字节、字或者双字以产生结果压缩字节、字或者双字。

图9表示对压缩数据执行拆开操作的方法的实施例。该实施例可以在图2中的处理器109中实现。

首先执行步骤701和702。在步骤903，解码器202许可功能单元203执行拆开操作。解码器202通过内部总线205传输Source1和Source2中的数据元素的大小。

在步骤910，数据元素的大小决定下一步执行哪一步骤。如果数据元素的大小为8位(压缩字节数据501)，则功能单元203执行步骤712。然而，如果压缩数据中的数据元素的大小为16位(压缩字数据502)，则功能单元203执行步骤714。然而，如果压缩数据中的数据元素的大小为32位(压缩双字数据503)，则功能单元203执行步骤716。

假定源数据元素的大小为8位，则执行步骤712。在步骤712，执行下面的内容：Source1位7到0为Result位7到0。Source2位7到0为Result位15到8。Source1位15到8为Result位23到16。Source2位15到8为Result位31到24。Source1位23到16为Result位39到32。Source2位23到16为Result位47到40。Source1位31到24为Result位55到48。Source2位31到24为Result位63到56。

假定源数据元素的大小为16位，则执行步骤714。在步骤714，执行下面的内容：Source1位15到0为Result位15到0。Source2位15到0为Result位31到16。Source1位31到16为Result位47到32。Source2位31到16为Result位63到48。

假定源数据元素的大小为32位，则执行步骤716。在步骤716，执行下面的内容：Source1位31到0为Result位31到0。Source2位31到0为Result位63到32。

在一个实施例中，步骤712的拆开操作同时执行。然而，在另一个实施例中，拆开操作顺序执行，在再一个实施例中，拆开操作的一部分同时执行，另一部分顺序执行。这一讨论也适用于在步骤714和步骤716的拆开操作。

在步骤720，Result存储在DEST605寄存器中。

表6示出字节拆开操作的寄存器内表示。

Source1

00101010

01010101

11111111

10000000

01110000

10001111

10001000

7 6 5 4 3 2 1 0

Source2

00000000

11000000

00000000

11110011

00000000

10001110

10001000

7 6 5 4 3 2 1 0

Result

11110011

10000000

00000000

01110000

10001110

10001111

10001000

7 6 5 4 3 2 1 0

表6

表7示出字拆开操作的寄存器内表示。

Source1

00101010 01010101

01010101 11111111

10000000 01110000

10001111 10001000

3 2 0

1

Source2

00000000 00000000

11000000 00000000

11110011 00000000

10001110 10001000

3 2 0

1

Result

11110011 00000000

10000000 01110000

10001110 10001000

10001111 10001000

3 2 0

1

表7

表8示出双字拆开操作的寄存器内表示。

Source2

00101010 01010101 01010101 11111111

10000000 01110000 10001111 10001000

1 0

Source2

00000000 00000000 11000000 00000000

11110011 00000000 10001110 10001000

1 0

Result

11110011 00000000 10001110 10001000

10000000 01110000 10001111 10001000

1 0

表8

拆开电路

在本发明的一个实施例中，为有效地执行拆开操作，使用并行方法。图10表示能够对压缩数据执行拆开操作的一个电路的实施例。

图10的电路包括操作控制电路800，结果寄存器1052，结果寄存器1053和结果寄存器1054。

操作控制电路800从解码器202接收信息而许可拆开操作。如果源压缩数据的大小是字节压缩数据502，则由操作控制电路800置位输出许可信号1032。这就允许结果寄存器1052输出。如果源压缩数据的大小为字压缩数据503，则输出许可信号1033由操作控制电路800置位。这就允许输出寄存器1053输出。如果源压缩数据的大小是双字压缩数据504，则输出许可信号1034由操作控制电路800置位。这就允许输出结果寄存器1054输出。

结果寄存器1052有下列输入。Source1位7到0为结果寄存器1052的位7到0。Source2位7到0为结果寄存器1052的位15到8。Source1位15到8为结果寄存器1052的位23到16。Source2位15到8为结果寄存器1052的位31到24。

Source1位23到16为结果寄存器1052的位39到32。Source2位23到16为结果寄存器1052的位47到40，Source1位31到24为结果寄存器1052的位55到48。Source2位31到24为结果寄存器1052的位63到56。

结果寄存器1053有下列输入。Source1位15到0为结果寄存器1053的位15到0。Source2位15到0为结果寄存器1053的位31到16。Source1位31到16为结果寄存器1053的位47到32。Source2位31到16为结果寄存器1053的位63到48。

结果寄存器1054有下列输入。Source1位31到0为结果寄存器1054的位31到0。Source2位31到0为结果寄存器1054的位63到32。

例如，在表9中，执行一个字拆开操作。操作控制电路800将允许结果寄存器1053输出结果[63:0]860。

表9

Source1

...

00001110 01110000

00001110 00001000

3 2 0

1

Source2

...

00001110 00000001

00001110

10000001

3 2 0

1

Result

00001110 00000001

00001110 01110000

00001110 10000001

00001110

00001000

3 2 0

1

然而，如果执行双字拆开操作，则操作控制电路800将允许结果寄存器1054输出结果[63:0]860。表10表示这一结果。

Source1

...	00001110 01000001 00001110 00001000

1 0

Source2

...	00001110 00000001 00001110 10000001

1 0

Result

00001110 00000001 00001110 10000001

00001110 01000001 00001110 00001000

1 0

表10

因此，移动、压缩和拆开操作可以操作多个数据元素。在现有技术的处理器中，为执行这些类型的操作，需要多个单独的操作来执行单一压缩数据移动、压缩或者拆开操作。在一个实施例中，用于压缩数据操作的数据线都带有相关的数据。它将提高计算机系统的性能。

Claims

1.一种方法，包括：

接收第一指令，所述第一指令包括一个操作码字段、表明具有第一组多个数据元素的第一操作数的一个第一字段以及表明具有第二组多个数据元素的第二操作数的一个第二字段，第一组多个数据元素和第二组数据元素中的每个数据元素的长度是N比特；

响应于所述第一指令，存储长度为至少N比特的第一压缩数据到目标位置，所述第一压缩数据包括第一组多个数据元素中的每个数据元素和第二组多个数据元素中的每个数据元素的转换形式，每个所述转换形式是长度小于N比特的多比特元素。

2.根据权利要求1的方法，其中所述第一指令是压缩指令。

3.根据权利要求1的方法，其中还包括步骤：用所述第一压缩数据重写所述第一操作数的第一组多个数据元素。

4.根据权利要求1的方法，其中每个所述转换形式的长度是N/2比特。

5.根据权利要求4的方法，其中所述转换形式包括各个数据元素的N/2个最低有效位。

6.根据权利要求4的方法，其中存储所述数据元素的转换形式包括：

如果没有达到饱和，则复制所述数据元素的多个比特；

如果达到饱和，则使用有符号的饱和箝位从所述数据元素产生所述转换形式。

7.根据权利要求4的方法，其中存储所述数据元素的转换形式包括：

如果没有达到饱和，则复制所述数据元素的多个比特；

如果达到饱和，则使用没有符号的饱和箝位从所述数据元素产生所述转换形式。

8.根据权利要求1的方法，其中存储一个数据元素的转换形式包括：

判断所述数据元素的值是否在一个转换形式范围之外；

如果所述数据元素的值在一个转换形式范围之外，则设置所述转换形式到一个箝位值；

如果所述数据元素的值不在转换形式范围之外，则复制所述数据元素的多个比特以形成所述转换形式。

9.根据权利要求8的方法，其中每个转换形式代表一个16比特的字数据和每个数据元素代表一个32比特的双字数据。

10.根据权利要求8的方法，其中使用有符号的饱和箝位来获得每个转换形式。

11.根据权利要求2的方法，其中每个转换形式代表一个8比特字节数据。

12.根据权利要求11的方法，其中每个数据元素代表一个16比特的字数据。

13.根据权利要求11的方法，其中使用有符号的饱和箝位导出每个转换形式。

14.根据权利要求11的方法，其中使用没有符号的饱和箝位导出每个转换形式。

15.根据权利要求2的方法，其中还包括：用第一组多个数据元素中的每个数据元素的转换形式重写第一组多个数据元素的一个或者多个低阶数据元素。

16.根据权利要求15的方法，其中还包括：用第二组多个数据元素中的每个数据元素的转换形式重写第一组多个数据元素的一个或者多个高阶数据元素。

17.根据权利要求2的方法，其中所述目标操作数是由所述压缩指令的第一字段表明的。

18.根据权利要求17的方法，其中所述压缩指令包括3个或者更多个字节，所述第一字段由所述压缩指令的第3字节的第3到第5比特构成，其中所述第二字段包括所述压缩指令的第3字节的第0到第2比特。

19.根据权利要求4的方法，其中所述第一组多个数据元素包括第一操作数第一数据元素和与所述第一操作数第一数据元素相邻的第一操作数第二数据元素，所述第二组多个数据元素包括第二操作数第一数据元素和与所述第二操作数第一数据元素相邻的第二操作数第二数据元素，其中存储第一压缩数据包括：

响应于第一指令，将从第一操作数第一数据元素导出的一个目标第一数据元素存储在第一目标位置部分；

响应于第一指令，将从第一操作数第二数据元素导出的一个目标第二数据元素存储在与所述第一目标位置部分相邻的第二目标位置部分；

响应于第一指令，将从第二操作数第一数据元素导出的一个目标第三数据元素存储在第三目标位置部分；

响应于第一指令，将从第二操作数第二数据元素导出的一个目标第四数据元素存储在与所述第三目标位置部分相邻的第四目标位置部分。

20.一种装置，包括：

接收第一指令的解码器，所述第一指令表明具有第一组多个数据元素的第一操作数和具有第二组多个数据元素的第二操作数，所述第一组多个数据元素和第二组多个第二数据元素中的每一个的长度是N比特；

与所述解码器耦接的一个功能单元，响应于所述解码器解码第一指令而存储长度为2N比特的第一压缩数据，所述第一压缩数据包括含有对应于第一组多个数据元素和第二组多个数据元素中的每一个的转换数据元素的多个转换数据元素，其中所述转换数据元素是长度小于N比特的多比特元素。

21.根据权利要求20的装置，其中所述第一指令是压缩指令。

22.根据权利要求20的装置，其中所述第一组多个数据元素包括第一操作数第一数据元素和第一操作数第二数据元素，其中所述第二组多个数据元素包括第二操作数第一数据元素和第二操作数第二数据元素，其中所述功能单元响应于所述第一指令在一个目标操作数的连续相邻的部分存储用于第一操作数第一数据元素的转换数据元素、用于第一操作数第二数据元素的转换数据元素、用于第二操作数第一数据元素的转换数据元素、用于第一操作数第二数据元素的转换数据元素。

23.根据权利要求22的装置，其中所述目标操作数是由第一操作数指定的，其中所述功能单元重写所述第一组多个数据元素。

24.根据权利要求20的装置，其中所述功能单元用于在一个目标操作数中按第一操作数中的顺序彼此相邻地写入用于第一组多个数据元素中的每个数据元素的转换元素和在所述目标操作数中按第二操作数中的顺序彼此相邻地写入用于第二组多个数据元素中的每个数据元素的转换元素。

25.根据权利要求21的装置，其中所述压缩指令具有包含3个或者更多个字节的整数操作码格式，所述3字节中的第三字节允许一个第一3比特源目标寄存器地址和一个第二3比特源寄存器地址。

26.根据权利要求25的装置，其中所述第一操作数对应于第一3比特源目标寄存器地址。

27.根据权利要求25的装置，其中所述第二操作数对应于第二3比特源寄存器地址。

28.根据权利要求20的装置，其中所述功能单元用于在所述数据元素在一个转换数据元素范围之外时产生用于所述数据元素的转换数据元素的一个箝位值，而在所述数据元素在所述转换数据元素范围之内时，复制所述数据元素的多个比特以产生所述转换数据元素。

29.根据权利要求21的装置，其中还包括：

一个保持压缩指令的存储器，所述压缩指令具有包含三个或者更多个字节的整数操作码的格式，所述三个字节之一允许一个第一3比特源目标寄存器地址和一个第二3比特源寄存器地址；和

一个保持一个软件的存储装置，所述软件向所述存储器提供所述压缩指令以供执行。

30.一种微处理器，包括：

保持第一压缩数据的第一源寄存器，所述第一压缩数据具有包含第一压缩数据元素和第二压缩数据元素的第一组多个压缩数据，每个第一压缩数据元素和第二压缩数据元素的长度是N比特；

保持第二压缩数据的第二源寄存器，所述第二压缩数据具有包含第三压缩数据元素和第四压缩数据元素的第二组多个压缩数据，每个第三压缩数据元素和第四压缩数据元素的长度是N比特；

被耦接的电路，用于从第一源寄存器接收第一压缩数据和从第二源寄存器接收第二压缩数据，并响应于一个压缩指令压缩所述第一压缩数据和所述第二压缩数据，其中第一压缩数据元素的第一部分和第二压缩数据元素的所述第一部分被压缩到目标寄存器中，而第三压缩数据元素的第二部分和第四压缩数据元素的所述第二部分被压缩到目标寄存器中，每个第一和第二部分的长度是N/2比特。

31.根据权利要求30的微处理器，其中所述第一压缩数据元素的第一部分被压缩到目标寄存器的低阶数据元素，所述第四压缩数据元素的第二部分被压缩到目标寄存器的高阶数据元素。

32.根据权利要求31的微处理器，其中所述第二压缩数据元素的第一部分被压缩到目标寄存器中与第三压缩数据元素的第二部分相邻的地方。

33.根据权利要求30的微处理器，其中所述目标寄存器是第一源寄存器，所述第一源寄存器的至少一部分通过压缩所述第三压缩数据元素的第二部分而被重写。

34.根据权利要求33的微处理器，其中所述第一源寄存器的至少一部分通过压缩第二压缩数据元素的第一部分而被覆盖，其中第一部分和第二部分对应于每个数据元素中一组相同的比特。

35.根据权利要求30的微处理器，其中所述压缩指令具有包含三个或者更多个字节的整数操作码的格式，所述三个或者更多个字节中的第三字节允许一个识别第一源寄存器的第一3比特寄存器地址。

36.根据权利要求35的微处理器，其中所述第一3比特寄存器地址还识别目标寄存器。

37.根据权利要求36的微处理器，其中所述第一3比特寄存器地址占用所述3个或者更多个字节中的第三字节的第三到第五比特。

38.根据权利要求37的微处理器，其中所述三个或者更多个字节中的第三字节表明识别第二源寄存器的第二3比特寄存器地址，所述第二3比特寄存器地址位于所述三个或者更多个字节中的第三字节的第0到第2比特。

39.根据权利要求37的微处理器，其中所述电路通过在没有达到饱和时复制所述数据元素的预定的一组比特和在达到饱和时使用有符号的饱和箝位来压缩数据元素的第一或第二部分。

40.根据权利要求37的微处理器，其中所述电路通过在没有达到饱和时复制所述数据元素的预定的一组比特和在达到饱和时使用没有符号的饱和箝位来压缩数据元素的第一或第二部分。

41.一种设备，包括：

用于接收第一指令的装置，所述第一指令包括一个操作码字段、表明具有第一组多个数据元素的第一操作数的一个第一字段以及表明具有第二组多个数据元素的第二操作数的一个第二字段，第一组多个数据元素和第二组数据元素中的每个数据元素的长度是N比特；以及

用于响应于所述第一指令而存储长度为至少N比特的第一压缩数据到目标位置的装置，所述第一压缩数据包括第一组多个数据元素中的每个数据元素和第二组多个数据元素中的每个数据元素的转换形式，每个所述转换形式是长度小于N比特的多比特元素。