CN100533372C

CN100533372C - 用于多核处理器的存储指令排序

Info

Publication number: CN100533372C
Application number: CNB2005800346066A
Authority: CN
Inventors: 大卫·H·阿舍尔; 理查德·E·科斯勒; 李彦志
Original assignee: Cavium Networks LLC
Current assignee: Kaiwei International Co; Marvell Asia Pte Ltd
Priority date: 2004-09-10
Filing date: 2005-09-01
Publication date: 2009-08-26
Anticipated expiration: 2025-09-01
Also published as: CN101036117B; US20060059310A1; CN101040256A; CN101069170A; CN101053234A; US20140317353A1; CN101069170B; US9141548B2; US7941585B2; US20060059316A1; CN101036117A; CN101128804B; CN101053234B; US20060059286A1; CN101128804A

Abstract

提供一种用于在廉线处理器中最小化延迟的方法和装置。通过将存储数据经过排序序列发送到外部存储器，使无序指令调度程序中的指令被有序地执行，而且不需要延迟廉线。

Description

用于多核处理器的存储指令排序

相关申请

本申请是申请于2004年11月30日，申请号为11/002,728的美国申请的继续，该申请要求申请于2004年9月10日，申请号为60/609,211美国临时申请的利益。以上申请的全部教导在此被并入本文作为参考。

背景技术

廉线技术主要用在精简指令集系统计算(RISC)处理器中，把指令处理分成一系列的廉线阶段。因为指令通过指令廉线，所以每一个阶段执行不同的功能。多个指令可以在同一时间被执行，其中每个指令在廉线的不同阶段被执行。指令以时钟步率提前通过廉线阶段，而这个速率取决于廉线中最慢的阶段。相比于非廉线处理器，新的指令能够开始于每一个时钟周期，而在非廉线处理器中，只有在完成前一个指令后才能执行新的指令。处理器的处理能力取决于以下功能：(i)廉线阶段时钟速度；(ii)正常操作时廉线的利用率或“效率”；(iii)廉线延迟的数量。超标量体系结构RISC处理器采用同步传输多个指令和并行划分为多个执行单元来增加其处理能力。

指令廉线可能由于资源限制和相互指令数据的依赖性而延迟。当后面的指令需要前面的指令生成的结果才能被执行，而前面的指令却没有完成时，相互指令数据依赖性导致延迟。所述的后面发布的指令因此在廉线中被延迟，直到前面的指令的结果有效。不充足的存储数据缓冲区也可以导致延迟。因为一致性存储总线可能是高廉线的，可以把地址、数据和提交操作分开，所以存储排序在多核的高速缓存/系统里是非常复杂的。

发明内容

根据本发明的原理，用于对在处理器中执行的存储指令进行排序的系统和方法将指令廉线延迟降低到最小。

处理器包括写缓冲区，该写缓冲区具有多个写缓冲项用于存储将被存储在外部存储器中的数据，以及系统接口。这个系统接口包括排序序列和排序序列逻辑。存储在写缓冲区内的数据经过排序序列中的排序序列项被发送到外部存储器。当检测到存储排序指令的执行时，排序序列逻辑保证被排序序列中的排序序列项标识的写缓冲地址在用于随后发布的存储指令的地址之前被发送到外部存储器。排序序列逻辑通过监控从用于每个写缓冲地址的外部存储器中返回的标识符保证写缓冲区地址被发送。

当存储排序指令执行时，在写缓冲区就会有有效的写缓冲项和在排序序列里有排序序列项。当在写缓冲区中检测到有效写缓冲区项时，系统接口就分配排序序列项，并在排序序列项中标识有效写缓冲项。一旦检测到在写缓冲区内没有有效的写缓冲区项以及在排序序列中至少一个排序序列项时，则系统接口在最后的排序序列项中设置存储排序指令执行标识符。当在写缓冲区内没有检测到有效的写缓冲项时，以及在排序序列里没有检测到排序序列项排序时，系统接口就会分配排序序列项，并在已分配的排序序列项里设置存储排序指令执行标识符。

写缓冲区有N个写缓冲项，排序序列有N+1个排序序列项。因为在排序序列里的项的数量是大于在写缓冲区里的项的数量的，所以当排序指令被执行时，排序序列项是有效的，借此可以消除存储排序指令的延迟。在一个实施方案中，N是16。这个写缓冲项可能包含用于存储将被存储在外部存储的数据的缓冲区，以及具有与缓冲区中的每个字节相对应的位的掩码。排序序列项可能包括存储指令执行标识符和具有相对于每个写缓冲项的位的排序掩码。

附图说明

结合接下来对附图中所举例说明的本发明优选的实施方案更加具体的描述，本发明前面所述的和其它的目的、特征以及优势将会更加的清楚。在附图中相同的参考数字在整个附图中都指代相同的部件。附图并不是按照比例所绘制的，其重点在于示出本发明的原理。

图1是根据本发明的原理的具有指令集的精简指令集计算机(RISC)处理器的方块图，该指令集包括用于排序存储指令的存储器排序指令。图2示出图1里的写缓冲区内的写缓冲项。

图3示出在处理器内核中系统接口中的控制逻辑的方框图，用于将存储在写缓冲项内的数据通过一致性存储器总线发送到外部存储器。

图4排序排序是图2中所示的排序序列中的排序序列项中的方框图。

图5是在执行SYNCW指令后，在排序序列控制逻辑中执行的用于排序存储指令的方法流程图。

图6示出在图5中所示的一致性存储器总线上的存储操作。

图7是安全应用的方框图，其包括具有图1中所示的至少一个RISC处理器的网络服务处理器。以及

图8是图7中所示的网络服务处理器700的方框图。

具体实施方式

本发明优选的实施方案的描述如下：

处理器是解释和执行指令的中心处理单元(CPU)。图1是根据本发明的原理的具有指令集的精简指令集计算机(1RISC)处理器100的方块图，该指令集包括根据本发明的原理用于排序存储指令的指令。

处理器100包括执行单元102和指令分配单元104、指令读取单元106、加载/存储单元118、存储管理单元108(MMU)、系统接口110、写缓冲区122以及安全加速器124。处理器内核也包括允许调试操作被执行的EJTAG接口120。系统接口110控制对外部存储器的访问，即，处理器外部的存储器，如二级(L2)高速缓冲存储器。

执行单元102包括乘法单元114和至少一个寄存器存储器116。乘法单元114是具有64位的直接寄存器乘法器。指令读取单元106包括指令高速缓冲存储器126。加载/存储单元118包括数据高速缓冲存储器128。数据高速缓冲存储器240的其中一部分可以被当作本地的高速暂存存储器和/或本地存储器130被保存。在一个实施方案中，指令高速缓冲存储器126是32K字节的，数据高速缓冲存储器128是8K字节，写缓冲区122是2K字节。存储器管理单元108包括地址转换后备缓冲器(TLB)112。

在一个实施方案中，处理器100包括加密加速模块(安全加速器)124，该模块包括密码加速器用于三次数据加密标准(3DES)、高级加密标准(AES)、安全散列算法(SHA-I)和信息-摘要算法#5(MD5)。这个加密模块124通过把在执行单元102中的主寄存器存储器116移进和移出的方式进行通信。RSA和密钥交换协议(DH)算法在乘法单元114中被执行。

超标量体系结构的处理器具有超标量体系结构指令廉线，其通过允许同步发出多个指令以及并行地分配到多个执行单元从而允许在每个时钟周期内运行多个指令。RISC型处理器100具有指令集的结构，而这个结构定义RISC型处理器的编程界面的程序。仅仅加载和存储指令访问外部存储器，也就是说处理器100以外的存储器。在一个实施方案中，外部的存储器通过一致性存储总线134被访问。所有其他的指令对存储在处理器100中的寄存器存储器116中的数据进行操作。在一个实施方案中，处理器是超标量体系结构双向发布处理器。

指令廉线被分为多个阶段，每个阶段需要一个时钟周期完成。因此在5阶段廉线里，它需要花费5个时钟周期来处理每个指令，并且5个指令可以与再任何给定的时钟周期中廉线的不同阶段被处理器处理的每个指令同时被处理。典型地，5阶段的廉线包括如下阶段：读取、解码、执行、存储和回复。

在读取阶段，指令读取单元106在由存储在程序计数器中的存储地址所标识的指令高速缓冲器128上从指令高速缓冲器126中读取指令。在解码阶段，在读取阶段所读取的指令被指令分配单元104所解码，同时为了发布的连续，下一个将要读取的指令的地址被计算。在指令执行阶段，整数执行单元102依据指令的类型执行操作。例如，整数执行单元102开始算法和逻辑操作用于寄存器到寄存器指令，然后计算出加载或存储操作的实际地址或者确定用于分支指令的分支条件是否正确。在存储阶段，数据被加载/存储单元118所排列，并将其转移到外部存储器的目的地。在回复阶段，寄存器到寄存器的结果或加载的指令被回复到存储器116。

系统接口110经过一致性存储总线被耦合到外部存储器上。在一个实施方案中，一致性存储总线有384位，并且有4种分开的总线：寻址/命令总线、存储数据总线、提交/响应控制总线和填充数据总线。所有的存储数据都借助写缓冲区中的写缓冲项，越过一致性存储总线132，被发送到外部存储区。在一个实施方案中，写缓冲区有16个写缓冲项。

存储的数据从加载/存储单元118到写缓冲区122，并且经过系统接口110从缓冲区122到外部存储器。处理器100生成存储到外部存储器的数据的速度比系统接口110写数据到外部存储器要快。

写缓冲区122也可以被用来通过一致性存储总线132将待存储在外部存储器中的数据合计到定位的高速缓冲器区以将速度最小化，以这个速度，数据可以被写入外部存储器中。而且，写缓冲区也可以把多个存储操作合并在外部存储器中的相同的位置，从而导致单一的向外部存储器的写操作。写缓冲区122的写合并操作能够导致向外部存储器的写顺序不同于存储指令的执行的顺序。

在正常操作中，呈现给处理器100之外的观察者的加载和存储存储器存取的顺序没有被体系结构所具体化。指令集包含用于排序存储指令的指令，而这个指令在本文中所涉及的是SYNCW指令。在其他即将进行的存储指令可见之前，SYNCW指令强制先前的已经被发布的存储指令在处理器100之外是可见的。例如如下指令顺序

ST DATA

SYNCW

ST FLAG

SYNCW包含两个SYNCW指令。SYNCW指令确保了数据存储指令(STDATA)和存储标记指令(ST FLAG)，即在ST DATA指令之后的SYNCW指令确保了ST DATA的存储数据指令在处理器之外是可见；即，在ST FLAG指令之前在一致性存储总线132上被发送。在ST FLAG指令之后的SYNCW指令也确保了在任何后续存储的数据在处理器之外是可见的之前，ST FLAG在处理器之外是可见的。

通常需要这种同步类型用以确保在FLAG变量被更新之前在外部存储器中的数据缓冲区被更新，并且在来自任何后续存储指令中的数据是可见的之前，强制FLAG变量更新尽快成为可见的。

图2介绍了图1里的写缓冲区122的写缓冲项200。该写缓冲项200包括用于存储待存储在外部存储器中的数据的相邻块的缓冲区202。。写缓冲项200也包括掩码栏204，该掩码栏204具有与缓冲区202中的每一个字节相对应的位。在位掩码204里的每一位的状态可以指示出缓冲区202中相应的字节是否正在存储将被写入到外部存储器中的数据。在写缓冲项内的高速缓冲模块地址区域210存有被存储在缓冲区202内的128字节高速缓冲模块的外部存储器中的起始地址。写缓冲项200也包含状态位206和有效位208当缓冲区202正在存储将被写入外部存储器中的数据时，有效位208被置位，以及当存储在缓冲区202中的数据被写到外部存储之后该位就被清零。在一个实施方案中，缓冲区可以存储128字节连续的数据块，掩码具有128位每一个位对应于缓冲区内的每一个字节。。

写缓冲区122是合并的写缓冲区，将数据存储到由存储在写缓冲项200中的高速缓冲模块地址210中的地址所表示的高速缓冲模块中的个别的存储指令分解为单个到外部存储器的写操作。

状态位206的状态指示出来自后续执行的存储指令中的数据是否可以并入缓冲项200或者是否存储在写缓冲项200内的缓冲区202里中的数据正处在被写到外部存储器的过程中。当来自于存储指令的数据被并入已有的写缓冲项200时，在写缓冲项里的掩码204和缓冲区202就会相应地更新。

对应存储指令的将被存储到外部存储器中的数据或者加入或者并入有效的写缓冲项或者根据数据被存储的外部存储器中的地址分配新的写缓冲项。在存储指令里的地址同存储在所有当前有效的写缓冲项200中的高速缓冲区地址区域210中的地址做比较。如果要被存储的数据能被并入已经被存储在有效写缓冲项200中的缓冲区202中的高速缓冲区中，则缓冲区202和掩码204就可以相应地被更新。

如果同有效的写缓冲项是不可以合并的，那么写缓冲项就从无效的写缓冲项集里被分配出来(带有效位的缓冲项被清零)。分配完毕后，写缓冲项200中的状态位206就被置位。例如，如果在缓冲项中的高速缓冲区地址是0x1000，待存储在地址0x1010的字节被定位在开始于0x1000的128字节高速缓冲模块中，并可以被存储在写缓冲项的存储区域内；即，存储数据被加入到写缓冲项。到高速缓冲模块中的0x1000地址的后续存储指令覆盖已经被存储在写缓冲项中的高速缓冲模块中的数据，即，并入到有效的写缓冲项。

将被写入外部存储器的存储指令(存储值)的结构可以在处理器100将该结果写到外部存储器之前的一段时间位于写缓冲区的写缓冲项200中。

图3是处理器内核的系统接口110中的控制逻辑把存储在写缓冲项200里的数据通过一致性存储总线132送到外部存储器的方框图。写缓冲区122的一部分的写缓冲区的地址寄存器312在图3中同样被示出。

存储在写缓冲区122的写缓冲项200中的全部数据按照排序序列300通过项314被发送到外部存储器。这个排序序列是一个先进先出(FIFO)序列。每次写缓冲项200内的状态位206清零，指示存储在写缓冲项中的缓冲区202中的数据将被写入外部存储器中，则排序序列300内的项314被分配。例如，从上一次存储的数据写入外部存储器时预先确定次数的CPU循环周期过去时，或者SYNCW指令执行后，在写缓冲项200内的状态位206可以被清零。每一个排序序列项314标识一个或多个存储将被写到外部存储器的数据的写缓冲项200。计数区域326存储排序序列项数量的计数。

图4是图2中所示的排序序列300内其中一个排序序列项314的方框图。排序序列项314包含写缓冲项掩码400和SYNCW区402。写缓冲项掩码400包含与写缓冲区122内的每个写缓冲项相对应的位。写缓冲项掩码400中的每个位的状态都指示出写缓冲区122内相应的写缓冲项200是否通过排序序列项314被写入到外部存储器中。SYNCW区域402是单独的位，它的状态用来指示SYNCW指令是否已被执行。

处理器100在它删除第一排序序列项之前并且在它以下一个排序序列项发送由写缓冲项掩码400标识的任何写缓冲项200之前，以第一排序序列项314将由写缓冲项掩码400所标识的全部写缓冲项200发送到外部存储器。举例来说，在一个实施方案中，有N个写缓冲区项200，排序序列300里的每一个排序序列项314有识别写缓冲项的N位的写缓冲项掩码(向量)400。在排序序列300里有M＝N+1个排序序列项314，所以当排序序列300不会溢出，SYNCW指令的执行不会中止。在作为替代的实施方案中，排序序列300里的排序序列项314的数量可能会少一些，这种情况下，如果排序序列300满了，SYNCW指令的执行可能会中止。

再回到图3，存储将要被写到外部存储器的写缓冲项200通过多路器308和排序序列控制逻辑306被加到排序序列300中。系统接口110包括一致性总线仲裁逻辑304和确认计数器320，该确认计数器302控制存储数据通过一致性存储器总线到外部存储器的传送。确认计数器302保持对外部存储器的存储操作的完成的追踪。当确认计数器为0时，先前的存储在系统中均是可见的。

正如结合图4所讨论的，每一个排序序列项314包括掩码域400和SYNCW位402。在所示的实施方案中，有16个写缓冲项(N＝16)和17个排序序列项(M＝N+1)。多路器308既可选择16写缓冲区状态位316(其中每个状态位206来自每一个写缓冲项200)，又可选择具有与单一项318相应的位的16位向量。被选择的16状态位322被转寄到排序序列控制逻辑306，并被存储到排序序列300中的排序序列项314中。排序序列控制逻辑306通过添加/删除控制信号来添加和删除排序序列中的排序序列项。举例来说，排序序列的实现如同分解先进现出(FIFO)，新的项添加到序列的一端，被处理的项出自序列的另一端(队头)。

排序序列如同本领域技术人员所熟知的那样，只具有一个写缓冲项的排序序列项314可以为很多不同的条件所创建，举例来说，用于写缓冲溢出状况或者超时状况。关于创建带有仅一个写缓冲区项的排序序列项的条件超出本文的讨论范围。

在每一个排序序列项中的SYNCW位402如图显示，从排序序列300里的排序序列项314中的其它领域中分离出来。每一个排序序列项314中的SYNCW位402也被转寄给排序序列控制逻辑306。

当SYNCW位在排序序列300的报头内的排序序列项314中被置位，排序序列逻辑确保由排序序列项所标识的写缓冲地址在后续发布的存储指令的地址之前，按照排序序列被发送到外部存储器中，所述的这些地址在任何后续地址被发送之前被提交。排序序列控制逻辑306向一致性总线仲裁逻辑304发出发送请求324，用以将存储在由排序序列项314中的掩码位400所标识的下一个写缓冲项200中缓冲区202中的高速缓冲模块地址发送到一致性总线仲裁逻辑304。。一致性总线仲裁逻辑304将在一致性总线地址总线上的请求发布给外部存储器。

在一个实施方案中，当前排序序列项314中的写缓冲区项掩码位400也先于已存在的第一个置位逻辑312，来选择存储在当前正在被处理的写缓冲区项204中的高速缓存模块地址。存储在对应于排序序列项314中的掩码400中的第一置位位的写缓冲项200中的高速缓存块地址域210中的高速缓存模块地址在写缓冲地址域312中被选择，并在一致性总线地址总线322上被发送。

在第一写缓冲区项204中的高速缓存块地址通过一致性存储器总线被传送到外部存储器之后，排序序列控制逻辑306对与当前的排序序列项314中的写缓冲区项204相对应的写缓冲区掩码104中的位进行清零。

所有的被排序序列项314中的写缓冲区项掩码位400所标识的写缓冲区地址200，通过连贯存储器总线，在删除序列项314和处理下一个排序序列项314中的写缓冲区项204之前，被发送到外部存储器。排序序列项在所有掩码位被发送之后，或者：(a)SYNCW位被删除或，(b)确认计数器为0之后，可被删除。在存储在写缓冲区项200中的数据被写入到外部存储器之后，有效位208被清零，标志着写缓冲区项200是空闲的，可以被分配。

SYNCW指令的执行通过强制有效的写缓冲区项中的所有存储的完成来实现存储指令的排序，即存储数据在随后的存储地址被发送到外部存储器之前被传递到外部寄存器中。如果没有SYNCW指令被执行，每一个排序序列项中的SYNCW位被清零。

有些存储器排序指令执行由于没有完成在先存储指令或写缓冲区中不充足的缓冲区，可以延迟指令执行。在本发明中，因为预缓冲存储(以及SYNCW)总是可以进入唯一的排序的序列，所以存储器排序指令的执行不会被延迟(如果M＝N+1)，也就是说，分配在排序序列300中的排序序列项314。

只要SYNCW指令执行，SYNCW就被维持，并且创建新的排序序列项。当新的排序序列没有被创建时，最新现有的排序序列项中的SYNCW位可能需要被置位以确保相对于随后的存储的在先存储的顺序。执行单元102和装载/存储单元118共同检测SYNCW指令的执行并且维持SYNCW。

SYNCW指令的执行导致对排序序列项314中的SYNCW402位的置位。当SYNCW位402在排序序列项中被置位时，排序序列项只有在满足所有以下条件才会被删除：(1)包含在排序序列项(被写缓冲区项掩码400所识别的)中的写缓冲区项200的所有地址被发送到外部存储器中；(2)被这个或其它排序序列项发送到系统中的所有地址均是可见的，也就是说，确认计数器302为0。

图5是举例说明执行在排序序列控制逻辑306中的，在SYNCW指令执行之后用于排序存储指令的方法。本流程图与附图3相结合作以说明。

在步骤500，写缓冲区控制逻辑306监控SYNCW指令的执行。如果检测到SYNCW指令的执行，进程继续到步骤502。

在步骤502，写缓冲区控制逻辑306检查是否有有效的写缓冲项，也就是说，带有有效位206的写缓冲区中的写缓冲项置位。如果是这样，进程继续执行到步骤504，如果不是，进程继续到步骤512。

在步骤504，在写缓冲区中有有效的写缓冲项。进程继续执行步骤504。

排序序列项314被分配到排序序列300中。进程继续执行步骤506。

在步骤506，与写缓冲区122中的所有有效的写缓冲项200相对应的被分配的排序序列项312中的写缓冲项掩码位400被置位。进程继续执行到步骤508。

在步骤508，包含在被分配的排序序列项314中的写缓冲项通过清零每一个写缓冲项200中的有效位208而使无效。每一个写缓冲项200中的有效位208保持置位直到存储在写缓冲项200中的缓冲区202中的数据被写入到外部存储器。

在步骤510，SYNCW位402在被分配的排序序列项200中被置位。进程继续到步骤500以等待下一条将被执行的SYNCW指令。

在步骤512，在写缓冲区122中没有有效的写缓冲项200，写缓冲区控制逻辑306检查在排序序列300中是否有排序序列项314。如果有，进程继续到步骤514，如果没有，进程继续到步骤516。

在步骤514，在写缓冲区122中没有有效的写缓冲项200，并且在排序序列300中有至少一个排序序列项314。没有排序序列项被分配，取而代之的是，被分配在排序序列300中的最后一个排序序列项314中的SYNCW位402。进程继续到步骤500，等待下一条将被执行的SYNCW指令。

在步骤516，在写缓冲区122中没有有效的写缓冲项200，并且在排序序列300中没有排序序列项314。排序序列项314被分配。因为没有具有将被存储在外部存储器中的数据的有效写缓冲区200，因此没有写缓冲项掩码位400被置位。进程继续到步骤510，对在被分配的排序序列项中的SYNCW位402置位。

图6说明了在图1所示的一致性存储器总线132上的存储操作。一致性存储总线包括添加(ADD)总线，存储(STORE)总线，确认(COMMIT)总线和填充(FILL)总线。与ADD总线和COMMIT总线的接口如图3中所示。ADD总线传输地址和控制信息来开始一致性存储器总线事务处理。STORE总线传输与事务处理相关的存储数据。COMMIT总线传输控制信息，所述的控制信息开始来自外部存储器的事务处理响应。FILL总线将高速缓存块从外部存储器传输到处理器。

一致性总线仲裁逻辑304控制存储操作。一旦收到来自排序序列控制逻辑306的发送请求324，就会开始存储操作。存储在写缓冲项中的高速缓存块800的地址从ADD总线上的写缓冲地址文件312中被发送，以及确认计数器302增加。ADD总线周期也发送在STORE总线周期中所需要的128位(八倍长字)传输的数量。

当STORE总线可用并且用于数据的外部存储器的缓存区空间可用时，则STORE总线传输被预期的延迟。处理器驱动存储数据到STORE总线。在所示的实施例中，每一个STORE总线周期传输的16字节(128位)完整的存储需要五个STORE总线周期。STORE总线周期的数量范围从一到八，传输存储在写缓冲项200中的缓冲区202中的全部的128字节的高速缓存块。外部存储器控制器缓冲ADD和STORE总线信息，并维护到外部存储器的写操作。从COMMIT总线上所收到的确认标识320指出存储器控制器已经收到并排序地址，也就是说，地址已被发送到外部存储器。

在从COMMIT总线收到的确认指示320之后，确认计数器302减少。确认标识320指出存储数据对一致性存储器总线132的所有用户都是可见的。确认标识320可能在现行的存储操作完全结束前被发送。举例来说，假定任何随后的一致性存储器总线操作可以看到更新的存储信息，外部存储器控制器将确认标识320通过COMMIT总线发送到处理器用于存储操作，即使数据并没有被写到外部存储器。

排序序列控制逻辑306一旦检测到确认计数器等于0时，即，先前的存储周期已经完成，可以请求一致性总线仲裁逻辑在一致性存储器总线上开始另一个存储周期。

存储器排序指令在很多高性能的存储器系统中是很有必要的，因为指令的执行的无次序的。具体地，高性能存储器排序指令对高信息包处理性能是很重要的，因为很多操作可以通过信息包处理应用程序保持在正在处理中。

图7是包括网络服务处理器700的安全应用软件702的方框图，其中所述的网络服务处理器700包括附图1中所示的至少一个处理器。

安全应用软件102是单独的系统，它可以将以太网端口上收到信息包转换到另一个以太网端口并且在转寄信息包之前对收到信息包执行多个安全功能。例如，安全应用702可以被用来对广域网上接收到的信息包在将被处理的信息包转寄给局域网上之前进行安全处理。

网络服务处理器700包含硬件信息包处理、缓冲作用、工作调度、有序化、同步化、对加速所有信息包处理任务的一致性支持。网络服务处理器700处理封装在接收到的信息包中的开放系统互连网络的L2-L7层协议。

网络服务处理器700通过物理界面PHY704a、704b从以太网端口(Gig E)接收信息包，对接收到的信息包执行L2-L7网络协议处理，并通过物理界面704a、704b或PCI总线706转寄处理的信息包。网络协议的处理可以包含对网络安全协议的处理，如防火墙、防火墙的应用、包括IP安全(IPSEC)和/或安全套接字层的虚拟专用网络(VPN)、入侵侦查系统(IDS)和反病毒(AV)。

在网络处理器700内的动态随机访问存储器(DRAM)控制器控制到外部DRAM708的访问，该DRAM708是与网络服务处理器700耦合的。DRAM708在网络服务处理器700的外部。DRAM708存储从PHY界面704a、706b或外部设备互连扩展(PCI-X)接口706的所接收到的数据信息包用于由网络服务处理器700的处理。

网络服务处理器700包含另外一个用来控制低延时DRAM718的存储控制器。低延时DRAM718是用在网络服务和网络安全上的，所述的网络服务和网络安全允许快速查找和包含入侵检测系统(IDS)或反病毒软件所要求的模块匹配。

图8是图7中所示的网络服务处理器700的方块图。网络处理器700通过采用最少一个处理器内核(图1所示)的方式来呈现其高执行性能。网络应用可以被分为为数据平面和控制平面操作。数据平面操作包括用于转寄信息包的信息包操作。控制平面操作包含复杂的高层协议部分的处理，如网络协议安全性(EPsec)、传输控制协议(TCP)和加密套接字协议层(SSL)。数据平面操作可以包含这些复杂的高层协议其它部分的处理。每一个处理器内核100可以实现完全的操作系统，即执行控制平面处理或者运行调谐的数据平面的代码，这些都是执行数据平面处理。例如，所有的处理器内核都能运行调谐的数据平面的代码，全部的处理器内核每一个可以执行全部的操作系统或者一些处理器内容可以执行操作系统而剩下的处理器内容运行数据平面代码。

SYNCW指令典型地被用在并行程序中，这些程序有能够在不同的处理器中同时执行的多个指令流。顺序(在其中存储指令的结果被其它的处理器所观测)确定在并行程序中可靠地共享数据的必要的动作。

被一个处理器所执行的存储指令的结果被其它处理器不按照程序顺序而观测，因此并行程序采取明确的动作以可靠共享数据。在程序的关键处，发生于指令流的结果一定在所有处理器内以相同顺序出现的。在SYNCW指令被执行之后的任何存储的结果之前，SYNCW指令允许在SYNCW指令的执行之前的所有存储的结果对所有的处理器都是能够看得见的。当SYNCW指令被执行时，SYNCW指令就会按照其存储指令的严格顺序来执行。

如下表1的代码段示出SYNCW指令是如何在单独的写和读处理器的指令流之间来协调共享数据的使用的。

写

L1R2，1

SYNCW

SW R2，FLAG

SYNCW

读

LI R2，1

1:LW R1，FLAG

BNE R2.R1，1

NOP

LW R1，DATA

表1

标记(FLAG)被指令流使用来确定共享数据项DATA是否是有效的。第一个被复写器执行的SYNCW强制数据的存储在FLAG完成之前被执行到外部存储器。第二个被复写器执行的SYNCW确保了存储标记在它被处理器内核识别之前是不在写缓冲区逗留的。

通过SPI-4.2或RGM II界面，信息包被接收用于GMX/SPX单元810a，810b处理。通过PCI界面也可以收到数据包。GMX/SPX单元通过检查包括在接收的信息包中的L2网络协议包头各种区域执行收到的信息包的预处理，然后把该信息包转寄到信息包输入单元814。

信息包输入单元814对包含在信息包里的协议报头(L3，L4)执行进一步的预处理。预处理包含对TCP和用户数据报协议(UDP)(L3网络协议)的校验和检查。

空闲库分配器(FPA)836维持着指向二级高速缓冲区812内的自由存储区和DRAM的指针。输入信息包处理单元814使用指针库中的一个以将接收的信息包数据存储在二级高速缓冲存储器或DRAM中，以及使用指针库的另一个库分配用于处理器内核的工作序列项。

然后信息包输入单元814以一种格式将信息包数据写入到二级高速缓冲区812或者DRAM中的缓冲区中，所述的格式便于执行在至少一个处理器内核100中的更高层软件用于更高级的网络协议的进一步处理。

网络服务处理器100也包含了卸载处理器内核100的应用程序专用联合处理器，以致网络服务处理器达到高处理能力。压缩/解压联合处理器808则致力于处理对收到的数据包进行解压和压缩。DFA模块844包括专用的DFA发动机以加速用于反病毒(AV)，侵入检测系统(IDS)和其它处理应用的模式和标记达到4Gbps。

I/O桥(IOB)832管理所有的协议及仲裁，并提供一致性I/O的划分。IOB 832包含桥838和提取和增加单元(FAU)840。在FAU840内的寄存器被用作维持输出序列的长度，而该输出序列通过信息包输出单元818被用来转寄处理过的信息包。桥838包括用于存储将在I/O总线、一致性存储器总线、信息包输入单元814和信息包输出单元818之间传输的信息的缓冲序列。

信息包顺序/工作(POW)模块828为处理器100内核做排序和调度工作。工作就是通过增加工作序列项到序列里被排序。例如，为了每一个数据包的通过，通过信息包输入单元814增加工作序列项。计时单元842用来为处理器内核完成调度的功能。

处理器内核100从POW模块828得到工作。POW模块828为处理器内核100选择(即，调度)工作，并返回指向工作序列项的指针来描述给处理器内核100的工作。

处理器内核100包含指令高速缓冲区126、一级数据高速缓冲区128和密码加速器124。在一个实施方案中，网络服务处理器100包含16个RISC(精简指令集计算机)型处理器内核。在一个实施方案中，每一个超标量体系结构的RISC型处理器内核都是MIPS64版双核处理器内核的扩展。

二级高速缓冲区812和DRAM存储器都是对所有的处理器内核100和I/O联合处理器设备共享的。每一个处理器内核100通过一致性存储总线132耦合到二级高速缓冲区812上。该一致性存储总线132对所有的存储器以及处理器内核100、I/O桥(IOB832)、二级高速缓冲区和控制器812之间的I/O事务处理都是通讯信道。在一个实施方案中，存储总线132对与支持全部一级数据高速缓冲区128写功能的16位的处理器内核来说是可以升级的，有高速的缓冲速度，也能优化I/O。

二级高速缓冲存储控制器812维持着存储器基准的一致性。它对每一个添写要求返回最新的模块拷贝，反应了是存储在二级高速缓存还是DRAM还是正在传输过程中。它同样存储了每一个处理器内核100内的数据高速缓冲区128的标签的复件。它把数据缓冲区标签同高速缓冲模块存储所需的地址进行比较，同时当存储指令从另外的处理器内核或I/O组件发出并经过IOB832时，它就会使数据缓冲标签失效。当完成对数据包的处理之后，PKO818就会从存储区读取数据包的数据，用L4网络协议进行再处理(如产生一个TCP/UDP求和验证)，然后通过GMX/SPC单元810a，810b往前移位，最后释放在数据包采用的L2缓存/DRAM。

本发明已经为被包括在安全应用中的处理器内核作以描述。然而，本发明并没有限制在安全应用中的处理器内核。本发明应用在廉线处理器中的存储指令的排序。虽然本发明结合其优选的实施方案已经被具体地显示和描述，但是本领域技术人员能够理解的是，任何形式上和细节上的各种各样的变化都没有超出权利要求书所限定的本发明的保护范围。

Claims

1.一种处理器，包括：

写缓冲区，该写缓冲区具有用于把将被存储的数据存储到外部存储区的多个写缓冲项；

系统接口，该系统接口包括：

排序序列，存储在写缓冲区内的数据经过排序序列中的排序序列项被发送到外部存储器；

排序序列逻辑，该排序序列逻辑一旦检测到存储排序指令的执行，则确保由排序序列中的排序序列项所标识的写缓冲区地址在用于随后发布的存储指令的地址之前被发送到外部存储器，排序序列项的数量大于写缓冲区中的项的数量，以致至少一个排序序列项在存储排序指令被执行时是有效的，从而消除存储排序指令的延迟。

2.根据权利要求1的处理器，其中排序序列逻辑通过监控从用于每个写缓冲区地址的外部存储器中返回的确认标识符确保写缓冲区地址被发送。

3.根据权利要求1的处理器，一旦在写缓冲区中检测到有效写缓冲项，系统接口分配排序序列项并在排序序列项中识别有效写缓冲项。

4.根据权利要求1的处理器，其中一旦在写缓冲区中没有检测到有效写缓冲项以及在排序序列中检测到至少一个排序序列项，系统接口在最后排序序列项中设置存储排序指令执行标识。

5.根据权利要求1的处理器，一旦检测到在写缓冲区中没有有效的写缓冲项以及在排序序列中没有排序序列项，系统接口分配排序序列项并在分配的排序序列项中设置存储排序指令执行标识。

6.根据权利要求1的处理器，写缓冲区有N个写缓冲项，并且排序序列有N+1个排序序列项。

7.根据权利要求6的处理器，其中N＝16。

8.根据权利要求1的处理器，写缓冲项包括用于存储将被存储到外部存储器中的数据的缓冲区以及具有与缓冲区中的每一个字节相对应的位的掩码。

9.根据权利要求1的处理器，排序序列项包括存储排序指令执行标识符和具有与每个写缓冲项相对应的位的排序掩码。

10.一种用于在处理器中排序存储数据的方法：

将待存储到外部存储器中的数据存储到写缓冲区中的写缓冲项中；

借助排序序列内的排序序列项把存储在缓冲区内的数据发送到外部存储器；

一旦检测到存储排序指令的执行，则确保由排序序列中的排序序列项所标识的写缓冲地址在后续被发布的存储指令之前发送到外部存储器，排序序列项的数量大于写缓冲区中的项的数量，以致至少一个排序序列项在存储排序指令被执行时是有效的，从而消除存储排序指令的延迟。

11.根据权利要求10的方法，确保包括监控从外部存储器返回的用于每个写缓冲地址的确认指示符。

12.根据权利要求10的方法，进一步包括：

一旦检测到写缓冲区中具有有效的写缓冲项，则分配排序序列项并在排序序列项标识有效写缓冲项。

13.根据权利要求10的方法，进一步包括：

一旦检测到在写缓冲区中没有有效写缓冲项以及在排序序列中有至少一个排序序列项，则在最后的序列项中设置存储排序指令标识符。

14.根据权利要求10的方法，进一步包括：

一旦检测到在写缓冲区中没有有效的写缓冲项以及在排序序列中没有排序序列项，则分配排序序列项并在分配的排序序列项中设置存储排序指令执行标识符。

15.根据权利要求10的方法，其中写缓冲项包括用于存储将被存储在外部存储器中的数据的缓冲区以及具有与缓冲区中每个字节相对应的位的掩码。

16.根据权利要求10的方法，其中排序序列项包括存储排序指令执行标识符以及具有与每个写缓冲项相对应的位的排序掩码。

17.根据权利要求10的方法，其中写缓冲区具有N个写缓冲项，以及排序序列具有N+1个排序序列项。

18.根据权利要求17的方法，其中N＝16。

19.一种处理器，其包括：

写缓冲区，该写缓冲区具有用于存储待存储到外部存储器中的数据的多个写缓冲项；

用于将存储到写缓冲区中的数据借助排序序列中的排序序列项发送到外部存储器的装置；

一旦检测到存储排序指令的执行，用于确保由排序序列中的排序序列项所标识的写缓冲地址在用于后续发布的存储指令的地址之前被发送到外部存储器的装置，排序序列项的数量大于写缓冲区中的项的数量，以致至少一个排序序列项在存储排序指令被执行时是有效的，从而消除存储排序指令的延迟。

20.一种网络服务处理器，其包括：

高速缓冲存储区；以及

至少一个处理器内核，该处理器内核包含：

写缓冲区，该写缓冲区具有用于存储将被存储到高速缓冲存储区中的数据的多个写缓冲项；

系统接口，所述的系统接口包括：

排序序列，存储在写缓冲区的数据经过排序序列内的排序序列项被发送到高速缓冲存储器；

排序序列逻辑，该排序序列逻辑一旦检测到存储排序指令的执行则确保由排序序列中的排序序列项所标识的写缓冲区地址在用于后续发布的存储指令的地址之前被发送到高速缓冲存储器，排序序列项的数量大于写缓冲区中的项的数量，以致至少一个排序序列项在存储排序指令被执行时是有效的，从而消除存储排序指令的延迟。