“SSE4.1”的意思、由来-中文百科全书

SSE4.1基本介绍

SSE4.1加入了6条浮点型点积运算指令，支持单精度、双精度浮点运算及浮点产生操作，且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式，大大减少延误，这些改变将对游戏及 3D 内容制作应用有重要意义。此外，SSE4.1加入串流式负载指令，可提高以图形帧缓冲区的读取数据频宽，理论上可获取完整的快取缓存行，即每次读取64Bit而非8Bit，并可保持在临时缓冲区内，让指令最多可带来8倍的读取频宽效能提升，对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用，有着明显的效能提升。

SSE4.1具体介绍

SSE4.1指令集让45nm Penryn处理器增加了2个不同的32Bit向量整数乘法运算单元，并加入8位无符号(Unsigned)最小值及最大值运算，以及16Bit及32Bit有符号 (Signed) 运算。在面对支持SSE4.1指令集的软件时，可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时，SSE4.1改良插入、提取、寻找、离散、跨步负载及存储等动作，令向量运算进一步专门化。

据了解，在进行视频编码时需要进行动态预测(Motion Estimation)及差分编码方式去除相邻2张影像之相关性，这是一个非常复杂的运算动作。在没有SSE4.1指令集时，完成一个步骤需要以下指令语句：

for (int moveblock=0;moveblock<16;moveblock++)

for(int line=0; line<16; line++) // Does the 16 pixels large in 4 iteration

{

int i=0;

sum0+=abs( pBlock1[j]-pBlock2)+abs(pBlock1[j+1]-pBlock2[i+1])+abs(pBlock1[j+2]-pBlock2[i+2])+abs(pBlock1[j+3]-pBlock2[i+3]); // Compare with 0 pixel offset

sum1+=abs(pBlock1[j+1]-pBlock2)+abs(pBlock1[j+2]-pBlock2[i+1])+abs(pBlock1[j+3]-pBlock2[i+2])+abs(pBlock1[j+4]-pBlock2[i+3]); // Compare with 1 pixel offset

sum2+=abs(pBlock1[j+2]-pBlock2)+abs(pBlock1[j+3]-pBlock2[i+1])+abs(pBlock1[j+4]-pBlock2[i+2])+abs(pBlock1[j+5]-pBlock2[i+3]); // Compare with 2 pixel offset

sum3+=abs(pBlock1[j+3]-pBlock2)+abs(pBlock1[j+4]-pBlock2[i+1])+abs(pBlock1[j+5]-pBlock2[i+2])+abs(pBlock1[j+6]-pBlock2[i+3]); // Compare with 3 pixel offset

sum4+=abs(pBlock1[j+4]-pBlock2)+abs(pBlock1[j+5]-pBlock2[i+1])+abs(pBlock1[j+6]-pBlock2[i+2])+abs(pBlock1[j+7]-pBlock2[i+3]); // Compare with 4 pixel offset

sum5+=abs(pBlock1[j+5]-pBlock2)+abs(pBlock1[j+6]-pBlock2[i+1])+abs(pBlock1[j+7]-pBlock2[i+2])+abs(pBlock1[j+8]-pBlock2[i+3]); // Compare with 5 pixel offset

sum6+=abs(pBlock1[j+6]-pBlock2)+abs(pBlock1[j+7]-pBlock2[i+1])+abs(pBlock1[j+8]-pBlock2[i+2])+abs(pBlock1[j+9]-pBlock2[i+3]); // Compare with 6 pixel offset

sum7+=abs(pBlock1[j+7]-pBlock2)+abs(pBlock1[j+8]-pBlock2[i+1])+abs(pBlock1[j+9]-pBlock2[i+2])+abs(pBlock1[j+10]-pBlock2[i+3]); // Compare with 7 pixel offset

i=4;

j=moveblock+4;

…

… }

}

一大串的指令极度浪费处理器资源，而在支持SSE4指令集的处理器上，只需要采用4 SAD运算指令：

MPSADBW xmm0,xmm1,0

便完全代替了以上繁复的指令串，大幅提升动态预测(Motion Estimation)及差分编码的运算速度。

词条	SSE4.1
释义	SSE4.1是一种指令集，SSE4.1加入了6条浮点型点积运算指令，支持单精度、双精度浮点运算及浮点产生操作，且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式，大大减少延误，这些改变将对游戏及 3D 内容制作应用有重要意义。中文名：SSE4.1 外文名：SSE4.1 SSE4.1基本介绍 SSE4.1具体介绍 SSE4.1基本介绍 SSE4.1加入了6条浮点型点积运算指令，支持单精度、双精度浮点运算及浮点产生操作，且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式，大大减少延误，这些改变将对游戏及 3D 内容制作应用有重要意义。此外，SSE4.1加入串流式负载指令，可提高以图形帧缓冲区的读取数据频宽，理论上可获取完整的快取缓存行，即每次读取64Bit而非8Bit，并可保持在临时缓冲区内，让指令最多可带来8倍的读取频宽效能提升，对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用，有着明显的效能提升。 SSE4.1具体介绍 SSE4.1指令集让45nm Penryn处理器增加了2个不同的32Bit向量整数乘法运算单元，并加入8位无符号(Unsigned)最小值及最大值运算，以及16Bit及32Bit有符号 (Signed) 运算。在面对支持SSE4.1指令集的软件时，可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时，SSE4.1改良插入、提取、寻找、离散、跨步负载及存储等动作，令向量运算进一步专门化。据了解，在进行视频编码时需要进行动态预测(Motion Estimation)及差分编码方式去除相邻2张影像之相关性，这是一个非常复杂的运算动作。在没有SSE4.1指令集时，完成一个步骤需要以下指令语句： for (int moveblock=0;moveblock<16;moveblock++) for(int line=0; line<16; line++) // Does the 16 pixels large in 4 iteration { int i=0; sum0+=abs( pBlock1[j]-pBlock2)+abs(pBlock1[j+1]-pBlock2[i+1])+abs(pBlock1[j+2]-pBlock2[i+2])+abs(pBlock1[j+3]-pBlock2[i+3]); // Compare with 0 pixel offset sum1+=abs(pBlock1[j+1]-pBlock2)+abs(pBlock1[j+2]-pBlock2[i+1])+abs(pBlock1[j+3]-pBlock2[i+2])+abs(pBlock1[j+4]-pBlock2[i+3]); // Compare with 1 pixel offset sum2+=abs(pBlock1[j+2]-pBlock2)+abs(pBlock1[j+3]-pBlock2[i+1])+abs(pBlock1[j+4]-pBlock2[i+2])+abs(pBlock1[j+5]-pBlock2[i+3]); // Compare with 2 pixel offset sum3+=abs(pBlock1[j+3]-pBlock2)+abs(pBlock1[j+4]-pBlock2[i+1])+abs(pBlock1[j+5]-pBlock2[i+2])+abs(pBlock1[j+6]-pBlock2[i+3]); // Compare with 3 pixel offset sum4+=abs(pBlock1[j+4]-pBlock2)+abs(pBlock1[j+5]-pBlock2[i+1])+abs(pBlock1[j+6]-pBlock2[i+2])+abs(pBlock1[j+7]-pBlock2[i+3]); // Compare with 4 pixel offset sum5+=abs(pBlock1[j+5]-pBlock2)+abs(pBlock1[j+6]-pBlock2[i+1])+abs(pBlock1[j+7]-pBlock2[i+2])+abs(pBlock1[j+8]-pBlock2[i+3]); // Compare with 5 pixel offset sum6+=abs(pBlock1[j+6]-pBlock2)+abs(pBlock1[j+7]-pBlock2[i+1])+abs(pBlock1[j+8]-pBlock2[i+2])+abs(pBlock1[j+9]-pBlock2[i+3]); // Compare with 6 pixel offset sum7+=abs(pBlock1[j+7]-pBlock2)+abs(pBlock1[j+8]-pBlock2[i+1])+abs(pBlock1[j+9]-pBlock2[i+2])+abs(pBlock1[j+10]-pBlock2[i+3]); // Compare with 7 pixel offset i=4; j=moveblock+4; … … } } 一大串的指令极度浪费处理器资源，而在支持SSE4指令集的处理器上，只需要采用4 SAD运算指令： MPSADBW xmm0,xmm1,0 便完全代替了以上繁复的指令串，大幅提升动态预测(Motion Estimation)及差分编码的运算速度。
随便看	Golden Ground Golden Ocean Golden Point GoldenSection Notes V4.0 Build 1049 GoldenSection Reader V4.0 Build 1049 Golden Smog GOLDesp Goldfinge goldfish Goldfly goldfore silver Gold Forever Goldie Goldman心脏风险指数 gold pfeil GoldPHP Goldrock Global GOLD SHARK Goldslam GOLDSTAR GoldTach Golduck GoldWave 5.58 汉化版 Gold Wave Editor Pro GOLDWIN 火光兽火兜墙火冒三丈火凤火刃氏族火列星屯火刺火刺木火前花火前茶火剪火力发电火力发电厂建筑火力发电过程火力控制雷达火力点火劫火势火化火化间火区火华火卦火历玛丽女王二世号邮轮