CPU GPU TPU DPU NPU区别

oyangningtao · 发表于 2022-1-22 11:17:57

CPU

CPU应该是大家最常见的。主要包括运算器（ALU, Arithmetic and Logic Unit）和控制单元（CU, Control Unit），除此之外还包括若干寄存器、高速缓存器和它们之间通讯的数据、控制及状态的总线。CPU遵循的是冯诺依曼架构，即存储程序、顺序执行。

一条指令在CPU中执行的过程是：读取到指令后，通过指令总线送到控制器中进行译码，并发出相应的操作控制信号。然后运算器按照操作指令对数据进行计算，并通过数据总线将得到的数据存入数据缓存器。因此，CPU需要大量的空间去放置存储单元和控制逻辑，相比之下计算能力只占据了很小的一部分，在大规模并行计算能力上极受限制，而更擅长于逻辑控制。

中央处理器（CPU），是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速及实现它们缓冲处理器之间联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。在计算机体系结构中，CPU 是对计算机的所有硬件资源（如存储器、输入输出单元）进行控制调配、执行通用运算的核心硬件单元。CPU 是计算机的运算和控制核心。计算机系统中所有软件层的操作，最终都将通过指令集映射为CPU的操作。

GPU

为了解决CPU在大规模并行运算中遇到的困难， GPU应运而生，采用数量众多的计算单元和超长的流水线，如名字一样，图形处理器，GPU善于处理图像领域的运算加速。但GPU无法单独工作，必须由CPU进行控制调用才能工作。CPU可单独作用，处理复杂的逻辑运算和不同的数据类型，但当需要大量的处理类型统一的数据时，则可调用GPU进行并行计算。

近年来，人工智能的兴起主要依赖于大数据的发展、理论算法的完善和硬件计算能力的提升。其中硬件的发展则归功于GPU的出现。

图形处理器（英语：Graphics Processing Unit，缩写：GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。

GPU使显卡减少了对CPU的依赖，并进行部分原本CPU的工作，尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。

GPU的构成相对简单，有数量众多的计算单元和超长的流水线，特别适合处理大量的类型统一的数据。但GPU无法单独工作，必须由CPU进行控制调用才能工作。CPU可单独作用，处理复杂的逻辑运算和不同的数据类型，但当需要大量的处理类型统一的数据时，则可调用GPU进行并行计算。

TPU

人工智能旨在为机器赋予人的智能，机器学习是实现人工智能的强有力方法。所谓机器学习，即研究如何让计算机自动学习的学科。TPU就是这样一款专用于机器学习的芯片，它是Google于2016年5月提出的一个针对Tensorflow平台的可编程AI加速器，其内部的指令集在Tensorflow程序变化或者更新算法时也可以运行。

TPU可以提供高吞吐量的低精度计算，用于模型的前向运算而不是模型训练，且能效（TOPS/w）更高。在Google内部，CPU,GPU,TPU均获得了一定的应用，相比GPU，TPU更加类似于DSP，尽管计算能力略有逊色，其功耗大大降低。然而，TPU,GPU的应用都要受到CPU的控制。

TPU（Tensor Processing Unit）即张量处理单元，是一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能（每瓦计算能力）。

因为它能加速其第二代人工智能系统TensorFlow的运行，而且效率也大大超过GPU――Google的深层神经网络就是由TensorFlow引擎驱动的。TPU是专为机器学习量身定做的，执行每个操作所需的晶体管数量更少，自然效率更高。

TPU与同期的CPU和GPU相比，可以提供15-30倍的性能提升，以及30-80倍的效率（性能/瓦特）提升。

TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令，这基本相当于7年后的科技水平。TPU是为机器学习应用特别开发，以使芯片在计算精度降低的情况下更耐用，这意味每一个操作只需要更少的晶体管，用更多精密且大功率的机器学习模型，并快速应用这些模型，因此用户便能得到更正确的结果。

oyangningtao · 发表于 2022-1-22 11:18:18

DPU

DPU深度学习处理器最早由国内深鉴科技提出，基于Xilinx可重构特性的FPGA芯片，设计专用的深度学习处理单元（可基于已有的逻辑单元，设计并行高效的乘法器及逻辑电路，属于IP范畴），且抽象出定制化的指令集和编译器（而非使用OpenCL），从而实现快速的开发与产品迭代。事实上，深鉴提出的DPU属于半定制化的FPGA。

NPU

NPU，神经网络处理器，在电路层模拟人类神经元和突触，并且用深度学习指令集直接处理大规模的神经元和突触，一条指令完成一组神经元的处理。相比于CPU中采取的存储与计算相分离的冯诺伊曼结构，NPU通过突触权重实现存储和计算一体化，从而大大提高了运行效率。

NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth，中星微电子的“星光智能一号”虽说对外号称是NPU，但其实只是DSP，仅支持网络正向运算，无法支持神经网络训练。而且从存储结构上看，该款芯片是基于传统的片上存储，而非神经网络芯片的便携式存储。

嵌入式神经网络处理器（NPU）采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。

NPU处理器专门为物联网人工智能而设计，用于加速神经网络的运算，解决传统芯片在神经网络运算时效率低下的问题。

在GX8010中，CPU和MCU各有一个NPU，MCU中的NPU相对较小，习惯上称为SNPU。

NPU处理器包括了乘加、激活函数、二维数据运算、解压缩等模块。

乘加模块用于计算矩阵乘加、卷积、点乘等功能，NPU内部有64个MAC，SNPU有32个。

激活函数模块采用最高12阶参数拟合的方式实现神经网络中的激活函数，NPU内部有6个MAC，SNPU有3个。

二维数据运算模块用于实现对一个平面的运算，如降采样、平面数据拷贝等，NPU内部有1个MAC，SNPU有1个。

解压缩模块用于对权重数据的解压。为了解决物联网设备中内存带宽小的特点，在NPU编译器中会对神经网络中的权重进行压缩，在几乎不影响精度的情况下，可以实现6-10倍的压缩效果。

BPU

BPU, 大脑处理器，是由地平线科技提出的嵌入式人工智能处理器架构。第一代是高斯架构，第二代是伯努利架构，第三代是贝叶斯架构。目前地平线已经设计出了第一代高斯架构，并与英特尔在2017年CES展会上联合推出了ADAS系统。传统CPU芯片是做所有事情，所以一般采用串行结构。

BPU主要是用来支撑深度神经网络，比如图像、语音、文字、控制等方面的任务，而不是去做所有的事情。此外，深度神经网络的计算结构比较特殊，比如高度的并行化、时间域上的递归、中间节点的稀疏等，用BPU来实现会比在CPU上用软件实现要高效，一般来说会提高2-3个数量级。然而，BPU一旦生产，不可再编程，且必须在CPU控制下使用。

oyangningtao · 发表于 2022-1-22 11:18:42

附：
APU -- Accelerated Processing Unit, 加速处理器，AMD公司推出加速图像处理芯片产品。

BPU -- Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

CPU -- Central Processing Unit 中央处理器，目前PC core的主流产品。

DPU -- Deep learning Processing Unit, 深度学习处理器，最早由国内深鉴科技提出；另说有Dataflow Processing Unit 数据流处理器， Wave Computing 公司提出的AI架构；Data storage Processing Unit，深圳大普微的智能固态硬盘处理器。

FPU -- Floating Processing Unit 浮点计算单元，通用处理器中的浮点运算模块。

GPU -- Graphics Processing Unit, 图形处理器，采用多线程SIMD架构，为图形处理而生。

HPU -- Holographics Processing Unit 全息图像处理器，微软出品的全息计算芯片与设备。

IPU -- Intelligence Processing Unit， Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU -- Microprocessor/Micro controller Unit，微处理器/微控制器，一般用于低计算应用的RISC计算机体系架构产品，如ARM-M系列处理器。

NPU -- Neural Network Processing Unit，神经网络处理器，是基于神经网络算法与加速的新型处理器总称，如中科院计算所/寒武纪公司出品的diannao系列。

RPU -- Radio Processing Unit, 无线电处理器， Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU -- Tensor Processing Unit 张量处理器， Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference，二代面向训练。

VPU -- Vector Processing Unit 矢量处理器，Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU -- Wearable Processing Unit，可穿戴处理器，Ineda Systems公司推出的可穿戴片上系统产品，包含GPU/MIPS CPU等IP。

XPU -- 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速，含256核。

ZPU -- Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位开源处理器。