网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于OB体育

公司概况 核心优势 核心团队 发展历程

联系OB体育

官方微信 官方微博
主页 > 产品中心 > 智能终端处理器

人工智能芯片的分类OB体育官网版登录

发布时间:2022-11-23 22:49浏览次数: 来源于:网络

  OB体育官方近年来人工智能芯片领域的科学家们进行了富有成果的 广泛研究 ,主要集 中在 AI 芯片目前的两种发展方向。一 个方向是继 续延续经典的冯 · 诺依曼计算架构 ,以加 速计算能力 为发展目标,主要分为并行加速计算的 GPU(图 形处 理单元)、半定制化的 FPGA(现场可编程门阵列)、全 定制化的 ASIC(专用集成电路)。另一个方向就是 颠覆传统 的冯 · 诺依曼计算架构 ,采用基于类脑神经 结构的神 经拟态芯片来解决算力问题。

  (1)图 形 处 理 单 元 (graphics processing unit , GPU)。GPU 是相对较早的加速计算处理器 ,具 有速度快、 芯片编程灵活简单等特点。由于传统 CPU 的计算指令遵循串 行执行方式 ,不能发挥出芯片的全部潜力 ,而 GPU 具有

  高并行结构 ,在处理图形 数据和复杂算法方面拥有 比 CPU 更高的效率。在结 构上 ,CPU 主要由和寄存

  器组成 ,而 GPU 则拥 有更多的逻辑运算单元(arithmetic logic unit,ALU) 用于数据处理,这样的结构更适合对密 集型数据进 行并行处理 ,程序在 GPU 系统上的运行速度

  相较于 单核 CPU 往往提升几十倍乃至上千倍。同时 ,GPU 拥有了更加强大的浮点运算能力 ,可以缓解深度学 习算法 的训练难题,释放人工智能的潜能。OB体育官网版登录但是 GPU 也有一定的局 限性。深度学习算法分为训练和 推断两部分 ,GPU 平台在 算法训练上非常高效。但 在推断中对于单项输入进行处理 的时候 ,并行计算 的优势不能完全发挥出来 。

  (2)现场可编程门阵列(field programmable gate array , FPGA )。FPGA 是 在 PAL 、GAL、CPLD 等 可 编 程器件基础 上进一步发展的产物。其基本原理是在 FPGA 芯片内集成大 量的基本门电路以及存储器 ,用 户可以通过更新 FPGA 配 置文件(即烧入)来定义这 些门电路以及存储器之间的连

  线。这种烧入不是一 次性的,因此,它既解决了定制电路 灵活性的不足,OB体育官网版登录 又克服了原有可编程器件门电路数有限的 缺点。与 GPU 不同 ,FPGA 同时拥有进行数据并行和任务并 行 计算的能力 ,适用于以硬件流水线方式处理一条数 据 ,且整数运算性能更高 ,因此常用于深度学习算法 中 的推断阶段。不过 FPGA 通过硬件的配置实现软 件算法 ,

  因此在实现复杂算法方面有一定的难度 。 将 FPGA 和 CPU 对比可以发现两个特点,一是 FPGA 没有内

  存和控制所带来的存储和读取部分,速度更快,二是 FPGA 没有读取指令操作,所以功耗更低。劣势是价格比较高,编 程复杂,整体运算能力不是很高。功耗方面 ,从体系结构

  而言 ,FPGA 也具有天生 的优势。传统的冯氏结构中,执 行单元(如 CPU 核) 执行任意指令,都需要有指令存储器 、 译码器 、各种 指令的运算器及分支跳转处理逻辑参与运 行,而 FPGA 每个逻辑单元的功能在重编程(即烧入)时就已 经确定 ,不需要指令,无需共享内存 ,从而可以极 大地 降低单位执行的功耗 ,提高整体的能耗比。FPGA 最值得注 意 的 例 子 可 能 是 CNP , 它 进 一 步 改 进 并 重 命 名 为 NeuFlow ,后来改编为 nn-X 。这些设计可以实现 10~100 KM/s 操作(GOPS),功率仅 为 10W 以下。

  需求,主要采用 GPU、FPGA 等已有的适合并行 计算的通用 芯片来实现加速。在产业应用没有大规 模兴起之时 ,使用 这类 GPU 、FPGA 已有的通用芯片 可以避免专门研发定制芯 片( ASIC )的高投入和高风 险。但是,由于这类通用芯片设 计初衷并非专门针 对深度学习 ,因而天然存在性能 、功 耗等方面的局限 性。随着人工智能应用规模的扩大 ,这类

  的大规模并行计算。因此 ,在应用于深度学习 算法时无法 充分发挥并行计算优势。深度学习包含 训练和推断两个计 算环节 ,GPU 在深度学习算法训练 上非常高效 ,但对于

  单一输入进行推断的场合 ,并行 度的优势不能完全发挥。 其次,GPU 采用 SIMT 计算 模式 ,硬件结构相对固定 ,无 法灵活配置硬件结构 。此外,运行深度学习算法能效低于 FPGA。

  虽然 FPGA 倍受看好 ,但其毕竟不是专门为了适 用深度 学习算法而研发 ,实际应用中为了实现可重 构特性 , FPGA 内部有大量极细粒度的基本单元 ,但 是每个单元的 计算能力都远低于 CPU 和 GPU 中的 ALU 模块;其次 ,为实 现可重构特性 ,FPGA 内部大 量资源被用于可配置的片上 路由与连线 ,因此计算 资源占比相对较低;再者,速度和 功 耗 相 对 专 用 定 制 芯 片 (ASIC) 仍 然 存 在 不 小 差 距 ;而 且

  FPGA 价格较 为昂贵,在规模放量的情况下单块 FPGA 的成 本要远 高于专用定制芯片。

  因此 ,随着人工智能算法和应用技术的日益发 展,以及 人工智能专用芯片 ASIC 产业环境的逐渐成 熟 ,全定制化 人工智能 ASIC 也逐步体现出自身的优 势。ASIC 是专用定 制芯片,定制的特性有助于提高 ASIC 的性能功耗比 ,缺点

  是电路设计需要定制 ,相 对开发周期长 ,功能难以扩展。 但在功耗 、可靠性 、 集成度等方面都有优势 ,尤其在

  要求高性能 、低功耗 的移动应用端体现明显。比如谷歌 的 TPU、寒武纪 的 GPU ,地平线的 BPU 都属于 ASIC 芯片 。OB体育官网版登录

  的冯·诺依曼架构存在着“冯·诺依曼瓶 颈”,它降低了 系统的整体效率和性能[19]。为了从 根本上克服这个问 题 ,神经形态计算近年来已成为 基于冯 · 诺依曼系统 的这些传统计算架构的最有吸 引力的替代方案。术语“神 经形态计算”首先由 Mead[20] 在 1990 年提出 ,它是一种 受大脑认知功能 启发的新计算范式。与传统的 CPU / GPU 不 同 ,生 物脑(例如哺乳动物的大脑)能够以高效率和低功 耗在小区域中并行处理大量信息。因此 ,神经形态 计算的 最终目标是开发神经形态硬件加速器 ,模拟 高效生物信息 处理,以弥合网络和真实大脑之间的 效率差距[21] ,这被 认为是下一代人工智能的主要驱 动力。

  神经拟态芯片不采用经典的冯 · 诺依曼架构 ,而 是基 于神经形态架构设计 ,是模拟生物神经网络的 计算机 制 ,如果将神经元和突触权重视为大脑的“处 理器”和 “记忆”,它们会分布在整个神经皮层[22]。神 经拟态 计算从结构层面去逼近大脑 ,其研究工作可 分为两个层 次 ,一是神经网络层面,与之相应的是神 经拟态架构和

  处理器 ,以 IBM Truenorth 为代表 ,这 种芯片把定制 化的数字处理内核当作神经元 ,把内存作为突触。

  其逻辑结构与传统冯·诺依曼结构不同:内存、CPU 和通信 部件完全集成在一起,因此信 息的处理在本地进行 ,克

  经元之间可以方 便快捷地相互沟通 ,只要接收到其他神 经元发过来 的脉冲(动作电位),这些神经元就会同时做

  于加速深度学习算法 ,而是 在芯片基本结构甚至器件层 面上改变设计 ,希望能 够开发出新的类脑计算机体系结 构,比如采用忆阻 器和 ReRAM 等新器件来提高存储密度。 这类芯片 技术尚未完全成熟 ,离大规模应用还有很长的 距离 , 但是长期来看类脑芯片有可能会带来计算机体系 结构的 。

  根据机器学习算法步骤 ,可分为训练(training)和推 断( inference )两个环节 。训练环节通常需要通过大量 的数据输入,训练出一个复杂的深度神经网络模型。训 练过程由于涉 及海量的训练数据和复杂的深度神经网 络结构 ,运 算量巨大 ,需要庞大的计算规模 ,对于 处理器的计算 能力 、精度 、可扩展性等性能要求很高。 目 前 市 场 上 通 常 使 用 英 伟 达 的 GPU 集 群 来 完 成 , Google 的 TPU2.0/3.0 也 支 持 训 练 环 节 的 深 度 网 络 加 速。

  推断环节是指利用训练好的模型 ,使用新的数 据去 “推断”出各种结论。这个环节的计算量相对训 练环节

  少很多 ,但仍然会涉及到大量的矩阵运算 。在推断环 节 中 , 除 了 使 用 CPU 或 GPU 进 行 运 算 外 , FPGA 以 及 ASIC 均能发挥重大作用。表 2 是 4 种技 术架构的芯 片在人工智能系统开发上的对比 。

  主要分为用于服务器端(云端)和用于移动端( 终 端 ) 两大类。 (1)服务器端:在深度学习的训练阶段 ,由于数据量 及运算量巨大 ,单一处理器几乎不可能独立完成 1 个 模型的训练过程 ,因此 ,负责 AI 算法的芯片采用的是

  高性能计算的技术路线 ,一方面要支持尽可能多的网 络结构以保证算法的正确率和泛化能力;另一方面必 须 支持浮点数运算;而且为了能够提升性能必须支持 阵列 式结构(即可以把多块芯片组成一个计算阵列以 加速运 算)。在推断阶段,由于训练出来的深度神经 网络模型 仍非常复杂 ,推断过程仍然属于计算密集型 和存储密 集型 ,可以选择部署在服务器端 。 (2)移 动 端( 手 机 、智 能 家 居 、无 人 车 等 ):移 动 端 AI 芯片在设计思路上与服务器端 AI 芯 片有着本质的 区别。首先,必须保证很高的计算能效; 其次,在高 级辅助驾驶 ADAS 等设备对实时性要求很高

  动端 设备具备足够的推断能力。而某些场合还会有低功 耗 、低延迟 、低成本的要求 ,从而导致移动端的 AI 芯

下一篇:骁龙855人工智能芯片赋能 面向未来的手机AI时代OB体育官方在线
上一篇:OB体育官方在线芯片是什么?由芯片到AI智能芯片的进化历史

咨询我们

输入您的疑问及需求发送邮箱给我们