GPU|从图形处理单元到AI时代算力核心

人工智能概念的出现在20世纪50年代，1956年的达特茅斯会议标志着人工智能的诞生：John McCarthy联合Minsky、Claude Shannon、Nathaniel Rochester在达特茅斯组织了两个月的Workshop。达特茅斯会议将不同领域的研究者组织在了一起，第一次提出了“人工智能”概念。

人工智能迄今为止经历了60余年的发展历程，作为计算机科学的一项重要分支，与基因工程、纳米科学一同被誉为二十一世纪三大尖端技术之一。

人工智能发展历程

人工智能的发展主要分为以下几个阶段：

人工智能的诞生（20世纪40——50年代）；人工智能的黄金时代（20世纪50——70年代）；人工智能的低谷（20世纪70——80年代）；人工智能的繁荣期（1980年——1987年）；人工智能的冬天（1987年——1993年）；人工智能真正的春天（1993年至今）。

2016年，AlphaGo对战世界围棋冠军、职业九段选手李世石，成为人工智能史上的重要事件，然而2017年以来，计算机智能水平伴随着算力的加持，得到了明显的提升，人工智能才真正迎来了大爆发，在自动驾驶、智能机器人、新材料发现、医药科学等多领域广泛应用。随着人工智能迈上了新高度，GPU成为AI时代算力的核心，AI在以GPU为基础的机器学习，尤其是深度学习的发展下，实现了技术突破和算法更新。

GPU（Graphics Processing Unit，图形处理单元）诞生之初是专门用于图形处理的微处理器，主要用于绘制图像、处理图元数据。其后，GPU的并行处理和通用计算优势被持续挖掘，主要应用场景可分为三大类：

1.HPC高性能计算（High Performance Computing）：CAE仿真、物理化学、石油勘探、生命科学、气象环境等高性能计算场景。

2.AI智算：图像识别、语音识别、人脸识别、3D视觉感知、智慧医疗、自动驾驶等细分场景。

3.图形渲染：3D图形的加速渲染等细分场景。计算机将存储在内存中的形状转换成实际绘制在屏幕上的对应的过程称为渲染。

GPU 图形渲染的流程工作可以被划分为两个部分：把 3D 坐标转换为 2D 坐标；把 2D 坐标转变为实际的有颜色的像素。

人工智能发展历程(图源：《面向实时图形计算的GPU硬件图形渲染能力Benchmark软件对比》一文)

人工智能发展历程 (图源：《面向实时图形计算的GPU硬件图形渲染能力Benchmark软件对比》一文)

除三大类应用场景外，目前热度非常的数字孪生、元宇宙、智慧城市也需要GPU算力在方方面面作为支撑。

在AI智算领域，GPU主要应用在AI训练和推理场景。AI训练是使用GPU加速AI算法的训练，又分为单机单GPU、单机多GPU、多机多GPU三种情况，其中最简单的是单机单GPU。单机多GPU指的是在一台服务器上利用多个GPU进行算法训练。多机多GPU是将数据或者模型分布到不同的节点进行协同计算。

使用GPU进行AI算法推理。AI模型优化和AI系统编译优化是实现AI推理计算优化的两个核心路径。针对AI模型，GPU可以通过低精度的加速计算、张量分解、网络剪枝等多种方式进行优化。针对AI系统编译，GPU则可以利用硬件体系中立的计算图优化和硬件体系相关的优化和代码生成。

把人工智能等同于人类的大脑，将AI训练和推理用我们的学习过程去理解，相对通俗易懂。

学习的过程（训练）需要大量的数据、知识来构建科学的知识体系，不断强化学习、反复理解以备后续的使用。有的AI训练效果好，有的训练效果差一些，在后续的推理过程（即检验过程)中可以体现出学习过程（训练过程）效果的差异，因此训练要不断根据实际效果的反馈进行优化，得到最优配置、最优知识框架。

利用训练过程形成的认知、知识逻辑进行实际操作、判断的过程就是AI的推理过程。推理的结果、实际操作的结果只有正确与错误两种。因此人工智能的训练过程更为关键、消耗的能量更多。

AI训练和推理，就像人类大脑的学习，以及通过学习获得知识框架从而进行的判断过程一样。相比于推理过程，训练的时间更长，需要密集的计算，通过神经网络算出结果后，需要进行多次校验，调整大量的参数，通过一次次反复理解、循环往返，得到最优的知识架构、参数配置，每一次调整都需要消耗大量算力。

曾在斯坦福大学做过研究，在谷歌和百度都任职过的吴恩达这样举例“训练一个百度的汉语语音识别模型不仅需要4TB的训练数据，而且在整个训练周期中还需要20 exaflops（百亿亿次浮点运算）的算力”。

对于AI来说，训练过程需要巨量的算力资源。推理则无需像训练一样需要循环往复的调整参数，因此对算力的需求也会低很多。

因此，在AI三要素——数据、算力和算法中，数据被视为AI的燃料，AI的智能突破必须要有足够的数据用来进行训练，然而算力决定了训练的速度，决定了AI的智能能够以多大的速度开发数据，算力是AI的发动机。具体到如何训练，如何使用数据，则是算法的问题。

当前，人工智能相关产业迅速发展，智能场景不断细化，智能算力需求随之增长。同时在数字化转型如火如荼，社会生产生活持续“上云”的今天，蓝耘基于自有智算云平台，为高校师生、科研院所、企事业单位等有高性能计算需求的用户提供按需付费、随时可获取的GPU算力云服务。

在HPC高性能计算方面，蓝耘拥有长期技术服务积淀，此前已为科研院所、高校算力基础设施升级、数字化转型提供了软硬云一体化HPC交付方案和一站式高性能计算整体解决方案。

以GPU智算云服务为主线，蓝耘的算力服务具体包括三方面：GPU虚拟云主机，面向AI训练、图形处理、科学计算等领域，为客户提供专享高性能GPU虚拟云主机，可大幅提升图形处理和计算能力；HPC平台，为生命科学、CAE仿真、物理化学、气象环境、石油勘探等领域的科研界提供CPU、GPU算力服务；裸金属GPU服务器，提供高性能、资源独享、安全隔离的专属弹性裸金属服务器，同时具备云资源的敏捷性、灵活性和高可用性，蓝耘提供完备的设备管理权限及运维服务。

具体到AI训练和推理阶段的算力需求，尤其是国内自动驾驶正面临由辅助驾驶向高阶自动驾驶转型的关键期，路测数据基数大，不同传感器之间的组合判断以及位置补差、信息处理均需要大量算力支持，自动驾驶整体上训练和推理要求的精度高，蓝耘可为自动驾驶领域客户提供量身定制的FOD按需付费算力解决方案，让客户以公有云的灵活享受私有云的专属服务，目前已与自动驾驶头部企业展开合作。