AI大模型加速“破圈”，算力优化才是“超车点”？

新闻中心

关注蓝耘了解更多咨询

来源: 蓝耘公众号 2023年08月24日

8月18日, “新·生万物数实新格局 —— 2023戴尔科技峰会”在北京举行，蓝耘科技作为GPU算力云服务企业代表、Dell戴尔钛金级合作伙伴及数字合伙人应邀出席，与来自各行业领域的优秀创新力量围绕新型云计算、现代化数据架构及AI、边缘创新数字体验等，共同探讨AI竞速新阶段下的发展趋势和机遇。蓝耘CTO安江华先生，发表了以“AI大模型驱动下的算力优化探索”为主题的演讲，就AI大模型背后的算力优化路径、行业发展探索等维度分享洞见。

在万物感知、万物互联、万物智能的数字经济时代背景下，全球数据总量和算力需求规模持续走高，ChatGPT刮起的生成式AI飓风在转动AI大模型“命运齿轮”的同时也揭开了大模型“狂欢”背后算力缺口进一步扩大的现状。面对大模型中成千上万个神经元和参数，具备海量数据并行处理能力、擅长加速计算处理的GPU算力被越来越广泛地应用于AI大模型领域，成为实现高效训练和推理的核心驱动力。

随着GPU在AI领域的广泛应用，对GPU算力的协同优化也提出了更高的要求。如何在AI计算上找到优化提质的“最优解”，实现算力突围、技术突破“弯道超车”，全面领跑AI时代新未来已成为业界亟待破解的关键命题。

讲演现场，安江华先生以当下“大模型‘智能涌现’掀起的全球AI新浪潮”为切入点，从基础层、平台层、框架层三个维度向观众展开阐释了大模型“涌现”下的算力优化技术实现路径及今后的发展升级空间。

基础设施硬件架构无疑是AI算力优化要跨越的第一道“天堑”，他表示，蓝耘通过服务器配置调优、国际领先的AI加速卡、高速网卡、IB卡搭载和管理网络、计算网络、存储网络的“三网分离”模式，以及针对AI大模型训练场景计算网络量身打造的专用1:1收敛的Infiniband网络，保障集群内任意GPU节点之间都能实现无阻塞的RDMA快速通信，为用户带来高带宽、低延迟的极致性能体验; 在存储方面，蓝耘基于多年HPC系统集成运维、优化经验及NVIDIA专业团队技术支持和大模型客户的实际使用诉求，在GPU 算力集群中优化部署高性能并行文件系统，可为 AI 大模型训练提供高达100GB/s的吞吐能力，充分满足AI训练、推理、微调及高性能计算场景中对计算、网络、存储等环节灵活性和多样化的需求。

平台架构层也是突破AI算力升级壁垒的重要一环。安江华向现场观众介绍道：蓝耘自研的裸金属调度平台，针对AI大模型训练场景优化了架构设计和系统镜像，配合全生命周期的管理，让大规模裸金属集群部署变得更加简单易用。蓝耘基于Kubernetes平台二次开发的容器调度平台，针对大模型训练过程中驱动、GPU硬件、物理服务器硬件等故障导致的训练停止痛点，拥有无人工干预即可自动拉起失败任务的强大“自愈”功能，大大降低了大模型训练用户的运维难度。

就软件栈和预训练数据层面而言，安江华先生表示，蓝耘AI大模型训练平台面向深度学习等开发场景，可实现计算资源统一分配调度、训练数据集中管理并加速，通过预置集成开箱即用的国内外主流大模型训练框架、SDK、加速器、预训练数据及容器镜像等，轻松实现集群环境快速部署，高效支撑AI创新研发。

奋楫者先，创新者强。作为一家以“链接产业上下游、释放算力新价值”为使命的专业GPU算力云服务提供商，蓝耘在技术创新升级的旅程中不断深耕探索，持续优化高质量算力服务布局，锻造夯实数字经济“算力底座”，以卓越算力助推计算密集型应用场景提速增效，携手行业共同描摹算力赋能数实融合新图景。