新闻中心

关注蓝耘了解更多咨询

AI大模型加速“破圈”,算力优化才是“超车点”?
来源: 蓝耘公众号 2023年08月24日

8月18日, “新·生万物 数实新格局 —— 2023戴尔科技峰会”在北京举行,蓝耘科技作为GPU算力云服务企业代表、Dell戴尔钛金级合作伙伴及数字合伙人应邀出席,与来自各行业领域的优秀创新力量围绕新型云计算、现代化数据架构及AI、边缘创新数字体验等,共同探讨AI竞速新阶段下的发展趋势和机遇。蓝耘CTO安江华先生,发表了以“AI大模型驱动下的算力优化探索”为主题的演讲,就AI大模型背后的算力优化路径、行业发展探索等维度分享洞见。


在万物感知、万物互联、万物智能的数字经济时代背景下,全球数据总量和算力需求规模持续走高,ChatGPT刮起的生成式AI飓风在转动AI大模型“命运齿轮”的同时也揭开了大模型“狂欢”背后算力缺口进一步扩大的现状。面对大模型中成千上万个神经元和参数,具备海量数据并行处理能力、擅长加速计算处理的GPU算力被越来越广泛地应用于AI大模型领域,成为实现高效训练和推理的核心驱动力。


随着GPU在AI领域的广泛应用,对GPU算力的协同优化也提出了更高的要求。如何在AI计算上找到优化提质的“最优解”,实现算力突围、技术突破“弯道超车”,全面领跑AI时代新未来已成为业界亟待破解的关键命题。



讲演现场,安江华先生以当下“大模型‘智能涌现’掀起的全球AI新浪潮”为切入点,从基础层、平台层、框架层三个维度向观众展开阐释了大模型“涌现”下的算力优化技术实现路径及今后的发展升级空间。


基础设施硬件架构无疑是AI算力优化要跨越的第一道“天堑”,他表示,蓝耘通过服务器配置调优、国际领先的AI加速卡、高速网卡、IB卡搭载和管理网络、计算网络、存储网络的“三网分离”模式,以及针对AI大模型训练场景计算网络量身打造的专用1:1收敛的Infiniband网络,保障集群内任意GPU节点之间都能实现无阻塞的RDMA快速通信,为用户带来高带宽、低延迟的极致性能体验; 在存储方面,蓝耘基于多年HPC系统集成运维、优化经验及NVIDIA专业团队技术支持和大模型客户的实际使用诉求,在GPU 算力集群中优化部署高性能并行文件系统,可为 AI 大模型训练提供高达100GB/s的吞吐能力,充分满足AI训练、推理、微调及高性能计算场景中对计算、网络、存储等环节灵活性和多样化的需求。


平台架构层也是突破AI算力升级壁垒的重要一环。安江华向现场观众介绍道:蓝耘自研的裸金属调度平台,针对AI大模型训练场景优化了架构设计和系统镜像,配合全生命周期的管理,让大规模裸金属集群部署变得更加简单易用。蓝耘基于Kubernetes平台二次开发的容器调度平台,针对大模型训练过程中驱动、GPU硬件、物理服务器硬件等故障导致的训练停止痛点,拥有无人工干预即可自动拉起失败任务的强大“自愈”功能,大大降低了大模型训练用户的运维难度。



就软件栈和预训练数据层面而言,安江华先生表示,蓝耘AI大模型训练平台面向深度学习等开发场景,可实现计算资源统一分配调度、训练数据集中管理并加速,通过预置集成开箱即用的国内外主流大模型训练框架、SDK、加速器、预训练数据及容器镜像等,轻松实现集群环境快速部署,高效支撑AI创新研发。


奋楫者先,创新者强。作为一家以“链接产业上下游、释放算力新价值”为使命的专业GPU算力云服务提供商,蓝耘在技术创新升级的旅程中不断深耕探索,持续优化高质量算力服务布局,锻造夯实数字经济“算力底座”,以卓越算力助推计算密集型应用场景提速增效,携手行业共同描摹算力赋能数实融合新图景。

加入元生代云,一起创造“耘”上未来
  • 全天候高效服务
    7X24小时专业服务
  • 客户价值优先
    从服务价值到创造客户价值
  • 1V1大客户服务
    定制服务方案全周期陪伴
  • 全方位安全保障
    智能监测风险预警
关于我们
产品
解决方案
服务与支持
联系我们
市场合作:Info@lanyun.net
咨询热线:400-606-3000