开启高效协作的AI创新之旅
蓝耘元生代云AI模型训推平台提供企业级分布式Kubernetes容器服务,支持高性能Kubernetes
集群一键部署。平台全面满足AI研发团队的协作需求,通过前台、中台和后台的全方位协同,
实现从数据准备到模型训练与部署的全流程管理,显著提升团队效率与资源利用率,优化大模
型训练与推理工作流的执行效能。
产品优势
分布式调度与训练
基于Kubernetes服务底座,支持多类型资源调度与GPU算力自动分配管理。集成MPlJob、PyTorchJob、DeepSpeed等训练推理框架,实现分布式训练的一键式零门槛创建。
团队协作
以项目为核心,整合模型开发全流程所需资源,大幅减少资源管理时间成本,提升开发效率。
灵活的资源配置
团队可根据实际需求灵活选择算力资源,有效避免资源浪费,显著降低企业运营成本。
丰富的GPU资源
本平台搭载最新GPU硬件,具备卓越计算性能,专为处理复杂深度学习模型及大规模数据集而生。
成熟的技术服务能力
在算力基础设施架构规划、集成交付、算力资源调度管理、性能优化及运维运营等方面拥有成熟的经验。
产品功能
AI开发
AI服务
AI资产
权限
AI开发
开发机
为机器学习开发者量身打造在线编译、代码调试及模型开发一体化模块
分布式训练
平台预置PytorchJob、DeepSpeed等多种分布式训练框架,用户无需关注底层调度与运维,只需上传代码并配置参数,即可快速启动分布式训练任务
双模协作 随需而变:团队隔离与单兵作战
团队协作
单兵作战
多成员合作,项目隔离
针对团队或有项目隔离需求的个体用户,平台采用项目级资源隔离机制,支持成员间高效协作。主账号可集中管理资源采购与分配,子账号则专注于模型训练营与部署,无需介入硬件采购与分配,实现资源管理与开发流程的分离式协作
1
创建资源与存储
分别创建资源组、存储空间、镜像仓库
2
添加子账号
填写项目所需要的子账号成员
3
创建项目
给项目中挂载资源组、存储、镜像仓库,添加相应的项目成员
4
参与项目建设
与子账号共同创建开发机、分布式训练任务和在线推理
5
查看项目详情
可在项目详情中查看所有的任务、资源、存储空间、镜像仓库、项目成员的数据信息
应用场景
开发者高效研发
大规模分布式训练
高可用模型服务部署
开发者高效研发
独立开发者无需繁琐配置,通过开发机可迅速搭建在线开发环境(支持WebIDE /SSH 接入),便捷调用高性能GPU资源,高效完成模型开发、调试及轻量级训练任务,加速创新迭代。



