新闻中心

关注蓝耘了解更多咨询

蓝耘科技出席信通院《基于Token计量的算力能力评价技术要求》标准首次研讨会,分享Token计量与ROI实践经验
来源: 蓝耘公众号 2026年05月11日

026年5月9日下午,由中国信通院依托算力产业发展方阵-大模型算力工作组牵头组织的《基于Token计量的算力能力评价技术要求》标准首次线下研讨会在雄安新区召开。该会议汇聚了水利部信息中心、国能集团数科公司、华为等研究机构与国内核心算力企业共同参与。蓝耘科技集团首席科学家孙雄勇代表蓝耘出席会议,并以"蓝耘科技AI基础设施的Token计量与实践"为主题进行了深度分享,向与会专家系统展示了蓝耘在智能体时代Token计量、调度与ROI优化方面的技术积累与一线实践。



Token评价正在发生根本性变化


孙雄勇在分享中指出,企业看待AI的视角在过去几年经历了三次关键切换:从最初关注GPU卡时利用率的"买资源"阶段,到关注有效Token产出的"买产能"阶段,再到当下智能体时代关注任务成功率的"买结果"阶段。评价单位正从硬件指标向业务结果不断逼近,而贯穿这三次切换的统一计量基准,正是Token。

"AI我们也在用,但到底花了多少钱、值不值,说不清。"孙雄勇表示,这是蓝耘在过去一年客户交流中反复听到的声音。企业面临的核心焦虑并非单纯的价格问题,而是"价格乱、质量乱、来源乱、账本乱"四重挑战——不同平台口径不一、同一模型体验迥异、合规风险等级参差、ROI无从证明。

与此同时,Agentic AI的兴起让Token消耗从单次对话扩展为覆盖规划、工具调用与结果校验的完整任务链,单用户Token负载较传统聊天机器人呈数量级增长。这意味着,用聊天机器人时代的尺子去衡量智能体时代的能力,已经力不从心。Token评价正从单一的"单价评价",升级为"可信计量+服务质量+任务ROI"的综合评价体系。


蓝耘实践:从Token计量到全链路平台化治理


作为AI时代的算力基础设施服务商,蓝耘构建了从自有智算中心、GPU调度云、MaaS平台到智能体行业应用的四层供给侧闭环。孙雄勇强调,蓝耘做闭环不是目的,而是手段——通过穿透到MaaS和智能体场景,倒逼算力底座在计量、调度、治理每一层都做到位。


建立"四本账"体系


蓝耘提出企业看懂AI成本不能只看账单,而要建立用量账(输入/输出/缓存命中Token)、质量账(任务成功率/人工接管率/模型命中率)、成本账(Cost/MTok、Cost/Task、峰值成本)和业务账(线索数/节省工时/转化率)四本账,并将其接入MaaS、路由、调度与应用看板,让Token从财务报表上的"费用项"变成运营层每天可看、可调、可优化的"运营指标"。



多层计费体系的思路与实践


孙雄勇在分享中提出,Token计费不应是单一定价,而应构建从算力层、API层到场景层、治理层的多层体系。目前,蓝耘已在算力层(GPU卡时/包月)和API层(纯Token计费)实现了成熟的计费能力,服务于私有化部署客户和开发者、中小企业。在此基础上,蓝耘正在积极探索场景层(按任务/按结果计费)和治理层(平台费+SLA+项目费)的建设路径——让业务负责人能按结果衡量成本,让大型企业获得可审计、可承诺的服务能力。这一从"卖资源"到"卖结果"的演进方向,也是蓝耘未来持续投入的重点。


三大核心技术能力支撑Token服务落地


统一API网关


蓝耘的统一API实现了多模型接入、智能路由、高可用兜底、成本监控计费和数据资产沉淀五项核心能力,是计量框架能够落地的第一块拼图。没有统一入口,模型分散在多个供应商,口径各异,"四本账"根本算不出来。


智能路由引擎


蓝耘正在建设基于"语义识别+策略调度"混合路线的智能路由能力,目标是通过请求理解、策略决策、模型选择、资源派发、反馈闭环五步流程,让每个请求走最合适的路径——简单问答走低成本模型降低Cost/MTok,复杂推理走强模型保证成功率,实时客服走低延迟热池降低等待感,大促高峰走弹性队列保护核心业务。这套路由体系目前已在部分环节落地验证,蓝耘正在持续迭代完善,逐步实现全链路智能调度。


动态调度与服务化能力


孙雄勇特别指出,空闲GPU不等于可用Token产能。要把空闲资源转化为可承诺的Token服务,需要模型热池预加载、优先级队列、推理引擎优化、看板监控和故障自动切换五项能力协同。蓝耘还实践了"分时复用"策略——白天服务实时业务,夜间跑批量任务,让同一份算力的利用率最大化。


压力维度下的计量能力是真正的试金石


在分享中,孙雄勇以一家高等教育服务企业的真实案例说明:业务规模增长10倍时,算力实际压力可能达到50至100倍。蓝耘在底层做了一件"笨但关键"的事——让计量系统在最坏情况下也能算清账。具体而言:计量与服务解耦,限流熔断不影响账本写入;通过task_id贯穿请求全链路,失败重试归并、降级路径单独标记;MaaS、统一API、SLA与计费共用同一计量底座,多租户隔离不串账。

蓝耘的企业级MaaS服务坚守"快、稳、可恢复"三条底线:TTFT首字延迟决定用户体感,p95/p99尾延迟决定高峰体验,故障自动降级和模型热切换保障业务连续性。


孙雄勇在总结中表示,蓝耘正努力将Token计量从"计费工具"升级为"全链路优化引擎",覆盖MaaS、统一API、智能路由、动态调度与场景落地的完整链路。ROI的关键不是Token单价更低,而是单位业务结果成本更低——从价格竞争走向效率竞争,便宜不是目标,稳定、可控、能产生业务结果才是目标。

蓝耘将持续以高并发、高Token场景作为试金石,验证服务能力,沉淀效率方法,为中国企业在智能体时代用好AI、算清AI这本账提供坚实的算力底座与实践支撑。

加入元生代云,一起创造“耘”上未来
  • 全天候高效服务
    7X24小时专业服务
  • 客户价值优先
    从服务价值到创造客户价值
  • 1V1大客户服务
    定制服务方案全周期陪伴
  • 全方位安全保障
    智能监测风险预警
关于我们
产品
解决方案
服务与支持
联系我们
市场合作:Info@lanyun.net
咨询热线:400-606-3000