蓝耘科技出席信通院《基于Token计量的算力能力评价技术要求》标准首次研讨会，分享Token计量与ROI实践经验

新闻中心

关注蓝耘了解更多咨询

来源: 蓝耘公众号 2026年05月11日

026年5月9日下午，由中国信通院依托算力产业发展方阵-大模型算力工作组牵头组织的《基于Token计量的算力能力评价技术要求》标准首次线下研讨会在雄安新区召开。该会议汇聚了水利部信息中心、国能集团数科公司、华为等研究机构与国内核心算力企业共同参与。蓝耘科技集团首席科学家孙雄勇代表蓝耘出席会议，并以"蓝耘科技AI基础设施的Token计量与实践"为主题进行了深度分享，向与会专家系统展示了蓝耘在智能体时代Token计量、调度与ROI优化方面的技术积累与一线实践。

Token评价正在发生根本性变化

孙雄勇在分享中指出，企业看待AI的视角在过去几年经历了三次关键切换：从最初关注GPU卡时利用率的"买资源"阶段，到关注有效Token产出的"买产能"阶段，再到当下智能体时代关注任务成功率的"买结果"阶段。评价单位正从硬件指标向业务结果不断逼近，而贯穿这三次切换的统一计量基准，正是Token。

"AI我们也在用，但到底花了多少钱、值不值，说不清。"孙雄勇表示，这是蓝耘在过去一年客户交流中反复听到的声音。企业面临的核心焦虑并非单纯的价格问题，而是"价格乱、质量乱、来源乱、账本乱"四重挑战——不同平台口径不一、同一模型体验迥异、合规风险等级参差、ROI无从证明。

与此同时，Agentic AI的兴起让Token消耗从单次对话扩展为覆盖规划、工具调用与结果校验的完整任务链，单用户Token负载较传统聊天机器人呈数量级增长。这意味着，用聊天机器人时代的尺子去衡量智能体时代的能力，已经力不从心。Token评价正从单一的"单价评价"，升级为"可信计量+服务质量+任务ROI"的综合评价体系。

蓝耘实践：从Token计量到全链路平台化治理

作为AI时代的算力基础设施服务商，蓝耘构建了从自有智算中心、GPU调度云、MaaS平台到智能体行业应用的四层供给侧闭环。孙雄勇强调，蓝耘做闭环不是目的，而是手段——通过穿透到MaaS和智能体场景，倒逼算力底座在计量、调度、治理每一层都做到位。

建立"四本账"体系

蓝耘提出企业看懂AI成本不能只看账单，而要建立用量账（输入/输出/缓存命中Token）、质量账（任务成功率/人工接管率/模型命中率）、成本账（Cost/MTok、Cost/Task、峰值成本）和业务账（线索数/节省工时/转化率）四本账，并将其接入MaaS、路由、调度与应用看板，让Token从财务报表上的"费用项"变成运营层每天可看、可调、可优化的"运营指标"。

多层计费体系的思路与实践

孙雄勇在分享中提出，Token计费不应是单一定价，而应构建从算力层、API层到场景层、治理层的多层体系。目前，蓝耘已在算力层（GPU卡时/包月）和API层（纯Token计费）实现了成熟的计费能力，服务于私有化部署客户和开发者、中小企业。在此基础上，蓝耘正在积极探索场景层（按任务/按结果计费）和治理层（平台费+SLA+项目费）的建设路径——让业务负责人能按结果衡量成本，让大型企业获得可审计、可承诺的服务能力。这一从"卖资源"到"卖结果"的演进方向，也是蓝耘未来持续投入的重点。

三大核心技术能力支撑Token服务落地

统一API网关

蓝耘的统一API实现了多模型接入、智能路由、高可用兜底、成本监控计费和数据资产沉淀五项核心能力，是计量框架能够落地的第一块拼图。没有统一入口，模型分散在多个供应商，口径各异，"四本账"根本算不出来。

智能路由引擎

蓝耘正在建设基于"语义识别+策略调度"混合路线的智能路由能力，目标是通过请求理解、策略决策、模型选择、资源派发、反馈闭环五步流程，让每个请求走最合适的路径——简单问答走低成本模型降低Cost/MTok，复杂推理走强模型保证成功率，实时客服走低延迟热池降低等待感，大促高峰走弹性队列保护核心业务。这套路由体系目前已在部分环节落地验证，蓝耘正在持续迭代完善，逐步实现全链路智能调度。

动态调度与服务化能力

孙雄勇特别指出，空闲GPU不等于可用Token产能。要把空闲资源转化为可承诺的Token服务，需要模型热池预加载、优先级队列、推理引擎优化、看板监控和故障自动切换五项能力协同。蓝耘还实践了"分时复用"策略——白天服务实时业务，夜间跑批量任务，让同一份算力的利用率最大化。

压力维度下的计量能力是真正的试金石

在分享中，孙雄勇以一家高等教育服务企业的真实案例说明：业务规模增长10倍时，算力实际压力可能达到50至100倍。蓝耘在底层做了一件"笨但关键"的事——让计量系统在最坏情况下也能算清账。具体而言：计量与服务解耦，限流熔断不影响账本写入；通过task_id贯穿请求全链路，失败重试归并、降级路径单独标记；MaaS、统一API、SLA与计费共用同一计量底座，多租户隔离不串账。

蓝耘的企业级MaaS服务坚守"快、稳、可恢复"三条底线：TTFT首字延迟决定用户体感，p95/p99尾延迟决定高峰体验，故障自动降级和模型热切换保障业务连续性。

孙雄勇在总结中表示，蓝耘正努力将Token计量从"计费工具"升级为"全链路优化引擎"，覆盖MaaS、统一API、智能路由、动态调度与场景落地的完整链路。ROI的关键不是Token单价更低，而是单位业务结果成本更低——从价格竞争走向效率竞争，便宜不是目标，稳定、可控、能产生业务结果才是目标。

蓝耘将持续以高并发、高Token场景作为试金石，验证服务能力，沉淀效率方法，为中国企业在智能体时代用好AI、算清AI这本账提供坚实的算力底座与实践支撑。