11月27日至28日,享有“年度科技与商业风向标”美誉的36氪WISE2025商业之王大会,在北京798艺术区传导空间盛大举行。
本次WISE大会突破传统峰会模式,创新性地以“科技爽文短剧”形式打造沉浸式体验。
从AI重新定义硬件边界,到具身智能开启真实世界应用;从品牌全球化出海浪潮,到传统产业融入“赛博义肢”——我们不仅呈现趋势,更致力于提炼商业实践中锤炼出的真知灼见。
接下来,我们将逐层解析这些“爽剧”背后的商业逻辑,共同展望2025年商业的独特风景。
在本次大会上,GMI Cloud工程副总裁钱宇靖发表了题为《AI应用的出海效能升级:算力破局与推理架构进化》的主题演讲。
GMI Cloud是一家总部位于北美的AI原生云服务商,同时也是英伟达首批六大Reference Cloud合作伙伴之一。
钱宇靖指出,当前全球AI应用已呈现多元化深度发展态势,出海成为中国企业释放产能、寻求新增长的最佳路径。
他认为,中国AI出海正经历范式革新:从单向技术输出转向算力、需求、价值的全球化协同,这背后是全球价值的深层共振。
钱宇靖
以下是钱宇靖演讲实录,经36氪整理编辑。
各位下午好!
我是宇靖,现任GMI Cloud工程副总裁,负责所有工程类项目。今天分享的主题是AI应用的出海效能升级,探讨如何通过算力破局和推理框架进化,为AI应用出海带来更大效能。
GMI Cloud尚属新锐企业,请允许我简要介绍。
我们专注于出海AI基础设施,是NVIDIA首批六大Reference Cloud Partner之一,重点布局AI硬件及上层推理架构。
目前GMI Cloud拥有三大产品线:底层计算硬件、集群管理以及MaaS层推理服务,从不同维度满足AI企业客户需求。
我们在全球多地(东亚、南亚、北美、欧洲、加拿大)部署自有机房,并刚刚投资5亿美元,在亚洲与英伟达共建一座GB300万卡集群的AI Factory。在中国,我们专注于服务AI出海企业,助力其全球化发展。
接下来进入正题:除了业务模式,GMI Cloud在2025年观察到哪些出海趋势?
当前,有人担忧AI泡沫,有人坚信AI应用将呈指数级增长。从算力服务商视角,我们确实看到AI市场正以指数级形式增长。
尽管企业和分析师对2025下半年或2026年市场看法不一,但整体向上趋势明确。数据显示,今年中国出海AI应用的月活用户持续攀升。
全球用户,特别是北美地区,已养成主动拥抱AI的习惯,AI应用渗透到日常工作的方方面面,90%以上美国知识工作者熟练使用AI工具。
众所周知,国内付费软件市场同质化严重、获客成本高,SaaS创业门槛较高。
令人惊讶的是,中东和拉美地区AI应用也已达到较高水平,出海市场用户教育基本完成,形成巨大需求落差。因此,出海成为释放产能、获取新生的最佳途径。
众多国内企业已洞察此趋势,过去两年纷纷布局AI服务出海,随之带来AI推理需求指数级暴涨,这是我们作为算力提供商的直观感受。
我们总结出AI出海过程中推理方面的核心挑战:服务的及时性、扩展性和稳定性。
AI产品常面临流量突增的“泼天富贵”,AI出海企业难以像传统软件那样常规扩容,因为每个Token都需要GPU支持,全球性扩容尤为棘手。
另一挑战是AI技术栈迭代极快。今年1月至5月,多节点系统推理爆发,Token价格从高位直降至地板价。
企业往往需自行投入资源,因此苦恼于如何跟上技术发展步伐。
作为服务商,我们洞察到这些需求和挑战。GMI Cloud今年采取了哪些行动?
作为算力服务商,首要任务是建设自有数据中心。我们正与NVIDIA合作AI Factory项目,该项目由黄仁勋4月透露,将采用最新GB200、GB300等大型机器,极大提升集群吞吐量。
我们是亚洲首批启动AI Factory的NCP之一,且为万卡集群规模。
我们持续迭代集群引擎和推理引擎,分别对应中间层和上层。集群引擎面向具备工程技术能力、需复杂应用开发的客户;推理引擎则为轻量级、专注终端应用的企业设计。
集群引擎(Cluster Engine)与传统云类似,但作为AI原生云,更聚焦GPU算力本身。
集群引擎为标准IaaS层,覆盖底层硬件、裸金属及集群管理,并提供丰富可监控插件,确保用户熟悉体验。
我们支持海外大云(如GCP、AWS)的GPU workload功能,并采用特殊IB组网技术,让客户灵活选择集群尺寸进行训练。
针对客户私有集群扩容难题,Cluster Engine通过多云架构完美解决,客户可在自有资源与传统大云资源间切换,实现峰值扩缩容。
推理引擎(Inference Engine)则更为简化,即近期热门的Serverless概念。
推理引擎集成全球头部大模型(开源与闭源),通过单一API即可访问全球最新最强模型。
推理引擎支持跨集群、跨地区自动扩缩容,这源于出海需求:客户自训模型上线后常遇峰值流量承接问题,且不同地区用户因集群选址影响体验。
Inference Engine 2.0专为此场景设计,解决跨地区、跨集群自动扩缩容难题。
具体实现上,我们构建三层架构调度全球资源。Engine Workload分为两种调度方式:queue based和load balancing based。
queue based适用于视频、语音类模型;load balancing based适用于大语言模型,根据Workload类型选择调度方式。
例如,根据Workload对延迟或成本的敏感度,调度至不同大区,再在大区内分发至终端GPU。
简言之,推理引擎核心架构具备五大特征:
1. 全球化部署:单一平台解决全球服务部署。2. 二级调度架构:与全球部署紧密相关。3. 弹性伸缩:应对流量波峰波谷,满足出海企业刚需。4. 高可用设计:确保Workload随时可访问。5. 统一管理:集中管控所有Workload。
这五大特性源自我们对客户需求的深刻洞察。
与集群引擎类似,Inference Engine支持混合云。无论客户自建集群、使用GMI Cloud集群,或已有公有云Credit和Workload,均可通过平台统一纳管。资源碎片化与利用率问题在顶层调度中已充分考虑。
在此做个小广告:如需托管模型出海,欢迎试用推理引擎2.0的Dedicated Endpoint(独站式节点)产品。
您可体验将节点部署至不同集群、地区,根据需求选择性价比或便捷性更优的节点。
预告一下,我们即将推出全新创作体验产品“GMI Studio”。
该产品将原模型管理部署控制台升级为面向创业者、用户群的创作平台。通过GMI Studio,用户无需本地环境或复杂推理框架,即可在云端以拖拽方式自由组合最新AI模型及应用。
最后,展望2026年。
2026年AI出海范式升级,将从单向技术输出迈向全球价值共振。
AI出海热潮推动全球化升维,突破“技术单向输出”认知,引领全球AI产业从“资源割裂”走向“价值循环”的底层变革。这不仅是地理扩张,更是算力、技术、需求在全球形成的“双向赋能生态”。
算力层,全球资源互补,优质算力加速模型优化;应用层,Token从单纯API计量演变为算力结算与生态激励复合载体。全球AI创新共生,模型、应用、场景、算力正形成新价值正循环。
本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328020.html