
出品|虎嗅科技组
作家|陈伊凡
裁剪|苗正卿
头图|AI生成
往日两年,Token的分娩成本一直鄙人降,但售价却一直涨。
看起来反覆无常的事,背后是一笔基于Token生意模式缓缓纯熟而成立的生意。
硬件和模子,这几年束缚优化迭代,险些都指向统一个方针:更便宜的推理、更便宜的算力。
但另一面,是缓缓纯熟的智能体以及仍是闭环的业务。“信得过靠AI赚到钱的东谈主,根柢不会被价钱劝退,只会默然想办法降本。”夏立雪说,他险些莫得任何念念考时刻就下了这个判断,似乎是仍是提前看分解了这个问题。他是无问芯穹的邻接首创东谈主兼CEO。这家2023年景立的、与清华大学电子工程系有深厚渊源的公司,作念的一部分事情,在行业里有一个越来越流行的说法:Token工场。
可能很难在商场上找到对标无问芯穹模式的公司,其卡住了一个此前未被发现的场景,或是长在了跟着AI需求拉动而新降生的结构洞上的革命模式。它不研发通用大模子,不作念芯片,也不作念面向C端的掌握,它坐在芯片和模子之间,把供不应求的算力资源进行退换、匹配、优化,更高效地滚动为Token,芯片厂商、模子厂商、掌握厂商等各方都需要在无问芯穹的Agentic Infra体系上集成,由无问芯穹进行退换和分派,这是一种由工夫当先的软件与算法界说的生意模式。
这种特殊的模式让无问芯穹比任何一个在Token产业链上的公司都能率先感知始于青萍之末的变化。
我在上海模速空间无问芯穹的会议室见到夏立雪,玄色的公司文化衫,语速极快,说到工夫问题,似乎进入一种“心流”情状。模速空间是上海AI革命的核心,以无问芯穹为圆心的2公里,产业链的高卑劣在此荟萃。
夏立雪本东谈主 图片由无问芯穹提供
据公司本年5月表露,旧年12月到本年4月底,无问芯穹的Agentic MaaS业务中,Token调用量增速非常20倍,这是往日从未有过的增长。
这个数字背后,是一件仍是成为现实的事:推理,正在成为比教师大得多的商场。
往日三年,AI产业的叙事干线是教师。谁有更多GPU,谁教师出更大的模子,谁就站在食品链顶端。算力竞赛的逻辑明晰放纵:堆卡、堆电力、堆钱。英伟达的H100在暗盘上卖到六位数好意思元,以致要靠提前囤货。
但2025年底启动,这个逻辑变了。2026年推理的数据量初次非常了教师。字据国际数据机构统计,2026年全球企业在推理基础设施上的成本开销瞻望达680亿好意思元,而教师基础设施开销为450亿好意思元。
当AI不再仅仅复兴一个问题,而是要完成一项复杂的任务:写完好意思的代码、审阅一份条约、抓续跟进一个款式,它破钞的Token数目是聊天场景的几十倍以致上百倍。无问芯穹的数据是,在其 Agentic MaaS 平台调用的 Token 中,95%以上都是智能体场景。
推理需求的爆发,正在把AI产业链的价值要点往下移。芯片制造商、模子公司、云工作商,每一层都在重新订价,而位处核心的基础设施工作商,正在从“管谈”变成“工场”,又从工场变为在价值链领有更大影响力的Token分娩力滚动。
推断这个工场运转得好不好,无问芯穹里面有一个目的:每月能产出些许有价值的万亿参数级模子的Token。这个目的拒绝来看,有两个推断尺度,一个是效率:单元时刻的token产出量;另一半是踏实性,系统能不成流畅不宕机地跑下去。两个目的,在万亿参数大模子场景下,无问芯穹往日一两年达成了5到10倍的性价比提高。
在无问芯穹,有一个公式:AI分娩力=智能范围*Token分娩效率*Token价值滚动。
当Token业务在产业中能达成生意化闭环的时候,就能为商场提供更充沛、更踏实、更高性价比的优质Token,进而在产业内得到口碑,招引更多用户使用。
拿到更多需求之后,也能提取出更好的优化空间,一方面是战斗到更多确切场景,不错明确不同优化工夫在场景中的价值;另一方面是需求满盈多的情况下,资源分派的治疗空间更大,需求种类越丰富,和非同质化资源的适配可能性就越多,M 种模子乘以N种芯片的优化空间也会越来越大。
这也解释了为什么agent的崛起对无问芯穹是一个乘数效应,而非加法。
在这套公式下,飞轮正在动弹。
推理需求爆发,国产芯片和处置决策正在迎来全新的契机,这件事与也曾在这个领域常见的国产替代叙事千差万别。中国芯片厂商对成本的明锐和工程化的才能,正在为这个产业链带来在全球商场角逐的竞争力。
AI算力商场的现实是:芯片种类越来越多,但莫得哪一张芯片能高效跑整个任务;模子范围越来越大,单机八卡早就存不下万亿参数的模子,需要集群劝诱;不同的推理任务,对延长、朦拢量、精度的条款千差万别。这一切类似在一谈,让“把算力用好”这件事,变成了一个极其复杂的系统工程问题。虽然,这亦然中国工程化才能上风的体现。
这个判断在推理侧,prefill和decode的分离上得到了具体考证。大模子推理分为两个阶段:prefill讲求交融输入、构建高下文,规划密集;decode讲求缓缓生成输出,通讯密集、对延长更明锐。两种任务对芯片的条款王人备不同。这是AI算力良好化需求下爆发出的新的场景。
依托团队持久在软硬协同等方面的工夫积存,无问芯穹很早就启动深度接洽P/D分离,把两类任务分派给更合适的芯片——国产芯片在prefill场景仍是不错落地,这意味着供不应求的商场里,国产算力有了确切的效率点,不再短长黑即白的“能不成用”,而是“在那里用最合适”,以致是“用好”。
无问芯穹以token行为其AI分娩力公式的核心变量之一,是在2026年,这意味着整个这个词公司的优化方针,变为在“怎么把芯片用满”的基础上,还要处置“怎么让每一个Token产生最大价值”——工夫优化从简的成本,径直滚动为毛利,再参预下一轮研发,酿成正向轮回。Token,正在成为AI产业里最接近货币的单元。它不错被分娩、被破钞、被订价、被交游。
更大的判断,夏立雪用了一个类比:Token的爆发,像极了出动互联网从3G到4G的阶段。
但他补了一句,4G时期最进军的“掌握”不是微信,也不是淘宝,而是那些充分使用流量、勇于在流量便宜之后重新诡计组织的公司。到了token时期,信得过调动产业花式的或然是某一款杀手级AI掌握,而是那些用AI重构里面单干、让东谈主和AI信得过劝诱起来的袖珍组织——十东谈主、二十东谈主,以致一两个东谈主,但分娩效率远超传统同范围团队。
无问芯穹团队商榷 图片由无问芯穹提供
这类组织仍是在出现了。“目下无用惦念莫得掌握场景,核心是咱们能不成接得住这样多需求。”
这句话引出了无问芯穹正在作念的下一步:跳出纯token工场的范围,启动介入Token的分娩力滚动要领。
结构洞上长出的革命模式
虎嗅:当华为、中兴等这些系统厂商他们也在用集群的格式提高Token的性价比,无问芯穹这个模式的壁垒在那里?
夏立雪:上层的壁垒是咱们在软硬协同领域有充足的积存和纯熟后果。咱们是基于系统算法作念硬件适配优化,不针对单一硬件厂商或单一模子,才能不错诡秘产业全生态,是中立的第三方,工夫适配性强,在万般场景下都不错使用。
其次,咱们的视线是面向整个这个词供不应求的产业作念布局,把商场上整个芯片产能都行为优化的输入变量,最终达成让整个这个词生态中整个现存主体都发达最大价值。这不是单点的一双一优化,当产业生态复杂度提高——比如出现多种模子、多种芯片并存的情况,咱们这种大体系资源优化才能就会酿成生态层面的壁垒。
咱们团队内在的核心壁垒是持久跟进业界最新的发展变化。此前作念繁密模子和MoE优化,之后又针对万亿参数模子难以在单一硬件上范围化扩展的问题,很早就启动深度接洽P/D分离和半分离策动工夫,目下也在研发不错各异化体现国产芯片才能的策动工夫。
咱们的壁垒不是单点的工夫当先,而是系统化的、滚动式的抓续革命。
虎嗅:从芯片到模子之间存在中间优化的空间,针对Token经济学,不同厂商也提议了不同的处置决策,举例华为和一些芯片厂商提议的“超节点”的递次,以集群才能搪塞单卡算力不及,从无问芯穹的态度,如何建立中间的优化层?
夏立雪:目下是算法牵引系统、硬件和集群确立的时期,咱们和芯片厂商有共同的方针,等于要达成确切的产业落地,只有各方能对接上、跑通业务,等于好的生态。芯片厂商最核心的是要作念好我方的“产物确认书”,而怎么把芯片这个复杂精密的硬件用好,是咱们行为行业各人要作念的事。目下国内各式各样的芯片都有类似CUDA的层,有CAN、SUCA、MARCA等不同的架构,咱们的生态等于把这些架构长入接入、退换、良好化照顾和资源分派,保证工作踏实,最终达成生意化闭环。
虎嗅:有莫得具体的数字确认客户遴荐你们的决策,在同等推理任务和同等效果下,Token成本下落了些许?踏实性达到了什么进程?
夏立雪:比如在万亿参数范围的大模子场景下,咱们达成的token每秒产能对应的性价比和一两年前比较仍是作念到了五到十倍的下落,这是软硬协同优化带来的运行成本下落。
Token产能有两个核心维度,一个是微不雅运行层面的分娩效率,亚搏APP也等于单元时刻内的Token产出量;另一个是宏不雅层面的踏实性,幸免每每停机保重导致践诺产能下落。咱们在这两个目的上都取得了很好的后果,最径直的讲解等于客户都在抓续使用咱们的工作。
虎嗅:里面最垂青的核心目的是什么?
夏立雪:践诺上最终都会归拢到单元时刻内的Token产出量,这是训诫优化效果的独一目的。咱们核心关注的是无问芯穹每月能够产生些许有价值的万亿参数大模子的Token。
这个目的下涵盖两个部分:一个是Token每秒的分娩效率,另一个是可参与分娩的资源范围。软硬协同优化中也包含大范围系统踏实性的优化,这点每每被忽略,但尽头进军。
因为当咱们从小而好意思的工夫团队转向系统工作商时,需要为客户托福大范围抓续踏实的业务,范围的蔓延必须以踏实性行为撑抓。
虎嗅:2026年被认为是推理大年,你们哪条业务线有显豁增速?
夏立雪:以公司 Agentic MaaS 平台为例,从2025年年底到本年5月,Token调用量增速在20倍以上。而且这种增长是健康的结构化增长,是多种需求同期存在、有分层结构的增长,并训斥以抓续的单点增长。
目下整个这个词模子产业的发展类似金字塔从底部朝上破损,顶端掌握在束缚拓展新的需求领域,AI仍是不错达成写代码、作念诡计、作念营销,翌日还可能诡秘法律等场景。推理需求的快速增长带动了全产业链的健康发展,诡秘模子公司、掌握公司、基础设施工作商以致芯片公司。
2026美加墨世界杯中国认证平台从这一年的素养来看,全链路都完成数字化、整个信号都不错在数字寰宇闭环的任务和组织,会更快进入自我闭环的迭代,也会最优先吃到 AI 进化带来的红利乃至利润增长。东谈主工智能自己擅长自我迭代,类似AlphaGo不错通过自我对弈达成快速进化。
虎嗅:这些场景具体都是哪些?能举几个例子吗?
夏立雪:比如代码生成场景最早爆发,一方面是研发东谈主工智能的范例员自己最熟悉代码场景,另一方面是代码的提交、评审全经过都特殊字化记载,类似的还有线上营销场景,策动经过都特殊字寰宇的记载。全体来看,上一波数字化转型作念得好的、或者互联网时期原生的场景,需求增长都尽头快。
淌若按需求复杂度分别,咱们公司95%的需求都来自智能体场景,也等于由AI完成完好意思可托福的任务,而非浅薄的聊天需求,用户更好意思瞻念为分娩力和最终收尾付费,这是产业落地的良性趋势。目下在代码生成这类赛谈,仍是不错达成AI团队劝诱,不同的AI分别承担代码编写、质地保险的职责,酿成最浅薄的劝诱模式,这类场景仍是跑通,后续也会在其他行业缓缓落地,刻下东谈主工智能落地的节拍尽头好,咱们行为产业中资源买通的主体也会得到对应的价值。
虎嗅:这是年头OpenClaw出现之后带来的拐点?
夏立雪:在OpenClaw推出之前策动需求就仍是出现了,OpenClaw是产业发展到一定阶段生长出的产物之一。核心原因是东谈主工智能的智能性破损了临界点——当AI的智能性达到不错完成子任务、具备长高下文记念才能的临界点之后,才具备行为“大脑”指点子任务完成照顾职责的基础。后续还会有更多针对不同场景的同类产物出现。
一个token工场的生意飞轮
虎嗅:无问芯穹有一个公式:AI分娩力=智能范围×Token分娩效率×Token价值滚动,从无问芯穹的角度,这几个变量里不错怎么赚到钱?无问在这个公式里,飞轮怎么转起来?
夏立雪:Token业务在生意化能闭环的产业里,短长常好的模式。当自身优化才能满盈强的时候,就能为商场提供更充沛、更踏实、更高性价比的优质Token,进而在产业内得到口碑,招引更多用户使用。
拿到更多需求之后,也能提取出更好的优化空间,一方面是战斗到更多确切场景,不错明确不同优化工夫在场景中的价值;另一方面是需求满盈多的情况下,资源分派的治疗空间更大,需求种类越丰富,和非同质化资源的适配可能性就越多,M种模子乘N种芯片的优化空间也会越来越大。
这两点会使得接到的需求越多、可使用的资源能撑抓的需求越多,优化才能就越强,优化才能越强又能反过来提供更踏实、更便宜、更充沛的工作,招引更多需求,飞轮就此动弹。
虎嗅:这种算力良好化需求下催生的模式,无问芯穹的生意模式是按收尾收费照旧case by case?
夏立雪:目下Token工场的模式仍是比此前纯熟许多,有更偏向收尾的订价格式,等于按照Token计费,Token自己也有各异化,类似告白行业的CPM计费。目下Token仍是短长常靠拢业务的订价目的,用户不错直不雅感知到token对应的价值,无用见原底层用了什么芯片。
以Token行为结算维度有许多平允:一方面能让整个这个词赛谈更关注AI产生的价值,而不是单纯的资源,咱们整个工夫优化从简的成本,都会提高公司的毛利率水平,不错再参预到新的工夫研发里,酿成正向的轮回;另一方面Token行为结算目的也能很好地兼容跨行业的各异化,无用每个行业都作念一套独处的计价格式,更利于产业结构的扩展。
虎嗅:推理大年里,国产芯片的契机大吗?
夏立雪:2026年行业内群众都很看好,国产芯片的契机尽头大。商场是健康的,万般需求都有缺口。目下的任务等于先把能填上的缺口填上。
虎嗅:推理需求进一步分化,分为Prefill(预填充)和Decode(解码),国产芯片的上风在这个细分需求里有各异吗?
夏立雪:国产芯片仍辱骂常了“能不成用”的非黑即白,进入了“好不好用”的性能较量阶段。
其达成在的算力需求尽头万般化。比如,掌握端有对延时尽头明锐的,也有相对包容的;模子端有万亿参数级别的极限挑战,也有千亿参数就能高效处置的场景。
回到 Prefill 和 Decode 的细分。相对来说,Prefill 更契合当下国产芯片的才能情状。因为它是规划密集型任务;而 Decode阶段不仅是访存密集型,还对卡间通讯带宽、以及芯片底层的全体软硬件生态提议了尖刻得多的条款。
虎嗅:淌若抛建国产化叙事,无问芯穹的业务依然能增长这样好吗?
夏立雪:到了2026年这个时刻点,中国商场和国际商场莫得根柢的区别,全体都是健康的产业分派情状,也同期靠近着资源不够用的近况,况兼在翌日相等长的时刻,仍会供不应求。咱们公司所处的赛谈核心,赶巧是如何处置供不应求的问题。
Token进入5G阶段,可能出现信得过的AI型组织
虎嗅:你之前把Token的增长比成手机流量从3G到4G的阶段。出动互联网时期的流量爆发带来了微信或电商这样的模式,进入Token 4G以致5G阶段,最有可能爆发的AI掌握会是什么?
夏立雪:我认为对应的不是单一的业务,而是AI型的组织。OPC是最近比较火的极致主张,一东谈主公司大范围出现难度比较大,但十东谈主、二十东谈主或者几个东谈主的小公司,这类充分使用AI、东谈主和AI充分合作的组织会大都爆发,这才是Token流量进入4G阶段信得过产生的核心“掌握”。
4G、5G时期的出动掌握特色是大都使用流量,是基于流量充足的前提降生的和以往不同的产物。对应到AI领域,不是某类掌握会大都使用AI,而是某类组织会大都使用AI并创造出好的新作品。仍是完成数字化的赛谈,会更早降生这类原生 AI化的机构和组织。
虎嗅:这类AI智能组织目下仍是出现了吗?
夏立雪:仍是有许多了,有许多很酷好酷好的组织产生,群众会把AI用在职责的方方面面,而且这些组织里使用的不同AI之间还会交互,酿成东谈主与AI共生的组织形态,这些组织创造的产物等于AI 4G时期最酷好酷好的新兴产物。
虎嗅:跟着AI快速发展,对无问芯穹来说最大的挑战是什么?淌若翌日出现竞争敌手,有可能是哪一类公司?
夏立雪:从东谈主工智能全体发展来看,核心问题照旧资源礼貌。名义看有两个礼貌,一个是模子能不成破损到下一个范式,目下距离信得过的AGI还有大要一到两个范式的差距,而范式破损需要大都的教师资源和东谈主员参预,最终照旧回到资源问题。
咱们认为短期内AI范式不会有根人道的破损,但目下AI仍是破损了可用的临界点,正在束缚拓展新的掌握场景,核心问题变成咱们能不成接得住这样多需求。这取决于资源是否够用、资源效率是否满盈高。
对于竞争敌手,我认为目下是需求大于供给的商场,远远没到零和博弈阶段。产业链有高卑劣分派,不同主体有不同的资源天禀,横向纵向都不错找到我方的商场空间,只有创造价值就能得到收益,核心产业层面的竞争其实很淡泊,企业自身的发展才是最进军的。
虎嗅:淌若AI进入了下一个范式,刻下的生意模式依然成立吗?
夏立雪:AI范式不会出现跳变,就像5G出来之后4G工夫依然有掌握场景,会有一个过渡的节拍。淌若范式破损带来新的基础设施变化,反而会产生新的契机和发展空间,咱们不怕事情难——无问芯穹的工夫团队从一启动等于奔着处置最难的工夫问题去的,况兼找到了很好的 TMF(工夫-商场适配)。
虎嗅:Token策动产业什么时候能迎来类似通讯领域5G的拐点?
夏立雪:用通讯领域4G、5G的分别来类比AI产业不是很是合适,下一个时期的跳变有两种可能性。一种是模子真是发生范式变化,但这种变化是什么目下莫得东谈主能够预测。第二种是模子的成本降到满盈低,目下计费格式仍是从千Token些许钱降到百万Token些许钱,淌若成本再下落一到两个数目级,就会出现类似流量包、包月的主张,届时整个这个词产业的付费模式会发生质变。
成本下落1-2个数目级是有可行旅途的,核心是更深档次的软硬件结合,对模子结构、模子组合和硬件结构都进行治疗,提高两者的匹配度,还有1-2个量级的优化空间。咱们一方面会在成本下落1-2个数目级的过程中创造价值,另一方面也在提前作念布局,推出匹配翌日新的分娩相干和生意模式的新产物和新才能。
海量资讯、精确解读,尽在新浪财经APP
累赘裁剪:尉旖涵 亚搏app2026世界杯中国官网注册登录