联系鑫诚
发布日期:2026-05-06 23:11 点击次数:56

烟台储罐保温 硬核拆解:GPT-5、Claude和Gemini是若何磨砺和理的?

铁皮保温施工

块黑板、几个程式烟台储罐保温,芯片工程师Reiner Pope用这些器具,拆解了GPT-5、Claude和Gemini背后的磨砺与理逻辑,并从公开的API订价中,反出大模子不肯公开的架构细节。

近日,著明科技播客主握东谈主Dwarkesh Patel与芯片创业公司MatX的CEO Reiner Pope进行了场疏远以黑板演为局势的度对话。Pope此前在谷歌精采TPU架构与编译器化,被以为是少数信得过融会AI全栈——从芯片设计到模子架构——的工程师之。

Pope在黑板前用程和图表,系统拆解了前沿大模子从磨砺到理的底层逻辑。在Dwarkesh看来,这些细节“旦知道,AI为何是今天这个姿色——架构、订价、跳跃速率——就皆备说得通了”。

中枢论断包括:如果不批量处理用户央求,单次理成本可能出1000倍。而GPT-5的预磨砺数据量,是表面解的100倍。此外,DeepSeek V3领有256个,每次理只激活其中小部分(32个)。MoE(混)架构被限制在个机架72块GPU以内,这是制约模子鸿沟推广的中枢物理瓶颈之。

块GPU机架,决定了模子有多大

要知道顶大模子为何是当今这个姿色,得先从硬件说起。

当代大模子理跑在GPU集群上。英伟达Blackwell NVL72是咫尺主流的部署风光——个机架塞了72块GPU,通过NVLink速互联,纵情两块GPU之间只需两跳(经过中间交换机),通讯带宽。

但旦跨出这个机架,通讯速率就慢了8倍。

这个"8倍差距",径直决定了MoE(混模子)的部署上限。

DeepSeek V3领有256个,每次理只激活其中小部分(32个)。Pope证据,天然的部署式是"并行"——不同放在不同GPU上。任何GPU都可能向任何其他GPU发送token,这是种"全对全"(all-to-all)通讯模式,和机架内NVLink的拓扑结构契。

但旦散布到两个机架,问题就来了:跨机架的token有半要走慢8倍的辘集,径直成为瓶颈。

"个机架的大小,限制了你能作念多大的层。" Pope说。

这就证据了个商场上持久困惑的问题:为什么Gemini看起来比其他实验室早取得大模子预磨砺的得手?Pope的断是,谷歌的TPU系统持久领有大的scale-up域,能在大范围内作念全对全通讯,这让它可以部署寥落度的MoE模子,同期看护理率。

批处理:省1000倍成本的奥秘

访谈还说起个商场常见表象:Claude、Codex等产物提供“快速模式”,价钱出6倍,速率却只快2.5倍。为什么?能不行反过来,用“慢速模式”换取廉价钱?

Pope的回答径直:中枢变量是批处理鸿沟(batch size)。他用个"发车时刻表"的比方证据了背后的逻辑。

GPU每隔约20毫秒发出班"列车"(推论次批处理理)。每班列车能搭若干乘客,便是批处理大小(batch size)。

中枢论断是:理的单元成本,在批处理量小的时候,跟着批处理增大会急剧下落,终趋于个下限。

原因是权重加载成本的摊销。每次理都要把模子权重从内存(HBM)读入芯片。这个成本是固定的,岂论职业1个用户如故2000个用户,权重只读次。如果只职业1个用户,这个固定成本就全压在他身上;职业2000个用户,成本均派后简直可以忽略不计。

Pope估算,如果不作念批处理,成本可以出1000倍。

那批处理鸿沟是若干?Pope给出了个爽脆的公式:约等于300乘以模子寥落度。对DeepSeek这类激活1/8的模子,约莫是2400个并发序列。这个数字与模子总参数目关,只取决于硬件特和寥落度——这是个"反直观"的论断。

是以,"慢速模式"确凿能便宜许多吗?从数学上看,不太行。KV缓存(存储每个用户历史对话的内存)法在不同用户之间分享摊销,因此让用户多等并不行显耀缩小成本。Pope说:"(慢速模式)检朴不了太多,因为KV缓存是每个用户立的,狡计量亦然立的。"

从API订价,反模子架构

Pope展示了个让东谈主印象刻的理历程:通过公开的API订价,可以反出模子的里面架构参数。

陈迹:Gemini在20万 token处加价50,为什么恰好是50?为什么恰好在20万Token这个节点?

Gemini 3.1的订价在过20万 token后高涨50。Pope证据,这对应着KV缓存的内存带宽成本过权重矩阵狡计成本的临界点——也便是模子从"狡计瓶颈"切换到"内存带宽瓶颈"的转念点。

他跳跃用这个数字反算:假定激活参数约1000亿,临界点在20万 token,可以算出每个token的KV缓存约莫占2KB。这与Character AI等公开论文中描摹的持重力机制参数(8个KV头,维度128)度吻。

"他们通过API订价走漏了相配多的信息。" Pope说,"天然,他们有能源把价钱定得接近成本,不然竞争敌手可以走用户。"

陈迹二:输出比输入贵5倍

大多数模子的输出token(decode)比输入token(prefill)贵约3-5倍。原因在于:

Prefill阶段:次并行处理巨额输入token,狡计率,接近"狡计瓶颈"

Decode阶段:每次只生成个token,要读取沿路模子权重和KV缓存,度受内存带宽瓶颈制约

这个价钱差,施行上量化了现时顶模子理时的内存带宽瓶颈进程。

陈迹三:缓存掷中为何便宜10倍

API频频对"缓存掷中"的token大幅折。Pope证据,这对应的是存储KV缓存在不同内存层的成本互异:从新狡计次(从token ID从重生成KV缓存)versus从HBM/DDR/闪存中径直读取。

他跳跃算,按照Gemini"5分钟缓存"与"1小时缓存"的订价互异,可以断这两个档位对应的存储介质分裂是闪存和机械硬盘——后者让Pope也感到诧异:"我没料到机械硬盘会被用在这里。"

GPT-5过度磨砺了若干?谜底是100倍

这是整场讲座具轰动的算。

Pope从个经济学直观启航:当预磨砺成本、RL磨砺成本、理成本三者大致至极时,全体率。

他把这三块成本写出来,发现激活参数目这个变量径直消掉了——也便是说,磨砺量的算与模子大小本人关,只取决于理流量。

然后他代入真实数字:

假定某前沿模子理流量约5000万token/秒(沿路流量除以个族中的多个模子版块)

模子人命周期约2个月(不才版块发布前)

计理token数约200万亿(2×10¹⁴)

Chinchilla解(基于约1000亿激活参数)约莫是2万亿token。

两者之比:100倍。

也便是说,现时顶模子的预磨砺数据量,约是从纯磨砺率角度启航所需数据量的100倍。

"咱们知谈这约略是对的,因为有传言说GPT-5预磨砺了约150万亿token,和咱们算出的200万亿很接近。" Patel说。

Pope补充说,这个算的中枢逻辑是:你花在职业用户上的狡计,应该和你花在磨砺上的狡计大体相配。不然,便是在某头浪用钱。

用Patel的话说:"如果GPT-5要被地磨砺,那么所灵验户使用它产生的token总量,应该等于预磨砺消耗的token总量——而预磨砺数据,约莫便是东谈主类常识的总额。"

Pope对此恢复:"大致如斯。"

活水线并行:听起来很好意思,但大多数时候用不上

对于活水线并行(把模子的不同层分散到不同机架上串行推论),Pope的论断是:它能检朴内存容量,但处理不了KV缓存问题,因此在理场景价值有限。

直观上,活水线并行需要同期保握多个"在途"的batch,这让全局batch大小随活水线数成比例增长。天然每个机架上的权重存储减少了,但整个机架上的KV缓存总量并莫得减少——因为需要多并发序列来填满活水线。

"你法跨pipeline阶段摊销KV缓存,就像你法跨batch摊销KV缓存样。" Pope总结谈。

这也证据了为什么Ilya Sutskever曾说"当今咱们都知谈,活水线并行是不理智的"——这句话在访谈中被Patel援用,而Pope的演给出了工程层面的注解。

神经辘集与密码学的“趋同进化”

访谈后,Pope谈到了他写过的篇博客不雅点:神经辘集的架构与密码学左券之间存在"趋同进化"。

两者都需要把输入信息在整个这个词系统中充分混——密码学是为了让输出看起来像随即噪声,神经辘集是为了提真金不怕火保密的层结构。但主义恰好相背:密码学极力构陷结构,神经辘集极力发现结构。

Pope提到了个具体的时刻移动案例:Feistel辘集——种密码学顶用于让不可逆函数变得可逆的构造,在2017年被引入神经辘集,酿成了"RevNets"(可逆辘集)。RevNets允许在磨砺的反向传播历程中,需事前存储整个层的激活值,而是边反向传播边从新狡计——用多狡计换取少内存。

这与KV缓存的逻辑恰好相背:KV缓存是用多内存换取少狡计。Pope说,"用内存换狡计,在现时的硬件条件下频频是算的。"

 

访谈全文如下:

GPT-5、Claude 和 Gemini 的磨砺与理机制——Reiner Pope 主讲

主握东谈主:Dwarkesh Patel 嘉宾:Reiner Pope(MatX 推论官)

节目证据: 本期继承了全新的黑板讲座局势,由 Reiner Pope 系统莳植前沿大谈话模子的磨砺与理旨趣。内容触及巨额数据与数学,令东谈主诧异的是,仅凭几个公式、公开的 API 价钱和支粉笔,就能断出各大实验室正在作念什么。内容略有时刻,但至极值得入了解。

Reiner 是芯片创业公司 MatX 的 CEO(透露:主握东谈主 Dwarkesh 是 MatX 的天神投资东谈主)。他此前在 Google 从事软件率、编译器和 TPU 架构职责,是少数能够融会从芯片设计到模子架构整个这个词时刻栈的之。

章:批量大小若何影响 Token 成本与速率

Dwarkesh: 今天我采访的是 Reiner Pope,他是新芯片创业公司 MatX 的 CEO。此前他在 Google 主了 TPU 架构等多项职责。本期继承黑板讲座的全新局势,咱们门为此造了新的录制空间。今天要聊的话题涵盖模子架构、机器学习基础关节等诸多面。

我以为这个话题至极迫切。旦你知道了磨砺和理在集群中的运作式,许多问题就会豁然明朗——为什么 AI 是当今这个姿色,为什么 AI 架构是当今这个姿色,为什么 API 价钱是当今这个姿色,以及为什么 AI 跳跃是当今这个节律。要信得过知道这些,你需要入细节,而入细节就需要块黑板。Reiner,至极感谢你来参加。

先,我想请你证据个表象。当今有几公司,比如 Claude、Codex 和 Cursor,都提供访佛"快速模式"的选项——破钞 6 倍的价钱,可以得到 2.5 倍的 Token 输出速率。我有几个问题:

这背后的机制是什么?为什么付多的钱就能得到低的延迟?

这种模式能直延迟下去吗?比如付 100 倍的价钱,能得到快的速率吗?

反过来是否也建筑?比如出"慢速模式"——如果用户风景等几分钟,能否得到便宜的价钱?

Reiner: 径直说论断:大的影响身分是批量大小(batch size)。接下来咱们会精准量化这点,分析它对延迟和成本的影响。另外还有个应,叫作念测解码(speculative decoding)或多 Token 量度(multi-token prediction),咱们之后可以回头缱绻,但先要讲的是批量大小。

我想引入两个分析原则:

,屋顶线分析(roofline analysis)。 咱们来分析如安在个芯片集群上运行 Transformer 模子。以 Blackwell NVL72 集群为例,也便是个 72 块 GPU 的机架。屋顶线分析存眷的是内存带宽和狡计能这两个维度。

二,只存眷模子的两个简王老五骗子分: 操作权重的时间,以及操作高下文(即 KV 缓存)的时间。

咱们尝试估算运行某种体式的理所需的时间。这不是精准量度,而是近似——咱们会说"时间大于等于某个量"。咱们辩论两个面:内存读取所需时间,以及狡计所需时间。这个浮浅模子能给咱们至极强的量度智商。

狡计时间(t_compute)若何估算?

需要作念两件事:是乘以整个活跃参数;二是作念持重力狡计。

对于权重矩阵乘法的狡计时间,公式如下:

tcompute=B×NactiveFLOPstcompute​=FLOPsB×Nactive​​

【注:B 为批量大小,N_active 为活跃参数数目,FLOPs 为芯片的浮点运算朦拢量。持重力狡计部分相对较小,可忽略。】

内存时间(t_mem)若何估算?

需要取出整个权重,以及读取 KV 缓存:

tmem=Ntotal内存带宽+B×Lcontext×bytes_per_token内存带宽tmem​=内存带宽Ntotal​​+内存带宽B×Lcontext​×bytes_per_token​

【注:N_total 为总参数目(不仅仅活跃参数),二项是 KV 缓存读取时间,与批量大小和高下文长度成正比。】

Dwarkesh: 批量指的是同期职业多个用户,对吧?

Reiner: 对。批量的风趣也正在于此——如果不把多个用户并成批,成本和经济可能比并处理差千倍。咱们稍后会明晰地看到这点。

以 DeepSeek V3 为例,它有约 370 亿活跃参数,总参数约 7000 亿。咱们存眷的是处理单个 Token 时用到的活跃参数。

对于 KV 缓存,浮浅证据下:

在自记忆理的解码阶段,已有批文本 Token,模子要生成下个 Token。这步需要对模子中整个层的权重矩阵作念完好的前向传播,同期通过持重力机制,让现时 Token 存眷整个历史 Token——它存眷的是模子对历史 Token 生成的里面暗示,这便是 KV 缓存。

这个"单 Token 存眷沿路历史"的历程主要由内存读取主,而非矩阵乘法。因此,内存读取时间由以下公式给出:

tmem=Ntotal+B×Lcontext×bytes_per_token内存带宽tmem​=内存带宽Ntotal​+B×Lcontext​×bytes_per_token​

而总时间为:

t=max⁡(tcompute, tmem)t=max(tcompute​, tmem​)

批量大小 vs. 延迟(latency)图像分析:

咱们先画批量大小与时间的联系图。

t_compute(狡计时间):与批量大小线正比,偏移量,是条过原点的直线。

t_mem(内存时间):由两部分组成。

权重读取:是个与批量大小关的常数(基础偏移)。

KV 缓存读取:与批量大小近似线正比。

两者之和酿成条进取歪斜的弧线。

总时间 t = max(t_compute, t_mem),取两条弧线的上包络线。

这意味着什么? 这是张延迟图。跟着批量大小增大,初延迟对批量大小的依赖较弱,存在个延迟下界。这照旧部分回答了你的问题:对于给定的硬件建立,延迟存不才界,即把整个参数从内存读取到芯片所需的短时间。即便讹诈沿路内存带宽,也法比这快。

Dwarkesh: 从你画的斜率来看,如果狡计时间的斜率恒久于 KV 缓存对内存时间的孝敬斜率,是否意味着批量填塞大时,内存永久不是瓶颈?

Reiner: 这对高下文长度至极明锐。跟着高下文长度加多烟台储罐保温,KV 缓存读取时间会不断上升,终会从狡计受限(compute-limited)切换到内存受限(memory-limited)。当两条弧线斜率恰好至极时,意味着系统同期处于内存受限和狡计受限的均衡点,这是期许状态。

以个浮浅的代数例子证据:假定高下文长度是 10 万 Token,如果切换到 20 万 Token,MFU(模子浮点讹诈率)会降至约 50。略略偏离区间,对 MFU 的影响是显耀的。

Dwarkesh: 寥落持重力(sparse attention)是否能处理这个问题?

Reiner: 我对寥落持重力很感酷好。Dense(密集)持重力的内存读取时间与高下文长度成线联系,而寥落持重力的推广要好得多。DeepSeek 照旧发布了寥落持重力机制的论文,在 KV 缓存这项中引入了平根联系,大幅了推广。至于各大实验室在实践顶用的是什么,外部很难细目。

批量大小 vs. 成本(cost per token)图像分析:

成本的含义是:运行此次理需要占用 GPU 若干毫秒,按小时租用费(举例 2 好意思元/小时/GPU)换算成成本。而此次理处理了若干 Token?便是批量大小 B。是以:

每 Token 成本=tB每 Token 成本=Bt​

咱们把前边三条弧线都除以 B:

狡计时间弧线:本来与 B 线正比,除以 B 后变为常数。

KV 缓存读取弧线:本来与 B 线正比,除以 B 后也变为常数。

权重读取弧线:本来是常数,除以 B 后变为双弧线(parabola),随 B 增大而下落。

取大值后,全体体式如下:在批量大小为 1 时,成本(权重读取法被摊销);跟着批量增大,权重读取成本被摊销,趋近于下界,终由狡计时间主,酿成成本下界。

"慢速模式"(Slow Mode)有没灵验? 基本莫得。因为 KV 缓存和狡计对每个批次都是二的,法通过大的批量来摊销这两项成本。"慢速模式"仅仅让央求在这条成本弧线上停留久,法冲破那条下界。

批量大小的狡计:

咱们存眷的是权重读取时间等于权重狡计时间的阿谁点(忽略 KV 缓存项以简化分析):

Ntotal内存带宽=B×NactiveFLOPs内存带宽Ntotal​​=FLOPsB×Nactive​​

整理后:

FLOPs / 内存带宽 = B × (N_active / N_total) 内存带宽FLOPs​=B×Ntotal​Nactive​​

左边是个硬件参数,称为算术强度比。以 FP4 精度为例(每次乘法 0.5 字节),这个比值在大多数 GPU 上约为 300(量纲)。右边的 NactiveNtotalNtotal​Nactive​​ 是寥落度参数。因此:

B≥300×NtotalNactive=300寥落度B≥300×Nactive​Ntotal​​=寥落度300​

以 DeepSeek 为例,激活 256 个中的 32 个,寥落度为 1/8,因此:

B≈300×8=2400B≈300×8=2400

这个估算与实践中的数值至极接近。实践中频频会取 2 到 3 倍的余量,因为施行率不如屋顶线分析期许。是以批量大小约莫是 2000 到 3000 个 Token。

【注:这里的"Token"指的是并发理序列数——约莫 2000 条立的对话序列同期作念单步解码,而非条长序列中的 Token 数。】

Dwarkesh: 加入 KV 缓存后,批量大小会有什么变化?

Reiner: 如果加入 KV 缓存,它会消耗多内存带宽,权重加载可用的带宽就减少了,因此需要大的批量来抵偿,批量大小会增大。

Dwarkesh: 这个数字和 GPU 个数是关的?

Reiner: 对。论断至极风趣——批量大小只取决于寥落度,与模子鸿沟本人关(寥落度本人蕴含了模子鸿沟的信息)。

每秒 Token 数(朦拢量)估算:

每秒 Token 数=BΔt=B×64≈2000×64=128,000 tokens/s每秒 Token 数=ΔtB​=B×64≈2000×64=128,000 tokens/s

【注:Δt ≈ 15~20 毫秒,取倒数约为 64/s。】

Dwarkesh: Gemini 前年公布的民众流量是每秒数亿 Token,这仅仅其千分之摆布。

Reiner: 是的。这证据个系统至少需要达到 Gemini 千分之的鸿沟身手在商场上有竞争力。这是个很是想的下界。

对于寥落度与模子质地的权衡:

论文《Unified Scaling Laws for Routed Language Models》辩论了在保握活跃参数目不变的情况下,加多寥落度对模子质地的影响。左证旧版 MoE 时刻的实验恶果,64 个、3.7 亿活跃参数的模子,质地与 13 亿参数的 Dense 模子相配。也便是说,总参数目扩大了 64 倍,才换来了相配于 4 倍活跃参数的果——代价相配大。

Dwarkesh: 寥落度增大倍,总参数目就要扩大 8 倍,这到底是算的吗?

Reiner: 从咱们的分析框架来看,这是隧谈的净收益——因为大的总参数目可以通过大的批量来摊销,是以只消你有填塞多的用户,就尽量加多寥落度。唯的限制是内存容量:多的总参数意味着需要多的内存来存储权重。

Dwarkesh: 环节点是:寥落度加多,需要的批量也大,而大的批量需要大的内存容量来存储 KV 缓存,这是内存容量而非内存带宽的问题。

Reiner: 正确。这是个很好的切入点,铁皮保温施工底下咱们可以来聊聊 MoE 层在 GPU 机架上的物理布局。

二章:MoE 模子在 GPU 机架上的布局式

Reiner: 咱们先放大看 MoE(混)层的结构。个典型的 MoE 层包括:

路由层(Router):吸收输入 Token,决定将其路由到哪些。

多个(Experts):路由层聘任小部分,举例 256 个中选 1/32。每个本人是个法度 MLP,包含上投影(up projection)、非线激活和下投影(down projection)。

积聚与残差结合:各的输出积聚乞降后,加上输入 Token 的残差结合,输出终恶果。

若何将 MoE 映射到 GPU 机架?法度作念法是使用并行(expert parallelism):不同的放在不同的 GPU 上。

以 DeepSeek 的 256 个为例,在 Blackwell 机架的 72 块 GPU 上部署:为简化狡计,只用其中 64 块(忽略其余 8 块),每块 GPU 存放 4 个。

Token 需要从路由层分发到各个地点的 GPU,然后再网罗回来——这产生了全互联(all-to-all)通讯模式:纵情 GPU 都可能向纵情其他 GPU 发送数据。

Blackwell 机架内的 NVLink 辘集赞成全互联通讯——每块 GPU 通过 NVLink 电缆结合到机架里面的 NVSwitch,纵情两块 GPU 只需两跳即可通讯(GPU → NVSwitch → GPU)。因此,单个机架是 MoE 并行的场景。

跨机架的问题:

当我需要推广到两个机架时,勤恳来了。机架间通讯使用的是鸿沟推广辘集(scale-out network),其带宽约为机架内 NVLink(scale-up network)的 1/8。这意味着:跨机架部署 MoE 时,约有半的 Token 需要走这条慢速通谈,成为严重瓶颈。因此,单个机架限制了 MoE 层的鸿沟上界。

这也正是行业直在动大互联域(interconnect domain)的能源。

机架的物理结构简介:

机架是个物理结构,频频约数米、宽约到两米,容纳约 64 块 GPU,受限于供电、分量和散热智商。Nvidia 的 Blackwell 机架将 GPU 置于机架外侧,NVSwitch 置于里面,通过巨额电缆结合。

机架内(scale-up): 全互联,带宽,低延迟。

机架间(scale-out): 通过数据中心交换机结合,带宽约为机架内的 1/8。

从 Hopper 到 Blackwell,scale-up 域的鸿沟变化:

Hopper:8 块 GPU 的 scale-up 域(NVLink 域)

Blackwell:72 块 GPU(约 64)

Rubin(下代):约 500 块 GPU

从 Hopper 到 Blackwell 主如若从"托盘"风光切换到"机架"风光的产物决议。从 64 到 500 则需要复杂的物理机架设计,中枢挑战是电缆密度——跟着 GPU 数目翻倍,电缆密度也要翻倍,受限于机架内的物理空间、电缆报复半径、背板结合器密度以及分量和散热等多面照拂。

为何不径直建个大交换机把整个 GPU 都互联? 主要原因是布线拥塞——需要铺设的电缆数目其庞杂,物理上难以罢了。

大 scale-up 域对 AI 阐扬的影响:

GPT-4 据传领有过万亿参数,但直到近半年才有大鸿沟的模子发布——这是否因为咱们直在恭候填塞大的内存来容纳个五万亿参数模子?

Reiner: 是的,这正是环节地点。以 Hopper 为例,8 块 H100 有约 640 GB 显存(限制 2022 年)。而 Blackwell 的 scale-up 内存终于达到 10~20 TB 量,足以容纳个五万亿参数模子绝顶 KV 缓存。大的 scale-up 域是次重要解锁。

Google 的 TPU 部署持久领有较大的 scale-up 域,这也证据了为何 Gemini 似乎在预磨砺面先早。活跃参数受狡计成本限制,总参数受 scale-up 域鸿沟限制——这两者共同界定了可行的模子设计空间。

三章:活水线并行若何跨机架散布模子层

Dwarkesh: 咱们缱绻的单 scale-up 域内操作,是特殊适用于某种具体职责负载,如故开阔适用——论是前向传播如故后向传播,论是预填充(prefill)如故解码(decode),论是预磨砺、RL 生成如故用户理?

Reiner: 要回答这个问题,咱们需要缱绻其他通讯模式。除了并行(all-to-all),还有张量并行(tensor parallelism)和数据并行(data parallelism),以及活水线并行(pipeline parallelism)。跟着粒度越来越细,张量并行已不再那么迫切,但活水线并行和数据并行至极适跨多个机架使用。

活水线并行(Pipeline Parallelism):

假想咱们有个 MoE 层,上头还有百多个这样的层。我可以在某层切换到另个机架,让不同机架精采不同的层。

环节问题:切换机架会成为通讯瓶颈吗?

咱们比拟 scale-out 带宽需求与 scale-up 带宽需求之比:

tscale-uptscale-out=18×Nactivated experts×2×Nlayers per stagetscale-out​tscale-up​​=81​×Nactivated experts​×2×Nlayers per stage​

【注:1/8 来自 scale-up 比 scale-out 快 8 倍;×2 来自 all-to-all 的双向通讯(上行和下行);N_activated experts 是每个 Token 激活的数;N_layers per stage 是每个活水线阶段的层数。】

咱们但愿这个比值 ≥ 1,即 scale-up 时间 ≥ scale-out 时间——这意味着 scale-up 不是瓶颈(它速率快,处理完数据时 scale-out 尚未完成)。

需要克服的仅仅 8 倍的因子。由于激活数频频就在 8 摆布,再适合加多每活水线阶段的层数,就能构陷隆盛这条件。

实践含义: 可以构建条由多个机架组成的活水线,每个机架精采几层,然后纪律传递到下个机架。这种切分式地对应模子架构本人——切分在 GPU 之间,层切分在机架之间,至极直不雅。

Dwarkesh: Ilya 曾说"尽人皆知,活水线并不理智",Horace He 也提到活水线会带来架构照拂(比如 Kimi 那种跨层残差结合就很难罢了)。活水线的公正是什么?

Reiner: 活水线本人带来很大的工程勤恳,但照实有公正:检朴内存容量。它不缩小运行时间或狡计量——仅仅把部天职存压力从个机架转念到另个机架。如果单个机架的内存成为瓶颈,活水线可以大幅缓解这个问题,让模子参数分散在多个机架上存储。

活水线气泡(Pipeline Bubble)与微批次(Micro-batch):

让咱们画出理时的活水线时序图。假定有 4 个机架(活水线阶段):

时间 →机架 1: [批次0][批次1][批次2][批次3][批次0][批次1]...机架 2:    [批次0][批次1][批次2][批次3][批次0]...机架 3:       [批次0][批次1][批次2][批次3]...机架 4:          [批次0][批次1][批次2]...

在理时,咱们让批次 0 干涉机架 1,机架 1 就坐窝运行处理批次 1——需恭候。这填满了时间轴,莫得气泡。此时"微批次"和"批次"的区别并骨子风趣,仅仅叫法不同。

在磨砺时,情况复杂。需要先完成前向传播,再作念反向传播,且反向传播需要完好的全局批量身手作念权从新。为了避气泡,各式案(如 Zero Bubble、One-Forward-One-Backward)会将前向和反向交汇起来,但这带来相配的工程复杂。

活水线对理延迟有影响吗? 莫得。延迟与不使用活水线交流——仅仅把各机架的职责罗列在条时间线上,总时间不变。活水线唯的公正是缩小每个机架的内存容量需求。

Dwarkesh: 那为什么理时不常用活水线?

Reiner: 因为 Blackwell 机架照旧有几十 TB 的内存,而个万亿参数的模子只需约 1 TB,内存本来就相配敷裕,活水线缩小的是照旧不大的数字,收益有限。

活水线与 KV 缓存的内存分析:

系统内存需求:

Ctotal=Ntotal+B×Lcontext×bytes_per_tokenCtotal​=Ntotal​+B×Lcontext​×bytes_per_token

引入并行度 E(机架内 GPU 数,举例 64)和活水线并行度 P(机架数,举例 4),每 GPU 内存需求为:

Cper GPU=NtotalE×P+Bglobal×Lcontext×bytes_per_tokenE×PCper GPU​=E×PNtotal​​+E×PBglobal​×Lcontext​×bytes_per_token​

然而,引入 P 活水线时,全局批量 Bglobal=P×bmicroBglobal​=P×bmicro​(P 个微批次,每个大小为 b_micro)。代入后:

Cper GPU=NtotalE×P+bmicro×Lcontext×bytes_per_tokenECper GPU​=E×PNtotal​​+Ebmicro​×Lcontext​×bytes_per_token​

环节论断:活水线阶段数 P 只可减少权重占用的内存,对 KV 缓存占用的内存莫得匡助! P 的增大使全局批量增大,两个应恰好对消。

这访佛于之前的论断:KV 缓存法通过多半量来摊销,当今又发现它也法通过活水线分管。

Dwarkesh: 是夙昔沿实验室作念理时,基本上都在单个 scale-up 域内?

邮箱:215114768@qq.com

Reiner: 是的。对于大多数模子,计策是:尽可能多地使用并行(多用满整个这个词 scale-up 域),活水线并行只用少的数(0 到 2 ,主如若为了禁止权重内存)。张量并行由于越来越细,已不再适用。

如果模子大、寥落,出单个机架的内存,则可以适合加多活水线数。

大的 scale-up 域为何迫切?

有东谈主会问:既然活水线能处理内存容量问题,大的 scale-up 域有什么额外价值?

环节在于内存带宽,而非内存容量:

tmem(权重)=Ntotalscale-up 域内整个 GPU 的总内存带宽=NtotalS×单 GPU 带宽tmem(权重)​=scale-up 域内整个 GPU 的总内存带宽Ntotal​​=S×单 GPU 带宽Ntotal​​

【注:S 为 scale-up 域内 GPU 数目。活水线中不同阶段不行并行加载,但同 scale-up 域内的整个 GPU 可以并行加载各自精采的权重,总带宽是单 GPU 的 S 倍。】

从 Hopper 到 Blackwell,单 GPU 内存带宽普及约 1.5~2 倍,但 scale-up 域大小普及了 8 倍(从 8 到 64),总带宽因此大幅普及。这带来的收益是:

低的理延迟;

赞成长的高下文(因为 KV 缓存读取速率快)——这对日益强调智能体(agentic)智商的模子尤为迫切。

四章:Ilya 为何说"尽人皆知,活水线并不理智"

Dwarkesh: 当今大都在批驳"内存墙"——内存变得其精好意思,供应不及。外传大鸿沟数据中心本年有 50 的本钱开支花在内存上,这意味着消费类劝诱(手机、札记本)也受到冲击,产量下落。

但同期,你刚才说 Blackwell 机架内存照旧相配敷裕。既然活水线能跳跃缩小内存需求,Jensen Huang 为什么还要把这样多内存堆进这些系统里?

Reiner: 让咱们来分析内存容量的施行需求。

系统总内存需求:

Ctotal=Ntotal+B×Lcontext×bytes_per_tokenCtotal​=Ntotal​+B×Lcontext​×bytes_per_token

活水线可以减少权重部分的需求,但 KV 缓存部分法被活水线分管。这便是环节地点:当活水线数 P 填塞大,权重项变得微不及谈,KV 缓存成为内存占用的主项。

跳跃的分析标明:加多活水线数会相应加多同期在途的序列数(in-flight sequences),两个应精准对消,每 GPU 的 KV 缓存内存并不减少。是以,活水线对于 KV 缓存压根莫得匡助。

Dwarkesh: 那理时施行上用什么并行计策?

Reiner: DeepSeek 的论文里有记录:巨额使用并行,少以致无用活水线(多用 1~2 来禁止权重存储,不再多了)。张量并行在越来越细的今天已简直莫得风趣。

为什么大 Scale-Up 域对 AI 阐扬如斯迫切:

总结下,scale-up 域大小影响 AI 阐扬的两个中枢旅途:

内存带宽:大的 scale-up 域意味着多 GPU 并行加载权重,总带宽成倍普及,径直缩小理延迟,赞成长高下文。

内存容量:容纳多总参数、多 KV 缓存,赞成大鸿沟的模子部署。

活水线处理了内存容量问题(至少对于模子权重),但唯有大的 scale-up 域身手处理内存带宽问题。

五章:由于强化学习,模子可能比 Chinchilla 磨砺量多 100 倍

Dwarkesh: 当今有了 Chinchilla 推广律(Chinchilla scaling laws),它告诉你模子大小相对于磨砺数据量应当若何匹配。但当今的主义不仅仅用磨砺算力大化模子质地,而是小化磨砺和理的综成本,同期达到某个能主义。此外,有了强化学习(RL),还要辩论预磨砺、RL 生成和用户理这三者之间的狡计分派。

具体问题是:当今的模子比 Chinchilla 多磨砺了若干?RL 的引入是否变嫌了这个数字?

Reiner: 这需要些测,因为新的推广律和模子流量数据并未公开。但咱们可以用个启发式框架来估算。

基本想路:当总成本是两项成本之和时,小化总成本的点常常在两项成本至极处。 这对形如 1/x 与 x 的函数对建筑,对指数函数对也建筑,对幂律函数频频也建筑。因此,咱们的启发式假定是:预磨砺成本、RL 成本和理成本应当大致至极。

成本公式:

预磨砺狡计量(FLOPs)= 6×Nactive×Dpretrain6×Nactive​×Dpretrain​(的 6ND 公式,前向 + 反向 = 6 倍参数乘数据量)

【注:每个参数每个 Token 的前向传播约 2 FLOPs,反向传播约 4 FLOPs,计约 6 FLOPs。】

RL 狡计量 = α×Nactive×DRLα×Nactive​×DRL​,其中 α 在 2~6 之间(2 暗示只作念生成不作念反向传播,6 暗示每条轨迹都作念完好的前向+反向;施行上还要扣除 decode 的 MFU 低于磨砺 MFU 的低因子,约 30,因此有 α ≈ 1/10)

理狡计量(FLOPs)= 2×Nactive×Dinference2×Nactive​×Dinference​(唯有前向传播,总计为 2)

【注:前向传播 = 2 × 参数目 × Token 数,这便是理的 FLOPs 起头。】

令三者至极(总计约 1/10 和 1/10),活跃参数目可约去,得到:

Dpretrain≈Dinference≈DRL×110Dpretrain​≈Dinference​≈DRL​×101​

即:RL Token 数应约为预磨砺 Token 数的 10 倍(因为 RL 每个 Token 的成本,要花相同多的钱就需要少的 Token)。预磨砺 Token 数与理 Token 数大致相配。

施行数值估算:

理 Token 总量:约 5000 万 tokens/秒(假定某单模子的流量) × 2 个月 ≈ 200 万亿 Token。

前沿模子的预磨砺 Token 数:据估算约 150 万亿 Token(与理量大致相配,符咱们的框架)。

活跃参数目:约 1000 亿参数(估算)。

Chinchilla Token 数 DChinchilla≈20×Nactive≈2DChinchilla​≈20×Nactive​≈2 万亿 Token。

【注:Chinchilla 法令疏远磨砺 Token 数约为参数目的 20 倍。】

论断: 施行磨砺 Token 数(约 200 万亿)是 Chinchilla 值(约 2 万亿)的 100 倍。即现时前沿模子的过磨砺进程约为 Chinchilla 的 100 倍。

Dwarkesh: 这意味着,为了化磨砺与理的综成本,GPT-5 之类的模子接受用户使用时产生的沿路 Token 量,应当与预磨砺 Token 总量大致相配——而预磨砺 Token 量约莫等于东谈主类常识的总额。

Reiner: 这便是这个框架给出的论。天然,如果你的模子量度智商不,或者模子终被毁掉而莫得部署,理端的 Token 价值要扣头,因此施行上可能会倾向于多磨砺些。

Dwarkesh: 仅凭公开信息就能先旨趣地算出这种量的数字,照实令东谈主叹服。底下,咱们可以从公开的 API 价钱中再断些风趣的信息。

六章:从 API 订价断长高下文的内存成本

Dwarkesh: Gemini 3.1 Pro 的订价是:过 20 万 Token 的高下文比 20 万以下贵 50。为什么恰好是 50?为什么恰好在 20 万 Token 这个节点?

Reiner: 先追忆下成本与高下文长度的联系图。以高下文长度为横轴,每 Token 成本为纵轴:

狡计时间(compute time):对高下文长度简直依赖,是条水平线。(表面上存在二次项,但在百万 Token 量以下可以忽略。)

内存读取时间(mem time):从权重基础值启航,随高下文长度线加多(因为 KV 缓存随高下文增大)。

两者取大值,在某个临界点会从"狡计受限"切换到"内存受限",出现拐点。这个拐点大致对应提价的 20 万 Token 节点。 两段式订价结构(低于 20 万个价,于 20 万个价)是布置这成本结构的理交易计策。

从订价算 bytes_per_token(每 Token 的 KV 缓存大小):

令内存时间等于狡计时间的断点在 200K Token 处(忽略权重读取项,仅辩论 KV 缓存读取项):

B×Lcontext×bytes_per_token内存带宽=NactiveFLOPs内存带宽B×Lcontext​×bytes_per_token​=FLOPsNactive​​

B 约去,整理得:

bytes_per_token=NactiveLcontext×内存带宽FLOPs=NactiveLcontext×1300bytes_per_token=Lcontext​Nactive​​×FLOPs内存带宽​=Lcontext​Nactive​​×3001​

代入 Nactive≈1000Nactive​≈1000 亿,Lcontext=200,000Lcontext​=200,000:

bytes_per_token=10112×105×1300≈1066≈1667 字节≈2 KBbytes_per_token=2×1051011​×3001​≈6106​≈1667 字节≈2 KB

2 KB/token 是否理? 理。可以通过以下两条旅途罢了:

密集持重力 + 跨层分享: 如 Character.AI 和 Gemma 模子中的架构,全局 KV 缓存唯有 1 层,分享给整个层使用。狡计:1×2×dhead×NKV heads=1×2×128×8=20481×2×dhead​×NKV heads​=1×2×128×8=2048 字节。

其中 dhead=128dhead​=128(持重力头维度,典型值);NKV headsNKV heads​ 频频在 1~8 之间。

KV 头(存储历史 Token 暗示,留在内存中)与 Q 头(只在现时 Token 的持重力狡计中临时使用)不同。

寥落持重力: 使用多层和多头,但引入个寥落因子(1/sparsity)来缩小等的 bytes_per_token。

这跳跃证据,API 订价施行上走漏了巨额模子架构信息。

从输出价钱比输入价钱贵断 decode vs. prefill 的成本互异:

频频输出(decode)的价钱比输入(prefill)贵约 5 倍。为什么?

咱们画"pass 长度(len_pass)vs. 每 Token 成本"的联系图:

decode 是 len_pass = 1 的特殊情况。

prefill 对应较大的 len_pass。

每 Token 成本 = t / len_pass:

狡计成本(t_compute / len_pass): 狡计时间本人不随 len_pass 变化,除以 len_pass 后是条常数线——这意味着 prefill 的每 Token 狡计成本与 decode 交流。

内存成本(t_mem / len_pass): 内存时间随 len_pass 的加多而…其实简直不变(权重读取是主要项,KV 缓存读取在 flash attention 下简直是临时的)。但除以 len_pass 之后,反而随 len_pass 增大而缩小。

这证据:prefill 施行上比 decode 便宜,因为 decode 度受限于内存带宽,而 prefill 可以地讹诈狡计智商。 decode 是内存带宽受限的,prefill 是狡计受限的。

从"output 比 input 贵 5 倍"这订价,可以读出:decode 时内存带宽讹诈率约是狡计讹诈率的 5 倍——即系统度受内存带宽瓶颈制约。

教导词缓存(Prompt Cache)的订价分析:

以 Gemini 2.5 Pro 的订价为例(非精准):

基础输入 Token:$5/百万 Token(相配于从新狡计 KV 缓存的成本)

写入缓存(5 分钟):略贵于基础价钱

写入缓存(1 小时):贵

缓存的成本有两个维度:

检索成本(次): 从存储位置读取 KV 缓存到 HBM 的带宽成本。

握有成本(每秒): 占用存储空间的契机成本(若占满该存储,GPU 法处理多央求)。

不同内存层的"排空时间"(capacity / bandwidth):

HBM:≈ 20 毫秒(排空时间短,不适永劫期握有)

DDR:≈ 秒(1~10 秒)

Flash(NVMe SSD):≈ 分钟(约 1 分钟)

机械硬盘(HDD):≈ 小时(约 1 小时)

5 分钟缓存 vs. 1 小时缓存恰好对应 Flash 和 HDD 两个层。 令东谈主不测的是,机械硬盘这种陈腐时刻仍在数据中心中被使用,其排空时间约为 1 小时,成本低但速率慢。

七章:神经辘集与密码学的趋同演化

Dwarkesh: 你有篇至极风趣的博文,缱绻了密码左券的结构与神经辘集的相似——两者都需要将信息混到整个输入中(前者是为了止哈希函数被量度,后者是为了建模输入之间的相互影响),这是种趋同演化。但从档次看,它们其着实作念相背的事情:密码左券把有结构的信息变得像随即数,神经辘集则从看似随即的数据(卵白质序列、DNA、天然谈话)中提真金不怕火层结构。

Reiner: 是的,这个对比很很是想。相似机制用于相背主义。咱们也能在其他地看到"混与搅扰"的模式,比如作念蛋糕时搅动面糊——先这个向搅,再阿谁向搅,照实是可以的混计策。

不外,两者有个刻的区别:神经辘集是可微分的,而密码算法极力避可微分。

可微分使神经辘集可磨砺。 残差结合和 LayerNorm 等设计都是为了保握梯度的爽脆可狡计。

密码分析中的差分密码分析(differential cryptanalysis) 恰正是通过对密码算法"求"来攻击它:对输入作念微弱扰动,不雅察输出变化。个好的密码算法应该使得输入的微弱互异致输出的巨大互异(雪崩应),而神经辘集恰恰需要保握梯度的连气儿来避雪崩。

两者的主义在这维度上迥然相异。

Dwarkesh: 神经辘集确凿被用于密码学了吗?

Reiner: 用神经辘集来作念密码算法厉害常危境的。99 的新密码算法都是被攻破的。

但反向——密码学的想想被引入神经辘集——至少有个至极得手的例子:Feistel 密码(Feistel Cipher / Feistel Network)。

Feistel 辘集旨趣: 给定个不可逆函数 f,若何构造个可逆层?法是使用两个输入:

输入: (x,y)→输出: (x, y+f(x))输入: (x,y)→输出: (x, y+f(x))

加密(前向): 狡计 z=y+f(x)z=y+f(x),输出 (x,z)(x,z)。

解密(逆向): 已知 (x,z)(x,z),收复 xx(径直读取),收复 y=z−f(x)y=z−f(x)(已知 x,可以从新狡计 f(x))。

整个这个词构造是可逆的,即使 f 本人不可逆。这在密码学中被泛泛用于构建加密层,亦然许多对称加密算法的基础。

被引入神经辘集的应用——可逆辘集(RevNets):

2017 年的论文《Reversible Residual Networks》(RevNets)将 Feistel 想想引入 Transformer 等神经辘集:

两个输入: (x, y)辘集层 f(举例 Transformer 层)前向:   output_x = x  output_y = y + f(x)逆向:   x = output_x  y = output_y - f(output_x)

这施行上是将残差结合从 1 层变成了跨 2 层的结合(y 来自表层的残差)。

公正:摈斥激活值内存占用。

时常磨砺: 前向传播时需要将每层的激活值写入 HBM,反向传播时再读出(内存占用随层数线加多,常常是磨砺中大的内存支拨)。

RevNets 磨砺: 因为辘集可逆,前向传播时可以不保存激活值;反向传播时,同步地从前向传播的终状态逆向重构出所需的激活值(重算,rematerialization)。

代价是:需要额外的狡计(重算遍前向传播),换来了大幅减少的内存占用。

Dwarkesh: 风趣——这和 KV 缓存的逻辑只怕相背:KV 缓存是用多内存来检朴狡计,而 RevNets 是用多狡计来检朴内存。

Reiner: 正确。鉴于现时硬件的内存与狡计成本比,"花内存省狡计"(如 KV 缓存)频频是算的;但 RevNets 展示了反过来也可以有价值。

Dwarkesh: 太精彩了,Reiner,至极感谢你!这场黑板讲座罢了了咱们建造这个新录制空间的初志。

Reiner: 至极感谢,很兴能来!

地址:https://www.youtube.com/watch?v=xmkSf5IS-zw

风险教导及责条件 商场有风险,投资需严慎。本文不组成个东谈主投资疏远,也未辩论到个别用户特殊的投资主义、财务情状或需要。用户应试虑本文中的任何倡导、不雅点或论断是否符其特定情状。据此投资,背负骄矜。 相关词条:管道保温     塑料管材生产线     锚索    玻璃棉毡    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇:没有了
推荐资讯
友情链接: