起源:市场资讯起源:AI智见录 “马斯克批评: “风趣的剖析。我所见过的最好的。” “AI 将无处不在。” “马斯克批评: “风趣的剖析。我所见过的最好的。” “AI 将无处不在。”DeepSeek r1 的本相与细节实在情形: 它在相干 App Store 种别中下载量排名第一。显明当先于 ChatGPT,这是 Gemini 跟 Claude 都未能实现的。 从品质角度来看,它与 o1 相称,但仍落伍于 o3。 实现了真正的算法冲破,使其在练习跟推理方面都年夜年夜进步了效力。FP8 练习、MLA 跟多 token 猜测都存在主要意思。 轻易验证 r1 的练习本钱仅为 600 万美元。固然这在字面上是实在的,但也极具误导性。 即便他们的硬件架构也很新鲜,值得留神的是他们应用 PCI-Express 停止扩大。 它在相干 App Store 种别中下载量排名第一。显明当先于 ChatGPT,这是 Gemini 跟 Claude 都未能实现的。从品质角度来看,它与 o1 相称,但仍落伍于 o3。 开展全文
实现了真正的算法冲破,使其在练习跟推理方面都年夜年夜进步了效力。FP8 练习、MLA 跟多 token 猜测都存在主要意思。
轻易验证 r1 的练习本钱仅为 600 万美元。固然这在字面上是实在的,但也极具误导性。
即便他们的硬件架构也很新鲜,值得留神的是他们应用 PCI-Express 停止扩大。
主要细节:
依据技巧论文,600 万美元并不包含“与后期研讨跟架构、算法跟数据融化试验相干的本钱”。这象征着,只有在试验室曾经在后期研讨上投入数亿美元而且可能拜访更年夜范围集群的情形下,才有可能以 600 万美元的本钱练习出 r1 品质的模子。DeepSeek 显然领有远超 2048 个 H800 的算力;他们晚期的一篇论文提到领有 10000 个 A100 的集群。一个同样聪慧的团队弗成能仅凭 600 万美元就能启动 2000 个 GPU 集群并重新开端练习 r1。大概 20% 的 Nvidia 收入来改过加坡。只管他们尽了最年夜尽力,但 20% 的 Nvidia GPU 可能并不在新加坡。
存在大批的常识蒸馏——也就是说,假如不对 GPT-4o 跟 o1 的无阻碍拜访,他们可能无奈实现这个练习。正如 @altcap 昨天向我指出的,限度前沿 GPU 的拜访权限却错误中国蒸馏美国前沿模子的才能采用任何办法,这很风趣——显然违反了出口限度的目标。为什么要买牛,假如能够收费取得牛奶?
依据技巧论文,600 万美元并不包含“与后期研讨跟架构、算法跟数据融化试验相干的本钱”。这象征着,只有在试验室曾经在后期研讨上投入数亿美元而且可能拜访更年夜范围集群的情形下,才有可能以 600 万美元的本钱练习出 r1 品质的模子。DeepSeek 显然领有远超 2048 个 H800 的算力;他们晚期的一篇论文提到领有 10000 个 A100 的集群。一个同样聪慧的团队弗成能仅凭 600 万美元就能启动 2000 个 GPU 集群并重新开端练习 r1。大概 20% 的 Nvidia 收入来改过加坡。只管他们尽了最年夜尽力,但 20% 的 Nvidia GPU 可能并不在新加坡。
存在大批的常识蒸馏——也就是说,假如不对 GPT-4o 跟 o1 的无阻碍拜访,他们可能无奈实现这个练习。正如 @altcap 昨天向我指出的,限度前沿 GPU 的拜访权限却错误中国蒸馏美国前沿模子的才能采用任何办法,这很风趣——显然违反了出口限度的目标。为什么要买牛,假如能够收费取得牛奶?
中心发明:
DeepSeek r1 确切存在主要意思,但须要留神一些轻微差异。最主要的是 r1 在推理本钱上比 o1 低得多且效力更高,这比 600 万美元的练习本钱更具意思。r1 的每次 API 挪用本钱比 o1 低 93%,能够在高端任务站上当地运转,并且仿佛不碰到任何速度限度,这很不堪设想。简略盘算一下,每 10 亿个活泼参数在 FP8 下须要 1GB 的 RAM,因而 r1 须要 37GB 的 RAM。批处置年夜年夜下降了本钱,更多的盘算才能增添了每秒 token 数,以是云端推理依然存在上风。还要留神,这里存在真正的地缘政治静态,我以为这在“Stargate”之后宣布并非偶合。再会了,5000 亿美元——咱们多少乎都还没意识你。
论断要点:
下降练习本钱将进步 AI 的投资报答率。
在短期内,这对练习资源付出或“动力”主题都不会发生踊跃影响。
现在“AI 基本设备”赢家(跨科技、产业、公用奇迹跟动力范畴)面对的最微风险是:r1 的精简版本能够在高端任务站(若有人提到的 Mac Studio Pro)上当地运转。这象征着相似的模子将在约 2 年内能够在高机能手机上运转。假如推理盘算转移到边沿装备是由于“够用了”,那么咱们将面对一个一模一样的天下,呈现差别的赢家——即咱们将见证有史以来最年夜范围的 PC 跟智妙手机进级周期。盘算才能始终在会合化跟去核心化之间摆动。
人工超等智能(ASI)曾经十分濒临,但不人真正晓得超等智能的经济报答会是什么。假如一个耗资 1000 亿美元、在 10 万多个 Blackwells(o5、Gemini 3、Grok 4)上练习的推理模子可能治愈癌症跟发现曲速引擎,那么 ASI 的报答将十分高,练习资源付出跟动力耗费将稳步增加;戴森球将从新成为说明费米悖论的最佳实践。我盼望 ASI 的报答是高的——那将太棒了。
这对应用 AI 的公司都十分有利:软件、互联网等。
从经济角度来看,这极年夜地晋升了散发渠道跟奇特数据的代价——YouTube、Facebook、Instagram 跟 X。
美国的试验室可能会结束宣布其前沿模子,以避免对 r1 至关主要的常识蒸馏,只管在这方面,猫可能曾经完整跑出了袋子。即 r1 可能足以练习 r2 等。
下降练习本钱将进步 AI 的投资报答率。
在短期内,这对练习资源付出或“动力”主题都不会发生踊跃影响。
现在“AI 基本设备”赢家(跨科技、产业、公用奇迹跟动力范畴)面对的最微风险是:r1 的精简版本能够在高端任务站(若有人提到的 Mac Studio Pro)上当地运转。这象征着相似的模子将在约 2 年内能够在高机能手机上运转。假如推理盘算转移到边沿装备是由于“够用了”,那么咱们将面对一个一模一样的天下,呈现差别的赢家——即咱们将见证有史以来最年夜范围的 PC 跟智妙手机进级周期。盘算才能始终在会合化跟去核心化之间摆动。
人工超等智能(ASI)曾经十分濒临,但不人真正晓得超等智能的经济报答会是什么。假如一个耗资 1000 亿美元、在 10 万多个 Blackwells(o5、Gemini 3、Grok 4)上练习的推理模子可能治愈癌症跟发现曲速引擎,那么 ASI 的报答将十分高,练习资源付出跟动力耗费将稳步增加;戴森球将从新成为说明费米悖论的最佳实践。我盼望 ASI 的报答是高的——那将太棒了。
这对应用 AI 的公司都十分有利:软件、互联网等。
从经济角度来看,这极年夜地晋升了散发渠道跟奇特数据的代价——YouTube、Facebook、Instagram 跟 X。
美国的试验室可能会结束宣布其前沿模子,以避免对 r1 至关主要的常识蒸馏,只管在这方面,猫可能曾经完整跑出了袋子。即 r1 可能足以练习 r2 等。
Grok-3 的影响
Grok-3 的呈现可能会明显影响上述论断。这将是自 GPT-4 以来初次对预练习扩大定律的主要测试。就像花了多少周时光经由过程强化进修将 v3 改变为 r1 一样,运转须要的强化进修来进步 Grok-3 的推理才能也可能须要多少周时光。基本模子越好,推理模子就应当越好,由于三个扩大定律是相乘的——预练习、后练习时期的强化进修,以及推理进程中的测试时盘算(这是强化进修的函数)。Grok-3 曾经标明它能够实现超越 o1 的义务——拜见 Tesseract 演示——超越几多将变得很主要。用《双塔奇兵》中一个匿名兽人的话来说,“肉可能很快就会从新上菜”。时光会告知咱们谜底,“当现实转变时,我就转变主张。”前往搜狐,检查更多