DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元
by Madison
Mar 21,2025
DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要参与者,甚至导致Nvidia的股价大幅下降。

DeepSeek的竞争优势在于其创新的建筑和培训方法。关键技术包括:
- 多语预测(MTP): MTP不是单独预测单词,而是同时预测多个单词,从而提高准确性和效率。
- 专家的混合物(MOE):该体系结构使用多个神经网络(在DeepSeek V3中为256,每个令牌激活了8个),加速培训和增强性能。
- 多头潜在注意力(MLA): MLA反复专注于关键句子部分,从而最大程度地减少了忽视关键信息的风险。

DeepSeek最初仅使用2048 GPU的DeepSeek V3的培训成本仅为600万美元,这受到了挑战。半分析显示,基础设施更为广泛,包括大约50,000个NVIDIA HOPPER GPU(包括10,000 H800,10,000 H100和其他H20),分布在多个数据中心。这意味着服务器投资约为16亿美元,运营费用估计为9.44亿美元。

DeepSeek是中国对冲基金High-Flyer的子公司,拥有其数据中心,促进了控制和创新。它的自资助性质允许快速决策。此外,该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
尽管DeepSeek的600万美元培训成本索赔误导了(仅反映了培训前的GPU使用情况,不包括研究,改进,数据处理和基础设施),但该公司已在AI开发方面投资了超过5亿美元。它的精益结构有助于有效的创新。

DeepSeek的成功表明了一家资金充足,独立的AI公司与行业巨头竞争的潜力。但是,它的成就是建立在实质性投资,技术进步和强大团队基础上的,这使“革命性预算”的叙述变得过于简化。即便如此,DeepSeek的成本仍大大低于竞争对手。例如,DeepSeek的R1型号的培训成本为500万美元,而Chatgpt4的1亿美元。
- 1 “在刺客信条阴影 - 剧透指南中发现所有圣殿骑士地点” Apr 04,2025
- 2 流亡之路2:塞克马斯试炼指南 Feb 12,2025
- 3 Polity 是一款新的 MMORPG,可让您在共享服务器中与在线好友互动,现已推出 Feb 10,2025
- 4 天界守护者雷金莱夫加入 Seven Knights Idle Adventure Jan 16,2025
- 5 Roblox:1 月 25 日最新的子弹地下城代码 Feb 12,2025
- 6 顶级 Android 游戏机:综合指南 Jan 16,2025
- 7 篮球零:官方Trello和Discord Link揭示了 Mar 26,2025
- 8 刺客的信条阴影:最大级别和排名帽揭示了 Mar 27,2025