首页 News > DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元

DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元

by Madison Mar 21,2025

DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要参与者,甚至导致Nvidia的股价大幅下降。

DeepSeek测试

DeepSeek的竞争优势在于其创新的建筑和培训方法。关键技术包括:

  • 多语预测(MTP): MTP不是单独预测单词,而是同时预测多个单词,从而提高准确性和效率。
  • 专家的混合物(MOE):该体系结构使用多个神经网络(在DeepSeek V3中为256,每个令牌激活了8个),加速培训和增强性能。
  • 多头潜在注意力(MLA): MLA反复专注于关键句子部分,从而最大程度地减少了忽视关键信息的风险。
DeepSeek V3

DeepSeek最初仅使用2048 GPU的DeepSeek V3的培训成本仅为600万美元,这受到了挑战。半分析显示,基础设施更为广泛,包括大约50,000个NVIDIA HOPPER GPU(包括10,000 H800,10,000 H100和其他H20),分布在多个数据中心。这意味着服务器投资约为16亿美元,运营费用估计为9.44亿美元。

DeepSeek

DeepSeek是中国对冲基金High-Flyer的子公司,拥有其数据中心,促进了控制和创新。它的自资助性质允许快速决策。此外,该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。

尽管DeepSeek的600万美元培训成本索赔误导了(仅反映了培训前的GPU使用情况,不包括研究,改进,数据处理和基础设施),但该公司已在AI开发方面投资了超过5亿美元。它的精益结构有助于有效的创新。

DeepSeek

DeepSeek的成功表明了一家资金充足,独立的AI公司与行业巨头竞争的潜力。但是,它的成就是建立在实质性投资,技术进步和强大团队基础上的,这使“革命性预算”的叙述变得过于简化。即便如此,DeepSeek的成本仍大大低于竞争对手。例如,DeepSeek的R1型号的培训成本为500万美元,而Chatgpt4的1亿美元。