新德里,1月29日(ANI):随着社交媒体平台和股票市场因新人工智能公司DeepSeek的受欢迎而嗡嗡声,伯恩斯坦的一份报告称,DeepSeek看起来很棒,但不是奇迹,而且不是500万美元建造的。
该报告谈到了围绕DeepSeek模型的嗡嗡声,特别是该公司仅用500万美元就构建了与OpenAI相当的模型。根据这份报告,这种说法具有误导性,并没有反映出全部情况。
声明称:“我们相信DeepSeek并没有‘以500万美元打造OpenAI’”;这些模特看起来很棒,但我们不认为她们是奇迹;而由此引发的周末推特恐慌似乎被夸大了。”
伯恩斯坦的报告指出,DeepSeek开发了两个主要的人工智能模型家族:“DeepSeek- v3”和“DeepSeek R1”。V3模型是一个使用混合专家(MOE)体系结构的大型语言模型。
这种方法将多个较小的模型组合在一起工作,与其他大型模型相比,使用更少的计算资源,从而产生高性能。V3模型总共有6710亿个参数,在任何给定时间都有370亿个活动参数。
它还结合了创新技术,如多头潜在注意(MHLA),减少了内存使用,以及使用FP8计算的混合精度训练,提高了效率。
为了训练V3模型,DeepSeek使用了2,048个NVIDIA H800 GPU的集群,大约两个月的时间,总共约270万GPU小时用于预训练,280万GPU小时包括后训练。
虽然有些人估计这种培训的成本约为500万美元,基于每GPU小时2美元的租金,但报告指出,这一数字不包括开发模型所涉及的广泛研究、实验和其他成本。
第二个模型“DeepSeek R1”建立在V3的基础上,但使用强化学习(RL)和其他技术来显著提高推理能力。R1模型尤其令人印象深刻,在推理任务中与OpenAI的模型竞争。
然而,该报告指出,开发R1所需的额外资源可能是巨大的,尽管该公司的研究论文中没有量化。
尽管大肆宣传,但报告强调,DeepSeek的模型确实令人印象深刻。例如,V3模型在语言、编码和数学基准测试上的表现与其他大型模型一样好,甚至更好,而只使用一小部分计算资源。
例如,预训练V3需要大约270万GPU小时,这只是训练其他一些领先模型所需计算资源的9%。
总之,该报告概述说,虽然DeepSeek的成就是非凡的,但关于以500万美元建立一个OpenAI竞争对手的恐慌和夸大的说法被夸大了。(ANI)