【深度求索公布技术细节获点赞】#DeepSeek公布技术细节获点赞# 据香港《南华早报》网站2月25日报道,中国人工智能(AI)初创企业深度求索披露了其低成本、高性能模型的技术细节,驳斥了有关其虚报成本的指控,也赢得了开源社区的欢呼。
这家总部位于杭州的公司正在如其所承诺的,于本周陆续开源五个AI基础设施项目。它在24日和25日分别开源了名为FlashMLA和DeepEP的项目,这两个项目旨在从芯片中获取最佳性能,以实现经济高效的模型训练和推理任务。#DeepSeek出现后学文科还有价值吗#
美国旧金山AI行业解决方案提供商龙鳞工业公司的首席技术官斯蒂芬·皮门特尔在社交平台X上发帖表示,深度求索公司将这项技术及其在模型训练方面所做的工作开源,“有力驳斥了外界常说的‘他们在训练程序上撒谎’的论调”。
开源开发者对深度求索公司的项目纷纷表示赞赏。“深度求索公司正再次拓展AI基础设施的极限。”X平台上一名评论人士说。
深度求索公司此前发布了两个开创性的开源AI模型:V3大语言模型和R1推理模型,它们可以与美国AI巨头——包括微软支持的开放人工智能研究中心(OpenAI)和亚马逊支持的Anthropic公司——最出色的模型相媲美。
深度求索公司的预算有限,远低于其规模更大的竞争对手,这导致有人称该公司在开发成本方面误导公众。
帕尔默·勒基就是持怀疑态度的人之一,他是虚拟现实公司奥克卢斯的创始人,该公司已被元宇宙平台公司收购。勒基上个月称深度求索公司的预算是“假的”,但承认它“确实表现不俗”。
深度求索公司在其技术报告中表示,这种具有成本效益的培训的秘诀是一系列创新的结合,从混合专家模型到多头潜在注意力机制。
这份报告称,本周推出的FlashMLA和DeepEP开源项目表明,该公司继续在内存带宽、计算速度和芯片间通信速度方面最大限度地发挥芯片的性能,凸显了它以性能较弱芯片和较低训练成本,拓展AI模型训练边界的能力。(编译/朱丽)#DeepSeek#