认识你的新 AI 队友
尝试 Zapier 代理
DeepSeek 的其他模型也是如此。例如,有一个类似 ChatGPT 的聊天机器人(我稍后会讲到);有一个名为 DeepSeek-V3 的开放文本模型,与GPT-4o、Claude 3.1和Llama 3.1 405B等其他顶级模型相比毫不逊色;还有一个名为Janus-Pro-7B的文本转图像模型,与DALL·E 3和其他类似模型相比毫不逊色。
虽然这种全面的性能水平本身就令人印象深刻,但 DeepSeek 实现这一目标的方式才是让它如此重要的原因。
为什么DeepSeek-R1和DeepSeek-V3如此令人印象深刻?
简短的回答是:地缘政治。
美国已禁止向中国出口 Nvidia H100 GPU 芯片,部分原因是为了阻止中国科技公司开发强大的 AI 模型。OpenAI、Anthropic 和 Meta 都依赖 H100 芯片来开发其当前的 AI 模型,而当时的假设是,如果没有这些芯片,前沿模型几乎不可能构建。(值得一提的是,谷歌还使用了自己的定制张量处理单元。)
尽管美国政府试图限制中国科技公司在人工智能领域 卡塔尔电报数据库 的发展,以维护美国在该领域的领导地位,但 DeepSeek 已经能够使用规格较低的 H800 芯片创建与 OpenAI、Anthropic 或谷歌目前提供的任何模型一样强大的模型。更糟糕的是(从美国政府和硅谷的角度来看),DeepSeek 能够以更少的资金、使用更少的计算能力做到这一点,并且他们已经根据开放许可发布了由此产生的研究论文和模型,以便任何人都可以使用它们。
到目前为止,OpenAI 一直是推理模型的独一无二开发者。它的市场地位非常独特,OpenAI 每月收取 200 美元,即可无限制访问 o1。但现在,任何人都可以通过 DeepSeek 的聊天机器人免费使用类似的模型,或者如果他们具备技术技能,可以下载并在自己的计算机上运行。这只是影响硅谷的较小冲击波之一。(OpenAI 迅速做出反应,也向免费用户提供 o3-mini。)
DeepSeek 模型显示它在回答问题之前思考了 26 秒
DeepSeek 必须使用优化才能在 H800 芯片上训练前沿模型,而这正是 R1 和 V3 脱颖而出的原因之一。由于 DeepSeek 无法将原始计算能力投入到这个问题中,他们不得不开发出许多解决方法。虽然其中许多方法都基于现有技术,但以下是 DeepSeek 使用 R1、V3 及其之前的模型所做的一些值得注意的事情:
开发了一种“专家混合”(MoE)模型,该模型将具有一般能力的共享专家与具有更狭窄能力的特定专家相结合,从而使模型更加高效。(这允许模型具有极高的参数数量,但在推理时仅激活有限的子集,以便它们可以更高效地运行。