DeepSeek(深度求索),是一家中国人工智能公司,开发开源大型语言模型。公司总部位于中国浙江杭州,由中国对冲基金High-Flyer所有和资助。
DeepSeek 公司名:杭州深度求索人工智能基础技术研究有限公司。
世界领先的 AI 公司使用配备多达 16000 个图形处理单元 (GPU) 的超级计算机来训练聊天机器人,而 DeepSeek 声称只需要大约 2000 个 GPU,即Nvidia的 H800 系列芯片。它的训练耗时约 55 天,耗资 558 万美元。这大约是美国科技巨头Meta打造其最新 AI 技术所花费用的十分之一。
DeepSeek 以相对较低的成本实现的竞争性能被认为极有可能挑战美国 AI 模型的全球主导地位。全球各大新闻媒体将其聊天机器人的发布描述为美国 AI 的“斯普特尼克时刻”。据报道,在用于数学、编码和自然语言推理等任务时,其模型的性能“与 OpenAI 的最新模型之一不相上下”。
DeepSeek 的创始人梁文锋被比作 Open AI 首席执行官萨姆·奥特曼,CNN称他为中国的萨姆·奥特曼和人工智能的布道者。
DeepSeek-R1 模型提供的响应可与其他当代大型语言模型(例如OpenAI的GPT-4o和o1)相媲美。但它的训练成本明显较低,据称为 600 万美元,而 OpenAI 的GPT-4在 2023 年的成本为 1 亿美元,并且所需的计算能力只有同类法学硕士的十分之一。
DeepSeek 将其生成式人工智能算法、模型和训练细节开源,允许其代码自由使用、修改、查看,以及为构建目的设计文档。据相关报道,该公司大力从中国顶尖大学招募年轻的人工智能研究人员,并从计算机科学领域以外的领域聘用人才,以丰富其模型的知识和能力。
DeepSeek 的 AI 模型是在美国对中国实施Nvidia(英伟达)芯片制裁的背景下开发的,旨在限制中国开发先进 AI 系统的能力。
DeepSeek 的招聘偏好以技术能力而非工作经验为目标,其大多数新员工要么是刚毕业的大学毕业生,要么是 AI 职业生涯不太成熟的开发人员。同时,该公司也招募没有任何计算机科学背景的人,以帮助其技术理解其他主题和知识领域。
DeepSeek-R1-Zero模型是用户与助手之间的对话。用户提出问题,助手解答。助手先在脑海中思考推理过程,然后为用户提供答案。DeepSeek-R1-Zero仅使用 GRPO RL 进行训练,没有使用 SFT。
宣布星际之门计划的美国总统唐纳德·特朗普称 DeepSeek 是一个警钟和积极的发展。
亚马逊网络服务、丰田和Stripe在内的多家公司都在寻求在其项目中使用Deepseek模型。
DeepSeek 对有限资源的优化凸显了美国对中国 AI 发展制裁的无效限制,其中包括对中国先进 AI 芯片的出口限制。该公司 AI 模型的成功因此引发市场动荡”,并导致全球主要科技公司的股价在 2025 年 1 月 27 日暴跌,Nvidia 的股价下跌了 17-18%,竞争对手博通的股价也下跌了。其他科技公司也下跌,包括微软(下跌 2.5%)、谷歌的所有者Alphabet(下跌超过 4%)和荷兰芯片设备制造商ASML(下跌超过 7%)。
2016 年 2 月,人工智能爱好者梁文锋与他人共同创立了 High-Flyer。
2019 年,梁文锋成立了 High-Flyer,这是一家专注于开发和使用人工智能交易算法的对冲基金。
2021年时,High-Flyer 仅在交易中使用人工智能,通常使用 Nvidia 芯片。
2021年,在运营 High-Flyer 期间,梁文锋开始为一个 AI 项目囤积 Nvidia GPU。据36Kr报道,在美国联邦政府对中国实施 AI 芯片限制之前,其已经建立了一个拥有 10000 个 Nvidia A100 GPU 的商店,用于训练AI。
2023年,联合创始人梁文锋创立该公司并担任首席执行官。
2023 年 4 月,High-Flyer 成立了通用人工智能实验室,致力于研究开发独立于 High-Flyer 金融业务的人工智能工具。该实验室于 2023 年 7 月 17 日成立。最终实验室成为了现在的公司 DeepSeek。各大风险投资公司不愿提供资金,因为认为不太可能在短时间内实现推出。
2023 年 7 月 17 日,DeepSeek成立。官方网站deepseek.com
2023 年 11 月 2 日,DeepSeek 发布了其首个模型系列,可供研究人员和商业用户免费使用。该模型的代码根据MIT 许可证DeepSeek-Coder开源,并附带一份关于模型“开放且负责任的下游使用”的附加许可协议(“DeepSeek 许可证”)。
2024年5月,DeepSeek-V2 以低廉的价格提供了强大的性能,DeepSeek也因此成为中国 AI 模型价格战的催化剂。随后字节跳动、腾讯、百度和阿里巴巴等其他主要科技巨头也开始降低 AI 模型的价格,与该公司竞争。DeepSeek 的价格很低,但与亏损的竞争对手相比,它是盈利的。
2024 年 11 月 20 ,DeepSeek-R1-Lite-Preview可以通过 DeepSeek 的 API 以及登录后的聊天界面访问。它经过逻辑推理、数学推理和实时解决问题的训练。DeepSeek 声称它在美国数学邀请赛(AIME) 和 MATH等基准测试中的表现超过了OpenAI o1 。
2025 年 1 月 10 日,DeepSeek 发布了其首款免费聊天机器人应用程序,该应用程序基于 DeepSeek-R1 模型,适用于iOS和Android。
2025 年 1 月 20 日,中国国务院总理李强邀请梁文锋参加专家座谈会,并请他就 2024 年政府工作报告征求意见稿提出意见和建议。
2025年1月27日时,DeepSeek该应用程序已超越 ChatGPT,成为美国 iOS App Store 上评分最高的免费应用程序。根据美国 AI 公司使用的基准测试,其聊天机器人在回答问题、解决逻辑问题和编写计算机程序方面的表现与市场上其他聊天机器人不相上下。
2025 年 1 月 27 日,在一次“大规模”网络攻击破坏了其服务器的正常运行后, DeepSeek 将其新用户注册限制为来自中国大陆的电话号码、电子邮件地址或 Google 帐户登录名。
2025年1月27日至2025 年 1 月 28 日,受该模型发布引发的纳斯达克科技股全球抛售R1,导致人工智能和计算机硬件公司的市值损失约 5930 亿美元,创历史新高,美国股市市值蒸发共计 1 万亿美元。