文章来源:钛媒体APP
2024年12月底,中国幻方量化旗下的人工智能团队,发布了6700亿参数大语言基础模型DeepSeek V3,紧接着在2025年1月20日开源了基于V3的两款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。一周之后,DeepSeek又推出开源多模态模型Janus。 震惊全球AI届的点在于:DeepSeek使用想象不到的低成本,得到了不输OpenAI推理模型o1太多的性能。这代表着潜在对AI大模型发展范式的颠覆、对GPU算力市场的影响、以及对AI初创企业生态的改变。 硅谷101在春节期间组成了五人小分队,访问了数十位嘉宾,想从技术、资本、市场等等多个纬度来聊聊DeepSeek: 1. DeepSeek的技术创新在哪里? 2. DeepSeek对AI发展会带来哪些影响?包括OpenAI、Antrhopic这样的闭源公司,和Meta这样开源AI公司的影响,对英伟达这样的算力需求的影响,以及对开发应用和创业生态的影响。 3. DeepSeek为什么会是一家量化金融公司孵化出来的、幻方是一家什么样的公司? 2025年1月底在媒体聚集的达沃斯论坛上,微软CEO Satya Nadella以及Scale AI创始人Alexandr Wang的发言直接将DeepSeek推到风口浪尖... ![]()
![]() 这直接导致了1月27日美股市场中,英伟达重挫17%,蒸发市值5600亿美元,创下美国上市公司单日损失纪录。 ![]() 研究DeepSeek时,我们发现产业中依然有一些非共识和巨大争议,包括对DeepSeek模型“蒸馏/套壳”、“数据盗窃”、成本估算、算力提供还有安全性能的攻击和指责。我们试图收集业内人士的看法抛砖引玉,希望提供一个供大家理性探讨和交流的空间。 01 DeepSeek的技术创新抛开DeepSeek的众多争议,在硅谷的共识是:这个又便宜又好的模型,确实有扎扎实实的创新在。这样的创新并不是技术创新,更多的是工程上的创新:让AI大模型训练和推理变得更高效、更便宜。 DeepSeek目前发布了三个更新: 1.6700亿参数的大语言基础模型DeepSeek V3; 2.使用无监督数据、借助增强学习方式,在数学和代码专业问题上微调得到的推理模型DeepSeek-R1-Zero; 3.在DeepSeek-R1-Zero基础上,混入更多带有标签的监督数据,提高模型综合能力而得到的DeepSeek-R1。 首先来看DeepSeek在基础大模型V3架构上的创新。
![]() DeepSeek在2024年5月发布的V2模型中已介绍两项主要的架构创新:混合专家结构(MoE)和多头潜在注意力机制(MLA)。 这两项技术在随后发布的V3模型中体现出的效果更加明显:DeepSeek声称V3模型训练耗时278.8万个H800 GPU 小时,按照每GPU小时2美元的租赁成本计算,训练成本总共只需要557.6万美元。 ![]()
可能有的观众对AI模型了解较少、或者不太理解Yubei Chen的发言,硅谷101的特约研究员鲁漪文将为大家简单解释下。 我们需要重点关注“MoE”和“MLA”这两个概念。 打个比方:MoE(混合专家结构)就像一家餐厅里的一群顶级厨师,每个厨师专攻一道菜,而一位聪明的服务员会根据顾客的点菜需求,动态分配任务给最擅长那道菜的厨师。 比如我既想吃麻婆豆腐,又想吃提拉米苏,那么就可以由一位川菜师傅和一位甜点师傅分别做这两道菜,其他的厨师则可以休息; 而传统的架构更像是一位全能型厨师,需要做所有菜,这样一来,消耗的时间和精力也就更高。 ![]() 所以MoE(混合专家结构)这种设计大模型的方法,核心是通过动态路由机制,将输入数据分配到不同的子网络(或者说专家)进行处理。 每次应用的时候只激活部分专家以提高计算的效率,降低训练和推理的成本。最后在6700亿参数中,DeepSeek V3只需要激活370亿参数。 值得一提的是,这并不是DeepSeek原创的方法。 ![]()
因为混合专家系统(MoE)是建立了一个“专家团队”,团队中的交流也至关重要。我们的访问嘉宾说,DeepSeek“让正确的人完成了正确的合作”,这就是DeepSeek团队在原有技术基础上创新的点。
DeepSeek另一个架构上的创新叫做多头潜在注意力(Multi-Head Latent Attention,简称MLA),能解决内存限制问题。 V3又在此基础应用了多token预测技术(MTP),增加了注意力模块以预测接下来的多个而非单个token,在训练过程中提高了模型的性能。 ![]() 真正让DeepSeek火起来的,是之后两个直接对打OpenAI o1的推理模型:DeepSeek-R1-Zero和DeepSeek-R1。 我们来看看这两个模型上的创新点。
R1出现之前,OpenAI的o1是市场上唯一一个推理模型。由于推理过程的严密性,推理模型更擅长于解答有标准答案的问题,比如写代码、解数学题等等。 DeepSeek“出圈”的关键是作为推理模型,它不仅进行思考,还详细地列出了思考过程。 在此之上,DeepSeek更大的创新点在于R1的训练过程:无需任何人类反馈的强化学习。 我们先聊聊R1的前身——DeepSeek R1-Zero。DeepSeek团队提到,训练R1-zero时他们用了纯粹的强化学习方法,以探索大模型是否能够在没有任何监督数据的情况下发展出推理能力。 ![]() 强化学习简单来说就是给机器学习模型大量数据和一个奖励函数(reward function)。 AlphaGo从模仿人类到打败人类的这一阶段就利用了强化学习:他完全摒弃了人类的棋谱,反而是在不断的自我对弈中优化策略。 ![]() 然而,目前的大模型训练中是以基于人类反馈的强化学习为主(reinforcement learning from human feedback,简称RLHF)。在这种训练中,虽然人类会告诉模型哪种选择是更优的,但也有众多弊端,包括人类反馈的不准确性和偏见、奖励模型的泛化能力差以及策略优化的困难等等。 DeepSeek在V3基础模型之上,采用了GRPO(Group Relative Policy Optimization,群体相对策略优化)的强化学习算法来提高模型的推理表现。
OpenAI在此之前提出了另一个强化学习算法 PPO(Proximal Policy Optimization,近段策略优化):通过Critic(批评模型)来衡量某个行动对于当前策略的优劣,提供更稳定的优化效率。但是GRPO则去掉了Critic的部分,直接优化策略本身、减少成本。 有意思的是,GRPO也不是新技术、甚至被业内人士称为“比PPO要退化的算法”,但DeepSeek就是用这种方式将大规模强化学习做得更高效了。 ![]()
再回到强化学习本身:推理模型擅长解答有固定答案的问题,所以训练推理模型时我们能够直接验证它的答案。 ![]() DeepSeek给了R1-Zero一系列数学、编程和逻辑问题,并设计了两个奖励函数:一个是给正确答案的,另一个则是确保输出连贯、格式规范。DeepSeek团队让模型尝试多个不同的答案,再用这两个奖励函数给它打分。 DeepSeek团队发现,这样的训练下只要给模型提供正确的激励,AI就可以自动找到解决问题的策略和思路。 ![]()
但尝试的过程中可能遇到的问题是:人类无法理解完全利用强化学习训练的模型输出的内容。 ![]() DeepSeek自己也提到R1-zero的可读性很低,一个回答里甚至会出现多种语言。所以DeepSeek团队最终还是创建了新的监督微调(Supervised Fine-Tuning,简称SFT)数据集,重新训练V3基础模型得到今天的R1。 而R1的成功,证明了利用无监督强化学习来训练推理模型的可行性,以及通过少量算力来提升模型性能的方法。高校团队、初创公司甚至大厂玩家,都能从中发现新机遇。 除了可能会颠覆AI大模型范式,DeepSeek还在全球AI届引发了一些争议和质疑,包括其是否“蒸馏”了OpenAI模型、号称的500万美元低成本的真实性如何,以及潜在的安全漏洞和监管问题,我们也与业内人士聊了聊。 02 技术争议
DeepSeek面临的一个争议是“模型蒸馏”。 Fox和《金融时报》等媒体报道,OpenAI找到了DeepSeek“蒸馏”的证据,这侵犯了OpenAI的知识产权。具体而言,OpenAI认为DeepSeek在训练模型时使用了它们的数据。 ![]()
硅谷科技从业者提到“蒸馏”是AI开发人员常用的一种做法:在较小的模型上通过使用更大、能力更强的模型的输出,来获得更好的性能,并以更低的成本在特定任务上获得类似的结果。在业内,尤其是学术界,经常使用蒸馏,有时整个训练数据集都是GPT输出的内容。 ![]()
OpenAI服务协议中规定,不得将其模型产生的数据用于开发OpenAI的竞品,但这则规定究竟意味着什么却很是模糊: ![]()
关键在于“竞争对手”究竟如何定义?这个概念在AI领域并不清晰,很多问题都取决于这个词的具体解释。 竞争对手的定义不清楚,OpenAI要证明DeepSeek蒸馏了模型或者“盗窃”了它的数据就更困难。而且,OpenAI目前也面临着《纽约时报》等众多知名媒体的法律诉讼,被控未经许可、侵犯知识产权。
这里的争议其实是由于AI大模型业界的规范和法律并没有及时追上发展;现在关于合规、合法、合理的定义和边界都很含混。 硅谷有人将OpenAI与DeepSeek类比为"专利药"与"仿制药"。但医药界的这两者实际存在专利保护和造福大众的法律框架,AI产业的各种规范却还未建立。也许我们可以期待未来AI界也会有进一步法规和业界标准的完善。
硅谷对DeepSeek的成本讨论这么大,是因为V3模型训练只用了557.6万美元。 但这个数字并不是DeepSeek实际花的钱,而是用278.8万个H800 GPU 小时乘以2美元/GPU小时的租赁成本计算的,但也是无法想象地低。 ![]() 在硅谷流传很广的一篇来自Semianalysis的分析认为,DeepSeek的预训练数字远不及模型实际花费的金额,光是在DeepSeek的硬件支出就远高于5亿美元。 此外,模型开发过程中还需要花费大量资金来测试新想法和新架构,比如关键创新MLA(多头潜在注意力)耗费了数月开发,当中的团队人力和GPU小时都应算作成本的一部分。 因此,有指责称这个数据被部分媒体过度放大了,或者说,DeepSeek团队太用这个“一次性训练”的数据做噱头:训练一次模型的费用并不是烧钱大头,此前的各种实验、失败、开发、人力等成本加起来才有意义。
同时,外界对幻方和DeepSeek到底用了什么卡众说纷纭,是H100,H800,还是A100? SemiAnalysis就认为,DeepSeek有5万张的英伟达Hopper GPU,包括1万个H800单元、1万个H100单元,以及额外购买的H20芯片。 这也引发一些要求美国政府进一步加强英伟达GPU出口管控的呼声。 ![]() 这些外界的猜测无法证实真实性,但Bill的观点很有意思:比起DeepSeek训练用的型号、成本,真正的重点在于:DeepSeek的技术创新,的确带来了推理端的价格大幅下降。 而AI业界需要认识到这个范式的重要性,并让这个范式全面降低AI的推理价格。 ![]()
如果说训练成本是一次性的大投入,推理成本就像是订阅模式,需要不停花钱。Bill认为,从财务的角度来说推理成本可能远比训练成本重要,而对于开发者和应用端,这才是一个改变游戏规则的事情。
随着DeepSeek的全球广泛下载和讨论热度,关于模型安全和相关的法律风险也成为一些开发者关心的问题。
2025年1月底,网络安全公司Wiz公开了一项研究结果:DeepSeek将一个关键数据库暴露在互联网上,泄露了系统日志、用户提示,甚至用户的 API 身份验证,总计超过100万条记录,任何人都可以访问。 ![]() Wiz的调查报告显示,这种访问级别意味着对DeepSeek及用户构成了严重安全风险:黑客攻击者不仅可以检索敏感日志和实际的纯文本聊天消息,还可以使用查询直接从服务器窃取纯文本密码和本地文件以及专有信息。 Wiz已经将这个安全漏洞报告给了DeepSeek团队。 ![]() 一些人担心,DeepSeek这样的小团队或许还没有做好去服务全球量级用户的准备。虽然用户和开发者未必会因此放弃使用DeepSeek,但可能会触发安全监管。
![]() DeepSeek在1月27日宣布,由于遭受大规模的恶意网络攻击,公司暂时限制中国大陆手机号以外的注册方式,网络安全问题的应对将是DeepSeek团队吸取经验的重要议题。 接下来我们说说DeepSeek对全球AI产业的影响,特别是对主流开源与闭源模型的冲击。 03 对开闭源模型的影响DeepSeek的技术创新获业界认可,这也给不论开源闭源的硅谷传统头部大模型公司带来了压力,包括OpenAI、Anthropic、Meta、Mistral。 我们先来说闭源公司们的反应。
DeepSeek对闭源模型直接的冲击就是价格——高性价比的开源替代方案必将驱动开发者和公司们的迁移。 ![]() 根据Sensor Tower的数据,2025年1月26日DeepSeek登上美国免费应用榜单第一名,之后在全球范围内持续火爆,在印度等140个全球市场中的移动应用下载量排行榜上都位居榜首。 数据显示,DeepSeek已经达到了ChatGPT日活用户的23%,并且已经超过了ChatGPT的每日下载量。 这对OpenAI来说,直接的打击就是技术领先带来的垄断溢价将面临缩水。 ![]()
DeepSeek火出圈之后,Sam Altman在X上反击称:我们显然会提供更好的模型。 ![]() 很快,在1月31日,OpenAI发布推理模型o3-mini,并且首次对免费用户提供推理模型。 o3-mini定价标准为输入1.10美元/百万token、输出4.40美元/百万token,虽仍高于DeepSeek的定价,但较前代o1-mini已实现63%的降幅。 硅谷业界普遍认为DeepSeek R1的性能比o1要稍差一些,而o3作为o1的升级版,在性能上是要优于R1的。 ![]() 所以,OpenAI的溢价虽然被DeepSeek带来的压力打下来了一些,但依然有高利润率在。随着竞争的继续,价格也可能进一步下降。这会非常利好整个AI的创业生态、开发者社区和应用公司们。 2月3日OpenAI也发布了另一个新模型Deep Research,号称能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。 OpenAI还与DeepSeek-R1进行了对比:Deep Research在Humanity's Last Exam测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高;而DeepSeek R1模型的准确率是9.4%。 OpenAI降价、展示优越性这两轮强硬反击背后,是Sam Altman与OpenAI所面临的压力。 ![]() 虽然业界对OpenAI的闭源策略各种讽刺,称之为“Closed AI”,但要保持前沿科技的技术龙头地位是不易的——基础研究和探索成本需要非常多的资金,探索者需要砸钱去探路,而后来的追赶者站在巨人肩膀上进行路线的优化则能省很多钱。 在硅谷,很多人把OpenAI和DeepSeek类比为“专利药”和“仿制药”的另一原因是:虽然仿制药用低廉的价格造福了全人类,但专利药背后的多年研发成本却是大药企去承担的。 而OpenAI虽然推理侧的利润很高,在训练侧却是极其烧钱的。如果推理侧的利润无法承担前面训练侧烧的钱,那么OpenAI的商业模式也就失败了。
![]()
这也许解释了为什么OpenAI在连续两场发布会之后立马开启了新一轮融资:有消息爆出新一轮融资中OpenAI希望筹资400亿美元,将公司估值推到3000亿美元的量级。 ![]() 即使OpenAI已经得到了软银孙正义投资数百亿美元的承诺,但在这个时间点融资,Sam Altman毫无疑问会面对投资人的各种质疑。
![]()
而且,DeepSeek让人开始质疑:真的需要那么多资金吗?即使我投入那么多钱,你们的模式能有多可持续? Anthropic和 OpenAI一直在向投资者讲述通过大量资金投入模型训练,他们能够建立起对其他公司的巨大护城河;但事实证明,这并不像人们预期的那样稳固。
对于Anthropic来说,DeepSeek带来的打击可能更严重。 我们在硅谷101之前《AI信仰之战》这期内容中提过,Anthropic在对企业端和对开发者端的API上是非常有优势的,但在消费者端比ChatGPT差很多。所以DeepSeek的API价格直接会对Anthropic带来打击。 而且Anthropic目前并没有任何的推理模型,所以完全被OpenAI和DeepSeek前后夹击。
这也许解释了为什么Anthropic的创始人Dario Amodei,与Sam Altman以及Meta的Yann Lecun等一众科技领袖们的“欢迎竞争”、承认DeepSeek的技术创新表态非常不一样,在长文中对DeepSeek相当不客气,甚至要求美国加强对算力的“出口管制”。 ![]() 但毫无疑问,DeepSeek将对Anthropic旗下Claude等模型的更新带来更大的压力,来保证闭源模型的领先性。
接下来,再说说DeepSeek对开源模型和社区的影响。
虽然很多人说DeepSeek代表着开源模型的一次大胜利,但是在开源模型自己的竞争格局中,它也给Meta等行业领头羊带来了非常大的压力。 根据The Information的报道,DeepSeek R1发布之后Meta就立刻进入了紧急状态,成立了四个“War Rooms”作战室——Meta马上要发布Llama 4开源模型,如果Llama 4落后于DeepSeek,公司作为“开源模型的引领者”的地位将受到很大威胁。 ![]() Meta最初选择以开源的路线来加入大模型战局,而非像谷歌、OpenAI和Anthropic选择闭源,是想参照当年谷歌开源安卓系统的模式:不从系统本身赚钱,而是等生态发展起来之后从广告和Google Play等应用上赚钱。 如今也是一样:Meta不指望开源的Llama赚钱,但希望Llama是最领先的开源大模型,以便之后从生态和应用上赚钱。 所以,Meta即使不是最强的开源模型也绝不能在能力上掉队,这也是为什么目前Meta必须进入“War Rooms”状态。 The Information的报道也指出,此前Llama在跟OpenAI等闭源模型竞争的时候已经有价格上的劣势了:虽然Meta的模型是免费的,但实际运行起来会比OpenAI的模型更昂贵。 ![]() 部分原因是OpenAI 可以通过批量处理客户的数百万个Queries(查询)来降低价格,而Llama的使用者却没有办法通过这种方式来获得降价。 如今DeepSeek的价格更低,将给Meta带来进一步的价格压力。好消息是,Meta还没发Llama4。 开源的美妙之处在于,它不但带来了竞争,也带来了互相学习、反馈和进步的机会。业内人士对我们表示,这次DeepSeek引起非常强烈反响的另外一个原因,是它开源得比Meta要更彻底更透明。 ![]()
我们也拭目以待Meta计划在第一季度发布的Llama4表现如何。
在硅谷,非常多的AI从业人士和科技领袖都同意:DeepSeek这次的震撼代表了开源的胜利,但同时很多人也强调开源模型要保持领先,要持续的不掉队、不断推出能与最好闭源模型比肩的产品还是非常难的,在资源、人才、商业变现上都有着很大的挑战。 ![]() 比如法国AI开源模型公司Mistral,它一度以70亿参数的小模型轰动业界,也曾大力推行DeepSeek技术创新中的MoE(混合专家模型)。但近一年时间,Mistral在技术上慢慢掉队,公司也面临商业化的难题,甚至被传需要被收购。
![]()
对于DeepSeek来说,因为还有幻方这样的母公司的资金作为撑腰,商业化也许并不是他们的首要任务,或许会选择融资的模式。 DeepSeek之前也尝试过融资,只是不顺利,我们会在之后幻方DeepSeek成长史的章节提到。 所以在资金和人才都不是问题的情况下,DeepSeek接下来的关键将是能否在开源路径中保持领先、从开源社区中得到技术的反馈和反哺来进一步提升创新。 04 对算力的影响DeepSeek对英伟达的市场情绪冲击在1月27日是最明显的,但之后跌幅已经止住了,并且在过去的几天股价开始缓慢回升。 我们听到市面上有两种声音: 1. DeepSeek带来了模型训练和推理的新范式,以后不需要这么大量砸钱去买英伟达最前沿的GPU芯片了,所以算力市场的故事已经崩塌。 2. DeepSeek能让整个生态的算力成本都得到进一步降低,所以会有更多的玩家入局,会有更多的应用生态崛起,这就意味着更多的算力需求,GPU算力市场其实更大了,反倒是利好英伟达的。 目前华尔街和硅谷的一二级投资市场对第二种逻辑达成了共识,这也是为什么英伟达股价止跌在这个价位:截至我们写稿的时候处于2024年10月的股价水平,依然处于近年的高点。
现实情况是,虽然DeepSeek推高了整体算力需求按理说应该利好英伟达股价,27号大跌之后这一周英伟达的股价并未太过反弹。这是因为DeepSeek的模型创新造成了目前尚未验证、没有达成共识的新问题:DeepSeek能击垮英伟达最强的护城河CUDA吗? ![]()
最近很多媒体和文章以“DeepSeek已经绕过CUDA”为标题,再度引发市场对英伟达GPU需求的恐慌和对英伟达护城河是否坚固的质疑。 我们访问的技术派嘉宾看法挺一致:这类新闻标题是不准确的,因为DeepSeek并没有绕过CUDA,只不过英伟达的护城河确实因为DeepSeek松了那么一点。 ![]() 这类新闻的结论是:DeepSeek的创新可以: 1. 直接在英伟达GPU的低级汇编语言PTX(Parallel Thread Execution)上进行优化; 2. 同时通过对FP8计算和存储的支持,让DeepSeek团队实现了加速训练和减少GPU内存使用。 结论:这意味着业界之后可以绕过CUDA生态,用其它GPU也能实现高效训练目的,英伟达的护城河不存在了。 我们的嘉宾就这两个说法进行了一些纠正和补充,主要观点有三个。 第一:DeepSeek没有“绕过”CUDA。
![]() 英伟达的护城河是CUDA生态,而不是单单CUDA本身;而PTX是CUDA生态的一环,用于连接CUDA高级语言代码和GPU底层硬件指令,仍然是英伟达GPU架构中的技术。所以DeepSeek“绕过CUDA”这个表述在很多人看来是不准确的。 第二:DeepSeek可以基于PTX优化英伟达GPU,是不是说明DeepSeek也可以优化其它GPU和芯片呢? 这一点是很可能的,所以AMD迅速宣布将新的DeepSeek-V3模型集成到自己的Instinct MI300X GPU上。 但技术从业者告诉我们,DeepSeek团队可以基于PTX进行优化,不意味着其它团队也这样的能力和动力。因为编写PTX代码的做法非常复杂且难以维护,对技术人员要求极高,也很难移植到不同型号的GPU。 所以第二个观点是:目前来看业界没有动力大规模改变算力使用的范式。 ![]()
![]()
前面我们提到,DeepSeek通过对FP8计算和存储的支持,实现了加速训练和减少GPU内存使用。这是否意味着,很多模型的训练和推理不一定要去买英伟达最好的芯片? 像Groq等更便宜的ASIC专项芯片,还有谷歌TPU、亚马逊自己的自研芯片,是不是可以有更高效的训练和推理用途?这个问题可能比前面我们讨论PTX是否绕过CUDA更为关键。 ![]() 谷歌的财报显示公司预计2025年资本支出将增加到750亿美元,远高于市场此前预期的580亿美元,其中很大一部分预计是在自研芯片TPU上。 博通Broadcom作为谷歌TPU的设计方也股价大涨;Meta等科技巨头也都纷纷制定计划定制ASIC芯片,减少特别是今后推理侧对英伟达的依赖。 目前我们访问的嘉宾认为:这会冲击英伟达的溢价,但不会击垮英伟达的壁垒和护城河。
所以,DeepSeek没有绕过CUDA、目前大规模弃用英伟达芯片的恐慌也不会发生,但新范式确实给英伟达的壁垒上凿了一道口子。 得益于技术护城河,此前英伟达GPU和OpenAI一样利润率和溢价很高。然而接下来要保住自己的市场蛋糕份额势必会降价。虽然这对业界来说都是好消息,但华尔街和硅谷也都在观望其能否保住市场份额。 算力成本降低会利好应用侧,接下来由硅谷101特约研究员王可倚(Sophie),聊聊应用层和创业生态的影响。 05 对开发应用侧的影响业界嘉宾中很多人认为,DeepSeek取得的几项突破上,对应用层面短期影响最大的是模型推理成本的跳水;而R1在逻辑推理方面展现出的潜力则让业界看到了未来几年内,软件行业可能会遭遇的颠覆性变革。
DeepSeek作为“AI届拼多多”发布之后引爆了一场业内价格战:DeepSeek V2公布后,包括字节在内的大厂不惜做“赔本买卖”,把API价格降到业界估计的成本线下“舍命陪君子”。 而对于使用模型的AI应用开发者而言,这样的价格战解锁了全新的可能性。 对于一些开发者来说,DeepSeek是“锦上添花”;对于在GPT以后、DeepSeek之前商业化的不少2B AI应用而言,这一波降价引发的是利润的量变而非质变。 如果被代替的是白领工,无论律师、医生、码农还是金融分析师,再贵的AI也贵不过人,所以应用者就像F1赛车手不惜代价追求着模型的极致表现。这种情况下,降价的直接影响是:同样的生意利润率大幅提高。 同时,DeepSeek对另外一些场景则是“雪中送碳”,那些之前需要烧钱补贴、否则难以推广的使用场景,如今因为降价有利可图,可能迅速普及。 比如陪伴型AI,对于聊天机器人类的创业公司来说,用户的“热爱”是昂贵的。 Whats The Big Data在2024年5月发布的一份报告显示,用户在行业龙头CharacterAI平台上的单次使用时长平均约为两小时,是ChatGPT的17倍。 伴随而来的是相应大幅攀升的模型使用成本:很多该类公司为了吸引用户而选择免费,不得不靠限制使用时长等方式来控制开销,同时大量资金补贴。而现在DeepSeek彻底改写了陪伴型AI产品的成本结构。 ![]()
另一个有利的领域是AI agent(智能体),这是臭名昭著的“算力黑洞”。 由于完成一个任务需要多步模型调用、反复自我修正与验证、甚至多个代理相互配合,对API调用的需求指数级上升,如今在成本和响应速度上的进步也格外显著。 大降价也引发了从0到1新的业态可能。业内人士普遍认为,由于DeepSeek使得端部署AI小模型能力突飞猛进,我们将迎来设备端AI应用、尤其是2C应用的百花齐放。 ![]()
Larry作为投资人尤其看好设备端AI 2C应用中娱乐类或虚拟人助手类的应用。
而端部AI应用的一大特征是,推理成本对于应用开发者几乎为0,因为计算资源来自用户的设备,不再是云服务器,这一点很有可能会颠覆SaaS时代“硬件+SaaS订阅”的经典商业逻辑。 硬件+SaaS的经典逻辑是“电动牙刷柄赔钱,牙刷头赚钱”:硬件以接近成本甚至低于成本的价格出售,同时绑定独家软件订阅服务,从高利润率的软件订阅上赚回硬件补贴,并实现持续、稳定的现金流收益。 然而当端部AI服务的边际成本为0,竞争会使得订阅服务很难实质性收费,因为“永远有对手比你更便宜。”
所有沿用”牙刷头补贴牙刷柄“思路的SaaS公司在被DeepSeek拉开序幕的端AI时代需要重新审视了。 关于端部AI的跨越是否也会带来物联网的春天,业界目前还难以下结论:物理世界的规则限制了硬件发展的速度,不会像数据增长与纯数据应用发展这么快。
对于物联网的布局,我们硅谷101在之前《孙正义翻身之战》中也提到过,孙正义之前也下手太早、栽过一回,所以现在上牌桌玩AI+物联网是不是好的时点依然不好说。
在和投资人的聊天中,他们认为DeepSeek之后由于前沿大模型效果趋同、进入效率竞争阶段,资本市场恐怕会重新评估单纯追求面面俱到、没有针对性行业或使用场景的“横向”AI创业公司的前景和估值。 这其中不乏有著名研究员、技术大神创立、风投圈曾高价追捧过的明星公司。有投资人认为越是融资多的“名人创业”,相对越容易陷入“高开低走”、“杀鸡用牛刀”的尴尬境地。
所以在AI被商品化的时代,成为“平台”、搭建生态系统或许才是横向AI企业的一条出路。 与之相对照的是,专注于一个细分领域或特定使用场景的纵向AI企业,则被认为是更容易建立差异化竞争优势,前提是它们用AI提供的解决方案必须相对于从前有质的飞跃。
而DeepSeek的效率和逻辑推理能力突破让更多这样十倍、百倍的进步成为可能。同时,细分领域累积的新数据、随之而来的新智能才是真正的护城河。 总之,投资人和开发者似乎在达成一种共识:深根细分领域的AI模型与应用会超越最厉害的通用大模型,专才胜于通才、“纵”强于“横”。 经历这一波变革,AI行业正在整体回归理性化:少了玩命融资、囤卡和挖人才的狂热,多了和具体需求紧密结合、脚踏实地的渐进式创新,一个发烧的领域在逐渐恢复健康。
这不是说AI下半场就没有那么激动人心了,恰恰相反,对AI创业者来说下场的黄金时机很可能才刚刚开始。
DeepSeek就像一条鲶鱼,搅乱了大模型行业的鱼塘:开发者们获益匪浅,但未来大模型竞争格局却依旧柳暗花明。 AI应用对基座模型的切换成本、云厂商在搭载模型选择上的纵横捭阖、甚至AI应用”脚踏几只船“、根据具体任务动态选择模型的策略,都让这个行业很难轻易分出胜负。 最后,DeepSeek R1在逻辑推理方面的过人之处,让不少人预测下一代R2很可能会实现AI编程能力的飞跃。无论是对软件开发的工作流、关键决策,还是工程师的职业生涯,甚至人们的生活方式可能都会带来深远的改变,而这一切可能都会比人们原本预料的来得更快。 最后我们再来试图挖掘孵化出DeepSeek的幻方是一家什么样的公司,低调的创始人梁文锋是怎么样的一个人、内部有什么故事。 06 幻方成长史对于硅谷来说,DeepSeek是一个陌生的名字,因为它此前的曝光太少、团队也非常低调,颇有一种少林寺扫地僧突然打进世界擂台的感觉。 虽然DeepSeek看起来是“横空出世”,其背后的幻方量化其实在AI方面有着接近8年积淀,中国量化届对这家公司肯定不陌生。 梁文锋是幻方量化和DeepSeek这两家公司的创始人,出生于1985年,从小就展现出数学天赋。 2002年,17岁的梁文锋成功考入浙江大学电子信息工程专业,2007年继续攻读研究生、专注于机器视觉的研究。 2008年全球金融危机爆发,A股也迎来一波牛市崩盘,但当时还在读硕士的梁文锋,看到了量化交易的机会。他开始尝试用系统化、程序化的方式来研究市场、进行交易,当时在中国还很少有人知道量化交易是什么。 毕业后,梁文锋也没有像周围人一样去互联网公司做程序员,而是躲在成都的廉价出租屋里,不停地编写AI算法来选股,用在不同的市场场景中去尝试。这个过程肯定很艰辛,会经常遭遇挫败。 到了2015年,梁文锋的探索已经趋于成熟,他也建立了自己的交易体系,于是就成立了幻方量化这个品牌。 ![]() 2015年对于中国量化私募行业来说也是一个重要转折点:4月中证500指数期货上市,使量化基金拥有了更强大的工具和更丰富的对冲手段。接下来A股市场的巨大波动,也给了中国量化基金一次绝佳的试水机会。 2015年,30岁的梁文锋与大学好友徐进共同创办了幻方量化,在市场股灾的情况下,幻方反而取得了超额回报,甚至在年底就成立了十只对外募资产品。 之后几年,顺着中国量化基金行业的爆发期,幻方的管理规模也从2016年的10亿元,飙升到2019年的百亿,又在短短两年间突破了千亿。
幻方的成长过程中,有别于其他量化基金的就是梁文锋对AI的执念。 虽然身处金融行业,但梁文锋一直专注于模型算法革新,甚至有业内人士评价幻方:更像是一家做机器学习、人工智能的公司,但副业用量化交易挣了钱。 2016年是幻方的一个关键之年:幻方推出了第一个AI模型,并且首次使用GPU来生成交易仓位,并且上线执行。 ![]()
2016年之后,梁文锋带领团队一直在AI算法和软硬件方面加大投入; 2017年年底,幻方几乎所有的量化策略都已经采用了AI模型; 2018年,梁文锋明确了公司以AI为核心的发展方向,并且把整个产品线和资金管理都嫁接到以AI为核心策略的开发体系上,并且开始大规模招贤纳士、吸收了很多年轻的AI专家型人才。 ![]() 然而随着幻方在AI训练方面急剧增长的需求,算力成为挑战。 为了解决算力瓶颈,2019年幻方投资2亿元,自主研发了深度学习训练平台“萤火一号”,搭载了1100块GPU显卡; 2021年,幻方又构建了“萤火二号”,算力提升了18倍,之后幻方成为中国5家拥有上万张A100 GPU的公司之一。 在2022年11月底,OpenAI发布ChatGPT掀起新一轮人工智能浪潮之际,幻方宣布下场做AI大模型,并在次年5月将技术部门中做大模型的团队独立出来,也就是如今的DeepSeek。 所以DeepSeek背后并不是一家新公司,而是一支有经验有资金有技术有算力、深耕了AI技术数年的团队。但是这支团队,一度在中国融资失败。
根据我们听到的消息,DeepSeek在2024年5月有过一次短暂的外部投资窗口、也是目前唯一的一次。 当时梁文锋想尝试融资,看看外界的兴趣。去年5月时,DeepSeek V2的效果已经很好了,但在短暂接触过几家VC后,梁文锋就放弃了对外融资的想法。 从当时的一级市场环境来说,由于多年缺乏上市退出,VC们都苦于自身业绩难题陷入DPI焦虑。 很多基金不再敢于投资前沿科技的高风险项目,特别是像基础大模型这种投入很大、成本高,竞争格局时刻在变化的项目风险非常大,在这个时间点还愿意投资基础大模型的VC寥寥无几。 一位美元基金的朋友跟我们说,当时的美元VC们都在竞逐有着明星创始人背景的月之暗面,以及更加务实、在商业化层面崭露头角的Minimax。 这两家当时已经形成了一定共识,有点Club Deal的感觉(俱乐部交易,指一项投资中,多个PE基金联合起来同时对目标公司进行投资)。 DeepSeek量化出身、有点跨界意味,创始人的时间分配也不太明确,所以很多基金都摸不清楚情况,相比之下,投资已形成共识的月之暗面或Minimax是更容易做出的决策。 而对于人民币VC来说,由于资金期限与风险偏好,就更不大可能投资于基础大模型,就算有这方面的投资偏好,智谱这样的政府背景深厚的公司也更容易通过投决会。 一个量化基金背景的团队来做AI大模型,还是开源模型,还不是Bloomberg做的金融垂直类的BloombergGPT,也意味着DeepSeek的路线图确实短期内很难看到商业模式,而中国VC们更喜欢能够更快赚钱的闭源模型,和更快落地的商业模式和应用。 所以当时的梁文锋是不受国内的风险投资人待见的。 他在融资不利的情况下出来接受了两次访问,也是我们现在从外界一窥梁文锋和DeepSeek团队的珍贵公开资料: 梁文锋是一位剑走偏锋的技术理想主义者,当他在2021年就开始囤积数千英伟达GPU的时候,行业中没人知道他想干什么。 甚至根据金融时报报道,他的一位商业合作伙伴用“一个发型糟糕的书呆子”来描述第一次见到梁文锋的感受,也说明当时不少人都没有足够重视他。 最终,梁文锋决定用幻方来承担DeepSeek的研究经费。而从幻方的发展历史上来看,梁文锋对技术理想也是坚持的:包括幻方基金遭遇巨大困难时,他依然坚持对AI的投入。 幻方业绩最辉煌的2019年和2020年自然年收益分别为58.69%和70.79%,但2021年,因为AI在买卖时点的投资决策上出现了问题,幻方出现业绩暴跌并在12月底发布了致投资者公开信,对业绩回撤达到历史最大值深感愧疚,关闭全部募资通道。 这个过程中有投资者也产生了很大的负面情绪,认为梁文锋对AI的痴迷令其精力分散、业绩滑坡。之后,幻方的资产管理规模从千亿人民币逐渐回落到如今2025年的小于300亿元。 但还是2021年,幻方也没有停止对AI的投入:构建了比一号算力高18倍的“萤火二号”。 ![]() 幻方的另一个艰难时刻是在2024年:中国金融监管机构对量化交易进行进一步缩紧,股市情绪也对量化基金们多有争议。 而这个时候DeepSeek的投入开始出成绩了:DeepSeek V2系列模型自2024年5月发布开源以来开始受到业界的关注。甚至在硅谷101视频的评论区,2024年7月已经有观众提到DeepSeek。 之后V3发布、R1-Zero和R1引爆市场,但幻方之后是不是就成为一家AI模型为主导,量化基金为旗下附属应用产品的公司呢?
现在看来,幻方在2021年业绩低谷期,仍然能顶住压力坚定地投入AI而团队不散,离不开独特的组织架构和企业文化。 量化基金是一个源自美国产物,这使得几乎所有中国的头部量化基金的创始班底都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索长大。 DeepSeek完全是国内本土团队,没有海归人才,团队成员大多是来自于清华、北大、北邮、北航等国内顶尖高校的计算机专业应届生,或者是在读的博士生。 ![]() 梁文锋自己也是一位身先士卒的创始人:他更愿意被当作工程师,而不是交易员。 他几乎每天都亲自参与写代码、跑代码,作为一个懂技术并且对技术充满好奇心的创始人,这是梁文锋与其他同行的核心区别——这里的同行不只是指国内的量化基金创始人,也包括像Sam Altman这样的创始人。
幻方和DeepSeek鼓励内部形成不同主题的技术小组,成员之间可以自由交流和合作,内部氛围也非常宽松,并不采用常见的KPI、OKR的考核方式,一切基于这些职场新人的自我驱动力。 在幻方,每个人可以根据自己的能力和兴趣选择自己的研究方向,即使是刚毕业的新人也有机会去主导探索一个全新领域。这种氛围跟互联网大厂非常不一样,不需要你先去立项、证明价值,再与其他团队抢资源。 这样的文化氛围让人联想到刚成立时候的OpenAI,当时还是非盈利架构下的OpenAI、Ilya Sutskever、Andrej Karpathy、Mira Murati都还没有离职的OpenAI,可以说是一个纯粹的AI Lab。 而凝聚一个技术团队的核心就在于对技术本身的坚定信仰。 最近心资本的合伙人吴炳见在社交媒体上发了一段感慨: 他去年的时候去问DeepSeek的人“为什么你们的模型做的那么好”,对方回答说因为我们的老板自己读论文、自己写代码、自己做招聘,时间花在哪里,哪里就容易出效率,听着很简单,但真相往往就是这么纯粹。 但随着DeepSeek团队如今到了聚光灯下,更多的压力和更多的目光,梁文锋能否继续带领这个团队保持初心呢? 07 硅谷“错位的优越感”我们也联系上了幻方的创始人和管理团队,但很遗憾他们在这个时间点拒绝了我们的访问邀约,希望以后有机会可以直接和梁文锋与DeepSeek团队对话和访问。 DeepSeek带来的创新,无论是技术创新还是工程创新,在技术上都对硅谷带来了非常多的启发和讨论。 其中一位嘉宾说,在硅谷的AI发展路线在DeepSeek之前都开始非常趋同了:大家都做的一样的事情,用的一样的技术,采取一样的路线。但DeepSeek这次带来的耳目一新,重新又盘活了整个硅谷的AI大战。 无论是Meta、谷歌、OpenAI,还是Anthropic,大家的紧迫感又回来了——就像Meta创始人扎克伯格在一次All-hanDeepSeek全体员工会议中说,“所有人都要为紧张的一年做好准备。 就在硅谷重新回到“作战室”状态之际,我也很认同图灵奖得主Yann Lecun最近在LinkedIn上的发言: 在硅谷某些圈子里存在一种常见的疾病叫“错位的优越感”,认为你的小圈层垄断了所有的好主意,假设其他地方的创新是通过作弊获得的。 但现实是,当大量有才华的人参与并分享他们的创新时,科学技术才能进步得更快。 而之后的AI格局,开源与闭源路线之战,算力之战,大模型和小模型之战,应用之战可能才刚刚打响...我们也会在硅谷为您持续关注。 文章来源:钛媒体APP 转载声明: 本文为转载发布,仅代表原作者或原平台观点或立场,不代表我方观点。澳洲门户网仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络info@ozportal.tv。 |