解码DeepSeek模式：幻方量化十年孵化出OpenAI“杀手-星谷云移动云站

解码DeepSeek模式：幻方量化十年孵化出OpenAI“杀手

来源：安徽星谷云交通应用技术股份有限公司时间：2025-04-20 23:28

　　3。除此之外，DeepSeek推出开源论文R1，激发国际AI界关心，成为MIT和斯坦福研究人员的首选模子。

　　就连OpenAI方才推出的智能体Operator，只要月费200美元的订户才能利用，可是，用DeepSeek能够做出同样好的开源免费版本，并且曾经有四五个了。

　　我们能够看到，量化投资取AI研究，形成了幻方基因的双螺旋布局。2019年，幻方跻身百亿私募，这一年，幻方AI成立，而且起头建立萤火集群。2021年，幻方办理基金规模一度跨越千亿元，它起头建立更大更复杂的算力集群萤火二号。幻方的基金办理营业最灿烂的是2019年和2020年，天然年收益别离为58。69%和70。79%，此后由于行业等方面的缘由，量化成长一蹶不振，但幻方做为一家AI公司凸显出来。

　　DeepSeek远远不像是很多引见的、特别是海外报道和传说中的那样，是一家仅成立一年多的AI公司。现实上它脱胎于幻方量化基金，这是一家曾经开办了17年的、无数学、计较、研究和AI基因的对冲基金。

　　可是，DeepSeek也蹚出了一条，可能用500万美元、千张GPU卡锻炼出高性价比的模子，这让很多正在巨头面前感应、纷纷放弃预锻炼的草创AI企业，从这一点来说，DeepSeek开创了一种“模式”。

　　当2018年，幻方确立以AI为公司的次要成长标的目的时，就曾经必定了它将是一家AI手艺公司，而对冲基金是其其时次要的使用。

　　2023年4月11日，开源模子L1和GPT-4接踵发布之后，幻方颁布发表做大模子，2023年5月把手艺部分做大模子的团队出来，成立深度求索公司，进军通用人工智能AGI。

　　做为一家对冲基金，幻方起头确立以 AI 为公司的次要成长标的目的。可是，复杂的模子计较需求使得单机锻炼算力瓶颈，同时日益添加的锻炼需乞降无限的计较资本发生了矛盾，2018年，幻方的AI团队起头寻求大规模算力处理方案。

　　面临美国的和巨头的军备竞赛，中国的一些AI企业选择了一条分歧的道——开源。较低的成天性够做出优良可用的推理模子，并且好的模子为更“杀手”的使用，似乎是更无效的径。DeepSeek没有正在使用方面花一分钱推广，但它曾经正在国内和国际的各大使用商铺占领榜首。这让一些AI“小龙”们从头思虑，回归手艺，拥抱开源，如比来MiniMax判断转向开源。

　　到了2022年，ChatGPT时辰前夜，幻方曾经成为国内一家领先的AI公司，并且手中握有上万块英伟达A100卡和必然数量的AMD卡。萤火二号取得了多800换机互联加焦点扩展子树的软硬件架构改革，冲破了一期的物理，算力扩容翻倍。新的hi框架让模子加快50-100%。集群持续满载运转，平均占用率达到96%以上。全年运转使命135万个，共计5674万 GPU 时。用于科研支撑的闲时算力高达1533 万GPU 时，占比27%。

　　开源可以或许汇聚全球社区的力量，加快大模子的研发和使用立异。开源模子更容易被普遍采用，特别是正在算力和人才资本无限的国度和行业。通过开源，中国无机会正在全球AI范畴成立本人的手艺尺度。开源模子（如DeepSeek、阿里Qwen等）以高性价比著称，有帮于鞭策AI手艺的普惠化，将AI手艺推广到全球南方国度。

　　Srinivas认为，取其担忧中国的逃逐，更主要的是连结立异势头，继续鞭策手艺前进。“我们不应当把所有精神都集中正在和他们（中国AI企业）上，而是要勤奋正在合作中胜出。这才是美国人干事的体例——就是要做得更好。”？。

　　“他们推出了一个成本比GPT-4低10倍、比Claude低15倍的模子。运转速度很快，达到每秒60个token。正在某些基准测试中表示相当或更好，某些则稍差，但总体上取GPT-4程度相当。更令人惊讶的是，他们仅用了大约2048个H800 GPU，相当于1000-1500个H100 GPU，合计算成本仅500万美元摆布。这个模子免费，并发布了手艺论文。”。

　　莫非你们都把钱用来买OpenAI的办事了吗？现正在不是有DeepSeek，廉价10倍到20倍呵！并且，紧接着DeepSeek，字节的豆包-1。5-pro也推出了，比DeepSeek廉价5倍，比o1最多廉价200倍！

　　该当看到，以AI成长的全栈手艺来看，中国取美国仍然有较着的差距。越往底层走，差距越较着。正在AI芯片范畴，从GPU到HBM，中国自从手艺的差距正在两代到三代。而这一轮AI立异的一个凸起特征，是科技巨头从导的，它们具有便宜芯片（ASIC）、数据核心、云计较、AI平台及东西链、操做系统、杀手级使用，成立起全栈手艺的垂曲整合系统，此中尤以亚马逊、微软、谷歌这三大云办事巨头为代表。

　　DeepSeek取DeepMind和OpenAI一样逃求人才密度，所分歧的是，后两者接收了全球最优良的AI人才，而前者目前只接收了国内最优良的人才。记适当时我采访哈萨比斯时问过同样的问题，他回覆说：DeepMind吸引了全球60多个国度顶尖的博士生和科学家。

　　从硅谷到华尔街，阐发人士曾经起头思虑，DeepSeek可能对热炒AI的美国本钱市场，从一级到二级，会带来多大的影响。中国企业地板价的AI办事，AI相关根本设备的投资规模，等等。科技巨头每年巨额的AI本钱收入，短期内能否值得。美国AI概念股，能否需要来一次从头估值呢？而中国的AI概念股，能否也需要来一次从头估值呢？有人开打趣说，DeepSeek背后的幻方量化，正在发布V3、R1的同时，幻方能够成立起做空美国AI概念股的策略。

　　若是对比成立于2010年的DeepMind和成立于2015年的OpenAI，做为创业公司，幻方取其处于统一时代。DeepMind和OpenAI创立时都是纯粹的AI尝试室，以实现通用人工智能（AGI）为，并且正在这场深度进修中起到了前锋感化，从AlphaGo、AlphaFold到ChatGPT，都是性的手艺取产物。比拟之下，幻方AI一曲正在复刻研究其，曲到成立深度求索，推出DeepSeek大模子。从这一点来说，DeepSeek取得的成绩，是坐正在巨人的肩膀上。

　　DeepSeek曾经证明，美国无法正在AI范畴获取绝对的合作劣势，以至那些科技巨头都无法取得绝对的劣势。

　　2。DeepSeek由幻方量化基金创立，历经17年成长，从量化投资到AI研究，构成双螺旋布局。

　　OpenAI也正在向一家AI科技巨头演变，它仍然具有强大的手艺能力和品牌影响力。它正正在从根本模子向上下逛扩展，成立起本人的使用芯片团队和数据核心，加速结构基于推理模子的智能体，并全面摸索其贸易模式，若是高贵的而又尖端的推理和智能体手艺，最终证明能处理复杂和有价值的问题，正在性价比上仍然具有强大的合作力。

　　从AI买卖模子到幻方AI，再到DeepSeek，鞭策了幻方的对冲基金营业的同时，也一步一步从营业部分出来，并逐渐从头定义幻方这家公司。幻方AI的成长离不开对冲基金营业的支撑。进行持久的AI研究，离不开资金取算力资本的强无力支撑。DeepMind最初被谷歌收购，做为一家的公司，它一曲吃亏，但做为一家AI研究尝试室，正在谷歌内部的感化是计谋性的。

　　从中能够看出，DeepSeek的策略，是用接近最先辈的大模子和根本设备的机能，设想出远超其接近性的高性价比的产物，参取国际大模子合作。

　　美国的支流贸易、财经、以至分析时政，也起头报道DeepSeek现象。CNBC对AI独角兽Perplexity创始人CEO Aravind Srinivas的专访，从一个手艺财产专家的角度，对DeepSeek V3的亮点进行了点评。

　　其实2019年可能是幻方大模子之的起点，这一年，幻方AI（幻方人工智能根本研究无限公司）注册成立，努力于 AI 的算法取根本使用研究。AI 软硬件研发团队自研幻方“萤火一号”AI集群，搭载了500块显卡，利用 200Gbps 高速收集互联。一年之间，“萤火一号”总投资近2亿元，于2020年正式投用，满血搭载1100块加快卡，为幻方的AI研究供给算力支撑。

　　同样，OpenAI也从非营利改组为营利。此中微软先后投资达140亿美元，对于OpenAI能持续以大算力推进Scaling Law (扩展定律），以大资金和高估值吸引全球顶尖人才，成为一家生成式人工智能的领军企业，阐扬了至关主要的感化。

　　2024年，DeepSeek一口吻发布了从V1到V3三个根本模子版本，全数开源，若是看其研究部分之前几年发的论文和手艺博客，能够理解这也是厚积薄发的成果。我们正在客岁底的文章里引见了DeepSeek的8篇论文，这里再弥补引见两篇。一篇是被国际AI界普遍赞誉为2025年迄今为止最佳论文的R1。

　　对于所有的手艺公司来说，AI大模子将成为其手艺底座，也将沉构所有企业的IT和软件部分，这能够部门注释为什么一个企业内生的AI能力，强大到必然程度，有可能定义出企业新的增加曲线年幻方起头建立萤火一号起头，就必定了它了一家AI公司的轨迹。2021年，幻方建立萤火二号，正在亚太第一个拿到A100卡，正在ChatGPT之后，幻方成为全国少数几家具有上万张A100 GPU的机构。投资十多亿元建立万卡级算力集群，这不会是仅仅用于炒股。

　　“正在DeepSeek-R1-Zero的锻炼过程中，察看到一个出格风趣的现象，即“顿悟时辰”（aha moment) 的呈现。这一时辰呈现正在模子的两头版本中。此时，DeepSeek-R1-Zero学会了从头评估其初始方式，为问题分派更多的思虑时间。不只证了然模子推理能力的提拔，也了强化进修若何带来不测且复杂成果。

　　Srinivas认为Meta仍然会开辟出比DeepSeek 3更好的模子，“不管他们叫它L 4仍是3点几”。他出格强调了Meta正在开源范畴的贡献：“现实上，Meta的L 3。3手艺演讲很是细致，对科学成长很有价值。他们分享的细节曾经比其他公司多得多了。”比拟之下，DeepSeek的手艺演讲没有发布锻炼数据来历。

　　2008年，浙江大学进修消息取通信工程的梁文锋创立了幻方量化，曲到2014年，正在幻方量化的草创阶段，团队从零起头摸索全从动化买卖。

　　一些团队证明，采用了R1-Zero算法——给定一个根本言语模子、提醒和实正在励信号，运转强化进修，小到1。5B的开源模子，使用于一些逛戏傍边，都能复现出处理方案、验证、频频改正、曲四处理问题为止。1。5B模子更是能够下载到手机上，正在数学等机能上，相当于具有了一个机能相当GPT-4o和Claude 3。5 Sonnet的最先辈闭源模子。

　　这里要出格提及论文中有一段，用散文化的言语，描述了正在锻炼过程中呈现的模子“顿悟”的时辰。

　　DeepSeek-R1曾经成为MIT和斯坦福美国顶尖高校研究人员的首选模子。以至有研究人员暗示，它曾经取代了ChatGPT。其实最大的受益者，该当是中国用户，它让美国正在大模子上对中国的卡脖子根基无效了，中国大大都用户当前能够用上和美国根基相当的AI模子和使用。

　　这不只是模子的‘顿悟时辰’，也是研究人员的‘顿悟时辰’，他们察看到了强化进修的力量取美感：我们并未明白模子若何处理问题，而是为其供给了准确的激励，使其自从成长出高级的问题处理策略。‘顿悟时辰’无力地提示我们，强化进修有潜力正在人工系统中解锁新的智能程度，为将来更自从和自顺应的模子铺设道。”！

　　关于OpenAI的护城河问题，2023年5月，正在Meta发布了L开源模子后不久，谷歌内部即有人提出，我们没有护城河，OpenAI也没有。

　　4。因为DeepSeek的性价比劣势，美国科技巨头正在AI范畴的合作劣势遭到挑和，激发对AI本钱收入和投资规模的从头思虑。

　　“起首，他们锻炼了一个夹杂专家模子(Mixture of Experts)，这并不容易。人们难以逃逐OpenAI，出格是正在MOE架构方面，次要是由于存正在大量犯警则的丧失峰值，数值并不不变。但他们提出了很是巧妙的均衡方案，并且没有添加额外的手艺修补。他们还正在8位浮点锻炼方面取得冲破，巧妙地确定了哪些部门需要更高精度，哪些能够用更低精度。据我所知，8位浮点锻炼的理解还不敷深切，美国的大大都锻炼仍正在利用FP16。”。

　　所以，若是从深度求索公司成立算起，DeepSeek还不满2年；可是若是从成立幻方AI算起，已近5年；再从2016第一个AI股票仓位模子上线年。

　　Aravind Srinivas进一步指出了为什么美国地精英阶级起头发生的担心更具计谋意义：“比起试图他们（中国AI企业）逃逐，更的是他们现正在具有最好的开源模子，而所有美国开辟者都正在利用它进行开辟。这更，由于这意味着他们可能会控制整个美国AI生态系统的。汗青告诉我们，一旦开源赶上或超越闭源软件，所有开辟者城市转向开源。”。

　　幻方AI很快又投入10亿元扶植萤火二号。2021年，萤火二号一期确立以使命级分时安排共享AI算力的手艺方案，从软硬件两方面配合发力：高机能加快卡、节点间 200Gbps 高速收集互联、自研分布式并行文件系统（3FS）、收集拓扑通信方案（hfreduce）、算子库（hi。nn），高易用性使用层等，将萤火二号的机能阐扬至极限。

　　DeepSeek会影响浩繁企业AI计谋。跟着成本降低和拜候，企业现正在能够选择替代高贵的专有模子，例如OpenAI。DeepSeek的发布可能会使前沿AI 功能的拜候变得化，使较小的企业可以或许正在 AI 军备竞赛中无效合作。

　　若何建立一个高效的万卡算力集群？DeepSeek发布于2024年8月的论文，引见了高性价比的萤火AI-HPC架构，提出了深度进修的软件取硬件一体化设想的。按姓氏拼音字母，创始人梁文锋排正在第17位做者。

　　特别是正在根本模子上间接强化进修，成为浩繁AI尝试室及研究人员纷纷采用的新范式，为了过程中逃求DeepSeek的那一“呵哈时辰”，港科大帮理传授何俊贤团队，只用了8K个样本，就正在7B模子上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的锻炼。

　　全球最大开源平台HuggingFace团队，也正式颁布发表复刻DeepSeek-R1所有pipeline。完成之后，所有的锻炼数据、锻炼脚本等，亦将全数开源。DeepSeek已飙升至 HuggingFace 上下载量最多的模子，仅R1下载曾经跨越13万次（本文截稿时为止），蒸馏小模子如Qwen 32B 和1。5B，也都名列前茅。

　　特别是特朗普颁布发表了任期内投资5000亿美元AI根本设备的星际之门打算，由软银、OpenAI和甲骨文操盘，微软、英伟达、ARM等为手艺伙伴，更是把美国的AI成长的本钱+算力模式推到了一个新的高度，还不消说其他科技巨头每年高达数千亿的本钱收入次要投向AI。但DeepSeek以高效的锻炼和推理，让砸钱搞GPU军备竞赛的AI成长模式起头遭到一些质疑，成立正在这一根本之上的AI概念公司，无论正在一级市场，仍是正在二级市场，都面对着一次估值的。

　　中国AI公司DeepSeek发布高效推理模子DeepSeek-R1，机能根基跨越GPT-4，媲美OpenAI-o1，成本仅为其十分之一到二十分之一。

　　2015年才是幻方自认为的创始元年，实正依托数学取人工智能进行量化投资。“创始团队垂头丧气、怯于立异、勤奋奋进，立志成为世界的量化对冲基金。”2016年，幻方第一个AI模子成立的股票仓位上线实盘买卖，算力起头从CPU转向GPU。至 2017 岁尾，几乎所有的量化策略都曾经采用 AI 模子计较。

　　用DeepSeek，还呈现了一些新的弄法：如RAT，（ retrieval augment thinking)，把R1的推理过程，嫁接到任何一个大型言语模子上，能够显著提拔其机能，并获得函数挪用和JSON模式。

　　比拟之下，DeepSeek正正在摸索一条中国式的AI成长之，我们正在对2025年AI的十个瞻望中，第一条就提出来，中国将参取根本模子的立异，而不只仅是跟从。辞旧送新之际，我们再度对DeepSeek进行一次”模式“级此外梳理，分下面四个部门。

　　我正在2017年采访DeepMind创始人哈萨比斯时，他告诉我说，谷歌收购DeepMind，就是为了鞭策从挪动第一到AI第一的计谋转型。正在ChatGPT之后，谷歌更是对其内部显得芜杂的AI研发和营业进行了整合，全数合并到DeepMind旗下。

　　它的亮点包罗：对根本模子间接上强化进修，而不是先用收集起来很是耗时的监视数据进行锻炼；采用了群体策略相对优化（GRPO)，强化进修锻炼的成本和复杂性都获得了显著降低，同时连结了较好的机能表示；还蒸馏了6个Qwen和L的小模子，用起来愈加节流，并且针对范畴的机能愈加强大；出格是DeepSeek-R1-Distill-Qwen-1。5B正在数学基准测试中优于GPT-4o和Claude-3。5 Sonnet。它能够拆到一个手机里。

　　没想到这篇文章激发了一阵狂炒。DeepSeek-R1推理模子就正在特朗普就职日那天发布，机能根基跨越了GPT-4o，媲美OpenAI-o1，成本仅为其十分之一到二十分之一。此次不只让硅谷懵逼，并且让华尔街也不安起来。

　　正在美国对中国实施芯片的布景下，DeepSeek展示了一种实正的立异——需求鞭策的立异。中国企业正在仅能从中国本土企业获得比美国掉队一两代GPU前提下，仍然可以或许开辟出优良的根本模子。这种立异不只仅依赖于GPU和本钱的军备竞赛，而是通过算法、架构和工程的立异实现了冲破。

　　DeepSeek团队出格设想了HFReduce以加快allreduce通信，并实施了多项办法以确保计较-存储一体化收集无堵塞。通过我们的软件仓库（包罗HaiScale、3FS和HAI-Platform），还通过堆叠计较和通信实现了显著的扩展性。

　　DeepSeek-R1激起了开辟人员极大的热情，社交和社区网坐上，大师兴奋地分享着本人的测验考试，并交换着对他们的 AI 开辟意味着什么。用户评论说，DeepSeek的搜刮功能现正在优于 OpenAI 和 Perplexity ，只要 Google 的 Gemini Deep Research 能够取之匹敌。

　　DeepSeek从一家对冲基金的手艺研究部分，逐渐将其母体改变为一家AI公司，这是一个很是特殊的例子。对冲基金和AI手艺都来自美国，但无论是华尔街的对冲基金、仍是从华尔街海归做量化的团队，没有一个能像幻方如许，进化出一个做通用AI大模子的焦点能力，例如，彭博已经很早推出了BloombergGPT大模子，然后就没有然后了。从这一点上来说，DeepSeek这个本土团队是奇特的，没有“模式”可谈。

　　从中能够推算出，正在2022年，幻方曾经平均每天用4。2万GPU时，相当于每天有近2000张GPU卡正在几乎满负荷跑科研而不是买卖。若是按照其时A100每小时云办事的市场价，相当于每年正在科研方面投入2亿元人平易近币。如许规模的AI研究，正在其时的国内处于领先形态，正在其时的国际上巨头之外的AI草创公司中，也算得上是领先的。

　　今天，是这一问题再次提出的时候了。起首是OpenAI的护城河正在哪里。跟着AI手艺进入现实使用范畴，性价比成为环节要素，而非纯真逃求最先辈的模子。OpenAI等公司投入数十亿以至上百亿美元进行预锻炼和根本设备扶植，但若是其手艺护城河不敷深，其贸易模式将面对挑和。这种高投入的模式能否可持续，成为从硅谷到华尔街令人感应焦炙的问题。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会