国海证券：大模子手艺驱动AI估值送来沉塑维持-星谷云移动云站

国海证券：大模子手艺驱动AI估值送来沉塑维持

来源：安徽星谷云交通应用技术股份有限公司时间：2025-04-23 03:15

　　国海证券发布研报称，大模子手艺正送来加快变化，从架构立异到锻炼范式升级，鞭策AGI时代加快到来。模子架构MoE取Transformer融合成为支流，合成数据成为新型石油。DeepSeek带动强化进修新范式。通过MLA等低秩分化手艺，当地摆设32B级模子仅需消费级显卡，大模子落地送来实正元年。大模子手艺稳步提拔，鞭策AGI时代加快到来，以大模子为底座的手艺迭代或将持续驱动国产AI估值送来沉塑，维持计较机行业“保举”评级。2017年谷歌团队提出Transformer架构，创制性鞭策留意力层以及前馈神经收集层的成长，加快提拔模子机能。2018–2020年是预锻炼Transformer模子时代，GPT-3以1750亿参数冲破大规模预锻炼的可能性边界，此后跟着锻炼侧Scaling Law描述的幂律关系呈现收益递减，叠加高质量文本数据或逐渐被AI耗尽，推理模子起头进入人们视野；以OpenAI发布o1-preview将AIME2024的模子回覆精确率从GPT4o的13。4%提拔至56。7%，模子维持加快迭代更新。资本无限的前提下，估计低成本高机能逃平海外SOTA为2025年国产大模子的从题。该行以DeepSeek、豆包、阿里千问为例，1)DeepSeek-R1/V3依托立异的降本提效手段，焦点旨正在资本无限的前提下，2)豆包大模子正在2024年下半年发力，月活数据冲上全球第二和国内第一；同样正在降本增效范式上依托稀少MoE架构实现小参数高机能；3)阿里Qwen引领国产开源模子标杆的同时，依托强化进修范式推出的QwQ-32B已登顶全球最强开源模子，以32B参数模子逃平DeepSeek-R1满血模子机能，小参数高机能持续成为从旋律。模子正在架构以及pre-training——post training——落地层面均送来加快变化。1)模子架构层面，MoE取Transformer融合当前逐渐成为支流架构，2024年全球MoE大模子数量呈迸发增加态势；2)pre-training层面，高质量数据或逐渐耗尽的布景下，合成数据已然成为数字经济时代的“新型石油”，继续支持模子的锻炼迭代；3)post-training方面，推理模子机能飞跃的环节也逐渐转向该阶段阶段RL计较量和测试推理阶段的思虑时间，DeepSeek带动模子加快低成本摆设趋向，实现当地化摆设DeepSeek-R1-32B及以下模子仅需要消费级显卡，大模子落地送来实正意义上的元年。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会