人工智能正处于翻新暴发期,唯有连续翻新,才干留在舞台核心文| 《财经》履行主编 马克 DeepSeek春节前夜爆火,迄今热度不减。DeepSeek彻底走开源道路,它的年夜模子既机能优良,练习本钱跟应用本钱又都超低,让人工智能从业者燃起了“我也能行”的盼望,让各行各业燃起了“赶快把人工智能用起来吧”的热忱。随同着这些奋发民气的新闻,也有一些虚实难辨的说法同时在传播,比方DeepSeek推翻了人工智能的开展偏向,DeepSeek的程度曾经超越人工智能行业的领头羊OpenAI;或许,DeepSeek是个宏大泡沫,它只是“蒸馏”了OpenAI的模子。为搞明白这些说法,这些天我研读了良多材料,也求教了一些专家,对DeepSeek毕竟翻新了什么、是否连续翻新有了开端谜底。先说第一个成绩的论断:DeepSeek的年夜模子采取了愈加高效的模子架构方式、练习框架跟算法,是宏大的工程翻新,但不是从0到1的推翻式翻新。DeepSeek并未转变人工智能行业的开展偏向,但年夜年夜放慢了人工智能的开展速率。为何会得出这个论断?咱们须要先懂得人工智能技巧的开展头绪。人工智能简史人工智能发端于上世纪40年月,曾经开展了近80年,奠定人是英国盘算机迷信家艾伦·图林(Alan Turing)。以他的名字定名的图林奖是盘算机迷信界的诺贝尔奖。现在,主导人工智能行业的是年夜模子技巧,主导利用是天生式AI——天生语义、语音、图像、视频。无论DeepSeek系列,仍是OpenAI的GPT系列,仍是豆包、Kimi、通义千问、文心一言,都属于年夜模子家属。年夜模子的实践基本是神经收集,这是一种试图让盘算机临摹人脑来任务的实践,该实践跟人工智能同时发端,但头40年都不是主流。20世纪80年月中前期,多层感知机模子跟反向传布算法失掉完美,神经收集实践才有了用武之地。多人对此作出要害奉献,此中最为咱们熟知的是客岁取得诺贝尔物理学奖的杰弗里・辛顿(Geoffrey Hinton),他领有英国跟加拿年夜双重国籍。 开展全文
神经收集实践厥后开展为深度进修实践,要害奉献者除了被誉为“深度进修之父”的杰弗里・辛顿,另有法国人杨·勒昆(Yann LeCun,中文名杨破昆)、德国人尤尔根・施密德胡伯(jürgen schmidhuber)。他们分辨提出或完美了三种模子架构方式:深度信心收集(DBN,2006)、卷积神经收集(CNN,1998)、轮回神经收集(RNN,1997),让基于多层神经收集的呆板深度进修得以实现。
但到此为止,都是小模子时期,DBN跟RNN的参数目平日是多少万到多少百万,CNN参数目最年夜,也只有多少亿。因而只能实现专门义务,比方基于CNN架构的谷歌AlphaGo,战胜了顶尖人类围棋手柯洁跟李世石,但它除了下围棋啥也不会。
2014年,开辟AlphaGo的谷歌DeepMind团队初次提出“留神力机制”。同岁尾,蒙特利尔年夜学教学约书亚·本吉奥(Yoshua Bengio)跟他的两名博士生宣布更细致的论文,这是神经收集实践的严重提高,极年夜加强了建模才能、进步了盘算效力、让年夜范围处置庞杂义务得以实现。
约书亚·本吉奥、杨·勒昆、杰弗里・辛顿一同取得了2019年的图林奖。
2017年,谷歌提出完整基于留神力机制的Transformer架构,开启年夜模子时期。迄今,包含DeepSeek在内的主流年夜模子都采取该架构。强化进修实践(Reinforcement Learning,RL)、混杂专家模子(Mixture of Experts,MOE,又译稀少模子)也是年夜模子的要害支持,相干实践均在上世纪90年月提出,21世纪10年月前期由谷歌率先用于产物开辟。
趁便廓清一个广泛曲解,MOE并不是跟Transformer并列的另一种模子架构方式,而是一种用来优化Transformer架构的方式。
明天的主流年夜模子,参数目已达万亿级,DeepSeek V3是6710亿。如斯年夜的模子,对算力的需要惊人,而英伟达的GPU芯片恰好供给了算力支撑,英伟达在AI芯片范畴的把持位置,既让它成为寰球市值最高的公司,也让它成为中国AI公司的痛点。
谷歌在年夜模子时期一起当先,但这多少年站在风口上的并不是谷歌,而是2015年才建立的OpenAI,它的各种年夜模子始终被视为业界顶流,被各路追逐者用来对标。这阐明在人工智能范畴,看似无可撼动的巨子,实在并非无奈挑衅。人工智能技巧固然开展了80年,但真正减速也就近来十多少年,进入暴发期也就近来两三年,厥后者一直无机会。DeepSeek公司2023年7月才建立,它的母体幻方量化建立于2016年2月,也比OpenAI年青。人工智能就是一个好汉出少年的行业。
开辟出能像人一样自立思考、自立进修、自立处理新成绩的通用人工智能体系(Artificial General Intelligence,AGI),是AI业界的最终目的,无论奥特曼仍是梁文峰,都把这个作为本人的任务。他们都抉择了年夜模子偏向,这是业界的主流偏向。
沿着年夜模子偏向,要花多久才干实现AGI?悲观的猜测是3-5年,守旧的猜测是5-10年。也就是说,业界以为最迟到2035年,AGI就可实现。
年夜模子的竞争至关主要,年夜模子是各行各业人工智能利用的最上游,它就像人的年夜脑,年夜脑批示四肢,年夜脑的品质决议全部人的进修、任务、生涯品质。
固然,年夜模子并非通往AGI的独一门路。正如上世纪90年月后“深度进修-年夜模子”道路推翻了人工智能头多少十年的“规矩体系-专家体系”道路,“深度进修-年夜模子”道路也有可能被推翻,只是咱们当初还看不到谁会是推翻者。
DeepSeek翻新了什么?
现在,DeepSeek又成了挑衅者,它真的曾经超出OpenAI了吗?并非如斯。DeepSeek在部分超越了OpenAI的程度,但团体而言OpenAI依然当先。
先来看两边的基本年夜模子,OpenAI是2024年5月宣布的GPT4-o,DeepSeek是2024年12月26日宣布的V3。斯坦福年夜学基本模子研讨核心有个寰球年夜模子综合排名,最新排名是往年1月10日,一共六个指标,各指标得分加总后,DeepSeek V3总分4.835,名列第一;GPT4-o(5月版)总分4.567,仅列第六。第二到第五名都是美国模子,第二名是Claude 3.5 Sonnet,总分4.819,开辟这个模子的Anthropic公司2021年2月才建立。
推理模子是年夜模子的新开展偏向,由于它的头脑形式更像人,后面说了,开辟出能像人一样自立思考、自立进修、自立处理新成绩的通用人工智能是AI业界的最终目的。
2024年9月12 日,OpenAI宣布天下上第一款推理年夜模子猎户座1号(orion1 ,o1),o1在处理数学、编程跟迷信成绩上的才能晋升惊人,但OpenAI走闭源道路,不颁布技巧道理,更别提技巧细节。一时光,怎样复刻o1,成为全天下AI从业者的寻求。
仅仅四个月后,往年1月20日,DeepSeek宣布天下第二款推理年夜模子R1,名字朴素无华,R就是推理(Reasoning)的缩写。测评成果表现,DeepSeek-R1与OpenAI-o1程度相称。但OpenAI 2024年12月20日推出了进级版o3,机能年夜年夜超越o1。现在还不R1跟o3的直接测评对照数据。
多模态也是年夜模子的主要开展偏向——既能天生语义(写代码也属于语义),也能天生语音、图像、视频,此中视频天生最难,耗费的盘算资本最多。DeepSeek 2024年10月宣布首个多模态模子Janus,往年1月28日宣布其进级版Janus-Pro-7B,其图像天生才能在测试中表示优良,但视频才能怎样尚无从知晓。GPT-4是多模态模子但不克不及天生视频,不外OpenAI领有专门的视频天生模子Sora。
把模子做小做精,少耗费盘算资本是另一个业界趋向,混杂专家模子的计划思绪就是这个目标,推理模子也能增加通用年夜模子的惊人耗费。在这方面,DeepSeek的表示显明比OpenAI优良,这些天最被人津津有味的就是DeepSeek的模子练习本钱只有OpenAI的1/10,应用本钱只有1/30。DeepSeek可能做到如斯高的性价比,是由于它的模子外面有出色的工程翻新,不是单点翻新,而是麋集翻新,每一个环节都有出色翻新。这里仅举三例。
★模子架构环节:年夜为优化的Transformer + MOE组合架构。
后面说过,这两个技巧都是谷歌率先提出并采取的,但DeepSeek用它们计划本人的模子时做了宏大优化,而且初次在模子中引入多头潜伏留神力机制(Multi-head Latent Attention,MLA),从而年夜年夜下降了算力跟存储资本的耗费。
★模子练习环节:FP8混杂精度练习框架。
传统上,年夜模子练习应用32位浮点数(FP32)格局来做盘算跟存储,这能保障精度,但盘算速率慢、存储空间占用年夜。怎样在盘算本钱跟盘算精度之间求得均衡,始终是业界困难。2022年,英伟达、Arm跟英特尔一同,最早提出8位浮点数格局(FP8),但由于美国公司不缺算力,该技巧浅尝辄止。DeepSeek则构建了FP8 混杂精度练习框架,依据差别的盘算义务跟数据特色,静态抉择FP8或 FP32 精度来停止盘算,把练习速率进步了50%,内存占用下降了40%。
★算法环节:新的强化进修算法GRPO。
强化进修的目标是让盘算机在不明白人类编程指令的情形下自立进修、自立实现义务,是通往通用人工智能的主要方式。强化进修后来由谷歌引领,练习AlphaGo时就应用了强化进修算法,然而OpenAI青出于蓝,2015年跟2017年接连推出两种新算法TRPO(Trust Region Policy Optimization,信赖地区战略优化)跟PPO (Proximal Policy Optimization,近端战略优化),DeepSeek更下层楼,推出新的强化进修算法GRPO( Group Relative Policy Optimization 组绝对战略优化),在明显下降盘算本钱的同时,还进步了模子的练习效力。
(GRPO算法公式。Source:DeepSeek-R1论文)
看到这里,对“DeepSeek只是‘蒸馏’了OpenAI模子”的说法,你确定曾经有了本人的断定。然而,DeepSeek的翻新是从0到1的推翻式翻新吗?
显然不是。推翻式翻新是指那种开拓了全新赛道,或招致既有赛道彻底转向的翻新。比方,汽车的发现推翻了交通行业,招致马车行业消散;智妙手机代替功效手机,虽不让手机行业消散,但彻底转变了手机的开展偏向。
回想人工智能简史,咱们明白看到,DeepSeek是沿着业界的主流偏向行进,他们做了很多出色的工程翻新,收缩了中美AI的差距,但仍处于追逐状况。白宫人工智能参谋年夜卫·萨克斯(David Sacks)评估说:DeepSeek-R1让中美的差距从6-12月收缩到3-6个月。
萨克斯说的是模子机能,但愈加意思不凡的是性价比——练习本钱1/10、应用本钱1/30,这让尖端AI技巧飞入平常庶民家成为事实。近来两周,各行各业的领头羊纷纭接入DeepSeek年夜模子,安排本行业的利用,拥抱AI的热忱史无前例。
但我必需再次提示,年夜模子技巧提高很快,不克不及对阶段性结果过于悲观。同时年夜模子在人工智能生态中处于最上游,是全部卑鄙利用的依靠,因而基本年夜模子的品质决议了各行各业人工智能利用的品质。
DeepSeek是否连续翻新?
在DeepSeek的安慰下,萨姆·奥特曼(Sam Altman)2月13日流露了OpenAI 的开展打算:将来多少周内将宣布GPT-4.5,将来多少个月内宣布GPT-5。GPT-5将整合推理模子o3的功效,是一个包括语义、语音、可视化图像创作、搜寻、深度研讨等多种功效的多模态体系。奥特曼说,以后用户不必再在一年夜堆模子中做抉择,GPT-5 将实现全部义务,实现“邪术般的同一智能”。果如所言,GPT-5离通用人工智能就又进了一步。
从用户角度,一个模子处理全部需要确定年夜为便利,就像从前手机只能打德律风,你出门还得带银行卡、购物卡、交通卡等一年夜堆货色,当初一部智妙手机全搞定。但全搞定的同时,所须要的盘算资本也会高得惊人,iPhone16的算力是昔时功效机的多少万万倍。奇观在于,咱们应用iPhone16的本钱反而比应用诺基亚8210的本钱更低。盼望如许的奇观也能产生在人工智能行业。
除了OpenAI,美国另有浩繁顶尖人工智能公司,他们的程度差距不年夜。早年面讲到的谁人斯坦福年夜学排名就能看出来,总分第一名跟第十名的分差只有0.335,均匀到每个指标差距不到0.06。而且种种测评榜的排名虽是主要参考,但不即是现实才能的高低。对DeepSeek而言,不只OpenAI,Anthropic、谷歌、Meta、xAI也都是微弱敌手。2月18日,xAI宣布了马斯克自称“地球最强AI”的年夜模子Grok-3。这个模子用了超越10万块H100芯片来练习,把年夜模子的scaling law(范围法令,盘算跟数据资本投入越多模子后果越好)推向极致,但也让scaling law的边沿效益递加裸露无遗。
固然,中国也不是DeepSeek一家在战役,中国也有浩繁优良人工智能公司。现实上,这些年来寰球人工智能始终是中美双峰并峙,只是美国那座峰更高一些。
只管如斯,我对梁文峰跟DeepSeek团队仍有信念。从梁文峰为数未几的采访中能够看出,他是一个既充斥幻想主义,又兢兢业业、有灵敏贸易脑筋的人。他本人确定懂技巧,但应当不是技巧蠢才,他有可能是乔布斯、马斯克那样能把技巧蠢才凑集在一同做出巨大产物的技巧型企业家。
梁文峰在接收《暗涌》专访时说:“咱们的中心技巧岗亭,基础以应届跟结业一两年的工资主。咱们选人的尺度始终都是酷爱跟猎奇心。招人时确保代价不雅分歧,而后经由过程企业文明来确保步伐分歧。”
“最主要的是参加到寰球翻新的海潮里去。从前三十多年IT海潮里,咱们基础不参加到真正的技巧翻新里。年夜局部中国公司习气follow(跟随),而不是翻新。中国AI跟美国真正的gap(差距)是原创跟模拟。假如这个不转变,中国永久只能是跟随者。”
“翻新起首是一个信心成绩。为什么硅谷那么有翻新精力?起首是敢。咱们在做最难的事。对顶级人才吸引最年夜的,确定是去处理天下上最难的成绩。”
乔布斯有句名言:只有猖狂到以为本人能够转变天下的人才干转变天下。从梁文峰身上,我看到了这句话的影子。
然而,咱们对中国AI超出美国万万不克不及自觉悲观,DeepSeek并不推翻算力算法数据三因素的年夜模子开展门路,DeepSeek的良多翻新都是由于芯片受限而不得不为,比方英伟达H100的通讯带宽是每秒900GB,H800就只有每秒400GB,但DeepSeek只能用H800来练习模子。
这些天我看了大批平静洋两岸对DeepSeek的批评,“necessity is the mother of invention(无可奈何是翻新之母)”,这句源自古希腊的谚语被差别的牛人说了好多少次。然而反过去想,DeepSeek能与OpenAI的同款产物打成平局,靠的是用逼出来的算法上风补充算力优势,可敌手已被点醒,假如他们开辟出同样好的算法,再加上更好的芯片,那中美年夜模子的差距能否会再次扩展?
另一方面,固然DeepSeek已可适配国产芯片,但斟酌到机能差距,算力优势短期内无解。除非咱们能再现电动车反转燃油车的局面,实现换道超车。比方,用量子芯片替换硅基芯片。
堕入这种思考真是一个喜剧——技巧翻新本应造福全人类,却被地缘政治要素歪曲。以是,咱们更应当为DeepSeek坚定走开源道路而拍手。
责编 | 秦李欣
题图|黎破前往搜狐,检查更多