【资料图】
1. 大模型还在向上探索,单个模型对于算力的需求依赖于跟参数量是呈正相关的,这种情况下伴随着模型越来越大,单个模型所需要的算力都会越来越大,所以大家理解算力的第一层逻辑其实核心就在于模型都没有看到临界点和拐点。2. 我们去理解一个大模型的好坏,数据质量是第一位的,第二位是数据的类型,第三位是数据的广度。数据的体量再大,里面培训的知识都是错的,这个大模型就会出现各种各样的错误和Bug。3. 围绕着国产芯片,包括整个英伟达这条链服务器,包括光模块的逻辑,是市场中今年就能兑现业绩且确定性最强的一个板块。以上,是
中信建投证券人工智能首席分析师于芳博,2023年4月6日在中信建投证券“繁荣的起点”2023年成长行业专题策略会上分享的最新观点。
中信建投证券研究产品中心整理了演讲全文,分享给大家。NLP算法发展历程介绍我这边侧重于个股会少一点,还是侧重于对于行业的理解,包括整个技术的演进框架。整个技术演进的过程中,会形成一系列的投资机会,本质上还是对于技术,包括应用和它自身的需求,把握这样一个投资机会。自然语言处理大体上是有三个阶段的,最早的阶段当时是基于规则的方法,制定语言的相关任务。比如from,一般指向最初东西来自哪里,这个时候我用起源地址标注。比如说to指向某些东西去向哪里,一般我用目的地去标注。它的泛化能力是非常差的,很多时候解决不了一词多意的问题,所以后来这个方法就转向了基于统计的方法去设计,比如说出现人工的情况下,智能出现的概率有多大?这个时候就非常依赖于数据集。比如说人工智能都排在一起,这个时候只要出现人工,背后肯定100%是智能,这个显然并不是我们想要的结果。这个领域后来有两个关键时间节点,2000年之后就引入了神经网络做这个领域里边的知识,其中2013年引入了word2vec,2017年引入了Transformer大模型技术。这两点我作一个详细的汇报,大家可以看到对于算力的需求究竟是什么样的。首先第一点我们先看词向量最核心的一点意义是通过数学的方法表征了语义的信息,我们常见在路演的时候,大家会问一个问题,ChatGPT到底是怎么去计算怎么去执行的?第一点,我问ChatGPT一个问题,这个问题是可以转化成若干个分词的,每个分词都可以转化为一维的向量,ChatGPT就是一系列矩阵组成的这么一个大模型,在推理的过程中,这种一维的向量进去跟这个矩阵进行点乘得出来的结果,再进行解码,实际上就是我们看到的输出的答案。第一点,我们讲两个过程,第一个过程叫训练,训练的过程其实就是填充。ChatGPT当中的这个矩阵是非常丰富的,它是一个96层的矩阵,每一层次又有好多的矩阵,在推理的过程中,向量在每一层都会点乘不同的矩阵,直到按照它的路径,认为这个词,在很多个巨大的矩阵中乘上1750亿次(GPT-3下),最终得到了输出的这个结果,表示出了我们想要的答案。所谓的训练其实是把矩阵里面的所有参数进行填充,所谓的推理实际上是把你问的话转化成词向量,在这个矩阵中进行不断地运算。推理的时候要计算1750亿次(GPT-3),因为它跟参数量是相关的,它实际上得出来的值是AX+B一系列的数字。所以这个过程中,第一点我们能看到的这个结论就是大模型所谓的单个模型对于算力的需求,它是跟参数量相关的,如果说一个参数量是1750亿次,它总共执行了乘1次加1次,1750亿×2,总共是3500亿次运算,对应的是0.35TFLOPs的算力需求。也就是说,整个ChatGPT每生成一个分词,就需要0.35TFLOPs的算力。这其中有两个概念。第一点,参数。它相当于我们的脑容量,参数量越大,这个人的脑容量就越大。第二点,参数的准确性,表明对这个事情认识得准不准确。这是核心去判断一个大模型的好与坏。这是word2vec的过程。第二点,Transformer的模型结构。它在2017年引入之后,正式开启了大模型的时代。最核心有两点,第一点解决残差的问题,我们在过去训练模型的时候,它其实是类似于一个倒着的函数,当参数量达到一定的阶段,它的性能反而会出现下降,它会出现过拟合的状态,伴随着参数量越大,实际的预测值和真实值的偏离度会越来越高。2015年有一篇文章解决了这个问题,残差再也不会影响大模型过拟合的状态,整个大模型系统,就会伴随着参数量上升而上升。这里面意味着两点,第一点人类探索大模型的极限还远远没有达到,因为大模型究竟达到什么样的参数量,达到什么样的智能,人类也不清楚。第二点,大模型还在向上探索,单个模型对于算力的需求依赖于跟参数量是呈正相关的,这种情况下伴随着模型越来越大,单个模型所需要的算力都会越来越大,所以大家理解算力的第一层逻辑其实核心就在于模型都没有看到临界点和拐点。第二点,这个模型它还有一个很重要的能力叫涌现能力,当模型参数量从百亿参数到千亿参数的时候,它会突然出现非常强的生成式的能力。所以客观上来讲,人类做到千万参数或者十万亿参数,到越来越多的视频和图片涌进来的时候,这个模型还会出现什么人类难以想象的能力?这些都是未知数。Transformer它有一个残差问题,解决了这个残差模型就可以越做越大,所以大模型才有了存在的必要。它其实是站在一个全局的角度,计算注意力机制,通常意义上去理解,是类似人眼的一种工作方式。核心注意力机制,比如说我要找一个饭店,我不会像过去的卷积神经网络,一行一行、一列一列去找到我想要的内容,而是人眼大概一扫,我站在全局通过挖掘深层次特征的不同,就能找到我所要的信息。本质上是能以更低的算力,或者以更低的资源消耗,站在全局的角度抓住关键的信息,把无论是图片也好、文字也好,各种的信息以极低的算力提取出来。这样的情况下,大模型涉及到大量特征提取,都已经不再是一个难题了。所以这两点就开启了2017年开始的大模型时代,大模型Transformer架构由谷歌提出,最开始的时候是有两条技术路线,一条技术路线是BERT路线,另一条技术路线是基于OpenAI的GPT路线。这两条路线有什么不同?首先BERT这条技术路线最大的一个特点是以编码器作为特征提取器,它是双向编码,比如说我们今天跟各位领导说“我今天吃饭很开心”,在整个自然语言理解中,BERT是计算“吃饭”这个词语与上下文的关联时,会同时跟前文“我今天”和后文“很开心”计算它们之间的相关性。但如果是GPT技术路线,它就完全是以前文“我今天”跟“吃饭”这个词计算关联性,不会计算后面的“很开心”与“吃饭”的关联性。所以BERT类似于完形填空,GPT类似于写作文。所以本质上这是两种理念,大家看一些聊天机器人的时候,回答短句回答得不是特别准确的,往往是回答的比较短,然后对于你的语义,比如说你问它会不会,它一般来讲第一字都会答“会与不会”,这是一个典型BERT式回答的特点。GPT的回答特点就不太一样,比如说我问这个春节都有什么习俗,它就会告诉我春节是中国人的传统佳节,这个时间段大家欢聚一堂,大家围在一起包饺子吃饺子,所以GPT典型的会以一个中心思想去延伸,答成一大串的内容。这两种路线做生成式的时候,毫无疑问GPT的技术路线会更好。所以到了2020年的10月份,谷歌就开始正式的技术转向,开始以解码器作为特征提取器去做这个领域里面的生成式任务。在2020年的10月份,谷歌跟OpenAI站在了同一技术理念上,到了2022年的1月份,谷歌就发表了LaMDA 1370亿的参数,完全基于GPT技术路线,并且在今年的2月份,发布了基于LaMDA算法的机器人。整个大模型提出之后,演进出了两条技术路线,这两条技术路线到现在殊途同归,所以大家现在目前看到的所有自然语言大模型,全部都基于OpenAI路线。所以这个是人类在探索的过程中,找到了一条正确的路径。
训练好大模型的要素接下来我们就要看到的是第二个篇章,大家可能会看到说,OpenAI也好,或者说谷歌也好,为什么差距会那么大?这个其实是很重要很重要的一点,包括百度的文心一言,包括将来国内4、5、6、7、8月份,每个月基本都有一些巨头要发布自己的大模型,怎么去判断大模型的好坏?怎么去判断它们之间的差距?这是我们接下来要讲的第二个篇章。我们要理解大模型当中都有什么样的内容,第一点我们要理解的其实是它的参数量,第二点理解预训练的数据量。参数量相当于人类的大脑,脑容量,天赋;预训练的数据量相当于后天老师对你的培养和培训,如果说这个人的天赋是清华大学,他最终考上了北华大学,那这个时候可能是后天训练的数据不够,所以他的表现就会比较差,参数量是脑容量。第二个很重要的点就是预训练的数据量,这个文章讲的内容就是一个700亿的参数模型用了原来4倍的数据量去进行训练,它的表现要比2800亿、1750亿、5300亿的参数模型表现还要好。背后反映的点是什么呢?即使我的天赋只能上比如说北京理工,当然北京理工已经是非常好的大学,但是我的老师很出色,他对我不断的培养,我最终就上了北理工。我的同学天赋很出色,他其实能上清华大学,但是他的老师培养不太好,所以他可能就上了比较一般的大学。所以大家其实可以看到,这个过程中数据的要素实际上是非常重要的。所以接下来我们就要回顾,整个GPT-3当中都是哪些数据要素在不同的时间节点起到了关键的作用?整个GPT-1到2到3,它就是一个数据量不断增加,并且数据质量不断提高的过程。如果我们去理解一个大模型的好坏,数据质量是第一位的,第二位是数据的类型,第三位是数据的广度。数据的体量再大,里面培训的知识都是错的,这个大模型就会出现各种各样的错误和Bug。我们可以看GPT-3的数据集,第一个数据集是日常网页的抓取;第二个数据集其实是来自于Reddit,美国知乎上的高赞文章;第三个是未发布的书籍;第四个是已发布的书籍,包括维基百科的数据。这里面权重最高的是哪两点呢?其实是WebText2,一个billion的数据占了1.2%的权重,那么整个Reddit上的高赞文章,从GPT-3的角度上面认为,是人类一个语言的重要精华。第二块就是维基百科的数据,一个billion占1%的权重。第二点,我们可以看到GPT-3到GPT-3.5的时候,按照一些理论和产业界认为,它很有可能引进了代码数据,GPT-3到GPT-3.5就突然出现了一些逻辑推理能力。代码是一个非常像人类能去推理的这样一个数据。所以这个过程中,3.5初步出现了推理能力,到了GPT-4的时候,大家认为它应该是在训练的过程中引入了大量高质量的论文数据。大家可能都比较清楚,大家在上硕士也好、博士也好,写论文一写一年半,这个过程当中论文是千锤百炼的,所以它的逻辑推理能力又进行了一个非常高效的提升。刚才讲了所有数据,包括网页,网页是开放的,爬虫就能抓。对标Reddit,我们中国的知乎,或者微信公众号高赞文章,目前这里面相当一部分都是私域流量。未发布的书籍,包括已发布的书籍,尤其是未发布书籍要很多时间。背后数据的重要性,它是给大模型提供的关键点,第二个层次是对专业数据的影响。华为3月20号发布的一篇文章,讲的是它盘古西格玛的大模型,这大模型对GPT-3的结构还略有不同,首先最底层是它固定的32层的Transformer架构,之上是有个8层的稀疏层,这8层的稀疏层是允许添加修改和删除的,这些专家的稀疏层我们客观上可以看到很重要很重要的一点,它其实是一些专业知识领域的理解。我们理解起来,下面的层是人类的通识教育,它是大学生,大学生真正的想长成研究员需要更多年的训练,才能形成一定的对行业和公司的理解,这个过程中,大量的企业有专有化的数据和特殊的数据,在这一层进行定制和修改,这个时候无论面向很尖端的金融行业的专家也好,包括航运的专家,比如说有一些公司它其实专门有大量的船运数据,比如说一些社保,这些都是未公开的,包括医疗领域里边电子病历的数据,这个是数据的第二个维度,大模型之上的专有小模型,这是数据背后的价值。所以大家在挖掘数据公司的时候,其实核心还是要围绕着两点,一个就是自身卖数据能给大型巨头的时候能收钱,第二个就是有一些自身专有数据,能打造出一些专有模型。第三点,核心就是要说算力了。大家可以看到,刚才对于算力的需求,它其实是三个维度的增长。第一点,维度增长是模型,我们现在都没有看到它的临界点,到底大模型到了什么程度,这是没有看到的第一个临界点。第二点,所有的巨头,包括中大型的企业自己内部都在搞大模型。第三点,现阶段对于训练端的算力需求,即使仅是训练这么一个情况,就已经把全球英伟达的A100、 H100所有的加速卡的库存都已经耗尽了。
算力需求的展望我们其实可以看到对于算力的需求,其实是各种应用的部署,比如我们典型算一个推理这一块,GPT-3或者ChatGPT也好,它单次的参数量是1750亿,证明整个进行运算的过程中,实际上是1750亿×2次的运算,也就是3500亿次运算,如果我们按照1000个分词的输出,大概对应是750字,350TFLOPs的需求,那么350TFLOPs,除上750,大体上是1个字的算力需求。如果我们假设有60个字的回答,每人问6个问题,这是我们2月底的数据,那个时候每日访客就已经接近5000万人次了,现在远远不止了。这种情况下,整个带来的算力需求,大概就能计算出一个总的算力。这个总的算力再除上算力利用率21.3%,至于说这个算力的逻辑演绎需要多少,如果我们去想想,第一点,如果所有的搜索引擎每一个搜索都要进行这样的一次推理,基本上一天的搜索量应该在60亿次到70亿次,比这个数应该还要再大个100倍左右。第二点,这个领域里面还有文生图和文生视频,图片是一个二维信息,视频是一个三维信息,每增加一个维度,算力都要再增加一个数量级,所以可以看到很明显的一点是整个算力,如果说全球范围内所有的搜索引擎,都引入ChatGPT技术,至少对于算力法的需求应该是几百亿美金,如果在一系列图片的生成也引入的话,它应该是一个小几千亿美金量级的一个算力需求。所以算力是人工智能这一轮逻辑当中确定性最强的,现在经常会有一万张卡这样的订单。基本上十万张卡,一张A100的卡能接近10万人民币这么一个规模,基本上一个大厂10万张×10万人民币,基本上是100多亿的需求,折合成美元应该在15亿美金这么一个规模,所以这个过程中算力的需求是非常旺盛的。我们觉得围绕着国产芯片,包括整个英伟达这条链服务器,包括光模块的逻辑,是市场中今年就能兑现业绩且确定性最强的一个板块。
相关应用发展情况除了算力以外,大也可以看到有一系列应用的诞生。我简单讲一家公司Duolingo,为什么讲这家公司呢?因为这是美股的一家上市公司,专门做了一个AI外教的APP,自从去年12月份它开始接入ChatGPT,打造了这么一个产品之后,它的股价从底价就翻倍了。这个APP核心就做了两个事情,第一件事情就是你问一个问题,AI外教给你回答。第二件事情,你回答问题的时候,我会就你回答的问题,语法上进行一系列的纠正。就这么一家我觉得还蛮简单的一家APP公司,在美股的市值已经接近60亿美金了,整个从底部也接近翻倍的市值。所以大家可以看到,在应用这个环节,因为今天时间的关系我不会作太多的汇报,客观上来讲,应用弹性实际上是相对来讲比较大的。整体上面我觉得算力这边是相对实一点,空间也能算得相对清楚一点。整个应用这边,应该从今年国内大模型4、5、6、7、8月份发布之后,整个领域里,我觉得产业应该在6-12个月之后,就会有一系列爆款现象级行为出现。
国内大模型发展情况这个领域里面我们接下来就判断国内应用爆发的时间节点在什么时间。过去2018年到2022年,国内所有预训练大模型顶级期刊发布的企业和科研机构的分布,这里面微软+OpenAI毫无疑问是第一,包括国内去年异军突起,包括华为、阿里、百度在这个方向的投入其实都蛮大。这里面还有两个巨头没有列进来,一家是字节跳动,一家是腾讯。这里头我觉得每家的定位也不同,我们先讲一下华为,华为是整个这个领域里面大模型最特殊的一家公司。首先别人都基于英伟达芯片加上海外的框架,华为是基于自己的生成AI芯片和自己MindSpore代码框架,大家知道华为这边侧重于炒硬比炒软更好一些,因为它跟别人最大的一点不同就是它硬件和框架是自己的。一系列的政策是要求你要有自己的硬件和自己的框架,国内现在能符合的巨头主要就是华为。华为总参数量是万亿级别参数,训练数据量是3290亿个分词,如果对标的话,GPT-3应该是4990亿分词,它分词量还是要少一点。但是我们可以看到,华为有两点表现非常惊艳,第一点是它的英文表现能力,在它整个训练集的数据来源当中,有相当一部分都是英文的数据,超过四分之一。第二点,还有四分之一的数据是代码,代码能对整个你的逻辑推理能力会有很大的增强。所以我们认为华为即将发布的一些大模型,它的英文的表现能力和它自身的逻辑推理能力应该都是国内比较强的。华为侧重于生成的AI服务器这一块领域里面的布局,原因就是我们去看华为大模型自己的内部架构,明显是给一些大型企业做私有云部署也好,做内部生产力工具也好,这样的一个架构,因为它高度考虑了这个过程中的定制化,专业数据的定制化。第二点从华为大模型的角度,我们觉得还有很重要的一点,它要作为自己的AIOT,包括它的手机,一系列产品中的生产力工具。第三点它还会面向跟华为云的技术结合,所有整个技术底座。所以华为这边下游场景可能不如阿里或者字节那么强在C端应用上,但是整体上它凭借着自己全部可控的供应链,在大B企业可能会有更好的相对其他大模型的表现。再有一点,阿里的大模型非常重视多模态,因为多模态对于阿里电商的场景是有非常强的加持,我们围绕着阿里,尤其要侧重它的电商场景。这个时候第一阶段接入阿里的大模型,在它整个垂直的电商场景当中,给它贡献一定的SaaS应用,可能会很快的爆发出现象级应用的一些领域,当然这里也有一些海内外大模型的对比就不多讲了。回到我们现阶段来看,其实整个这个市场大体上我梳理了一下,应该有6个点到7个点,当然这里不完全。第一条线是围绕着英伟达的,整个AI这一块的爆发,英伟达的这个爆发包含着给它的服务器代工、光模块以及一系列的相关的,包括原材料供应的一些公司,这是第一层链。第二条线除了算力以外,国内要做大模型的企业,这里我们列的是华为、百度、阿里、字节、腾讯,包括国内一些能做大模型的公司,典型比如说科大迅飞或者360,这个过程中我们说判断大模型好坏其实就四点:1、有没有决心?2、手里到底有多少钱,能买多少算力卡?以及在手的算力卡有多少?3、下游有没有很强的场景和护城河?4、在这个领域里面,核心就是你有多少的高质量数据,以及你已经搜集到的。当然还有很重要的一点,就是这个公司到底人才的招聘情况是怎么样的,这个是我们觉得在之后判断大模型跑马圈地的时候很重要的几个维度的判断。第三条线是在过程当中讲到的两种数据,一种是能给大模型贡献收费的贡献数据,比如说知网也好,万方也好;另外一点,这个数据就来自于一些垂直化产业链的应用,未公开的数据,这是一类型企业。当然,最后还有一些围绕着应用层面,应用层面有两种,一种有海外业务,有可能结合ChatGPT产品一系列海外应用的出海,再有一些就是围绕着国内的巨头,尤其是阿里、字节和腾讯,它们这儿产生高价值的SaaS应用是最容易出现落地情况的这些领域。所以整体上来讲,我觉得下半年,站在当前时间节点,算力配置的确定性,大概在今年Q4左右,快一点Q3,慢一点Q4,应该国内就会有一些现象级的应用出现了。这个过程中除了这种现象级应用之外,这里边还有一条线,就是纯的应用线,这个应用线就是现在的产业壁垒越来越高,我接入ChatGPT之后,能显著提升我的ARPU值,这种我觉得典型就像金山办公这样企业,也是一个作为整个板块性配置中的重要条线。