智源研究院林咏华：未来十年的产业落地，大模型和小模型将共存-微咔网

正文概述

5月27日，创业黑马在北京举办“2023•黑马AIGC峰会”。此次大会的主题为“预见新世界，构建新格局”。有“AI专家”之称的卡耐基梅隆大学计算机学院前副院长、达沃斯世界经济论坛（WEF）计算机全球未来理事会前*贾斯汀•卡塞尔，以及360集团、智源研究院、昆仑万维、云知声、蓝色光标、万兴科技、知道创宇等众多行业内企业高层到场，与上千位参会者进行了深入交流。

在峰会现场，智源研究院副院长、总工程师林咏华分享了《大模型产业落地的五大思考》主题。

以下为分享内容整理，编辑做了不改变原意的整理：

经历了十年的发展，AI迎来了第三次浪潮，2022下半年的AIGC+ChatGPT大模型正是第三次浪潮谷底之后迎来的拐点，也是由大模型推动的新的一轮发展浪潮的来临。在拥抱新浪潮的过程中，大家都在思考大模型在产业落地中会带来什么变化、遇到什么问题，下面我将分享关于大模型产业落地的五点思考。

思考一：

大模型带来AI研发范式的改变

如上图，AI发展过程中第一种研发范式是“从头开始”，每个模型都需要准备自己的海量的训练数据，完成模型的整个训练过程，后部署模型的推理服务。在此过程中，很多AI的应用企业都需要为每一个应用领域的模型投入巨大资源，包括训练的数据、大的算力，以及端到端的深度学习算法团队。

2014年，预训练模型+微调的迁移学习技术开始发展，基础模型在计算机视觉领域首先出现。迁移学习，底座是基于通用数据训练的基础模型，当然可能底座没那么大，可以称为中型模型。迁移学习的过程是利用专业领域的数据对基础模型进行微调训练，是在不同的专业领域上对“知识”进行迁移。

2014年出现的基于预训练的基础模型+微调的迁移学习，是技术开始的萌芽。十年前，AI人才相对匮乏，很多企业没有深度学习的工程师。所以在那时，我和当时的团队思考如何让客户只上传数据到AI平台，然后通过平台调用已经训练好的基础模型自动进行迁移学习。这种迁移学习的微调训练过程通常需要的数据量少、时间短。我们当时就打造了无代玛开发的全流程AutoML计算机视觉深度学习pipeline，平台训练完成后，就可以根据用户的部署需要，自动部署为云平台上面的API服务、或者自动优化到各种GPU或FPGA芯片等。因此，基础模型+迁移学习的确可以大大降低广大下游AI应用研发的门槛。

因此，我把十年前开始的基础预训练模型+迁移学习的技术发展过程称为AI研发范式的第二阶段。AI企业利用海量通用数据训练了基础预训练模型，下游AI应用企业只需要用一定量的数据进行模型微调训练，后自己完成模型的推理部署。该阶段是过去十年引领AI发展浪潮的关键。相比之前的端到端训练范式，第二阶段的开发方式可以让下游的AI应用企业节省5-10倍的人力、算力和数据量。但它的扩展性差，因为我们为每个单独领域训练得到的模型都不具备跨领域或跨场景的泛化性，所以在复杂的场景下，需要训练多个模型。

过去的2-3年，在大模型蓬勃发展的基础上，AI的研发进入了第三阶段的范式，即基础大模型+应用提示（prompt），例如ChatGPT就是一个很好的例子。大型的AI大型研发企业获得千亿级海量数据，并通过巨大的算力训练出亿级参数以上的大模型进行部署，下游应用企业只需按照他们所需要的任务，通过API用提示学习的方法就能让大模型输出所需要的结果。

在此过程中，广大的下游应用企业，投入将大幅降低，不再需要进行模型微调训练，只需要直接调用API。同时，在一个大模型的支持下，可以开发多种下游应用。随着近半年各种大模型的出现，越来越多人被这种大模型+API提示学习的强大能力所震撼，的确也趋之若鹜。一时间学术界和产业界掀起巨大的大模型风浪，甚至出现了认为大模型会取代一切的声音。

思考二：

大模型+提示，会替代一切吗？

从产业落地的角度回答：不会！！

通过简单的提示学习，大模型可以完成各种任务，的确为AI产业落地打开了新的天地。但是，仅仅靠提示学习，大模型可以应对众多产业落地的需求吗？通过许多的实践，我们发现是不行的。首先，对于许多特定任务或新任务，提示学习或许能通过多轮提示prompt，让大模型输出需要的结果，但大模型“记不住”这个过程，而如果我们把整个提示prompt都加到每一次的调用中，一方面有可能使得prompt越加越长而超过了大模型的上下文能力，另一方面势必导致每次的推理开销增大、效果也会难以控制。所以，正确的做法是，需要通过指令微调训练，把一个领域的特定任务训练到模型中，变成模型本身就具有的能力。

所以用“提示”可以做一些快速的演示，但对产品落地而言，很多需求都难以满足、质量难以保证。因此，大模型产业落地，离不开对大模型的指令微调训练，甚至需要对基础预训练模型进行持续训练。图中列出了大模型不同阶段的训练及它们各自起到的作用，灰色是我们认为在大多数场景下必须的，白色是在某些场景下可选的。

一、训练基础预训练大模型：这个阶段成本高，通常由少数一些AI大公司或有能力的机构进行，例如智源研究院的主要大模型研发都在这个阶段。通过大规模基础模型的训练，我们把通用性的认知、知识训练到模型里，从而形成通用性的预训练基础大模型。

二、基础模型在行业知识领域的持续训练：通用基础模型能具备一定的领域知识，但通常不能达到领域的专业认知水平。所以，我们通过添加大量领域专业知识，对基础预训练模型进行持续训练，让通用的基础大模型变成领域专业的基础大模型。

三、针对行业领域应用特性的指令微调训练：拥有行业知识的大模型则需要指令微调，通过指令微调，让大模型知道如何调用“被灌输的”知识来完成特定的领域应用任务。

四、强化学习人类反馈训练：这一步不是每个领域应用都需要做，但对于某些领域应用在意偏好对齐，与企业定位、社会价值观对齐的时候，往往也需要通过这一步来让模型在不同的输出中，更容易输出偏好对齐的结果。

前面提到大模型技术推动AI技术研发范式出现了第三阶段，也就是大模型+应用提示的研发范式。其实，从产业落地的角度观察，基于小模型+迁移学习训练的第二阶段范式也是不可或缺，所以我认为第二阶段和第三阶段是并存状态。这里给大家分享一下我对这两种范式，或者说“小模型”和“大模型”之间在产业落地的差异性。

第一点区别，“微调”训练的目的不同。在小模型+迁移学习的范式中，目标领域的知识主要是通过迁移学习中添加的训练数据获得，需要确保在迁移学习过程中，微调训练所用的数据足以覆盖新的认知和场景。而大模型+指令微调训练，主要的知识是在大模型的基座上，指令微调并不是给它灌输知识，而是给它灌输该怎么完成领域特定的任务。

第二点区别，精度和领域应用不同。小模型+迁移学习容易在较窄的应用领域实现较高精度。所以，对精度要求高、对泛化能力要求低的窄域场景更合适的是小模型+迁移学习。比如工业的检测、工业的质检、医疗影像分析等等。但大模型更适合的是泛化能力要求高、通用能力要求高的广域场景，但往往对精度要求没那么高。

第三个区别，成本不同。小模型+迁移学习更适合的是要求低成本、延迟高的场景，而大模型目前还是适合对成本要求不那么敏感，对时延要求没那么敏感的领域。

目前很多AI从业者、企业的发展都是基于小模型的模式，也并不是所有的AI都会用到大模型。因此，在小模型赛道的AI企业可以考虑如何把大模型时代的新技术放进小模型里进行迭代。而在大模型赛道的AI企业，需要善于选择和实现合理尺寸的大模型，或者如何把大模型小型化。

总结一下，产业在未来十年的产业落地里，将是大模型和小模型长期共存的局面。大模型的“出世”，让很多投资机构和很多公司把注意力从传统的AI小模型转到了大模型，但两者是长期并存的，AI小模型很重要，AI大模型也不是万能的，它在产业落地方面有很多制约。所以在这一轮高热度的大模型发展过程中，如果遇到了一些不如意的地方，请不要那么快的对它丧失信心。

思考三：

大模型如何链接应用？

过去很多例子，都集中于如何用大模型使AI成为人类的助手。我们还应思考如何把大模型链接到传统软件，让大模型能产生更大的产业影响。

举例，传统数据库系统还需要中台、前端等应用系统，实际上可以尝试利用语言大模型实现自然语言交互的人机交互界面；通过对语言模型微调，实现自然语言到SQL语句的转换，并实现plug-in，从而操作指定的数据库及表格。同时，大模型可以带来更加容易的指令分拆，带来更好人机交互泛化性，使得设计更有*。在大模型刚出来的时候，我自己就进行过尝试。在大模型的加持下，整个过程很简单。从0开始，构建数据库演示环境、编写链接大模型输出和数据库之间的plugin、准备自然语言到SQL指令的微调数据、进行指令微调训练…等等，整个链条都打通到完成演示系统，仅需要一天时间。同时所需要的指令微调数据只需要很少量。在这个尝试下，让我们看到了利用大模型可以大大简化“应用界面—应用后端—数据库”这一个开发流程的可能性，并让人机交互变得更加自然简化。

第二个尝试在编译器领域。这也是较早时做的一个尝试，我们希望探索利用大模型来改变传统计算机软件开发的未来范式。当时的尝试是运用语言大模型在对Pytorch中的核心attention算子进行自动代玛转换，转换到一种新的编程语言上。整个尝试过程只需半天时间，包括整理了30多条用于代玛转换的微调数据、以及指令微调训练。当时只是在一个7B参数规模的语言模型上进行尝试，但已经获得可观的代玛自动转换准确率。通过这样的实践，让我看到了用大模型可以改造计算机技术领域的更大可能性。

思考四：

大模型时代，评测变得无比重要

预训练基础大模型的训练过程消耗资源十分昂贵，每天的算力成本动辄都是10万人民币以上。所以，我们往往需要通过评测，严格监测大模型在这个训练过程中，有没有走对每一步。和传统小模型比较，大模型的能力要复杂很多，所以在训练过程中， training loss、validation loss只能局部地反映模型的能力。而传统下游适配任务评测、上下文学习（in-context-learning）方式的评测，适合评测大模型在训练过程不同时期的能力。而对于生成任务为主的大模型，我们更是需要引入针对生成任务的主观评测。因此，是否有能力打造一套自动化+人工主观评测的大模型全面评价系统，并实现从评测结果到模型能力分析，再到模型能力提升的自动闭环，已经成为致力于基础大模型创新的重要壁垒之一。这也是智源研究院长期发展基础大模型技术的重点。

传统的评测*往往只注重在单一模态、并且评测维度分散，已经跟不上大模型的发展，面向多模态大模型的兴起，智源在去年也陆续发布了多个支持多模态、多语言的评测开源项目FlagEval。模型的发展太快了，它配套的评测能力也需要不断迭代。尤其是语言大模型，以前的评测*都是评测其理解能力，但今天更多使用的是其生成能力。所以我们面临的挑战在于大模型的生成能力如何评测。目前更多的是依靠主观评测，但主观评测不但存在效率问题，标准也难以统一。我们近不断引入AI的方法辅助人类完成生成能力的评测。

今天的大模型已经不是普通的语言大模型，而是认知模型。当我们希望从认知的角度来评测模型时，又是面临新的挑战。另外，这种认知模型也是人类思维能力的挑战。未来，我们会慢慢在模型能力考察中引入人的心智能力指标，对心智能力的评测就愈发困难，需要和心理学领域进行跨学科的合作。

思考五：大模型时代，

智源研究院的角色是什么？

大模型在未来十年进行产业化发展，我认为有5个重要部分十分值思考和突破，如图所示，包括：1.超大参数量；2.超大的训练数据量；3.如何对大模型进行评估；4.大模型的持续学习和定点纠错能力；5.如何突破大模型的效率问题。

这5个问题都十分挑战，因此大模型的发展离不开技术全栈的创新突破。大家看到的文生图应用、类chatGPT的对话模型等都是冰山露*面的部分。支撑这些突破性创新的是冰山在水面下的大模型全栈技术，包括打造高质量的基础大模型、支撑大模型的数据集和数据分析工具、大模型评测*，以及大模型系统创新，包括如何实现高效率的训练并行优化、资源平台调度、底层算子优化，甚至是不同的异构芯片技术等。这些是智源研究院持之以恒、倾力创新的重点。

智源研究院是开放、创新型研发机构，一直致力于大模型的全栈技术创新，也一直秉持开源开放的技术态度。因此，我们第一时间把研发出来的、关于大模型技术栈的所有成果全部开源出来。如今，已经牵头与多个高校和企业一起打造和开源了FlagOpen飞智大模型技术开源*。

在整个飞智大模型技术栈中，核心的是FlagAI，集成了全球主流的开源模型，并把新的并行优化技术和大模型的算法进行了整合。除此之外，在过去几年我们还积累了大量的数据分析工具，通过FlagData项目开源了出来；还有FlagEval多领域、*度的基础大模型评测开源项目。

智源研究院在20*率先确立了大模型研究战略方向，在20*连续发布了悟道1.0、2.0，包括当时全球大的1.75万亿参数的大模型。从去年到现在，智源研究院在大模型领域正在同时向更高尖、和更开放进行发展。第一，我们持续在大模型创新进行突破，悟道3.0不仅在语言模型上有持续往前的发展，在多模态领域的基础大模型更是获得了全面开花和全面突破；第二，我们通过打造FlagOpen飞智大模型开源*，实现面向全球的技术的开源开放，培育大模型全社区的发展；第三，智源研究院领衔国家级的大模型科技项目，帮助整个产业打造大模型技术基座。

开源开放，提供高质量的大模型技术基座，是智源研究院在全球大模型发展中的定位和使命。

黑马AIGC产业营

读懂AIGC底层逻辑，一步接入产业未来

3大核心认知，6大前沿主题

（扫描下图二维玛，即刻加入）

↓↓↓