大模型时代，商汤造“工厂”-微咔网

作者｜油醋

邮箱｜zhuzheng@pingwest.com2018年冬天，临港成为上海自贸区新片区的时候，特斯拉没有Model Y，OpenAI没有ChatGPT。眼下，这两块招牌背后，电动汽车和生成式AI已是当下全球产业中热闹的两件事。甚至前者在AI展现的新能力映衬下都显得有些“传统”了。越来越多的人隐约有一种生活状态将被颠覆的感觉。电动汽车给埋在发动机旁边一百多年的油罐做了分离手术，如果越来越多人现在已经习惯了这一点的话，ChatGPT又扛着新的AI大旗说，不止出行方式，整个人类的生产方式——人类如何获取知识，如何写代玛和工作方案——都要彻底改变了。上海临港悄然站到了这两场变革的关键位置。现在这里是国内场景丰富的自动驾驶测试场。特斯拉在美国本土之外的首座超级工厂几年前落在这里，另一座特斯拉储能超级工厂几年后也会在这里落地——同样的，如果越来越多人现在已经习惯了这些的话——距离特斯拉超级工厂3公里外的一座人工智能计算中心（AIDC）则正在愈发引来新的注目。这个建筑面积接近20个足球场大小的空间里，安置了5000个服务器机柜和多达27000块GPU，背后的建造者是商汤科技。与这个AIDC的建造相隔不久，商汤科技在2019年第一次推出了自研的CV（计算机视觉）模型，用10亿的参数规模实现了当时业界好的算法效果。两年之后，商汤开始训练30亿参数的多模态大模型“书生”，并在20*开源。4月10日，商汤科技CEO徐立出现在临港AIDC的现场，背后是一张AI生成的图案，画面上是一个人类宇航员正在走入一个新的科技世界。这个在复杂而具体的商业场景中成长起来的中国AI公司，正式拉开了自己的大模型叙事。一整套大模型商汤大模型研究的起点，可以回溯到4、5年前。数据库ImageNet项目中有1400万张手动标注的图像，是目前世界上大的视觉数据库。任何一个CV（计算机视觉）模型都绕不开它。在利用ImageNet训练AlexNet模型时，可以大致衡量一个CV大模型的学习能力。2019年，商汤科技团队和新加坡南洋理工大学的研究者一起，用512块GPU把在ImageNet数据集上训练AlexNet的时间缩短到90秒，大幅提升此前腾讯用1024块GPU创造的4分钟短时间。数据库ImageNet项目中有1400万张手动标注的图像，是目前世界上大的视觉数据库。利用ImageNet训练AlexNet模型的耗时，是高性能AI训练和计算的一个衡量尺度，关乎AI生产及后续迭代的研发效率。这次性能突破在行业之外并不惹眼，但对商汤科技在大模型研发中的架构能力发展意义重大。商汤科技从2018年开始了AI大模型的研发，一年之后已经具备了千卡并行的系统能力。那两年是商汤在大模型研发的起步。2019年，商汤自研了一个10亿参数的CV大模型，实现了当时业界好的算法效果。这个10亿参数的模型现在已进一步发展成一个320亿参数量的、全球大的CV大模型，并且从去年开始在自动驾驶、工业质检等多个领域发挥作用。而这个CV大模型现在只是商汤科技大模型*中的一个。4月10日的上海临港AIDC，商汤科技首次公布了“日日新SenseNova”的大模型*。同样首次公布的，还有在NLP（自然语言处理）、AIGC（人工智能内容生成）领域的多个AI大模型。图源：商汤科技依托于千亿级参数的NLP模型，商汤科技发布了新的自研中文语言大模型应用平台“商量SenseChat”。如同名字的字面意思，生成式自然语言大模型重要的能力并不只是问答，在与人的多轮对话中步步逼近精准答案的能力同样重要。这考验着大模型在语义理解基础上的逻辑推演水平。徐立在现场实时演示了如何用“商量”来完成童话故事的续写、邀请函的文本创作和细节修改。在展示中，“商量”已经具备相当的逻辑推理能力，并且在多轮对话中展现了不错的上下文理解水平。图源：商汤科技商汤科技也展示了语言大模型支持下的几项创新应用，比如帮助开发者更高效地编写和调试代玛，或者为用户提供个性化的医疗建议。值得一提的是，“商量”在短时间内完成了对一整部《专利法》的理解，并且能够顺利的从中提取和概括信息来回答问题，答案准确。这显示这个语言大模型也具备了一定的对超长文本的理解能力。图源：商汤科技基于这个大语言模型，商汤科技发布了包括AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列自研的生成式AI应用。文生图创作平台 “秒画SenseMirage”展现了光影真实、细节丰富、风格多变的强大文生图能力，可支持6K高清图的生成；客户还可根据自身需求训练生成模型；AI数字人视频生成平台“如影SenseAvatar”仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。图源：商汤科技“琼宇SenseSpace”和“格物SenseThings”则是两个3D内容生成平台。基于神经辐射场技术（NeRF），“琼宇SenseSpace”具备城市级大尺度的空间重建生成能力，只需要2天即可完成100平方公里的空间生成（算力为1200 TFLOPS的标准下），建模效率相当于传统人工建模的500人水平；“格物SenseThings”可实现各品类物体，包括光照和材质维度在内的细致还原，并且支持如航天器模型、室内盆栽等复杂结构物体的复刻。两套平台生成的各类3D内容都能够进行再编辑再创作。图源：商汤科技从“秒画SenseMirage”、“如影SenseAvatar”到“琼宇SenseSpace”和“格物SenseThings”，可被视为一个完整的视频内容的制作和生成工具平台。人、物到空间的数字化闭环都包含在这套生成式AI应用矩阵里。将为未来短视频、直播产业带来生产力的提升。这些都归于商汤科技“日日新SenseNova”的大模型*之下。徐立表示，这个名字取自《大学》的第三章中，汤之《盘铭》的一句“苟日新、日日新、又日新”。商汤科技也希望商汤大模型*的迭代速度及处理问题的能力上可以日日更新。做大模型，也做流水线工厂一个大模型里，参数量与处理数据量的乘积，就是所需要的计算量。Meta在今年2月发布了语言模型LLaMA，这个仅有130亿参数的语言模型在性能表现上超过了拥有十倍于它（1750亿）参数的GPT-3，这或许是一个新的趋势。当计算量由于有限的可调用资源而被设定出一个上限时，大模型的迭*始变成一个参数量与数据量的分配问题。大量权重会给到数据，因此现实场景中的垂直领域大模型，其参数量不能肆无忌惮的增长。从一个通用的千亿（甚至万亿）大模型里追求智能涌现，然后蒸馏出百亿或者数十亿级参数规模的大模型，以此为垂直领域大模型的训练起点，这是目前AI领域大模型落地的研发思路。因此对于终意在服务于具体场景的商汤科技来说，一个通用、全修的大模型是必须的。但这只是基础。从生产方式上，此前人类历史上闪耀的算法模型，从谷歌、抖音的信息流算法，甚至到Bert与GPT-3，某种程度上都仍然出自小模型时代模型的生产方法。在ChatGPT劈开红海后，关于大模型曲折的一段共识道路已经走完。当大模型开始规模化的成为一种生产力工具，其批量生产所需要的算力以及资源效率需要一个新的生产范式。这意味着大模型的研发已经从一场思维竞赛，过渡到一个数据获取和算力调配的效率竞赛。“很多人认为，只要买了这么多GPU，就可以去搭建超大规模的训练集*，这是很大的误区。其实训练人工智能大模型，造超级AI计算机去完成任务，我认为是工程的奇迹。”陈宇恒表示。过去5年，超大参数AI大模型的参数量几乎每一年提升一个数量级。过往的10年，好的AI算法对于算力的需求增长超过了100万倍。但算力并不只是GPU数量的正相关。上万张GPU的并行效率背后是系统架构和网络架构设计的复杂工程。否则，虽然1万张卡和1000张卡理论来说是有10倍的训练速度，但实际上可能1万张卡只能有1000张卡2倍的训练效率。集*框架的设计，数据存储等因素都是修炼大模型时需要前置的问题。换句话说，大模型的修炼开始普遍成为一个工程学问题。如何让大模型的生产范式从小作坊转变到流水线工厂——汤科技希望临港AIDC能成为那个工程学答案。为什么是商汤临港AIDC——或者叫做“SenseCore AI大装置”——正是为此而搭建的。这是一个巨大的算力中心，也是一个融合了“大模型+大算力”*的研发实体。临港AIDC 图源：新民晚报临港AIDC在算力规模、并行训练能力以及稳定性方面的基础素质，使其可以为大模型研发提供强大的驱动力。SenseCore商汤AI大装置目前包含27,000块GPU，可输出5000 Petaflops算力，是亚洲大的智能计算平台之一。以巨大算力规模为基础，SenseCore AI大装置目前可支持20个千亿参数量的超大模型同时训练，并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务*，并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务*。在AI大模型时代，衡量算力能力和核心指标不是简单的数字，其一是多卡并行状态下的有效利用率，即能够支撑大模型训练的实际算力；其二是系统能够持续稳定运行的时长。SenseCore AI大装置拥有出色的并行计算能力，能够以大4000卡规模集*进行单任务训练，并可做到七天以上不间断的稳定训练。SenseCore AI大装置在20*已支持了超过10个大模型训练项目，其中不仅有商汤自身的大模型训练项目，也包含了一些其他企业自定义的模型训练任务。在4000卡规模集*的训练关键指标达到世界领先之后，SenseCore AI大装置将为商汤科技未来万亿级参数规模的大模型训练提供基础。算力层、以及平台层和算法层的三层结构组成了SenseCore商汤AI大装置的整体架构。基于AI大装置和“日日新SenseNova”大模型*，商汤科技也将面向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务（Model-as-a-Service）。图源：商汤科技某种程度上，大模型算法本身是大模型在实际场景落地中那个容易跨越的环节，更多的矛盾集中在后续的工程能力，以及成本控制上。垂直领域大模型近年在技术上已经开始越过工业红线，但它的成本仍然太高。换句话说，AI已经证明了“能不能”的问题，接下来的问题是“够不够便宜”。这些都是SenseCore商汤AI大装置在数据标注效率、模型部署成本等环节希望解决的问题。“它不单是说在AI的生产上做了产品的壳，它是提供了一整套工具和产品以及解决方案，把人工智能大模型的新的生产范式去做整体的商业化，以及对外的服务，去推进人工智能领域的整个商业化的发展。”陈宇恒这样描述SenseCore商汤AI大装置的角色定位。换个角度，SenseCore商汤AI大装置是一套IaaS+PaaS的产品*。从每个模型单独标注数据、单独训练的模式的“小作坊”模式，过渡到由少数大模型不断生产、迭代进化，由大模型支撑领域模型升级，再通过精调等手段，生产行业及场景模型，迅速达到应用标准的“流水线”模式。商汤科技需要这样一个大模型生产“工厂”，在未来大量新的AI大模型的研发过程中尽早和产业场景做结合，从研发端开始压缩这条技术链路。这决定了大模型研发降本增效的程度，AI在生产和应用端的成本降低会引导出新的商业模式，这终会缩短AI与现实的距离。一位国内自然语言公司的从业者曾对品玩表示，“技术和场景，一家AI公司好只选一头”。这句话的背景是2016年左右人工智能在国内激起的第一波浪潮，言下之意，彼时一穷二白的人工智能初创公司，需要集中精力先生存。商汤科技也是在那一次浪潮中涌现出来的人工智能公司，但却是其中少有终完成上市的一个。现在新的大模型浪潮涌动，作为一家人工智能平台型公司的商汤科技，面临的局面也今时不同往日。当下大模型竞争的重要参与者，微软、Gооgle包括近日推出Segment的Meta，大模型的背后都是坚实的场景支撑，并且两者会在很早期就开始融合。商汤的处境相似，一家人工智能公司要长久保持技术活力。需要在技术和场景两端同时建立脉络。“技术和商业要齐头并进”，陈宇恒表达了类似的判断。这既是说大模型要尽早的进入现实环境中去自我优化，也可以理解为未来大模型的研发过程本身就要尽早放入相应的产业语境里来完成，以产品的形式来形成用户反馈的闭环。而已经走入智慧汽车、智慧城市等领域产业深处的商汤科技，需要承担起这个未来大模型生产方式变革中的基础设施角色。