对话深势科技：合成数据是科学领域大模型非常重要的数据来源

正文概述

年度AI对话

文 |杨俊

编辑 |石亚琼

掌握了人工智能就掌握了新时代的生产力密玛。

在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的新热情。

因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨，通过一系列报道，还原AI新的技术能力与应用潜力。

本期我们邀请到了深势科技的机器学习算法负责人柯国霖、战略负责人王小佛。

深势科技曾联合北京科学智能研究院(AI for Science Institute, AISI)发布了科学领域的大规模预训练模型——DPA-1，DPA-1可以被认为是自然科学界的GPT。

在科学领域，也会用到大模型的能力。深势科技致力于运用人工智能和分子模拟算法，结合先进计算手段解决科学问题，他们在生物医药、能源、材料和信息科学与工程等领域研发多种AI产品。

深势科技此次向我们科普了科学领域的大模型，他们讲道：在science领域，模型的大小取决于实际使用场景。合成数据其实在科技领域是非常重要的数据来源；大模型可以帮助科研领域缩短研发时间。

以下为采访原文，经数字时氪编辑整理：

关于AI for science以及所需的大模型

作为人工智能发展的一大趋势，国际学术界已对AI for Science形成共识，它将带来科研范式的变革和新的产业业态。深势科技告诉我们：在science领域，大模型可以帮助企业缩短研发周期，而模型所需的大小取决于实际场景。

数字时氪：大模型对于AI for science的平台业务拓展有帮助么？

深势科技：目前绝大部分客户对于什么是大模型，大模型怎么用都还不太了解。具体到我们的客户，其实对他们来说，需求是非常具体地，比如要研发一个分子、要研发一个更好的电解液等等。

所以对他们来说，重要的是能不能获得更好的解决方案。

数字时氪：在AI for science领域，模型是越大越好吗？

深势科技：首先在science领域也包括制药领域，所有的数据都是有相对得客观标准的，而且我们需要的数据不一定是非结构化的语料数据，可能是结构化的数据。关于模型是不是越大越好，其实Sam Altman演讲的时候也说道大模型基本上就是这个量级了，更大的模型没有太大意义。

在 science领域里，我们发现更是这样。比如我们想让模型达到一个精度，因为科学领域是有客观标准的，因此这个精度是有上限的，当这个精度达到标准的时候，就没有提升的空间了，所以并不需要模型特别大。而且模型特别大的话，它的推理成本是很高的。很多公司不一定有许多的成本支持。所以模型的大小取决于实际场景。

合成数据其实在科学领域是非常重要的数据来源。相比于语言数据，科学领域的数据是更容易合成的。在很多场景下，我们可以从第一性原理出发，模拟计算、仿生出很多高质量数据。当然，合成的计算代价也不小，但相比于做实验得到的观测数据，还是要快得多。

我希望 AI 能够学到背后的物理规律，这样可以解决很多问题。其实我们希望AI有更多的通用性，这也体现在AI能真的学到物理规律上。

数字时氪：大模型在AI 制药算法平台上的应用情况？

深势科技：语言大模型可以轻易利用互联网上的大量文本数据，对文本数据进行额外的标注也很容易。但在药品设计的场景里，数据的获取是非常难的。很多数据其实都需要通过湿实验才能收集到。而这个周期可能是以月或年为单位，所以能获取到的标注数据其实非常少。对于这种小样本的场景，用大规模预训练模型是非常有效的。

具体来说，可以通过模型预训练将一些没有标注的样本进行充分学习，把表征学好。之后只需要把学好的预训练模型在小样本的训练场景下进行微调，一般就可以取得不错的效果。这种预训练大模型加上小样本微调的方式，也是我们目前使用多的大模型应用。

数字时氪：如何看待不同的AI制药公司的算法优劣？

深势科技：每家公司或多或少都有自己的优势。药物设计的流程很长，场景很多，很难说一家公司兼顾到所有场景。如果从整体上去看待一个平台，其实还是要看是不是方便用户使用，是否可以省时省力，真正提高效率。

对于深势科技来说，我们的Hermite®平台，从一开始就是云原生的，用户不需要本地安装，只要在使用的时候能比较方便地把一些常用的场景串起来就可以，这相比于很多的定制化来说，可以省时省力。

对于一些重点的场景，还是需要去看的。比如*能微扰计算，一般这个环节的结果会非常接近真实的实验结果，这是我们模拟的重要环节。因此，需要尽可能让用户获得和实验一样的结果，降低实验的成本。所以从我的角度来看，总结为2个方面，第一要有一个整体非常好用，使用方便的产品。另一方面做好关键产品，能让用户通过我们的产品获得收益。

深势科技和传统的science的结合还是非常紧密的，并卓有成效。我之前在某国际知名人工智能实验室的时候也有涉及相关的工作。那个时候大多数人的背景都是偏计算机、机器学习方面的。所以当时的想法和思维会比较受限。对于很多场景的问题，我们的理解是不如真正在做药的人或在science领域的人。

比如，以前我们在做很多任务的时候，经常会看指标、看分数或者排行榜。但其实真正制药的人会去看案例，他们会追求效果的因果性，比如这次的效果为什么好？模型起到怎样的作用？但此前我们不太关注这些，我们重点在看分数，所以当时的我们误解了很多东西，没有考虑到真实的使用场景。

现在国内的很多 AI 制药公司，其实还是在通过机器学习背景的视角思考问题。但深势科技有非常丰富的交叉学科背景，对于场景的把握更深。

深势科技的模型重点是从场景出发

深势科技发布的模型产品能够对生物制药、材料研发等多个领域进行服务。深势科技表示在预训练的时候可以针对几种不同的数据单独训练一个大模型，也可以融合所有数据做一个大模型，再针对不同的场景做适配

数字时氪：目前的模型是否需要根据制药、材料等使用场景进行定向研发？

深势科技：刚刚提到的几种行业，背后的数据都可以抽象成同一类，建模的时候都可以看作是原子。比如药物小分子就是有机小分子，有机小分子就是十几个或几十个原子，每个原子有自己的类型和坐标。

材料场景下其实也类似，材料的原子可能跟药物的不太一样，比如材料可能会有很多合金或金属。其实从模型的角度来看，建模基本是一样的，建模都是将原子折成坐标系上的一些信息。唯一的区别是不同的*可能原子的排布会不太一样。比如材料里面会有一种周期性，周期性是自重复的一种排布，那建模的时候就需要考虑小化重复单元格子的原则，这样可以节省建模的消耗。但从建模本身来看，几乎是一样，只是需要适配。

不同场景的数据不一样，比如药物场景有药物的数据，材料场景有材料的数据，其实在预训练的时候可以针对几种不同的数据单独训练一个大模型，也可以融合所有数据做一个大模型，再针对不同的场景做适配，这也是可以的。

数字时氪：给到客户使用的时候会有什么优化手段？

深势科技：目前我们的产品是两种形式，一种是直接推理 (inference) ，这个成本其实是比较低，因为推理相比训练的成本还是小很多的。对于我们这个领域，其实不像NLP、 CV会有非常高的并发的需求。其实很多客户在很多场景下的数据也不多，他们的消耗并不会特别大，同时我们也会根据具体情况进行微调。

用户用自己的数据在我们的模型上进行微调(finetune)，得到一个适配的模型，这时候的成本会稍微高一点。因为这时候我们就会让用户自己决定模型的效果，如果想要效果更好，就需要更多成本去做模型的训练。如果客户选择一个比较快的版本，可能会比前面提到的效果差一点，但整体效果也是可以的。

对于模型的优化方面，首先是速度、效率，另外精度方面也会做比较多的优化，因为我们的模型骨架也在持续地做迭代。我们其实更看重的是各种不同的应用场景，虽然我们现在有一个大模型，但主要重心是在药物场景，但药物的流程其实是很长的，周期很长，里面涉及的场景也很多。目前还有模型覆盖不到的地方，我们在争取把药物里常用的、大家关心的痛点场景都覆盖。

数字时氪：客户对于深势科技的模型有什么反馈？

深势科技：首先大模型是AI的一种实现路径，所以并不是模型可以适用所有的场景，在制药领域有很多流程，很多场景，所需要的东西是不一样的，所以并不是每个部分都需要用以及适合用或者有足够的数据能把大模型用起来。

所以，首先我们强调的是不是为了大模型而大模型。在分子性能预测方面，我们用大模型是做得蛮不错的。比如对于一个分子，需要预测出它的性质，可能是OLED 分子的发光效率，或者预测某一个分子的香味，这对于一个*或者是消费品的厂商来说是非常有用的。这里我们用的是和 GPT (Generative Pretrained Transformer) 类似的架构，也是Pretrained Transformer，在预训练之后，基于不同的场景使用。但这里与GPT还是有很大的差别。

其次我们强调的是和场景结合，从场景出发。

我们其实是在和用户一起挖掘大模型的潜力。比如我们在和某一个电池的厂商，一起做电解液的筛选，电解配方的筛选需要电解液有更好的导电效率、更好的稳定性。以前可能需要做大量的实验，需要大规模的实验机器人，现在可以通过大模型先做一波虚拟筛选。这就是一个很好的使用场景。但更多的使用场景还处在挖掘跟探索的过程。

数字时氪：如何解决数据安全的问题？用户的数据量差异会影响结果么？

深势科技：对于数据安全其实需要关注两个部分。第一是预训练时候的数据，第二是fine-tune时候的数据，这其实是两波不同的数据。

具体到分子这部分也是一样的。比如我们在和海外千亿级头部客户合作的时候，我们先用能找到大量参数数据，大概是2亿个数据，进行预训练。客户实际在fine-tune的时候只有 3000 个数据，因为从实验室得到3000个数据已经非常贵了。这时候我们把预训练模型和fine-tune脚本以服务的模式交付给对方，对方自己去做部署。我们可以全过程不接触客户的数据。

相比数据量，其实对结果影响更大的是数据的质量。一种可能是语言这种相对主观的数据，另外一种是比如化学、生物这种有评判标准的数据。尤其是第二类，在化工、制药领域，两个人做同一个实验都可能做不出同一个结果，所以实验本身、实验者水平、仪器的好坏，其实都是对数据的质量有影响的。我们在和电池厂商合作的时候，经常会发生在一个命题之下，我们做完了，但和对方的实验对不上的情况。这时候，我们两边都要去核查，有可能是实验的问题，有可能是我们的模型需要再调，所以这需要大量的迭代。

数字时氪：如何降低成本？

深势科技：我们在系统上的优化还是做的比较多的。比如我们自己做预训的模型，相比别人的模型的架构，在速度上、效率上我们都会快一个量级。

我们这边也同步做了工程优化。

比如我们原来训一个模型，可能需要用A100跑 7 天，现在优化时间可以减少至少70%-80%，使用时间变短，成本自然会减少。

数字时氪：你觉得目前的主要的难点是什么？

深势科技：从我的角度来看更多是如何凝聚市场的共识。需要让大家理解什么是AI for science，为什么我们要用这样的范式，这究竟可以带来多少效率提升？只有用户认可了，才能让这件事的重要性提升一个量级。

目前很多客户对这件事情本身并不了解或不理解，不管是技术应用还是未来能带来的产业和商业方面的价值，所以在宣传方面要花一个比较长的时间和周期。

比如我们跟一些企业沟通过程中，过去一些企业的原始创新基因较欠缺，这里面涉及多种因素，包括工具普及、发展阶段等等。现在突然有一个比较先进和新颖的工具能提质增效，对于企业来说，首先需要有学习的过程，无论是对工具的使用还是对知识*的理解。

所以对我们来讲，不仅需要帮他们从技术、工具方面做提升，另外也是在对这件事的价值进行传播和交流。

未来的大模型不需要人工prompt

数字时氪：你怎么看prompt工程？

深势科技：其实我和目前主流的看法可能不太一样，prompt和prompt engineering 可能不是一个终态，它可能是中间的一个过渡态。之所以这么认为，其实也是出于个人的一个体验。

比如Stable Diffusion这个产品，从产品刚开始出来的时候我就开始用，后来开始加各种插件，操作越来越复杂。

目前，如果我要生成一个图片，需要写好几百字的prompt，这就不是很智能、高效。所以当下人和模型交流其实是受限于这样的形式，所以与其把它定义为 prompt engineering，不如把它以human machine interface这样更大的概念去审视，那就会发现prompt其实是效率非常低的交流方式。

Auto GPT出来后，它可以直接完成一个相对复杂的、多任务的项目，这时候prompt的作用就大幅降低了。

数字时氪：当下在AI for science领域，Prompt工程是否重要？是否有具体的应用案例可以分享?

深势科技：Prompt工程的概念随着GPT和AI作图等软件而走热，诸如 FlowGPT 这样的prompt讨论社区和案例库走红网络；也有公司在LinkedIn上发布Prompt Engineer岗位，年薪超过 15万美元，引起热议。

然而同时，并不是所有人都认可prompt作为人与AI交互的接口。以AI制图为例，一个高质量的图片出品所需要的prompt数量在数十个到数百个不等，如何选择prompt并实验不同prompt的组合变成了一门 “玄学”，而为了保证成功率，人们一般会利用自动化软件模块对 prompt 的多样组织都进行生成，并从中选出合适的再进行优化。这样的步骤也被社区玩家们戏称为 “AI炼丹”。

不严格的说，目前 AI 的瓶颈既不在人，也不在机器，而恰恰是 prompt 所占据的“人机交互”部分。人知道自己要什么，机器也有满足人类需求的能力，然而人并无法高效的将自己的需求通过语言prompt传递给机器。解决这一瓶颈，也许需要超越语言的交互，比如多模态的交互，又比如“脑机接口”。

数字时氪：关于AI是否会让很多人失业这件事，你怎么看?

深势科技：从历史来看，技术的发展往往会改变劳动力市场的结构，部分工作会被淘汰，但同时也会催生新的就业机会。这之中不同主体所需要考虑的问题角度是不同的。企业需要考虑如何利用新的技术提高效率，增加竞争力，实现产业升级改造。*需要考虑采取一定的措施，降低AI发展对劳动力市场的冲击。而个人需要考虑如何学习新技能，适应新的工作环境。

值得指出的是，目前的全球经济是以消费为主要驱动力的，而AI更多是重塑生产端的业态。AI并非万能，很多领域仍需要人类的创造力、经验和人与人之间的情绪价值。因此，未来劳动力市场可能更多地呈现出人工智能与人类协作的局面，而非取代。例如，医疗领域的AI辅助诊断可以帮助医生更加准确地诊断疾病，但仍需要医生与患者进行沟通，制定个性化治疗方案，并在治疗过程中回应患者的情绪波动。

—

更多活动信息及行业详情，请关注微信公众号“数字时氪”（微信 ID ：digital36kr），期待您的到来。

本文来自微信公众号“数字时氪”（ID:digital36kr），作者：杨俊，36氪经授权发布。

以上就是【对话深势科技：合成数据是科学领域大模型非常重要的数据来源 | 年度AI对话】的相关内容，查看其它ai资讯请关注微咔网

根据二〇〇二年一月一日《计算机软件保护条例》第十七条规定：为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。

本网站所有发布的源码、软件和资料，均为作者提供或网友推荐收集各大资源网站整理而来，仅供功能验证和学习研究使用。

所有资源的文字介绍均为网络转载，本站不保证相关内容真实可信，同时不保证所有资源100%无错可用，也不提供相应的技术支持，介意勿下。

您必须在下载后24小时内删除，不得用于非法商业用途，不得违反国家法律，一切关于该资源的商业行为与本站无关。

如果您喜欢该程序，请支持正版源码，得到更好的正版服务。、如有侵犯你的版合法权益，请邮件与我们联系处理【投诉/建议发送至邮箱：3066548754@qq.com】，本站将立即改正并删除。

本声明为本站所有资源最终声明，所有与本声明不符的表述均以本声明内容为准。

微咔网 » 对话深势科技：合成数据是科学领域大模型非常重要的数据来源 | 年度AI对话