文章最后更新时间:2023-10-26,由天天资讯负责审核发布,若内容或图片失效,请联系客服!
大型AI模型在生物医学领域的前景如何? 百度智能云在生物医药行业取得了哪些成果?
为了探讨这些问题,本次耀智专访独家采访了百度智能云泛科技行业总经理张伟和互联网行业大客户总监刘川,为我们提供了对大数据的深度剖析。 AI模型及其对医药行业的影响!
Q:大模型领域现在发展如何? 其发展趋势如何?
张伟:大模型的发展非常快。 可以说是日新月异。 自去年发布以来,这波热潮席卷全球。
其实从百度的角度来看,我们整个大模型的研发是非常早的。 我们早在2019年就开始了文心系列大模型的研发,10月17日,我们发布了最新的文心大模型4.0版本。 通过大模型的演变和发展,我们可以看到,随着算力数据和算法的不断提升,新的大模型不断增强,从而改变各个行业。
首先带来变化的是传统信息产业,即互联网产业。 可以看到很多成功的产品已经出现并正在被用户使用。 随着模型能力的增强,以及更多垂直行业和大模型行业(例如生命科学行业)的融合发展,可以预见,结合大模型能力、垂直行业知识、应用场景的模型将会越来越多和研发方向。 行业大模式涌现。 在这种趋势下,我相信大车型能为垂直行业创造更多价值,有巨大的想象空间和发展前景。
问:国内外大型车型领域的竞争非常激烈。 那么大模型领域面临哪些挑战呢?
刘川:目前大模型在实施层面有两个阶段,这也是最具挑战性的两个阶段。
第一阶段是训练(基础模型),这是极具挑战性的。 首先,要求企业拥有足够的数据,并有能力将数据转化为通证,应用到整个数据项目中。 这个过程是对技术实力的极大考验。 其次,要训练一个需要超过10000张卡的集群,我们就得思考如何在10000张卡的集群的训练过程中最大化地有效利用算力。 这对于整个技术团队和整个资源管理团队来说都充满了挑战。
第二阶段是训练之后,行业需要解决的核心问题是如何将行业数据/know-how迁移到行业模型中,让行业模型能够在不丧失智能的情况下学习行业知识。 正是这些情报需要从行业实践中获得。
因此,从整个市场来看,百度目前处于领先地位。 百度文心大模型早在2019年就已开发出来,并不断积累经验并更新迭代。 也正是因为如此,它才能在大模型研发方面走在前列。 只有走在最前面,才能率先发布中国版4.0大车型。
事实上,很多各行业的早期客户已经进入大模型验证的第二阶段。 这些都是来自应用场景的直接挑战,需要企业逐步投入数据、创造效果、提高准确性。 。 所有这些工作都需要落实,难度很大,但只有脚踏实地去做,才能让模型真正落地应用,取得良好效果。
以上两个阶段是我认为大车型进入行业非常重要的两个阶段。
问:在这种竞争趋势下,我公司如何才能有效提高竞争优势?
刘川:我们看到现在的企业有几种类型。
第一类是企业应用比较简单。 他们直接拥抱大模型并尽快调用,使能力适应业务,从而提高业务流程的效率。
第二类是一些垂直领域的行业,特别是壁垒较高的行业,比如医药、制造、金融等,这些行业有非常深厚的行业知识,需要像百度这样的计算机算法。 科学家及其提供的大模型、企业业务侧的行业专家以及帮助加速AI业务的高级工程技术团队团结起来并快速整合。 只有这样,大模型能力才能成为行业的先进生产力,为企业的未来助力。 成为相应领域的最领先者并带来行业格局的变化。
问:针对刚才提到的两个阶段的挑战,您和百度可以提供哪些帮助来帮助突破大模型领域的瓶颈?
张伟:首先,在算力方面,百度智能云与华为合作密切。 在大模型计算能力的基础上,结合应用和训练过程做了很多软件开发,充分发挥双方的技术,通过合作让整个大模型基础设施变得更加强大。
此外,百度智能云千帆大模型平台是一套专注于模型训练和模型生命周期管理的AI生产工具,也是企业的工具链平台。 可以方便企业利用该平台管理数据、管理培训流程。 还可以通过平台利用AI的基础算力,获得更多与模型应用相关的服务。
算力和百度智能云千帆大模型平台构成了与企业客户合作的基础。
同时,百度智能云还为企业提供大模型API上调服务。 客户可以直接调用文心的API,将API集成到自己的业务流程中,利用大模型的能力来提升自己产品的竞争力,甚至利用以上三个服务可以做出自己真正的AI原生应用。
刘川:我刚才提到百度智能云从资源、环境、整个工具链等方面,为支持大模型的应用提供了非常好的基础设施。 那么你们与百度智能云的合作在做什么呢?
我们知道头部客户及其场景模型是非常个性化的,模型追求的也是极致的效果,所以和百度智能云的合作就是在刚才提到的资源上共同优化模型。 我们希望顶层模型不仅能够在业务端产生真正有意义的指标效益,更重要的是,在整个端到端的落地之后,我们会发现它创造的价值远远大于它的成本。 百度智能云一直在创造这样的场景和机会。 我们希望通过我们共同的深度优化,提高整个企业的模型训练和推理端的效率,具有很高的性价比,对业务推广有强大的推动力,从而推动行业在发展过程中发生质的变化。大模型的实施。
问:大模型技术已经开始进入医药行业。 您认为大模型技术将在药物研发中发挥怎样的帮助和作用?
张伟:新药研发实际上是一个高投入、高风险、长周期的行业。 传统上,新药研发曾面临“双十困境”。 一种新药的研发至少需要十年的投入,数十亿美元的投入。 也称为远程候选业务。
随着人工智能的发展,尤其是大模型的浪潮,我们可以看到大模型在新药研发中有着很多用途。 拆开整个药物研发流程,我们可以发现AI技术已经无处不在。 如果大模型技术支撑医药研发行业,将会出现更多基于大模型技术的行业模型。
目前,相应的大模型已经应用于蛋白质结构预测和分子筛选,并且随着大模型技术采用的不断深入,毫无疑问它将在整个医药行业发挥作用。 无论是原有的双十困境,还是某些关键环节、重点领域的优化,都能发挥重要作用。
另外,目前的大模型对于知识管理和领域知识具有很强的学习能力。 与之前相比,已经有了很大的进步。 它可以面对复杂的专有技术和生物医学,拥有大量的行业知识和领域知识。 在行业中,各种知识管理场景都可以创造价值。
刘川:正如张老师所说,大模型领域在药物研发的分子筛选过程、早期匹配过程、结构预测等方面都有一席之地。 这需要一些跨国联盟。 医学科学家和化学科学家转向人工智能。 再向前迈出一步,AI科学家将向医学专家领域迈进一步,有效碰撞、融合。
在这个领域,我们需要大胆假设,仔细验证。 证明一项技术有效需要大量的基础工作,尤其是在物理和化学层面,其底层类别是。 从上层的业务表现和下层的分子动力学、化学等领域入手,证明人工智能的新方法可以替代传统方法,打通从技术基础到业务实现的全链条,实现人工智能的创新。追踪。
问:百度智能云与AI的合作如何助力大模型在药物研发中的应用?
刘川:首先是在大车型领域具备通用能力。 例如,有服务。 它是一个大型模型训练的框架,可以提高整个训练的算力利用率。 它承载了不同大模型的开源以及各个赛道的基础能力。 。
其次,还有一个针对生物制药领域的“服务”——主要是基于蛋白质的结构预测和结构,包括性质预测等,可以理解为探索和验证。
那么如何与百度智能云合作呢? 我们使用相同的技术栈,共同将客户场景应用到大模型上进行验证,并分析大模型在哪些环节可以提供有效的帮助,使研究或预测更快、更准确。 我们已经与百度的一些顶级客户合作,并且是行业的领先者。 这是一个开始; 未来,我们将与百度智能云一起,形成客户、云和AI技术相结合的长期合作机制,从一个点开始。 做出突破,产生利润,然后以点带面,做出成绩,慢慢影响整个行业。 我们一直在用这个方法论来优化整个业务流程,消除瓶颈,包括与百度智能云的深度合作,帮助客户在云上实现最优的业务效果。
张伟:百度智能云本身可以为不同需求、不同阶段的客户提供多个层次的解决方案。 如上所述,百度智能云本身就拥有非常好的AI计算基础算力平台。 对于有能力结合自身数据、需要在自研行业做大规模模型训练的客户,我们将提供高性价比、高效的算力。 服务。 这个算力服务本身也会根据大模型训练的特点,从而提供相应的优化; 同时,会针对行业模式自身应用场景的各个环节进行优化,特别是在生物医药领域。
在生物医药行业的大模型中,数据闭环非常重要。 甚至可以称得上是行业大模型中的核心竞争力之一; 面对生物医学领域数据闭环的使用,特别是在干湿实验的数据闭环中,我们如何优化闭环的效率? 应该用什么样的算力解决方案来帮助AI训练的行业模型实现更好的数据闭环? 这是AI算力基础服务本身要为客户解决的问题。 解决好这样的问题,帮助行业模式快速落地,为新药研发提供更多的服务和支持,这是第一类。
另一类是基于百度在生物计算领域的投入和研究训练并不断发布的一系列大型行业模型,例如百度自主研发的大型生物计算模型。 它们可用于类似于生物医学研发领域的各种场景,例如蛋白质结构预测、化合物的一般表征等; 一系列算法端工具,包括今年百度发布的mRNA序列设计工具,可以以SaaS服务的形式提供,帮助新药研发领域的客户开发并提高效率。
结合以上两类场景,百度大胆开发整合解决方案。 通过结合自身的产品和能力,特别是大模型的结合,对单一业务链路进行端到端的优化,不仅帮助个体企业,也帮助整个行业提高效率。
问:10月17日,百度智能云全面升级“云智合一”战略。 请张先生给我们解释一下这个策略。
张伟:10月17日,云智融合战略内涵全面升级为“云智融合、产业深度渗透、生态繁荣、AI普惠惠民”。 针对客户大型模型实施的五类需求提供全站服务解决方案; 人工智能与云计算的深度融合是企业快速落地人工智能原生应用的关键。 这也是百度智能云一直倡导和践行的“云智能合一”理念。 。
目前,百度集团所有应用和服务均运行在基于“云智合一”技术架构的百度智能云上。 此外,针对大模型实施的五类客户需求,百度智能云基于千帆大模型平台的“大模型超级工厂”提供了最佳的服务解决方案。
云智融合战略一直是百度智能云的核心战略。 人工智能加上围绕人工智能应用和研发的算力基础,就可以称为智能云。 是百度为万千行业提供技术解决方案和技术赋能的基础。 从战略角度来看,百度的智能和云其实是相辅相成的。 换句话说,云是AI能力的基础。 从云端来看,百度也是最懂AI训练、AI推理、AI应用的算力基地。 设施。
因此,我们希望通过不同的云智融合解决方案的输出,为客户提供更多的帮助; 在云智融合战略下,我们将生成云与智能深度融合的不同方向的解决方案,并通过最佳的组合和优化,使我们的方案惠及各行业。
问:能否分享一下百度智能云目前在大规模模型辅助药物研发方面的布局和成果?
张伟:首先是文信大模型系列,以及基于行业场景推出的行业大模型,这些模型已经应用于各个行业领域。
百度持续加大研发投入。 10月17日,文信系列EB4.0在百度世界大会上正式发布。 百度4.0左右的AI原生产品也进行了相应升级,例如针对C端用户的搜索、图书馆、网盘、地图等产品均已升级为AI原生。
从B端企业客户的角度来看,百度已经帮助了不同行业或领域的客户,尤其是在生物医药领域。 已有领先企业基于百度智能云解决方案构建了自己的大型生物医药模型。 并已投入新药研发中。
问:刘先生,请您概括一下生命科学领域的先进技术和服务。
刘川:从我们和百度智能云的深度合作来看,我们有完整的支撑体系。
首先是最底层的加速库,比如cuDNN等,还有针对大模型领域的LLM等工具。 这些 SDK 可帮助客户加速推理。 培训方面,我们有一个培训框架,帮助云客户提高培训效率。
我们与百度智能云有各个层面的深度合作。 我们在芯片层面有合作,加速训练和推理。 我们和千帆在解决方案层面有合作,支持整个实施。 在应用层面,我们也提到了服务。 它是基于蛋白质预测、属性预测的端到端服务,包括训练、推理和可视化部分。 我们希望通过这个服务,能够被更多的行业使用,放到云端以SaaS的方式使用,让大家能够先感受到能力,或者帮助重度玩家重构技术栈。
但目前我认为首先也是最重要的是需求。 百度很早就开始探索生物科技领域,核心就是寻找需求。 10月17日的百度世界大会上,我们听到应用根据能力进行重构。 重建带来新的生产力和需求的碰撞。 我们需要探讨如何在新生产力的基础上将需求与生产力结合起来? 因此,百度云利用新技术创造新生产力,将新生产力与业务需求相结合创造价值,同时也积累领先的基础设施来推动大模型应用落地。
二是与百度智能云在基于基地的大模型训练方面深度合作。 该框架上可以训练各种模型,并与百度和千帆一起,为更认真的玩家提供针对性的支持。
第三是模型出来之后,需要在业务中落地,在业务环境中进行验证。 我们利用我们专业的加速技术,比如LLM等,帮助公司在行业内落地,实现整个模型比较高的吞吐量。
最后还有高频词——三方合作,共同将头部客户的顶级模型优化到极致,让这个模型成为赛道上最好的SOTA(state-of-the-art)模型,从而这个模式能够在行业落地,才有动力,不仅模式效果好,商业效果也最好。 这是我们与百度共同追求的目标。 我们一起规划和开发了很多年。 现在我们有一些顶级客户在这样做。 我们希望能够做到最终的合作,让各个垂直领域的顶尖领导者能够合作。 让我们一起将模型优化到最佳值。
继续阅读: