文章最后更新时间:2023-10-19,由天天资讯负责审核发布,若内容或图片失效,请联系客服!
前不久的杭州亚运会期间,一位智能“导游”引起了广泛关注。 这不是一个普通人。 它看起来像一辆小汽车,有四个轮子,可以在地面上快速灵活地移动。 其上安装有一个机械臂,约一人高。 机械臂配备摄像头,以及语音和显示界面等交互设施,使其能够识别和理解周围环境以及需要执行的任务。
据悉,这套“导游”机器人系统由北京大学计算机学院HMI团队研发。 它结合了最前沿的AI技术——多模态大模型和体现智能。 亚运会期间,为视障人士提供服务。 它可以提供引导和导航帮助,并且可以分析视障人士的需求并完成相应的任务,例如帮助他们捡起掉落的物品。 它以其独特的方式,为亚运会的成功做出了贡献。
【图说】北大团队研发的多模态智能关怀助手服务亚运会
“我们开发的多模态智能爱心助手是基于团队自主研发的感知与生成一体化多模态模型。该系统能够准确感知和理解视觉场景,生成准确丰富的语言描述,实现从人与人之间复杂的指令转化为具体的动作,以及基于端云协同的大小模型的协同高效微调,提高了模型的泛化能力,使其能够快速适应新的场景。” 北京大学计算机学院研究员张尚航说道。
“多模态大模型可以基于语言、2D、3D等多种输入模态对接收到的指令和周围环境进行分析,拆解任务并生成相应的动作来完成服务任务。我们希望我们的研究可用于科技创新赋能弱势群体,让更多人感受到未来科技的温暖,体验亚运的精彩。”
“多模态大模型+体现智能”系统首次在大型体育赛事中上线
“亚运会上有很多前沿技术的应用,极大提升了运动员的比赛体验和观众的观看体验。” 北京大学学生庄芬宁表示:“但经过深入研究和观察,我们发现,对于特定的观众群体,比如少数民族、残疾人等,目前的技术并不能完全满足他们的需求。少数民族观众可能会面临语言障碍,而残障人士可能需要更多的辅助工具或特殊服务才能更好地享受游戏。”
为了解决这个问题,团队萌生了开发一套专门服务残疾人观看比赛的AI系统的想法。 “多模态大模型是我们研究组的重点研究方向。我们正在思考是否有可能将多模态大模型与具身智能相结合,让机器人拥有更智能的大脑,使其能够响应人类复杂的需求。将其转化为具体行动指示。”
“这样,我们的贴心助手就能更好地与用户互动,了解他们的需求,并快速做出针对性响应,更好地服务亚运弱势观众群体,让更多人亲身体验AI带来的改变和温暖。技术。”
在张尚航研究员的指导和支持下,学生们迅速行动起来,追寻出一条创新之路,即设计“感知与生成一体化的多模态大模型”,实现对各种视觉场景的精准感知。 和理解,并生成准确而丰富的语言描述。
【图注】:钱尚航研究员(前排左四)与学生团队成员
同时,团队还将多模态大型模型与体现智能相结合。 由于机器人会面对不同的场景,因此需要具有快速适应新场景的泛化能力。 为此,团队设计了基于端云协同的大规模模型协同。 高效的微调提高了模型的泛化能力,使其能够不断适应不同的场景。
在亚运会上大显身手的多模态爱心助手,是基于团队自主研发的感知生成一体化通用多模态模型。 其核心是7B/13B参数的多模态大模型。 该模型融合了基础视觉模型的广义感知能力和大语言模型的涌现能力。
例如,在听到用户说“我渴了”后,机器人可以自动转身从桌子上拿一瓶水递给用户。 这个看似简单的过程实际上涉及一系列复杂的子任务:
。 机器人首先需要捕获某人说“我渴了”的语音信号,然后通过语音识别技术将其转换为文本。
机器人需要理解“我渴了”这句话的含义,即理解说话者此时需要水。
然后机器人需要知道在哪里可以找到水,这就要求它具有良好的环境感知能力,并利用计算机视觉技术来识别和定位瓶装水。
。 确定瓶装水的位置后,机器人需要规划一条路径到达那里,这涉及到路径规划算法。
。 完成路径规划后,机器人需要控制自身动作,移动到瓶装水所在的位置。
。 机器人到达水瓶所在位置后,需要准确抓取瓶装水,这涉及到视觉检测、机器人控制系统以及抓取相关技术。
。 机器人抓到水后,需要规划返回路径并控制自身动作,将水送到说话者手中。
每个子任务都需要广泛的研究和工程实践。 不仅如此,机器人还需要能够处理训练数据中未出现的新情况。 换句话说,模型需要具有很强的泛化能力,能够在新的、未知的环境中有效工作。
为了提高机器人在开放环境下的持续泛化能力,团队构建了端云协同的持续学习系统。 该系统的设计考虑了终端计算的个性化、隐私保护、通信成本低等优势,同时也充分利用了云计算的大规模计算资源、大量标注数据以及优秀的泛化能力。 通过高效的数据传输和合理的资源分配,实现大小模型高度泛化的协同学习。
张尚航研究员表示,“在终端设备上,我们部署了压缩的多模态模型,在进行推理时可以同时估计不确定性。这种智能策略使我们能够主动筛选出高不确定性的模型样本并进行传输” “这些不确定性很高的样本通常涉及新的数据分布,来自新的场景、新的环境或新的事件。这些都是需要在开放环境中特别强调识别和理解的情况。”
团队成员刘嘉明也提到,“这些高不确定性样本到达云端后,我们利用未压缩的多模态大模型对其进行深度分析和学习。通过知识蒸馏、高效微调等技术手段,我们将从这些困难的例子中提取的知识转移到终端上的压缩模型中,这个过程大大提高了压缩多模态模型的泛化能力,让机器人能够不断适应和理解环境中的各种场景。开放世界。”
团队提出的端云协同持续学习系统在设计和开发上充分发挥了云和端计算的优势。 通过智能样本筛选和知识传递,达到机器人在开放环境中持续学习和适应的目标。 这种创新方法显着提高了多模态大模型的泛化能力和效率,赋予开放环境下的机器人系统更强的智能。
科技创新赋能弱势群体,让亚运展现“AI的温暖”
深度学习大模型技术的突破性发展,给人工智能研究带来了革命性的变化。 预训练的大型模型,例如GPT-4和GPT-4,成为AIGC系统的核心。 在基础设施支撑、顶层设计优化、下游需求旺盛三轮驱动下,人工智能大模型迎来良好发展机遇。
然而,大模型研究仍处于研究的早期阶段,仍然存在需要解决的关键科学问题和技术瓶颈,包括如何同时处理多种输入模态、如何进行大规模参数和计算等。高效的训练,以及如何执行迁移学习和大型模型。 微调,如何进行多模态多任务学习,如何进行跨语言融合,如何进行人机协作等等。
团队自主研发的感知与生成一体化的通用多模态大模型,展现了优异的综合处理能力,包括:视觉问答(VQA),可以对图像进行自然语言问答; 并可以生成图像的描述信息。 文本; 行为决策与规划,根据图像、文字信息进行决策与规划的能力; 和目标检测,识别图像中特定目标或特征的能力。
“多模态大模型是我们课题组研究的核心。”北京大学计算机学院博士后王冠群说。 “目前我们也取得了一定的成果,除了这种自主研发的感知与生成为一体的通用多模态大模型,用于大小模型的协同训练和部署,我们还重点关注多模态生成大模型的Agent设计,大模型记忆机制设计、多场景智能医疗多模态大模型集群、通用大模型适配器等。
据悉,团队研发的一体化大模型工具链(X-)旨在降低大模型的使用门槛,让各行业从业者能够轻松调试大模型,进化大模型在各自专业领域的能力。领域灵活适应专业应用。 有要求。 “我们在硬件上配备了高计算能力的一体机,并提供直接从云端访问云计算服务的选项。软件上配备了X-工具链,为用户提供灵活的大模型调试和应用环境。工具链可用于各种任务的训练和部署,包括但不限于金融知识问答、交通任务调度、医疗推荐等垂直领域的专业任务。
基于多模态大模型,在北京大学计算机学院黄铁军教授和张尚航研究员的指导下,团队还为本届亚运会开发了智能AI赛事解说系统。 黄铁军教授提出了“脉冲连续摄影原理”,直接利用每个像素固定的积分时间来表达光强。 相机速度取决于电路所能达到的最短信号读取时间,颠覆了持续了近两个世纪的定时曝光成像。 该原理解决了传统相机无法兼顾超高速和高动态的问题。 被中国电子学会认定为“超高速成像和机器视觉领域的重大原始创新,超高速成像技术达到国际领先水平”。 借助高速脉冲相机,可以同时实现超高速、高动态、全画幅连续成像。 在此基础上,团队通过自主研发的X一体化大模型工具链,设计了多模态、多语言的视频解说系统,用于亚运会期间的乒乓球、跆拳道、跳水、体操等项目。 该解说系统的特点是不仅可以了解和分析正在进行的比赛并生成实时解说内容,还可以根据观众的喜好提供个性化的解说服务,包括将解说内容翻译成多种语言,包括维吾尔语、阿拉伯语等,从而为世界各地的观众提供丰富的观看体验。
[图说]北大团队研发的智能赛事解说系统
在高速脉冲摄像机的支持下,可以清晰成像高速运动场景,捕捉比赛关键时刻,并提供多语言的比赛场景解说和报道,让更多人了解亚运会,尤其是宣传国内少数民族和国外。 多语言国家的比赛经验。
此外,团队还进行多模态生成大模型Agent设计。 目前,大多数模型都是单模态的,无法有效结合视觉、听觉、文本等多模态信息。 这种限制可能会导致在复杂的实际场景中,例如虚拟助理、机器人交互、智慧城市等,结果不理想。 “因此,我们开发了一种多模态生成大模型Agent,它结合了各种模态的优点,例如视觉细节捕获能力、听觉时间特征和文本结构化知识。这样的综合设计将有助于推动生成模型的发展朝着更加实用、高效的方向发展,满足未来各种复杂应用场景的需求。”
在更复杂的应用场景中,团队还研究了多场景的智能医疗多模态大模型集群。 他们设计并实现了一套智能医疗多模态大模型集群,包括面向患者的个性化医学知识问答多模态时间序列大模型、面向医生的临床影像报告生成多模态大模型以及面向引导场景的多模态大模型集群。 检索增强型大语言模型,使大模型技术适应临床场景,满足患者、医生、医院的多重需求,解决行业痛点,推动大模型在医疗领域的应用。
在这个科技突飞猛进的时代,团队凭借深厚的专业知识和创新精神,为亚运会提供了强有力的科技支撑,也为弱势群体带来了实质性的帮助。
未来,团队将继续秉持科技向善的原则,持续深化多模态大模型的研究与实践,最大限度地发挥人工智能技术的潜力,为解决社会问题、改善社会生活提供更有力的支撑。人们的生活。 。
继续阅读: