fbpx
研究

多模式人工智能建立与焦油脚跟研究

一位计算机科学教授和他的学生与微软研究院合作开发了突破性的技术.

莫希特·班萨尔的大头照,卡罗莱纳蓝色背景,旁边的文字写着
班萨尔继续在卡罗莱纳研究人工智能, 在他的想象中,未来这项技术可能会对课堂产生重大影响. (图片由UNC Creative提供)

在过去的一年, 太阳城娱乐的研究人员帮助设计了人工智能领域最重大的突破之一.

与微软研究院的一个团队合作,卡罗莱纳计算机科学教授 Mohit邦萨尔 他的学生 Zineng唐, 微软实习生, 创建了CoDi人工智能系统——一个能够产生任何输出组合的模型(例如.G,文本,图像,视频,音频)从任何组合输入.

微软研究院特别介绍了这个项目 去年夏天和几个月后,该团队在其网站上展示了改进后的产品 CoDi-2 大张旗鼓.

为什么大惊小怪? 是什么让CoDi如此重要?

以前的生成式人工智能系统执行一对一的任务. 例如, 用户可能会输入“画一张青蛙的图片”,然后得到一张青蛙的照片(文本到图像),或者提交一张照片,然后得到一个标题(图像到文本)。.

CoDi并不局限于一对一的任务. 是“可组合扩散”的缩写,“CoDi是第一个可以接受任何输入组合的人工智能模型——文本, audio, 照片, 视频-并使用“桥对齐”的想法产生任何输出组合,赋予了这个工具巨大的创造力. 最重要的是, 它可以做到这一点,而不依赖于大量的训练目标(这在计算上是不可行的)或所有这些组合的训练数据(这是不可用的)。.

“CoDi是人工智能社区中一个非常新颖的模型,因为它可以有效地处理看不见的输入/输出模式组合,而无需依赖于使用如此昂贵且难以找到的数据来训练模型,班萨尔说, 计算机科学系的John R. & 路易丝年代. 帕克教授和它的主任 MURGe-Lab. “这开辟了许多令人兴奋的新应用.”

CoDi项目的网站 包括这种多模态生成过程的几个例子:

  • 用户输入时代广场的图片, 一段下雨的音频片段和“滑板上的泰迪熊”的文字,CoDi制作了一个视频片段,一个下雨天在时代广场上滑冰的泰迪熊.
  • 用户输入一张森林的图片和一段钢琴的音频剪辑, CoDi生成一个男人在森林里弹钢琴的图片,并附上文字“在森林里弹钢琴”.”
  • 用户输入“火车进站”,CoDi就会生成一段火车进站的视频和音频.

最近发布的 CoDi-2 使用大型语言模型框架扩展CoDi-1,并且更加直观和交互式, 处理多模态交错的更复杂的指令.

人工智能技术仍在发展中,但毫无疑问,CoDi项目已经掀起了巨大的浪潮. 班萨尔的学生唐被提名为该奖项的获得者 2023年计算研究协会优秀本科生研究员奖 -北美仅有的四个获奖者之一. 唐收到了几份顶尖的录取通知书,并继续在加州大学攻读博士学位, 加州大学伯克利分校.

与此同时, 班萨尔继续在卡罗莱纳研究人工智能, 在他的想象中,未来这项技术可能会对课堂产生重大影响. 他是美国国家科学基金会人工智能参与学习研究所的联合首席研究员和核心人工智能负责人. 在研究所, 他们正在使用与人工智能助手类似的多模式技术来改善学生和教师的课堂体验, 包括班萨尔在视频和图表生成方面的最新工作.

“老师和学生将能够创造有趣的, 视觉的故事, 尤其是CoDi-2,班萨尔说. “他们甚至可以和它说话或互动, 制作复杂视频, 甚至是复杂概念的预告片,以便更直观地解释它们,并以交互方式构建它们.”