爱游戏中国团队成功构建全球首个图文音三模态预训练模型—新闻—科学网

时间:2023-10-10 16:22:48 已阅读:77次

中新网北京7月8日电 (记者 孙自法)记者8日从中国科学院主动化研究所(中科院主动化所)获悉,该所科研团队乐成构建全世界首个图文音(视觉-文本-语音)三模态预练习模子,将解锁更多智能之美,让人工智能(AI)更靠近人类想象力。

今朝,已经有的多模态预练习模子凡是仅思量 图象以及文本 或者者 视频以及文本 两个模态,轻忽了周围情况中遍及存于的语音信息,而且模子少少兼具理解与天生威力,难以于天生使命与理解类使命中同时取患上精良体现。

针对于这些问题,中科院主动化所科研团研究队提出图文音三模态预练习模子,将文本、语音、图象、视频等多模态内容结合起来举行进修。该模子由单模态编码器、跨模态编码器以及跨模态解码器组成,接纳别离基在词条级别、模态级别和样本级另外多条理、多使命三级预练习自监视进修体式格局,更存眷图文音三模态数据之间的联系关系特征和跨模态转换问题,对于更广泛、更多样的下流使命提供模子根蒂根基支撑。

科研团队指出,图文音三模态预练习模子不只可实现图象辨认、语音辨认等跨模态理解使命,也能完成从文本天生图象、从图象天生文本、语音天生图象等跨模态天生使命。同时,引入语音模态后的多模态预练习模子,可冲破性间接实现三模态的同一暗示,出格是初次实现 以图生音 以及 以音生图 。

此外,该模子矫捷的自监视进修框架可同时撑持三种或者任两种模态弱联系关系数据举行预练习,能有用降低多模态数据网络与洗濯成本,从而取患上预练习模子冲破性进展。

中科院主动化所暗示,图文音三模态预练习模子的提出以及构建,将转变当前单一模子对����Ϸapp于应单一使命的人工智研发范式,年夜幅晋升文本、语音、图象以及视频等范畴的根蒂根基使命机能,并于多模态内容的理解、搜刮、保举以及问答;语音辨认以及合成;人机交互以及无人驾驶等贸易运用中具备潜力伟大的市场价值。

将来, 年夜数据+年夜模子+多模态 的多使命同一进修,将引领人工智能技能成长的潮水。(完)

出格声明:本文转载仅仅是出在流传信息的需要,其实不象征着代表本消息网不雅点或者证明其内容的真实性;如其他媒体、消息网或者小我私家从本消息网转载使用,须保留本消息网注明的 来历 ,并自大版权等法令义务;作者假如不但愿被转载或者者接洽转载稿费等事宜,请与咱们联系。/爱游戏