阿里大模型“通义听悟”升级音频视频理解能力,多模态AI技术发展展望与相关公司布局分析

来源: 金融界 作者:佚名

摘要: 近日,阿里巴巴集团推出了其大模型产品“通义听悟”的一系列全新功能,并同步上线了音视频问答助手“小悟”。这一创新突破性地实现了对单条长达6小时及一次性处理上百条音视频内容的自由问答,

  近日,阿里巴巴集团推出了其大模型产品“通义听悟”的一系列全新功能,并同步上线了音视频问答助手“小悟”。这一创新突破性地实现了对单条长达6小时及一次性处理上百条音视频内容的自由问答,无论是单记录内部还是跨记录之间,甚至能够支持多种语言环境。

  此外,隶属于淘宝天集团的阿里妈妈技术团队开发了一款名为AtomoVideo(阿瞳木视频)的高保真图片生成视频框架。该框架能够自动化地将图片素材转化为高质量的动态视频效果。

  浙商证券(601878)预测,到2024年,国内外相关企业或将推出更为复杂先进的多模态大模型,这些模型能够对文本、语音、图像以及音视频等多种类型的数据进行深度整合与复杂交互操作。随着包括谷歌、字节跳动在内的海外厂商加快在多模态人工智能领域的布局,新一轮的多模态大模型革新潮流即将来临。

人工智能

  当前形势下,除了OpenAI之外,谷歌、字节跳动等领先企业已分别发布了具有从文本生成视频能力的多模态模型。通过对Stable Video Diffusion、谷歌W.A.L.T以及其他同类模型的研究发现,高质量的数据基础以及强大的底层通用大模型是提升文生视频能力的关键所在。随着Transformer架构的应用深化,以及3D建模领域模型的持续更新迭代,预计至2024年,文生视频技术将在视频时长、画质清晰度以及内容真实性等方面取得重大进展,从而极大地拓宽商业化应用的可能性。

  针对相关上市公司动态,国盛证券和首创证券指出:

  当虹科技在AIGC(人工智能生成内容)预处理方面有着深入布局,其技术已在媒体演播室、虚拟主播、智能媒资管理、高效内容制作等多个应用场景实现了成熟的商业落地。丰富的场景实践和庞大的视频数据资源进一步推动了公司AI算法训练效率的提升。

  罗普特公司则专注于机器视觉、语义分析、元素感知、边缘计算等核心技术的研发工作。

  关键词阅读:阿里巴巴

  

审核:yj127 编辑:yj127
关键词:

模型,音视频,谷歌

免责声明:

1:凡本网注明“来源:***”的作品,均是转载自其他平台,本网赢家财富网 www.yjcf360.com 转载文章为个人学习、研究或者欣赏传播信息之目的,并不意味着赞同其观点或其内容的真实性已得到证实。全部作品仅代表作者本人的观点,不代表本网站赢家财富网的观点、看法及立场,文责作者自负。如因作品内容、版权和其他问题请与本站管理员联系,请在30日内进行,我们收到通知后会在3个工作日内及时进行处理。

2:本网站刊载的各类文章、广告、访问者在本网站发表的观点,以链接形式推荐的其他网站内容,仅为提供更多信息供用户参考使用或为学习交流的方便(本网有权删除)。所提供的数据仅供参考,使用者务请核实,风险自负。

版权属于赢家财富网,转载请注明出处
查看更多