微软(MSFT)推出全能型人工智能模型Kosmos-1 可处理文本、音频、图像和视频等内容
摘要: 据中证网,近日微软(MSFT)推出全能型人工智能模型——Kosmos-1。与局限于文本内容的ChatGPT(LLM)相比,Kosmos-1属于多模式大型语言模型(MLLM),
据中证网,近日微软(MSFT)推出全能型人工智能模型——Kosmos-1。与局限于文本内容的ChatGPT(LLM)相比,Kosmos-1属于多模式大型语言模型(MLLM),可以像人类思维一样来处理文本、音频、图像和视频等内容。
据悉,微软表示,用于训练Kosmos-1的数据同样源自网络,同时为了让Kosmos-1能进一步理解图像内容,研究人员通过事先将图像以文字内容加上大量标记,让此大型语言模型可以进一步理解图像内容,以实现多模式大型语言模式。加入图像内容理解能力之后,将有助于Kosmos-1识别文字以外的图像内容,甚至进一步判断动态视频描述内容。
在进一步朝多模式大型语言模型发展后,微软预期将能在全能型的人工智能技术发展迈进一大步,不再让现有人工智能局限对应特定领域应用发展。
Kosmos,图像,模型