当前时讯：微软亚研院：Language Is Not All You Need

当前位置：首页 > 国内动态 > 正文

当前时讯：微软亚研院：Language Is Not All You Need

时间：2023-03-01 14:57:37 来源：量子位

还记得这张把谷歌 AI 搞得团团转的经典梗图吗？

现在，微软亚研院的新 AI 可算是把它研究明白了。

拿着这张图问它图里有啥，它会回答：我看着像鸭子。

(相关资料图)

但如果你试图跟它 battle，它就会改口：看上去更像兔子。并且还解释得条条是道：

图里有兔子耳朵。

是不是有点能看得懂图的 ChatGPT 内味儿了？

这个新 AI 名叫 Kosmos-1，谐音 Cosmos（宇宙）。AI 如其名，本事确实不小：图文理解、文本生成、OCR、对话 QA 都不在话下。

甚至连瑞文智商测试题都 hold 住了。

而具备如此能力的关键，就写在论文的标题里：Language is not all you need。

多模态大语言模型

简单来说，Kosmos-1 是一种把视觉和大语言模型结合起来的多模态大语言模型。

在感知图片、文字等不同模态输入的同时，Kosmos-1 还能够根据人类给出的指令，以自回归的方式，学习上下文并生成回答。

研究人员表示，在多模态语料库上从头训练，不经过微调，这个 AI 就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。

比如甩出一张猫猫图，问它这照片好玩在哪里，Kosmos-1 就能给你分析：猫猫戴上了一个微笑面具，看上去就像在笑。

又比如让它看一眼 MSRA 用来高效训练大模型的 TorchScale 工具包的主页，Kosmos-1 也能快速 get 这个库是用来干啥的。Kosmos-1 还能理解图像上下文。发一张食物的照片给它，这个 AI 不仅能回答你这是什么，还能在你追问如何烹饪时，给出食谱和烹调小建议。Kosmos-1 的骨干网络，是一个基于 Transformer 的因果语言模型。Transformer 解码器作为通用接口，用于多模态输入。

用于训练的数据来自多模态语料库，包括单模态数据（如文本）、跨模态配对数据（图像 - 文本对）和交错的多模态数据。

值得一提的是，虽说 "Language is not all you need"，但为了让 Kosmos-1 更能读懂人类的指示，在训练时，研究人员还是专门对其进行了仅使用语言数据的指令调整。

具体而言，就是用（指令，输入，输出）格式的指令数据继续训练模型。

实验结果

研究人员在 5 大类共 10 个任务中，测试了 Kosmos-1 的效果，包括：

语言任务：语言理解、语言生成、无 OCR 文本分类

跨模态迁移：常识推理

非语言推理：IQ 测试（瑞文递进矩阵）

感知 - 语言任务：图像说明、视觉 QA、网页 QA

视觉任务：零样本图像分类、带描述的零样本图像分类

从实验结果上来看，Kosmos-1 基本都 hold 住了。

零样本图像说明：