Meta ImageBind 多模态模型开源,我们离AGI又进一步。
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
via AI News - Telegram Channel
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
via AI News - Telegram Channel