DeepSeek大范围开放识图模式:多模态理解功能正式开启内测
DeepSeek于5月9日大幅开放“识图模式”内测,标志着其正式迈入图文多模态交互时代。该功能新增独立入口,支持用户上传图片实现复杂跨媒介交互,具备深度图片识别与语义理解能力,超越传统OCR。此举填补了其在多模态领域的空白,推动国产大模型从文本生成向“视觉语言耦合”转型,有望在自动化办公、工业视觉等场景释放生产力,加速多模态能力普惠。
via Infinitum 资讯聚合 (author: AI Base)
DeepSeek于5月9日大幅开放“识图模式”内测,标志着其正式迈入图文多模态交互时代。该功能新增独立入口,支持用户上传图片实现复杂跨媒介交互,具备深度图片识别与语义理解能力,超越传统OCR。此举填补了其在多模态领域的空白,推动国产大模型从文本生成向“视觉语言耦合”转型,有望在自动化办公、工业视觉等场景释放生产力,加速多模态能力普惠。
via Infinitum 资讯聚合 (author: AI Base)