2024年,几乎每个重要的模型供应商都发布了多模态模型。我们在3月看到了 Anthropic的Claude 3系列, 4月看到了Gemini 1.5 Pro (图像、音频和视频),然后9月带来了Qwen2-VL和Mistral的Pixtral 12B以及 Meta 的Llama 3.2 11B和90B视觉模型。我们在10月获得了来自OpenAI 的音频输入和输出,然后11月看到了Hugging Face 的 SmolVLM ,12月看到了来自 Amazon Nova 的图像和视频模型。
OpenAI并不是唯一一家参与该类别的公司。谷歌于12月19日发布了该类别的首款参赛者gemini-2.0-flash-thinking-exp。阿里巴巴Qwen团队于11月28日发布了他们的QwQ模型;DeepSeek于11月20日通过其聊天界面开放了DeepSeek-R1-Lite-Preview模型供试用。Anthropic和 Meta 尚未有任何进展,但是它们一定会跟进。