1

GPT-4o

OpenAI

GPT-4o("o" 代表 omni)是 OpenAI 最新的旗舰多模态模型,能够实时处理文本、音频和图像输入,并生成文本、音频和图像输出。在文本理解、推理、编码和视觉理解方面均达到业界领先水平。 基本信息:开发公司 OpenAI | 模型类型:多模态大语言模型 | 开源状态:闭源 | 上下文长度:128K tokens 能力特点:实时语音对话(232ms 延迟)、图像理解与生成、代码生成与调试、多语言支持(50+ 语言)

闭源 multimodal 热度 985
2

Gemini 2.0

Google

Google 最新多模态模型,原生支持文本、图像、音频、视频理解和生成。

闭源 multimodal 热度 948