OpenAI 发布 GPT-4o 多模态模型，性能全面提升 - AI新闻

北京时间 6 月 15 日，OpenAI 在春季发布会上正式推出 GPT-4o（"o" 代表 omni，全能之意）模型。这是 OpenAI 迄今为止最先进的多模态 AI 模型，在文本、音频、图像的理解和生成方面均实现了重大突破。

核心亮点

实时多模态交互：GPT-4o 能够实时处理文本、音频和图像输入，并生成文本、音频和图像输出。用户可以通过语音与 AI 进行自然对话，响应延迟低至 232 毫秒。

性能大幅提升：在多项基准测试中，GPT-4o 在文本理解、推理和编码方面的表现均优于 GPT-4 Turbo，同时 API 价格降低 50%。

免费开放：OpenAI 宣布 GPT-4o 将向所有 ChatGPT 用户免费开放（有使用限额），ChatGPT Plus 用户享有 5 倍的使用额度。

GPT-4o 的发布标志着 AI 交互方式的根本性变革。实时语音对话、视觉理解等能力的融合，使得 AI 助手更加接近人类的交流方式。分析师认为，这将进一步加速 AI 在客服、教育、医疗等领域的应用落地。

OpenAI 已同步开放 GPT-4o API，开发者可以通过 OpenAI API 平台接入。输入价格 $2.50/百万 tokens，输出价格 $10.00/百万 tokens，相比 GPT-4 Turbo 降低 50%。