OpenAI 发布 GPT-4o 多模态模型,性能全面提升

北京时间 6 月 15 日,OpenAI 在春季发布会上正式推出 GPT-4o("o" 代表 omni,全能之意)模型。这是 OpenAI 迄今为止最先进的多模态 AI 模型,在文本、音频、图像的理解和生成方面均实现了重大突破。

核心亮点

实时多模态交互:GPT-4o 能够实时处理文本、音频和图像输入,并生成文本、音频和图像输出。用户可以通过语音与 AI 进行自然对话,响应延迟低至 232 毫秒。

性能大幅提升:在多项基准测试中,GPT-4o 在文本理解、推理和编码方面的表现均优于 GPT-4 Turbo,同时 API 价格降低 50%。

免费开放:OpenAI 宣布 GPT-4o 将向所有 ChatGPT 用户免费开放(有使用限额),ChatGPT Plus 用户享有 5 倍的使用额度。

行业影响

GPT-4o 的发布标志着 AI 交互方式的根本性变革。实时语音对话、视觉理解等能力的融合,使得 AI 助手更加接近人类的交流方式。分析师认为,这将进一步加速 AI 在客服、教育、医疗等领域的应用落地。

API 开放

OpenAI 已同步开放 GPT-4o API,开发者可以通过 OpenAI API 平台接入。输入价格 $2.50/百万 tokens,输出价格 $10.00/百万 tokens,相比 GPT-4 Turbo 降低 50%。

原文链接:https://openai.com/index/hello-gpt-4o/

原文链接:https://openai.com/index/hello-gpt-4o/