type
status
date
slug
summary
tags
category
icon
password
<ins/>
以下内容翻译自OpenAI,有少量优化中文阅读体验的改进。
GPT-4o mini:推进高效的智能技术 | OpenAI

OpenAI 致力于让智能技术尽可能广泛地可及。今天,我们宣布推出最具成本效益的小型模型 GPT-4o mini。我们期望 GPT-4o mini 能显著扩大 AI 应用的范围,使智能技术变得更加经济实惠。GPT-4o mini 在 MMLU 上的得分为 82%,并且在 LMSYS 排行榜上的聊天偏好方面表现优于 GPT-4。它的定价为每百万输入标记 15 美分,每百万输出标记 60 美分,比以前的前沿模型便宜了一个数量级,比 GPT-3.5 Turbo 便宜了超过 60%。
GPT-4o mini 以其低成本和低延迟支持广泛的任务,例如链接或并行多个模型调用的应用程序(例如调用多个 API),传递大量上下文给模型(例如完整代码库或对话历史),或通过快速的实时文本响应与客户互动(例如客户支持聊天机器人)。
今天,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频的输入和输出。该模型有一个 128K 标记的上下文窗口,每次请求支持最多 16K 输出标记,并具备截至 2023 年 10 月的知识。由于使用了与 GPT-4o 共享的改进标记器,处理非英语文本现在变得更加经济实惠。
一个具备卓越文本智能和多模态推理的小型模型
GPT-4o mini 在学术基准测试中超越了 GPT-3.5 Turbo 和其他小型模型,在文本智能和多模态推理方面表现优异,并支持与 GPT-4o 相同的语言范围。它在函数调用方面也表现强劲,能帮助开发者构建能够获取数据或与外部系统互动的应用程序,并且在长上下文性能方面优于 GPT-3.5 Turbo。
GPT-4o mini 在多个关键基准测试中表现出色:
- 推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU(一个文本智能和推理基准测试)上的得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
- 数学和编程能力:GPT-4o mini 在数学推理和编程任务中表现出色,超过了市场上以前的小型模型。在 MGSM(数学推理测量)上的得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在 HumanEval(编程性能测量)上的得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
- 多模态推理:GPT-4o mini 在 MMMU(多模态推理评估)上的得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
模型评估分数

模型 | MMLU | GPQA | DROP | MGSM | MATH | HumanEval | MMMU | MathVista |
GPT-4o mini | 82.0 | 77.9 | 73.8 | 87.0 | 75.5 | 87.2 | 59.4 | 50.2 |
Gemini Flash | 77.9 | 75.5 | 71.7 | 75.5 | 71.7 | 71.5 | 56.1 | 46.4 |
Claude Haiku | 73.8 | 71.7 | 68.0 | 71.7 | 70.2 | 75.9 | 50.2 | 40.2 |
GPT-3.5 Turbo | 69.8 | 56.3 | 56.7 | 56.3 | 56.7 | 68.0 | 69.1 | 53.6 |
GPT-4o | 88.7 | 90.5 | 90.2 | 90.5 | 90.2 | 90.2 | 69.1 | 60.2 |
内置安全措施
安全性从我们的模型开发初期就被纳入,并在每一步开发过程中得到强化。在预训练过程中,我们过滤掉了不希望模型学习或输出的信息,例如仇恨言论、成人内容、主要聚合个人信息的网站和垃圾邮件。在后期训练过程中,我们使用人类反馈强化学习(RLHF)等技术来调整模型行为,以提高模型响应的准确性和可靠性。
GPT-4o mini 拥有与 GPT-4o 相同的内置安全措施,我们通过自动和人工评估根据我们的准备框架进行了仔细评估,并符合我们的自愿承诺。超过 70 名社会心理学和错误信息领域的外部专家测试了 GPT-4o 以识别潜在风险,我们已经解决了这些问题,并计划在即将发布的 GPT-4o 系统卡和准备分数卡中分享详细信息。这些专家评估的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。
在这些学习的基础上,我们的团队还使用新技术改进了 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的指令层次方法的模型,这有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠,有助于在大规模应用中更安全地使用。
我们将继续监控 GPT-4o mini 的使用情况,并在识别新风险时改进模型的安全性。
可用性和定价
GPT-4o mini 现在作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中可用。开发者支付每百万输入标记 15 美分和每百万输出标记 60 美分(大约相当于一本标准书的 2500 页)。我们计划在未来几天推出 GPT-4o mini 的微调功能。
在 ChatGPT 中,免费、Plus 和团队用户将从今天开始能够访问 GPT-4o mini,以替代 GPT-3.5。企业用户也将从下周开始访问,这与我们的使命一致,即让 AI 的益处惠及所有人。
未来展望
在过去几年中,我们见证了 AI 智能的显著进步,同时成本也大幅降低。例如,自 2022 年推出的能力较低的模型 text-davinci-003 以来,GPT-4o mini 的每标记成本已降低了 99%。我们致力于继续推动成本下降,同时提高模型能力。
我们设想一个未来,模型将无缝集成到每个应用程序和每个网站中。GPT-4o mini 正在为开发者提供更高效、更经济地构建和扩展强大 AI 应用程序的途径。AI 的未来将变得更加可及、可靠,并嵌入我们的日常数字体验中,我们很高兴继续引领这一趋势。
作者
OpenAI
致谢
团队负责人:Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such
项目负责人:Mianna Chen
贡献者请参阅 OpenAI 贡献页面
欢迎您在底部评论区留言,一起交流~
<ins/>
- Author:Calvin
- URL:https://blog.igetq.com/article/21416acb-4377-4cf4-a174-ecef06bf49e8
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!