来源:虎嗅
昨晚,是个注定难眠的夜晚。
GPT-5,终于来了。北京时间8月8日凌晨1点,OpenAI CEO Sam Altman 没有爽约。在发布会前一天,他在 X(原 Twitter)上写道:“明天上午10点(时间)发布 GPT-5,发布会会比以往更长,一个小时左右。”

结果,这场被全网盯紧的发布整整持续了 1小时18分钟,堪称“最重头戏”。
Altman 的造势从来不是空喊。这位硅谷最有话语权的“AI布道者”在会前甚至自曝:“测试完 GPT5,我感觉自己一无是处。”看似夸张的说法,却意外地成为这场发布的真实注脚。
在开场介绍GPT-5时,奥特曼简单回顾了下从GPT-3到4,再到5的历程。他自己比喻说,“GPT-3像个高中生,GPT-4像个大学生,而GPT-5则已经变成了一名专家,一名各个领域的专家。”

GPT-5 并没有让人失望,它甚至可能让程序员开始焦虑。
这次发布会*的信息量,不是语言理解能力有多强、创作能力有多丰富,而是它在代码编写、调试、部署上的全新维度:GPT-5 不再是“会写代码的语言模型”,它是一个工程级开发助手。
这场发布会上,OpenAI 花了将近一半时间在“现场写代码”。它两分钟就可以搭建出一个完整网站,五分钟做出一款语言学习App,并能精准识别并修复 Bug。它不仅听懂复杂需求,还能结构清晰地拆解任务、实现功能、给出部署建议——这种能力,已不是“辅助编程”,而是直接抢活干了。
对于熟悉 AI 编程工具的人来说,这意味着什么?意味着 Copilot 要退休了,意味着 Replit 要被重塑,意味着 Cursor 等“AI IDE”要被全面整合。Altman 在现场甚至直接说:“这是我们有史以来最强的编程模型。”
而背后支撑这一切的,是 GPT-5 在推理能力、上下文管理、多模态理解等多个维度上的飞跃。OpenAI 此次还发布了面向不同用户的模型矩阵,包括:GPT-5 Standard、GPT-5 Mini(轻量版)、GPT-5 Nano(嵌入式和移动端使用)。
这三个版本面向 API 和企业客户开放,按百万 tokens 计费。输入价格分别是 1.25 / 0.25 / 0.05 美元,输出价格为 10 / 2 / 0.4 美元——*市场穿透力。对于开发者而言,这是“从业门槛”被再一次降维打击。

值得一提的是,Altman 虽并未过多谈 AGI,但业内都清楚:GPT-5已经不局限于在AI大模型的世界里内卷,而是不断突破上限,在AGI的道路上完成大跃进。
这不是一次“模型升级”,而是一次生产力结构的重构。
GPT-5 登场的这一刻,AI 世界的天花板,再次被抬高。而我们,是否准备好面对它带来的新范式,还很难说。
接下来,笔者将还原出这场发布会最精彩的部分:
在现场演示之前,OpenAI先是一如既往地展示了GPT-5的一连串标杆成绩。
首先,GPT-5最惊艳的就是,在编码能力方面实现全面碾压。
SWE‑Bench Verified:作为检测模型修复真实软件工程问题能力的标准,GPT‑5 在这一评测中取得惊人的 74.9%,*于 o3 的 69.1%,展现了更高效、更精准的代码理解与生成能力。
Aider Polyglot:这是一个跨语言代码编辑测试,GPT‑5 成绩飙升至 88%,错误率相比之前整整降低了三分之一。

其次,GPT-5还极大降低了大模型所产生的幻觉问题,并实现在可靠性和事实准确性方面双双提升。
在回答事实类问题时,GPT‑5 的“幻觉”错误率,相对 GPT‑4o减少约 45%,而相对 o3则减少约80%。
在GPT-5发布会上,除了代码能力,奥特曼特别重点强调的就是GPT-5在健康医疗领域的表现。在医疗场景测试(如 HealthBench Hard Hallucinations),它的生成错误率仅为 1.6%,远低于 GPT‑4o 的 12.9% 和 o3 的 15.8%。

程序员马上要失业了?
GPT-5最为炸裂的部分,就是代码能力。
这一次,GPT‑5 真的在发布会上秀疯了。几乎从开始演示到结束,一共有四个“全场景、真交互”的代码能力展示,让在场开发者和远程观众都忍不住感慨:“程序员,真的要慌了。”
1、两分钟生成SVG动画
Prompt:让我迅速了解什么是伯努利效应(Bernouli effect)
在这个prompt下,GPT-5迅速给出了关于伯努利效应的详细解释。而当用户再要求用SVG动画演示时,GPT-5则直接开始进入深度思考模式,两分钟生成了420行代码,最终我们看到了这个可交互的动画。
值得注意的是,用户可以自由调整飞行速度和角度,气流线条也跟着实时变动。这不仅是可视化的知识输出,更是个性化、具备教学辅助价值的模拟系统。

2、五分钟搭建APP
Prompt:“我是英语母语者,为正在学法语的搭档做一个互动式学习 App,要有卡片、猜词、游戏,*做成一只老鼠吃芝士学单词。”
GPT‑5 不仅“听懂”了需求,还在五分钟内把需求全量落地:卡片式界面、互动功能、学习进度追踪全都上线。

而那个“老鼠吃芝士”的小游戏,更是让人拍案叫绝——每当老鼠吃掉一块芝士,就会自动播放一个法语单词语音,学习与娱乐真正无缝融合。
你甚至能看到这个 AI 在用户没有明确要求的细节上主动优化交互逻辑,足以说明其理解层级已经跃升。

3、修复代码bug
这一幕的设定就像现实工作场景:一名工程师把一个看似正常、实则问题百出的项目代码交给 GPT‑5,希望它能发现潜在问题。
过去,AI 模型写代码已经够勉强,找 bug 更是无从谈起。而这次,GPT‑5 不仅找出了关键问题,还提出了解决方案,并在模拟运行中无误通过。
要知道,这是*次,有开发者把真实工程任务直接交给 AI 独立完成且成功运行。这不仅意味着自动化写代码,它的下一步,可能是参与整个软件生命周期管理。

4、五分钟创建可视化财务看板
Prompt:请为我的AI智能体公司创建一个财务仪表盘,公司已完成D轮融资。
用户将企业的各类数据一股脑抛给 GPT‑5,模型在五分钟内交出了一份堪比创业公司 CFO 级别的动态财务看板。所有数据项都自动映射,支持调整、更新、筛选,UI 也堪称“即用级别”。

GPT-5发布会的一个多小时里,奥特曼还多次强调,“GPT-5是我们做过最强的代码模型”。
而为了进一步实锤这个判断,OpenAI 甚至还请来了 Cursor 的 CEO Michael Truell 站台。他在发布会上宣布,GPT‑5 将在未来几天内正式登陆 Cursor 编辑器。
GPT-5让AI去“模板化”
但根据官网显示,这并不是Manus的全部本领,因此接下来再上点难度。
如果说前两个部分还让人觉得 GPT‑5 是个优秀的“工具人”,那么第三部分,它则彻底展现出 AI 向“智能伴侣”进化的潜力。
GPT‑5 这次发布的*突破之一,就是它*深度的个性化能力。
而这种个性化,不再是表面地更换“主题色”那么简单,而是——能参与到你的人生决策中来。

在现场展示中,GPT‑5 首先展示了一个“超级个人助理”的身份:
它可以接入用户的日历、邮件,自动检查你漏掉的事务,比如一封未处理的会议邀请,甚至你平时的健身频率;并基于这些信息,为你自动生成个性化的日程规划。你再也不需要手动设置提醒、记会议、安排生活了——GPT‑5 会根据你自己过去的行为模式,像一个了解你的生活教练一样来管理一切。
这就好像拆掉了 Chatbot 与 Agent 之间的最后一道墙。
过去半年,海内外AI公司纷纷入局Agent,微软、谷歌、Anthropic 接连发布自己的 Agent 系统;就连 OpenAI 自己也在上个月小范围推出*原生 Agent。但这一切,在 GPT‑5 面前,显得更像是“预演”。
不过,GPT-5 的 Agent 化,是基于它本身认知能力提升之上的自然进化。
它不靠预设流程,而是基于理解你、记住你、联动外部信息,来动态调整策略、生成建议,真正做到了“定制级智能体”。

而 GPT‑5 最让人动容的演示,也是奥特曼刻意强调的一个“*话题”——GPT-5在健康医疗领域的应用。
来到GPT-5发布会现场的这位女士是身患三种癌症的患者。面对医生发来的复杂医学报告,她一头雾水,而最终治疗方案的选择又完全压在她自己身上。
GPT‑5 于是登场:它不仅将难懂的医学术语翻译成日常语言,还就每种治疗方案的利弊做出清晰对比,甚至帮助她从心理与生活角度评估哪种路径更适合她的状态。

在这场AI竞技场上,海外已经开始卷起来。
一个晚上,奥特曼连发12条X;
而就在GPT-5发布会期间,在X上刷屏的不止奥特曼,还有马斯克——他说“Grok在一般推理任务上已经超过GPT-5。”