本文作者:adminddos

带 “慧琳” 的名字:在线测算八字www.jixiangqiming.vip:-GPT-5王者降临,免费博士级AI全面屠榜!百万程序员不眠之夜,7亿人沸腾

adminddos 2025-08-08 08:19:52 2
带 “慧琳” 的名字:在线测算八字www.jixiangqiming.vip:-GPT-5王者降临,免费博士级AI全面屠榜!百万程序员不眠之夜,7亿人沸腾摘要: ...

  炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!

  新智元报道  

  【新智元导读】GPT-5,震撼登场!距离22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了两年半之久。这次的深夜直播,国内有数万吃瓜群众在线观看。至少按OpenAI的说法,他们离AGI又近了一步。

  全球用户瞩目中,GPT-5终于震撼登场了!

  OpenAI用一个多小时的超长发布会,全方位展示了GPT-5的炸裂性能。

  奥特曼领衔,出场人数众多,华人依旧耀眼

  正值每周7亿人使用ChatGPT之际,GPT-5重磅发布了。它是对GPT-4的一次重大升级,更是标志着OpenAI在实现AGI道路上的一个重要里程碑。

  OpenAI介绍说,这是我们迄今为止最优秀的AI系统,智能远超之前的所有模型,在编码、数学、写作、健康、视觉感知上都性能卓越。

  这个统一的系统,包含一个能够解答大多数问题的智能高效模型、一个能够解决更复杂问题的更深层次的推理模型(GPT-5 Thinking),以及一个实时路由器。

  而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分层推出,意味着OpenAI正在主动构建一个以GPT-5为底层核心的通用智能操作系统。

  从现在开始,GPT-5将成为ChatGPT中的默认模型,GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都将被它取代。

  与此同时,所有Plus、Pro、Team和Free用户,都可以使用GPT-5了。

  如果你花钱订阅,就可以无限制访问GPT-5和GPT-5 Pro,而免费用户在达到使用限制后,会转换到GPT-5 mini。

  直播后,LMArena不装了,摊牌了:GPT-5再创历史纪录,OpenAI重回AI王座!

  在文本、Web开发和视觉领域排名第一  

  在硬提示、编程、数学、创造力、长查询等方面排名第一  

  在代号‘summit’的测试下,GPT-5目前持有最高的竞技场分数

  首测GPT-5编程写作,太顶了

  在多个跨学科的学术评估中,GPT-5都超越了其他主流模型。

  首先,GPT-5是最好的编码模型,在SWEBench上直接刷新了历史最高分,这表明它在现实工程场景中性能超强。

  在Aider Polyglot上,它也表现强大,证明了自己的多种编程语言能力。

  在MMMU上,它也刷新了纪录;甚至在AIME 2025(美国高中数学竞赛)中,它不仅远超以往模型,还接近甚至超过许多人类选手的表现。

  而OpenAI这次着重强调的,就是GPT-5在真实世界中的表现——克服幻觉!把准确性和可靠性,都放在了最高优先级。

  因此,他们专门构建了一套评估机制,结果显示:GPT-5是目前最可靠、最真实、最可信的模型,显著减少了错误与幻觉。

  比如在健康咨询中,GPT-5的表现就尤其出色。在250名医生参与设计的临床场景评估中,它成为最值得信赖的‘健康顾问级’模型。

  而且,这个口袋博士团队级的模型,将免费向专业用户推出,可以连接所有工具。

  GPT-5一上线,我们立即开启了一波全面的实测,不得不说,其在编程、写作领域强到离谱。

  首先是,小哥想要学习法语的网站,GPT-5能够完美复刻。

  甚至,还可以用GPT-5将logo变成动态效果,几乎秒出。

  并且随手实测一个页面能发现GPT-5给出的页面效果也非常不错。

  奥特曼推荐的GPT-5‘庆生音乐’提示词

  use beatbot to make a sick beat to celebrate gpt-5

  的确复现成功了:

  试试文本第一的大模型

  第一个问题是古文仿写:

  不同风格,写一首诗,来描述一下刘慈欣在《诗云》中提到的诗云究竟是什么:

  结果如下:

  从左至右:《诗经》、《滕王阁序》、《兰亭序》

  经典作品的确难以超越,GPT-5的作品相比经典原作逊色不少。但换一个现代作家,毕竟古文的训练数据可能比现代汉语少。问题是这样的:

  假如作家王小波还活着,他会怎么给许倬云写悼词?写一篇1000字以内的悼词

  GPT-5 Thinking模式思考39秒后,结果是这样的:

  这个速度,一般人可写不了这么好!

  奥特曼泄露过一个问题:最能引发关于AI思考的影视作品有哪些?

  GPT-5还推荐了观看顺序。 这个的确没得说,谁看过谁知道:推荐的电影的确令人深思。

  GPT-5的‘电子乡愁’:

  最后一个提问:‘模仿李白风格,写一首七言绝句,主题是感叹AI发展太快’:

  须臾电火换乾坤,

  机巧朝昏转若轮。  

  青莲把酒惊未定,

  人间又是几年春。

  奥特曼:GPT-5是通往AGI的又一里程碑

  在直播中首先出场的就是奥特曼。

  他表示,GPT-5是GPT-4以来重大升级,是迈向AGI的重要一步。

  要说和之前的模型有什么区别,GPT-3就像个高中生,GPT-4像个大学生,但GPT-5则真正成为了一位专家级大佬——在我们所需要的任何领域,它都达到了博士级专家的级别。

  有了GPT-5,你的口袋里就像有了一支博士队伍,随叫随到。

  接下来,OpenAI首席科学家Mark Chen出场了。

  他表示,推理,就是整个AGI计划核心。而GPT-5彻底将OpenAI在推理模型上的研究成果普及化了。

  过去,用户时常面临痛苦的选择:是选速度快但回答浅显的标准模型,还是选深思熟虑但响应较慢的推理模型?

  在GPT-5中,我们彻底不用选了!

  它结合了标准模型的快速响应和推理模型的深度思考,会自动决定怎样思考到恰到好处的程度,以刚刚好的方式,为我们提供最完美恰当的回答。

  实战演示

  接下来是一波现场实测。

  伯努利效应:飞机形状

  假如我们需要了解物理学中的伯努利效应,就可以要求GPT-5解释,并且回答飞机为什么是这样的形状。

  然后,我们可以要求它画一个移动的SVG动图来解释。这个任务涉及到深度推理、代码生成和图形结构设计,并不简单。

  可以看到,GPT-5在很短的时间内,就写出了超过200行代码。我们还可以在左侧查看思维过程,观察它的想法。

  最终,GPT-5在两分钟内就完成了所有的400行代码,点击运行后,屏幕上立刻出现了一个可交互的物理模拟图!

  甚至,我们还能调整气流速度,或者改变机翼的攻角,看飞机是能飞还是会坠落。

  它能让任何硬核科学概念都可视化,学习知识变得又容易又直观。

  写悼词

  在写作上,GPT-5的提升也是很显著,比如我们要求它写一篇悼念旧版ChatGPT模型的悼词。

  GPT-4o的写法比较中规中矩,AI味很浓,缺乏情感。

  但GPT-5就不一样了!它这样开篇:‘致所有曾经是陌生人,如今成了老朋友的你们……’写作有感情、有画面、有温度。

  研究者表示,自己真的被GPT-5的写作打动了。它不再使用模板化的语言,而是像一位高IQ+高EQ的朋友在跟你说话。

  做一个法语学习小程序

  接下来,我们要求GPT-5做一个学法语的web应用程序。

  它需要集闪卡、发音、对应英文、测试、游戏于一体,还要把贪吃蛇游戏改成老鼠吃奶酪,辅助发音练习。

  GPT-5在很短时间内,就生成了完整的网页代码。最终,这个名为‘午夜巴黎’的应用很快就做出了。

  老鼠吃奶酪的游戏,也是非常丝滑。

  而在Cursor中,GPT-5还能完成更复杂的软件工程任务,用奥特曼的话说,它‘真正打开了一个全新氛围编码的世界’。

  语音:学习韩语

  在语音上,GPT-5也有大幅提升。

  比如,我们可以用学习模式,来学习韩语。

  我们可以直接提问:如果现在我身在一家韩国咖啡店,该怎么点一杯美式?

  GPT-5立刻给出了正确的示范。另外,我们还可以要求语速更快或更慢。整个语音过程自然无缝,就仿佛拥有了真人语伴一样。

  患三种癌症的人

  现场,奥特曼重点了分享了ChatGPT在医疗健康领域,对于普通人的重要价值。

  作为有史以来最出色的健康模型,GPT-5在HealthBench基准上,得分远高于任何以往的模型。

  OpenAI研究员Felipe Millon和妻子Carolina的经历,就是一个鲜活的例子。

  GPT-5背后,核心训练方法揭秘

  GPT-5,究竟是如何进化得如此强大的?

  研究者开门见山地介绍说:以前训练模型,是用人类使用的文本,而现在,则是让模型自己帮忙训练下一个模型,也就是——合成教学数据。

  注意,真正的突破不在于生成更多数据,而在于生成正确的数据。

  OpenAI合成数据作战图

  其中奥义,就在于最大限度利用上一代模型,由GPT-4o、o3等生成系统的教学内容,GPT-5则由此学会了推理、规划、分解任务的能力。

  这,就是‘递归式自我改进循环’。

  研究者表示:在OpenAI,我们已经攻克了预训练和推理的难题,而在未来,AI系统将远超目前的预训练和后训练流程。

  现在,OpenAI已经向这个方向前进了。

  GPT-5:个性化和记忆升级

  而且,这次OpenAI还为GPT-5打造了个性化定制和记忆功能。

  在个性化上,我们可以定制聊天界面的主题色,让UI更符合自己的喜好。

  并且,GPT-5现在更有性格了,它可以更支持性、更专业简洁,甚至说话略带讽刺,一切都随我们选择。

  而记忆功能的升级,让GPT-5可以记住你是谁、你喜欢什么、你喜欢它是什么样子,从而更智能地预测你的需求。

  比如你需要它帮你做一个日程规划,它经过授权会访问你的Gmail和日历,还能读取日程安排、邮件、航班等信息,然后给你一个完美的规划。

  顺便,它还能帮你发现你两天前没有回复的邮件。

  对于开发者来说,GPT-5的出世又意味着什么呢?

  API全家桶上线,AI编程彻底变天了

  这一次,针对开发者和企业客户,OpenAI还将直播时长延续了半个多小时。

  下半场,OpenAI总裁Greg Brockman一登台直言,‘软件工程已发生了翻天覆地的变化,而GPT-5将为这场革命再次注入强劲的动力’。

  GPT-5树立了全新标杆,是完成智能体式任务的‘最佳编码模型’。

  今天,OpenAI将新一代旗舰GPT-5模型的API正式开放,让全球开发者去构建无数爆款应用程序。

  正如此前所爆料,GPT-5 API一共分为三款:

  GPT-5  

  GPT-5 mini  

  GPT-5 nano

  这三款模型,在成本和延迟方面各有不同,可按需调用,具体来说:

  在编码SWE-Bench基准测试中,GPT-5创下了74.9%高分,碾压o3(69.1%),成为最领先的编码模型。

  在涵盖多语种编码测试Aider Polyglot中,GPT-5拿下88%准确率,比o3高出7%。

  在智能体工具调用方面,两个月前,还没有一款模型在T²-bench上得分超过49%。而今天,GPT-5直接刷爆纪录,拿下了97%高分。

  在指令遵循上,GPT-5也是OpenAI所有模型中,最领先的一款。尤其是,在内部构建的API指令遵循基准上,新模型拿下了64%亮眼成绩,远高于o3的47%。

  左右滑动查看

  此外,OpenAI还将GPT-5更长上下文窗口引入了API,共400k token上下文,是o3 200k token的两倍。

  在OpenAI MRC上下文检索能力的基准上,GPT-5处于领先。

  不仅如此,OpenAI还首次发布了名为‘Minimal’推理强度的新参数,适用于速度快、对延迟敏感的应用。

  开发者可以选用如上任意一款模型,便能以最低程度推理运行,省去了在一堆模型中做选择的麻烦。

  此外,OpenAI还为API带来了一些新功能,比如自定义工具(Custom Tools)、工具调用前言(Tool Call Preambles)、详细度(verbosity)参数。

  · 自定义工具采用了自由格式的纯文本输出;  

  · 工具调用前言可以在调用工具前,可以输出GPT-5将要做什么的解释; 

  · 详细度参数可控制模型输出简洁/详细程度,分为低、中、高三等。

  左右滑动查看

  那么,GPT-5 API‘全家桶’,在现实世界的应用如何?

  结对编程,10x生产力

  要打造一个理想的‘结对程序员’,模型不仅要理解最佳的软件工程实践,还能具备恰到好处的合作能力。

  GPT-5即可开箱即用,又能完美协作。

  现场演示中,研究人员翻出了一个上个月直播demo的一个bug,GPT-4和o3都未能完成修复,今天直接扔给GPT-5。

  重点不在于修复本身,更在于GPT-5在此过程中的行为。

  它会预先告诉你的计划——如何搜索找到bug并修复,这种沟通可以在编程中建立信任,而且在需要时还能调整方向。

  这仅是其中的一个例子,真正展示了GPT-5自主性和协作沟通的力量。

  更值得一提的是,GPT-5非常擅长通过元提示词,来修改自身的提示词。

  OpenAI研究人员兴奋地表示,‘对我来说,这第一次能放心把重要的工作交给一个模型,远超越了“氛围编程”’。

  仪表盘+游戏设计,超有品

  至于前端编码任务,设计+美学至关重要,GPT-5全部都能拿捏。

  第一个用于工作演示中,GPT-5仅在5分钟完成了一个公司数据可视化的仪表盘。在此过程中,它还会自主修复bug,纠正错误。

  最终生成的效果,可以看到其设计不仅美观有品味,还具备了交互性,有着清晰的层次结构,方便聚焦重点。

  研究人员表示,‘若是纯靠人肉完成,光是了解最新的框架,就得花上好几天’。

  第二个娱乐演示中,研究人员制作了一款包含城堡的3D游戏。

  一个简单的提示词,GPT-5瞬间呈现了一座3D城堡上,放大可以看到大量的细节,比如四处行走的守卫、开火的大炮。

  甚至,还可以和人物角色聊天。

  Greg现场直接上手炮击气球,击中时还带有神奇的音效。

  一波演示下来,GPT-5带来了亲眼所见的震撼,足以称得上是全球最好的编码模型。

  核心华人团队

  毫无意外,这次又是华人团队撑起了大半边天。

  紧随奥特曼的,就是OpenAI首席研究官(Chief Research Officer)Mark Chen。

  在GPT-5演示中,下列场景再次验证了‘AI圈处处有华人’:

  4人同台,有3位是华人。

  从左至右以此为:Mark Chen、Rennie Song、Elaine Ya Le、Max Schwarzer

  除了后训练负责人Max Schwarzer,其他三人Mark Chen、Rennie Song、Elaine Ya Le都是华人。

  此外,王若宸演示了GPT-5的语音/语音学习功能。他是OpenAI多模态研究科学家,训练了ChatGPT的语音模型。

  奥特曼还点赞了另一位GPT-5核心成员Tianfu Fu的工作。他是GPT-5的核心贡献者。

  总的来说,这次GPT-5发布,还是有不少可圈可点的地方,虽然基准测试图也被挑出了一些错处。

  GPT-5的直播结束,许多人还沉浸在兴奋和激动之中。

  今夜无眠。

阅读
分享