接近理科博士生水准!OpenAI放大招,发布全新AI大模型——o1模型

来源:证券时报网作者:周春媚

北京时间9月13日凌晨,OpenAI重磅发布全新AI大模型——o1模型。

据OpenAI官网介绍,这一模型“旨在花更多时间思考后再作出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题”。不过,今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型,而且还只是预览版——o1-preview(o1预览版)。

事实上,此前外界曾流传OpenAI正在研发新模型“草莓”和“猎户座”,其中“草莓”具有更强的推理能力、擅长解决复杂的数理逻辑问题,而“猎户座”则将基于“草莓”模型的能力,是“ChatGPT”的超强继任模型。

OpenAI首席执行官山姆·奥特曼在其个人社交平台表示,“虽然o1的表现仍然存在缺陷,不过你在第一次使用它的时候仍然会感到震撼。”

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同,但功能、推理、性能等方面与外界揣测的基本一致。据了解,o1的推理模式的特别之处在于,在回答用户问题之前,o1会进入拟人化思考模式,将问题分解成更小的步骤,逐一解决,然后生成一个较长的内部思维链,这一推理模式也使得回答的内容更加准确。

“在我们的测试中,下一个模型(o1模型)更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。”OpenAI对o1模型的介绍表示。

在数学竞赛中,以AIME2024为例,GPT-4o平均只能解决12%的问题,而o1平均能解决74%的问题,若采用64个样本的共识,解决率能达到83%。o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列,并在物理、生物和化学问题(GPQA)基准测试中超越人类博士级准确度。

OpenAI表示,对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI将计数器重置为1,并将该系列命名为OpenAIo1。

另外,OpenAI在过去一段时间一直被质疑因加快产业开发而降低了对模型安全的重视,团队中多名安全团队的人员也接二连三离职。对于模型的安全问题,OpenAI表示,在开发这些新模型的过程中,公司提出了一种新的安全训练方法,利用模型的推理能力,使它们遵守安全和协调准则,能够通过在上下文中推理安全规则,并且更有效地应用这些安全规则。

“我们衡量安全性的一种方法是测试当用户试图绕过安全规则(称为‘越狱’)时,我们的模型如何继续遵循安全规则。在我们最严格的越狱测试之一中,GPT-4o得分为22(0-100分制),而我们的o1预览模型得分为84。”OpenAI介绍称。

适用对象方面,拥有增强的推理能力的o1模型更适合于解决科学、编码、数学和类似领域的复杂问题。例如,医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

除了o1系列模型外,OpenAI这次还一并发布了一个mini版OpenAIo1-mini模型。OpenAI在官网中给出了preview和mini版的不同定义,“为了给开发者提供更高效的解决方案,我们也发布了OpenAIo1-mini,这是一个尤其擅长编程的更快、更便宜的推理模型。”据了解,作为一款较小的模型,o1-mini比o1-preview便宜80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。

至于新模型的使用方面,OpenAI称,从发布之日起,ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择。不过,发送消息的次数目前还存在限制。o1-preview每周发送消息次数限制为30条消息,o1-mini则为50条消息。OpenAI称正在努力提高这些发送次数,并使ChatGPT能够根据给定的提示自动选择正确的模型。

价格方面,API的价格上,o1-preview每百万输入15美元,每百万输出60美元。与之对比,GPT4o每百万输入和每百万输出分别是5美元和15美元,o1-preview价格是GPT4o的3倍。o1-mini会便宜一些,每百万输入为3美元,每百万输出为12美元。

关于未来的计划,OpenAI表示计划向所有ChatGPTFree用户提供o1-mini访问权限。同时,除了o1模型宣布的这些更新之外,OpenAI还希望添加浏览、文件和图片上传等功能,并计划继续开发和发布GPT系列中的模型。

主题测试文章,只做测试使用。发布者:财华网,转转请注明出处:https://www.yifufu.com/13/06/5390.html

(0)
财华网的头像财华网
上一篇 6天前
下一篇 6天前

相关推荐

  • 旺季提前工价上涨 “链主”比亚迪富士康郑州招聘火爆

    作为目前比亚迪连片面积最大的整车生产基地,郑州比亚迪近日正式对外宣布了新款车型宋L DM-i“周销超万辆”的战果。 而在半个多月前,已在河南深耕多年的富士康,宣告将在郑州建设新事业总部,打造全球高端制造产业链和战略性新兴产业生态圈。 “链主”企业在河南产能、产量布局加码,用工需求也随之增长。 以往,伴随iPhone系列产品出货高峰期来临,郑州富士康每年8月至…

    财经 2024 年 8 月 14 日
    2300
  • 包装纸头部企业掀新一轮涨价 涨幅50元/吨至100元/吨

    本报记者王僖 步入7月中旬,包装纸市场的白板纸行业迎来新一轮涨价潮。多家造纸企业宣布自7月15日、7月16日起,各家涂布白板纸在原价的基础上统一上涨,上涨幅度在50元/吨至100元/吨。 7月初,包括博汇纸业在内的白卡纸头部纸企已掀起过一轮涨价,彼时上涨幅度在200元/吨至300元/吨。 “6月份以来,企业不断上涨白板纸价格,但由于终端需求一般,涨价落实较为…

    财经 2024 年 7 月 17 日
    3200
  • 折价20%!谁在低价卖“宁王”?

    来源:证券时报网作者:e公司 范璐媛 近期,宁德时代多次出现盘后高折价大宗交易。 卖方为同一营业部 9月2日,宁德时代出现一笔大宗交易:成交价为147.47元/股,相对前一天收盘价折价20%,成交量为3.28万股,成交金额为483.70万元。 该笔交易的买方营业部为华林证券上海浦东新区张杨路证券营业部,卖方营业部为方正证券宁波北仑泰山路证券营业部。 e公司记…

    财经 2024 年 9 月 3 日
    1700
  • 国庆国际机票预订量同比翻番 丝绸之路沿线国家热度渐升

    本报记者 陈潇 离国庆长假还有半个多月时间,准备抓住年内最后一个长假出国游玩的旅客已经开始行动。去哪儿平台数据显示,截至9月12日,国庆国际机票预订量较去年同期翻番,显示出强劲的消费活力。 与此同时,出境游还显示出两大趋势,一是更多的三线及以下城市居民正在参与其中,成为了旅游消费的新增长动力;二是,丝绸之路沿线国家及部分非洲国家热度正持续提升。 数据显示,目…

    财经 6天前
    800
  • 普华永道“顶格”罚单落地:暂停经营业务6个月罚没4.41亿

    证券时报记者 程丹 普华永道罚单落地。9月13日,财政部、证监会分别对普华永道下发行政处罚书,普华永道被暂停经营业务6个月,罚没款4.41亿元。 普华永道是执行恒大地产2019年、2020年年报审计及债券发行的审计机构,因未勤勉尽责,违反多项审计准则,导致多项审计程序失效,被财政部和证监会“双罚”,不仅有“资格罚”,还有巨额罚金。证监会表示,将继续坚决落实监…

    财经 5天前
    1100

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信