产品分类

您的位置:首页 > 技术文章 > 中信证券:OpenAI o1推理升级 关注强化学习新机遇

公司新闻

中信证券:OpenAI o1推理升级 关注强化学习新机遇

时间:2024-09-20浏览次数:

   

  

中信证券:OpenAI o1推理升级 关注强化学习新机遇

  OpenAI o1模型升级思维链和强化学习,重点提升模型推理性能,代码、数学、科学等强逻辑领域能力大幅提升,持续探索AGI实现新方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖,加速各领域应用落地■★■■。建议持续关注相关领域的头部AI公司◆■◆■。

  关于我们资质证明研究中心联系我们安全指引免责条款隐私条款风险提示函意见建议在线客服诚聘英才

  OpenAI o1模型重点升级思维链能力◆◆★■★,结合强化学习,提升代码■■★★、数学、科学等强逻辑领域能力,持续探索AGI实现方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升◆■◆★;应用端进一步降低各领域应用开发成本★■◆■,推理性能提升扩展强逻辑场景覆盖★◆■◆★,C端和B端应用有望加速。建议持续关注相关领域的头部AI公司。

  郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字★◆◆、数据及图表)全部或者部分内容的准确性■◆◆◆★、真实性、完整性、有效性、及时性、原创性等◆◆。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

  参考OpenAI官网及DeepMind的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(Charlie Snell,Jaehoon Lee,Kelvin Xu等)■◆★■■,我们推测o1模型将复杂任务拆解成多任务构成的思维链,并采用类似强化学习(RL)的模式,通过各节点行为优化寻求最优路径。其中,奖励模型决定优化方向,拥有明确评判标准的领域更具优势,因此o1模型在代码、数学、科学领域表现更优■■★■◆■,而在写作、编辑等任务上表现暂时不及GPT-4o,未来奖励模型能否准确评估其他的输出结果,是相关技术路线发展的核心问题之一■★。

  郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考★★■◆■,使用前请核实,风险自负◆◆■◆■。

  根据OpenAI测算★◆◆■,训练和推理端用于强化学习的算力投入与模型效果依然成正比,大模型获得全新有效算力投入途径★◆★◆■,有望带来数倍于传统大模型的算力需求。其中模型推理端算力需求增长显著,根据公司官网,当前o1-preview模型生成时间可达分钟级,API定价输入15美元/百万Token和输出60美元/百万Token■■,较GPT-4o输入5美元/百万Token和输出15美元/百万Token的定价有数倍增长★◆。根据英伟达CEO黄仁勋在Communacopia + Technology会议上的发言,海外Blackwell系列需求旺盛◆★★,算力行业景气度持续上行。

  【中信证券:OpenAI o1推理升级 关注强化学习新机遇】中信证券研报指出★■★,OpenAI o1模型升级思维链和强化学习,重点提升模型推理性能,代码、数学■◆★、科学等强逻辑领域能力大幅提升,持续探索AGI实现新方式◆★◆■。新模型在训练和推理端同步推动算力需求倍增◆■,算力产业链景气度持续上升■◆◆◆◆◆;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖★■◆,加速各领域应用落地★◆。建议持续关注相关领域的头部AI公司★◆★■■★。

  ▍事项:北京时间9月13日凌晨, OpenAI发布o1模型■★◆;OpenAI o1具备复杂推理能力■★■,代码、数学、科学领域达到顶尖水平。

  AI核心技术发展不及预期★■,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧。

  谣言侵权(诽谤、抄袭、冒用等)确定取消举报邮箱■◆■■◆■:举报举报成功★★■!关闭

  o1可将任务拆解成多个简单任务,构成完整思维链并进行优化,提升最终回答的逻辑性、综合性■■■◆、准确性。当前preview版本已开放给5级API用户,并将在下周向企业和学术用户优先开放。根据公司官网,编程方面,模型在Codeforces竞赛上超过83%的专业人员■◆■◆■★。数学方面,以2024年的美国数学邀请赛为测试集,o1单次生成可解决74%的问题◆◆★■■■,多次生成后进一步提升正确率到83%,而GPT-4只能解决12%的问题■★■。科学方面◆◆◆,模型GPQA Dimond测试集正确率78%,超越人类专家70%水平。

  中信证券研报指出,OpenAI o1模型升级思维链和强化学习,重点提升模型推理性能,代码、数学、科学等强逻辑领域能力大幅提升,持续探索AGI实现新方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本■◆■★,推理性能提升扩展强逻辑场景覆盖,加速各领域应用落地。建议持续关注相关领域的头部AI公司。

  短期聚焦代码、数学■★■◆■、科学等强逻辑领域,其中AI代码生成将推动全领域开发效率提升★★■。根据微软财报,海外GitHub Copilot Q1付费用户数超180万■★,同比,国内工商银行软开中心编码助手生成代码量占总代码量的比例超32%■■,o1模型代码能力,有望进一步提升AI辅助开发效率。未来模型通过奖励模型泛化有望扩展更多行业,加速对边缘行业和场景的覆盖★■■,思维链结合工具使用■◆★◆、知识库等能力应用,可以形成更强Agent性能★◆■★■,服务企业汇总■◆★◆★■、分析◆★★★◆◆、预警、预测、管理等强逻辑任务需求。

{eyou:beafter get='pre'}

邮箱:18964293912@163.com

地址:上海市松江区广富林路4855弄8号楼6楼

版权所有 © 2024 上海腾博游戏官方网站,腾博诚信为本官网网址,腾博app官方下载实业有限公司   备案号:沪ICP备11017316号-12  管理登陆  技术支持:化工仪器网  GoogleSitemap

在线客服 联系方式 二维码

服务热线

021-57631797

扫一扫,关注我们