通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少尉

注册:2015-11-142
跳转到指定楼层
1#
发表于 2024-12-7 10:00:03 |只看该作者 |倒序浏览

就在刚刚,OpenAI 年底的 AI 春晚迎来了第二弹。

如果说昨天的 ChatGPT Pro 订阅计划震撼了普通用户的钱包,那么今天推出的产品则转向了不同的目标客户群体——企业机构和开发者。

早在直播活动开始前,负责模型微调的 OpenAI 研究员 Steven Heidel 就表示,虽然今天发布的产品可能不适用于所有人,但对于一部分人来说,它将具有重大意义。



OpenAI CEO Sam Altman 则在 X 平台发文称:

这种效果非常好;它成为了我 2024 年最大的惊喜之一。我非常期待看到人们会创造出什么!



X 网友已经给我们敲好黑板,划重点了:

强化微调(RFT)将于明年推出,专门针对 o1 模型。

通过利用强化微调(RFT)优化 o1 模型在专业领域的推理能力。

强化微调(RFT)通过仅需少量示例即可高效适应,优于传统的微调方法。

具体而言,OpenAI 今天推出了一个强化微调(Reinforcement Fine-Tuning)研究计划。

该计划允许开发人员利用大量的高质量任务(从数十到数千个)来训练模型,并依据提供的标准答案来评估模型的回答。

这种方法不仅可以增强模型在处理相似问题时的逻辑推理能力,还能显著提升模型在特定领域任务中的精确度。

直播过程中,OpenAI 还特地邀请了一位来自劳伦斯伯克利国家实验室的研究员 Justin Reese,他也向我们展示了这项技术成果目前在实际应用过程中的作用。



作为计算生物学家,Justin 的主要研究领域是罕见遗传疾病。

据他介绍,全球大约有 3 亿人患有罕见疾病,但问题是,评估罕见疾病比较困难,因为这通常需要具备两方面的知识:

一是必须具备医学领域的专家级知识,二是必须对生物医学数据进行系统性的推理。

通过与德国 Charite 医院等机构合作,Justin Reese 研究团队从数百篇罕见疾病病例报告中提取关键信息,然后使用 OpenAI 微调模型来更有效地推理出疾病的成因。



在直播过程中,OpenAI 研究人员也向我们使用强化微调优化模型的完整流程。

团队会使用经过精心准备的数据集对模型进行强化微调。 数据集中每个样例包含病例报告、观察到的和缺失的症状列表,以及模型需预测的目标基因。

模型需要根据给定的症状信息对潜在致病基因进行优先级排序,预测结果中正确基因的排名越靠前,得分就越高。

微调过程还会通过一个 graders(评分器)来衡量模型表现。评分器通过将模型输出与标准答案进行对比,给出 0 到 1 之间的评分,用于量化模型在验证集上的表现。



经过微调的模型在该复杂遗传疾病相关基因预测任务上的表现大幅提高,证明了强化微调在生物信息和基因疾病诊断领域的潜力。

另外,OpenAI 也宣布强化微调 API 的 Alpha 的访问权限明年将开放给更多组织使用,尤其是那些解决复杂任务的研究组织,比如法律、保险、医疗和金融等领域。

附上申请地址:https://openai.com/form/rft-research-program/

与昨日相呼应,本次直播依然以一个充满圣诞节日气氛的笑话收尾:

你们知道,我们住在旧金山。自动驾驶车辆非常流行。事实上,圣诞老人也在尝试这个。他想制造一辆自动驾驶的雪橇,但不知道为什么,他的模型总是不能识别树木,导致雪橇左撞右撞,树木撞得一塌糊涂。你们有猜到为什么吗?因为他没有为模型提供 Pi。



值得注意的是,最近风投公司 Menlo Ventures 最近深入调研了 600 名美国企业 IT 决策者,深入披露了目前 AI 产业的最新趋势。

在这份被视为业界风向标的报告中,有一组数据格外引人注目。

报道显示,OpenAI 的企业市场份额从 50% 跌至 34%,大批企业弃用 GPT-4 转投 Claude 3.5 Sonnet。基于此,Anthropic 则趁势崛起,市场占有率从 12% 暴涨至 24%。

可以说,市场份额是企业对 AI 技术最诚实的评分。但回合制较量的故事尚未结束,今天祭出的强化微调 API 有望再次点燃市场对 OpenAI 的关注度。



而就在 OpenAI 发布会召开前,Google 推出的新模型 gemini-exp-1206 在大模型竞技场 LMSYS Chatboat Arena 中再次登顶,力压 OpenAI 的 GPT-4o-1120。

与此同时,Meta 凌晨推出的 Llama 3.3 70B 模型也以成本更低的方式,实现了媲美 Llama 3.1 405B 的性能。

就这几天发布的新品而言,网络上褒贬不一。有人说失望,有人说惊喜,但无论如何,AI 的价值不在于模型有多复杂,而在于能解决什么实际问题。 最好的评判标准永远是亲自上手体验。


来源:36kr

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-23 01:07 , Processed in 0.142086 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部