·GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本;GPT-4在各种专业和学术基准上的表现达到“人类水平”,在事实性、可引导性和可控制方面取得了“史上最佳结果”;当任务的复杂性达到足够的阈值时,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
·OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。OpenAI将开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准。
3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。
GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
此外,GPT-4的高级推理能力超越了ChatGPT。在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40% 。GPT-4引入了更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。
不过,OpenAI表示,GPT-4仍然有许多正在解决的局限性,例如社会偏见、幻觉和对抗性prompt(提示)。
目前,OpenAI在付费版的ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的新必应(New Bing)早就用上了GPT-4。
OpenAI还开源了Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,帮助其改进。
“GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在介绍视频里说。
OpenAI在官网发布公告,宣布推出GPT-4
比GPT-3.5更可靠,更有创造力
GPT是Generative Pre-training Transformer(生成式预训练Transformer)的缩写。OpenAI于2018年推出具有1.17亿个参数的GPT-1模型,2019年推出具有15亿个参数的GPT-2,2020年推出有1750亿个参数的GPT-3。ChatGPT是OpenAI对GPT-3模型微调后开发出来的对话机器人。
3月14日,OpenAI在其官网上发布了推出GPT-4的公告。公告称,OpenAI已正式推出GPT-4,这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型多模态模型,尽管在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。
例如:GPT-4通过了模拟的律师考试,分数约为全部应试者的前10%。而相比之下,GPT-3.5的分数大约是后10%。“我们团队花了6个月时间,利用对抗性测试项目以及基于ChatGPT的相关经验,反复对GPT-4进行调整。结果是,GPT-4在事实性(factuality)、可引导性(steerability)和拒绝超范围解答(非合规)问题方面取得了有史以来最好的结果(尽管它还不够完美)。”
OpenAI表示,在过去两年里,他们重构了整个深度学习堆栈,并与Azure(微软云服务)合作,共同设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5,作为整个系统的首次“试运行”。他们发现并修复了一些错误,改进了之前的理论基础。“因此,我们的GPT-4训练、运行(自信地说:至少对我们来说是这样!)空前稳定,成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展,中级目标是磨出方法,以帮助OpenAI能够持续提前预测未来,并且为未来做好准备,我们认为这一点对安全至关重要。”
OpenAI承认,在简单闲聊时,也许不太好发现GPT-3.5和GPT-4之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
GPT-4相比GPT-3.5在各项考试中的成绩
为了理解这两个模型之间的差异,OpenAI在各种不同的基准上进行了测试,包括模拟为人类设计的考试。“我们还在为机器学习模型设计的传统基准上对GPT-4进行了评估。GPT-4大大超过现有的大语言模型,与多数最先进的(SOTA)模型并驾齐驱。”
许多现有的机器学习基准测试都是用英语编写的,为了初步了解 GPT-4在其他语言上的能力,研究团队使用Azure Translate将MMLU基准——一套涵盖57个主题的14000个多项选择题——翻译成多种语言。“在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他大模型(Chinchilla,PaLM)的英语表现,这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等。”
多模态功能有多强大?
GPT-4可以接受文本和图像的提示语。比如,可以让用户指定任何视觉或语言任务,它可以生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。不过,目前图像输入仍然属于研究预览,不针对普通用户开放。
发现图片的可笑之处
读懂图表并进行分析
发现图片中的不寻常之处
阅读文件并总结概要
读懂网上的梗图
OpenAI表示,他们一直在努力实现AI的可控制性。与经典ChatGPT的固定言语、语气和风格不同,开发者现在可以通过在系统消息中描述这些方向,来规定自己的AI的风格和任务。系统消息允许API(应用程序编程接口)用户在一定范围内大幅对用户体验进行定制。
仍然不是完全可靠的
不过,GPT-4仍然存在与早期GPT模型类似的限制。它仍然不是完全可靠的,比如会对事实产生“幻觉”,并出现推理错误。OpenAI提醒,在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎。
但相较于以前的模型,GPT-4大大减少了hallucinations(网络错觉)。在内部的对抗性事实性评估中,GPT-4的得分比GPT-3.5高40%。
“该模型在其输出中会有各种偏差,我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。”公告称。
OpenAI还指出,GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,或者过于轻信用户明显的虚假陈述。有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错。
GPT-4与过去的模型会存在类似风险,如产生有害的建议、错误代码或不准确信息。然而,GPT-4的额外能力还导致了新的风险面。“为了明确这些风险的具体情况,我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。”OpenAI表示,来自这些领域专家的反馈和数据为缓解和改进模型提供了依据,比如他们已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。
此外,GPT-4在RLHF训练中加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害产出。
与GPT-3.5相比,这些缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,OpenAI将模型对非法内容请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合OpenAI政策的频率提高了29%。
OpenAI强调,总的来说,模型级干预措施增加了诱发不良行为的难度,但仍然存在“越狱”的情况,以产生违反使用指南的内容。
付费用户将获得有使用上限的GPT-4权限
和之前的GPT模型一样,GPT-4基础模型的训练是为了预测文档中的下一个单词,并使用公开的数据(如互联网数据)以及OpenAI授权的数据进行训练。这些数据来自于极大规模的语料库,包括数学问题的正确和错误的解决方案,弱的和强的推理,自相矛盾的和一致的声明,以及种类繁多的意识形态和想法。因此,当被提示有一个问题时,基础模型可以以各种各样的方式作出反应,而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致,OpenAI使用人类反馈的强化学习(RLHF)对模型的行为进行微调。
OpenAI正在开源其软件框架OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。“我们邀请大家使用Evals来测试我们的模型,并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分,我们欢迎直接贡献、问题和反馈。”
ChatGPT Plus用户将获得有使用上限的GPT-4权限。OpenAI将根据实际需求和系统性能调整确切的使用上限,但预计容量将受到严重限制。
OpenAI还可能为更高的GPT-4使用量引入一个新的订阅级别,也希望在某个时候提供一定数量的免费GPT-4查询,使没有订阅的用户也可以尝试。
要获得GPT-4的API,需要去OpenAI的官方等待名单上注册。获得访问权限后,用户目前可以向GPT-4模型发出纯文本请求(图像输入仍处于有限的测试阶段)。定价为每1k个prompt token 0.03美元,每1k个completion token 0.06美元。
南京残疾人社会保障措施汇总(南京残疾人社会保障措施汇总表格)
南京市残疾人保障条例已经施行,关于南京残疾人社会保障有哪些政策,一起来看详细信息。(1)人阅读时间:2023-03-16央视3·15曝光香精勾兑的“泰国香米”,涉事两家上海企业股东为同一人,曾因虚假宣传多次被罚
央视3·15曝光香精勾兑的“泰国香米”,涉事两家上海企业股东为同一人,曾因虚假宣传多次被罚,大米,茉莉,香精,上海市,泰国香米,中国中央电视台(1)人阅读时间:2023-03-16孙兴杰:无人机坠毁虽是意外
孙兴杰:无人机坠毁虽是意外 但要警惕美俄擦枪走火 ,美俄,孙兴杰,核潜艇,战斗机,安东诺夫,擦枪走火,自杀式无人机(1)人阅读时间:2023-03-16金新月是哪几个国家的交界地带(金新月是指哪几个国家的交界地带)
1、金新月国际毒源地指的是阿富汗、伊朗、巴基斯坦这三国的交界地带。2、该地区有跨越3000多公里的边界线,因其形状近似新月且又盛产鸦片,故被称为“金新月”。该地区包括伊朗的锡斯坦省,巴基斯坦的俾路支和西北边境省及阿富汗的(1)人阅读时间:2023-03-15微粒贷没有还清会影响贷款吗(微粒贷没还清会影响房贷吗)
微粒贷没有还清,剩余待还款金额会成为用户的负债,而用户的负债率会影响到下笔贷款的贷款额度。只要用户有足够的还款能力,即使微粒贷没..2023-03-16腾讯视频如何取消自动续费(腾讯视频如何取消自动续费功能)
开通视频会员,可以给我们的日常休闲生活带来很大的帮助,但是当我们不需要的时候,它总是自动续费,很是烦恼,白花冤枉钱,那怎么管理我们的自..2023-03-16猫咪耳朵里有黑的东西是怎么了 猫咪耳朵里有黑的东西是怎么了图片
如果在小猫耳朵里边发现一些黑乎乎东西,甚至闻起来气味比较臭,一般说明猫猫耳朵已经发生病菌感染,常见原因有以下几个:1、普通污垢导致细..2023-03-16怎么从佳能相机导出照片(佳能单反相机怎么把照片导出来)
有些照片需要拖到电脑里面处理用佳能专用的线连接电脑和佳能相机我的相机usb接口在右侧左上角使用相机的线连接之后等待如下画面弹出..2023-03-16