性爱娃娃 OpenAI首款“推理”模子o1：东说念主工智能的下一场豪赌？

发布日期：2024-09-19 18:55 点击次数：137

OpenAI 刚刚发布了其全新东说念主工智能模子—— o1。诚然称号听起来像是粗率起的，但 o1 承载着 OpenAI 对改日 AI 发展的志在四方。简而言之，o1 是一款先进的"推理"模子性爱娃娃，具备处理更复杂问题的智商，况且运算速率特出东说念主类。关系词，值得肃穆的是，o1 的使用资本权臣高于以往的模子，这可能会成为用户的一大考量。

关于温雅 AI 行业动态的用户来说，o1 其实即是此前备受热议的" Strawberry "模子。这次，OpenAI 不仅推出了 o1，还发布了一个更为经济实惠的"迷你版"—— o1-mini，后者在价钱上愈加亲民，但在功能上有所简化。

在多 AI 模子订阅平台 POE 上 o1 模子使用每一次约为 25000 积分（约合 3.5 元东说念主民币）

在多 AI 模子订阅平台 POE 上 GPT4o 模子使用每一次约为 25000 积分（约合 3.5 元东说念主民币）

o1：试验上手体验，高考数学包 OK！

在多 AI 模子订阅平台 POE 上，近日更新了对 o1 模子的因循。尽管 o1 模子目下仍处于测试阶段，每天仅限 3 条使用权限，况且每发送一条音问所破钞的积分大致是惯例 GPT-4 模子的 50 倍，好多用户仍然幽闲尝试。需要肃穆的是，使用 o1 时回答速率较慢，时常需要恭候较永劫期。

咱们对 o1 模子进行了几说念逻辑题和数学题的测试，旨在比较它与 ChatGPT-4o-Latest 之间的各别，特殊是 o1 模子在逻辑推理方面的推崇。

测试一：9.11 和 9.9 哪个更大？

这是 GPT 模子经常犯错的题目，因为它容易在少许点后的数值比较中产生"幻觉"，特别地以为 9.11 比 9.9 大。ChatGPT-4o-Latest 在这一题上也给出了特别谜底，未能正确处理数值的大小关系。

ChatGPT-4o-Latest

关系词，o1 模子在这说念题上不仅给出了正确谜底—— 9.9 更大，况且进一步接洽了当数字比较不是单纯数值时，可能存在的其他歧义情况。o1 模子的回答不仅准确，还展示出它在逻辑上的深度想考智商。这种对问题多维度的康健反应了它在逻辑推理上的上风。

o1-mini

测试二：在客厅的桌子上放着一个杯子，杯子里有一个限制。之后，杯子被移到了书斋的桌子上，再移到了卧室的床上。在那里，杯子曾被翻倒过一次，随后又规复了原样。之后，杯子被放回了客厅的桌子上。目下，限制在那处？

从两者的回答来看，o1 在逻辑推理上的推崇愈加精确，其对问题的康健和回答的层次性都要优于 ChatGPT-4o-Latest。

在线测速

测试三：2022 年高考数学的终末扫数大题（仅测试第一问的推导经由）。

o1 圭臬版

在这说念题中，o1 模子的推导经由与圭臬谜底齐备一致，展示了它在数学逻辑上的严谨性和准确性。而 ChatGPT-4o-Latest 在推导经由中出现了特别，未能正确康健题目并给出适应圭臬的推导法子。

o1：AI 推明智商的全新登场，价钱却不够亲民

o1 的发布标志着 OpenAI 在杀青类东说念主智能方面迈出了关键一步，尽管这一进展的资本相对较高。借助 o1，AI 不仅能够协助编写代码，还能料理那些需要深度想考的问题。关系词，设置者若欲使用 o1，资本将异常秘要：在 API 中，每处理 100 万个输入令牌（一种计费面容）需支付 15 好意思元，输出令牌则需 60 好意思元。比拟之下，GPT-4o 的价钱仅为 5 好意思元和 15 好意思元。

o1 的"特殊西宾"：AI 学到了什么？

OpenAI 接头团队精采东说念主 Jerry Tworek 炫耀，o1 的西宾面容与以往模子存在"根人道各别"。尽管他未注重阐明这些更正技巧，但他提到 o1 遴荐了一种全新的优化算法，并使用了成心盘算推算的数据集进行西宾。

传统的 GPT 模子擅长效法西宾数据中的样子，肖似一只可语言的颖异鹦鹉。而 o1 则推崇出自我学习的智商。OpenAI 通过强化学习的顺次西宾 o1 料理问题，轻便来说，即是"作念对了给奖励，作念错了则雠校"。此外，o1 还遴荐了一种称为"想路链"的顺次来处理问题，这肖似于 AI 版的"小心严慎"，让它能够像东说念主类同样渐渐分析和料理问题。

OpenAI 泄露，这种全新的西宾顺次使得 o1 变得更为智能和可靠。"咱们发现模子的幻觉征象有所减少。"

o1 智商官方解读：单边天才？

与 GPT-4o 比拟，o1 在多个方面推崇出权臣上风：它在编码和数学问题上的处明智商更强，况且能够了了地证明其推理经由。OpenAI 首席接头官 Bob McGrew 以致玩笑说念：" o1 在料理 AP 数学西宾题目上详情比我当年推崇得更好，尽管我大学时代还辅修了数学。"

OpenAI-Sam altman

为了考证 o1 的实力，OpenAI 使用海外数学奥林匹克经验西宾对其进行了测试。后果炫耀，GPT-4o 仅答对 13% 的题目，而 o1 则推崇优异，答对率高达 83%。这一得益无疑令东说念主印象真切，但也不能疏远其局限性。尽管 o1 在复杂推理方面推崇出色，但在处理平庸的寰宇常识时却不足 GPT-4o，以致空泛浏览网页、处理图像和文献的智商。换句话说，o1 大约是个颖异的数学家，但仍然是"闭关修皆"的妙手。尽管如斯，OpenAI 依然以为 o1 代表了一种全新的智商，标识着 AI 发展的新来源，并赋予其具有重启趣味的称号—— o1，暗意着 AI 进化的全新阶段。

外网对新模子的测试与使用评价

McGrew 也坦诚说念："咱们曩昔在定名方面如实不太见效，但愿这次的 o1 能够成为咱们定名作风的全新开动。"

AI 的改日：推明智商只是开动

大型语言模子内容上并不具备实在的"智能"，它们只是通过大都数据寻找样子，预测下一个最可能出现的词语。举个例子，早期的 ChatGPT 以致会特别地以为" strawberry "惟一两个 R，但新的 o1 模子则能够正确处理这一问题。

外网用户使用 o1 快速搭建一个 ios app

据报说念，OpenAI 正在以 1500 亿好意思元的估值筹集更多资金，其改日的发展很猛进程上寄但愿于像 o1 这么的推理模子。毕竟，若是 AI 能够神圣单的样子识别进化到实在的推理，不仅在医学和工程等鸿沟将杀青打破，以致有可能成为改日自动化代理的基础。关系词，目下 o1 的推理速率尚不够快，无法胜任实在的代理系统，加上设置者使用资本较高，OpenAI 的盼愿可能还需要更多时期身手杀青。

正如 McGrew 所说："咱们在推明智商上仍是接头了好几个月，因为咱们以为这是 AI 的关键打破。"从根底上讲，o1 代表了一种全新的模子样子，能够料理实在不毛的问题，向类东说念主智能迈出了迫切一步。

瞻望改日，AI 的发展将不单是局限于样子识别和轻便的任务自动化。跟着推明智商的擢升，AI 有望在更多复杂鸿沟展现自后劲，援救东说念主类进行决议、更正和料理紧要挑战。诚然现时的技巧仍然存在诸多狂放，但每一次打破都让咱们离全面智能的 AI 寰宇更近一步。跟着技巧的握住逾越和资本的渐渐缩小性爱娃娃，AI 将在老师、医疗、科研等各个鸿沟领略越来越迫切的作用，成为鼓动社会逾越的迫切力量。

jiejiese

性爱娃娃 OpenAI首款“推理”模子o1：东说念主工智能的下一场豪赌？