通常,当一家软件公司在5月份推出一个主要的新版本时,他们不会试图在4个月后再发布另一个主要的新版本。但人工智能行业的创新速度并不寻常。
尽管OpenAI在5月中旬发布了新的全能gpt - 40模型,但该公司一直很忙。早在去年11月,路透社就有传言称OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们对这篇报道进行了重述,称正在以“草莓”(Strawberry)的代号开发Q*。
事实证明,“草莓”实际上是一种名为“01 -preview”的型号,现在ChatGPT Plus的订户可以选择使用它。您可以从选择下拉菜单中选择模型:
正如您所想象的,如果有新的ChatGPT模型可用,我将对其进行测试。这就是我在这里所做的。
新的“草莓”模型侧重于推理,将提示和问题分解成步骤。OpenAI通过在每个答案之前显示推理摘要来展示这种方法。
当01 -preview被问到一个问题时,它会做一些思考,然后显示做这个思考花了多长时间。如果你切换下拉菜单,你会看到一些原因。下面是我的一个编码测试的例子:
AI知道添加错误处理是件好事,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。
我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一个测试中,我创建了一个WordPress插件,这个模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比以前的型号提供了更多的信息。
但是,真正的证据是布丁。让我们对这个新模型进行标准测试,看看效果如何。
这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须分离重复的条目,这样它们就不会彼此相邻。
01 -预览版表现出色。它首先以输入字段的形式呈现UI:
一旦输入数据并点击Randomize Lines, AI就会生成一个带有随机输出数据的输出字段。你可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:
在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。
我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。
01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。
这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。
提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。
并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。
01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。很有帮助。
这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。
回答这个问题需要理解这三种技术,以及它们是如何协同工作的。
再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。
用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。
ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能是喋喋不休的。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:
这是o1-preview对相同测试的反应:
我是说,哇,对吧?这是来自ChatGPT的大量聊天内容。你也可以把推理下拉菜单打开,获取更多信息:
所有这些信息都很棒,但是有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。
然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。
你试过用01 -preview编码吗?你的经历是什么?请在下面的评论中告诉我们。
你可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。