在科技界,有一类学习者似乎是一个谜。他们努力工作,不断进步,并且非常善于表达。但奇怪的是,这些学习者——人工智能聊天机器人——经常在数学上遇到困难。
像Open AI的ChatGPT这样的聊天机器人可以写诗、总结书籍和回答问题,通常达到人类的流利程度。
这些系统可以根据它们所学的知识进行数学运算,但结果可能会有所不同,甚至是错误的。
它们被微调以确定概率,而不是进行基于规则的计算。可能性不是准确性,语言比数学更灵活、更宽容。
西北大学(Northwestern University)计算机科学教授、人工智能研究员克里斯蒂安·哈蒙德(Kristian Hammond)表示:“人工智能聊天机器人在数学方面存在困难,因为它们从未被设计用来做数学。”
世界上最聪明的计算机科学家似乎已经创造出了更像文科专业的人工智能,而不是数字天才。
从表面上看,这是与计算机的过去的一次彻底的决裂。自20世纪40年代早期计算机出现以来,对计算的一个很好的概括定义是“类固醇上的数学”。
计算机是不知疲倦的、快速的、精确的计算机器。长期以来,计算机真正擅长的是处理数字,远远超过人类的表现。
传统上,计算机已经被编程为遵循一步一步的规则,并在结构化数据库中检索信息。他们很强大,但很脆弱。因此,过去在人工智能方面的努力碰壁了。
然而,十多年前,一种不同的方法取得了突破,并开始取得惊人的成果。
其底层技术被称为神经网络,是松散地模仿人类大脑的。
这种人工智能没有严格的规则,而是通过分析大量数据来学习。它根据吸收的所有信息,通过预测下一个最有可能出现的单词或短语来生成语言——就像人类一样。
哈蒙德说:“这项技术做了很多了不起的事情,但它并不是无所不能。”“每个人都希望人工智能的答案是一样的。这是愚蠢的。”
有时,人工智能聊天机器人会在简单的算术和数学单词问题上遇到麻烦,这些问题需要多个步骤才能找到解决方案,一些技术评论家最近记录了这一点。人工智能的熟练程度越来越高,但它也有缺点。
可汗学院(Khan Academy)首席学习官克里斯汀?迪克尔博(Kristen DiCerbo)在最近的一次研讨会上介绍了数学准确性这一主题。可汗学院是一家非盈利教育机构,正在试验人工智能聊天机器人导师和助教。“这是一个问题,正如你们许多人所知道的,”迪塞博告诉教育工作者。
几个月前,可汗学院对其人工智能导师Khanmigo做了重大改变。
它将许多数值问题发送给计算器程序,而不是让人工智能来解决数学问题。在等待计算器程序完成的时候,学生们看到屏幕上出现了“做数学”的字样,还有一个摇头的汉字图标。
迪瑟博说:“我们实际上是在使用用来做数学的工具。”他仍然乐观地认为,对话式聊天机器人将在教育中发挥重要作用。
一年多来,ChatGPT一直在使用类似的解决方法来解决一些数学问题。对于诸如大数除法和乘法之类的任务,聊天机器人会请求计算器程序的帮助。
OpenAI在一份声明中表示,数学是一个“重要的正在进行的研究领域”,该公司的科学家在这个领域取得了稳步进展。
该公司表示,其新版本的GPT在公共数据库中对数千个需要视觉感知和数学推理的问题实现了近64%的准确率。这一比例高于上一版本的58%。
当人工智能聊天机器人消耗了大量相关的训练数据——教科书、演练和标准化测试——后,它们往往会表现出色。
其结果是,聊天机器人之前看到并分析过非常相似的问题,如果不是完全相同的话。该公司表示,ChatGPT技术的最新版本在高中学生的SAT数学考试中取得了89百分位的成绩。
该技术在数学上的不稳定表现,为人工智能社区关于该领域最佳发展方向的激烈辩论增添了趣味。大体来说,有两个阵营。
一边的人认为,为人工智能聊天机器人提供动力的高级神经网络(即大型语言模型)几乎是一条通往稳步进步并最终发展为通用人工智能(AGI)的唯一途径。通用人工智能是一种计算机,可以做人类大脑能做的任何事情。这是硅谷大部分人的主流观点。
但也有怀疑论者质疑,为大型语言模型增加更多的数据和计算能力是否足够。其中最突出的是meta首席人工智能科学家扬·勒昆(Yann LeCun)。
LeCun说,大型语言模型对逻辑的把握很少,缺乏常识性推理。他坚持认为,我们需要的是一种更广泛的方法,他称之为“世界建模”,或者可以像人类一样学习世界如何运作的系统。这可能需要十年左右的时间才能实现。
与此同时,meta正在基于其大型语言模型LLaMA,将人工智能智能助理软件整合到其社交媒体服务中,包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷,但它们仍然可以做很多事情。
大卫·费鲁奇领导的团队建造了IBM著名的沃森计算机,该计算机击败了有史以来最好的人类Jeopardy!2011年的球员。
像大多数计算机科学家一样,费鲁奇认为最新的人工智能技术无疑令人印象深刻——但主要是它的语言技能,而不是它的准确性。
他的创业公司Elemental Cognition开发软件,以改善金融、旅游和药物发现等领域的商业决策。它使用大型语言模型作为一个组成部分,但也使用更多基于规则的软件。
费鲁奇说,这种结构化软件是目前世界上许多重要系统运行的计算基础设施,比如银行、供应链和空中交通管制。“对于很多真正重要的事情,精确得令人痛苦,”他说。
纽约高中数学老师柯克?施耐德(Kirk Schneider)表示,他认为人工智能聊天机器人进入教育领域是不可避免的。他说,学校管理人员可以尝试禁止它们,但学生们还是会使用它们。
施耐德仍有一些疑虑。“他们通常都很好,但通常在数学方面不够好。它必须是准确的,”他说。“它必须是正确的。”
然而,那些偶尔的疏忽却成了一个教学的机会。施耐德经常把他的班级分成几个小组,聊天机器人的回答可以成为讨论的焦点。将你的答案与机器人的答案进行比较。谁是对的?你们每个人是如何得出自己的解决方案的?
“它教会他们用批判的眼光看待事物,磨练批判性思维,”他说。“这就像问另一个人——他们可能是对的,也可能是错的。”
对他的学生来说,这似乎是一堂人生课,即使他们忘记了毕达哥拉斯定理,也值得记住:不要相信人工智能程序告诉你的一切。不要太相信它。-《纽约时报
×