自生成式人工智能向公众广泛普及以来,已经过去了近两年。一些模特通过了学术和专业考试,表现出了很大的希望。
例如,GPT-4的得分高于90%的美国律师考试考生。这些成功导致人们担心人工智能系统也可能轻松通过大学水平的评估。然而,我最近的研究描绘了一幅不同的画面,表明它并不像一些人想象的那样是学术强国。
为了探索生成式人工智能的学术能力,我研究了它在伍伦贡大学(University of wollongong)本科生刑法期末考试中的表现——这是学生获得学位所需通过的核心科目之一。参加考试的有225名学生。
考试时间为三个小时,分为两个部分。第一个要求学生评估一个关于刑事犯罪的案例研究,以及成功起诉的可能性。第二次测试包括一篇短文和一组简短的问题。
测试的问题评估了各种技能,包括法律知识、批判性思维和构建有说服力的论点的能力。
学生们不允许使用人工智能来回答问题,而是在有监督的环境中进行评估。
我使用不同的人工智能模型为考试问题创造了十个不同的答案。
在没有任何提示的情况下,将试题粘贴到人工智能工具中,生成了5份试卷。对于其他五个,我给出了详细的提示和相关的法律内容,看看这是否会改善结果。
我在官方试卷上手写人工智能生成的答案,并使用假的学生姓名和号码。这些人工智能生成的答案与实际的学生考试答案混合在一起,并匿名交给五位导师进行评分。
重要的是,在阅卷时,导师并不知道人工智能已经生成了10个考试答案。
当导师们在打分后接受采访时,没有人怀疑任何答案是人工智能生成的。
这表明人工智能有可能模仿学生的反应,而教育工作者却无法发现这类论文。
但总的来说,人工智能的论文并不令人印象深刻。
虽然人工智能在论文式的问题上表现不错,但在需要深入法律分析的复杂问题上却表现不佳。
这意味着,尽管人工智能可以模仿人类的写作风格,但它缺乏复杂法律推理所需的细致入微的理解。
学生的考试平均分是66%。
没有提示的人工智能论文平均只击败了4.3%的学生。两个勉强及格(及格分数是50%),三个不及格。
在使用提示的论文中,他们平均超过了39.9%的学生。其中三篇论文的评分不高,分别为50%、51.7%和60%,但有两篇表现不错。一个得分为73.3%,另一个得分为78%。
这些发现对教育和专业标准都有重要意义。
尽管大肆宣传,但生成式人工智能还远不能在像这次法律考试这样对智力要求很高的任务中取代人类。
我的研究表明,人工智能更应该被视为一种工具,如果使用得当,它可以增强人类的能力。
因此,学校和大学应该专注于培养学生与人工智能合作的技能,并批判性地分析其产出,而不是依赖这些工具简单地给出答案的能力。
此外,为了让人工智能和学生之间的合作成为可能,我们可能不得不重新思考一些关于教育和评估的传统观念。
例如,我们可能会认为,当学生提示、验证和编辑人工智能生成的作品时,这是他们的原创贡献,仍然应该被视为学习中有价值的一部分。
公司提供
nversation
本文转载自The Co在知识共享许可下的对话。阅读原文。
引用:研究人员发现生成式人工智能在本科法律考试中的复杂问题上挣扎(2024年10月2日)
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。