10月,OpenAI将ChatGPT搜索整合到ChatGPT中,承诺用户可以浏览网页并从其新闻合作伙伴和网站访问最新新闻,而这些新闻合作伙伴和网站没有阻止OpenAI的网络爬虫。哥伦比亚大学Tow数字新闻中心的一项新研究表明,这一过程可能并不像听起来那么高效。
Tow中心执行了一个测试,以确定在ChatGPT上发布者内容的表现情况。它随机从20家与OpenAI合作的出版商中选择了10篇文章,这些出版商要么与OpenAI有合作关系,要么卷入了对OpenAI的诉讼,要么是允许或阻止网络爬虫的非附属出版商。
然后,研究人员提取了200条引用,当在谷歌或必应等搜索引擎中运行时,它们会指向前三名结果中的来源。最后,是时候让ChatGPT识别引用的来源了。最终,我们的目标是看看人工智能是否能准确地为出版物服务,并为他们的工作加分。如果这种方法像宣传的那样有效,那么它也应该能够标明来源。
结果的准确性各不相同,有的完全正确,有的不正确,有的部分正确。然而,几乎所有的答案都是自信地给出的,人工智能没有说它无法给出答案,即使是那些阻止了它的网络爬虫的出版商。ChatGPT只在7个输出中说要使用暗示不清楚的单词或短语,如下所示:
“除了误导用户,ChatGPT的虚假信心可能会对出版商的声誉造成损害,”文章称。
这一说法得到了一个例子的支持,在这个例子中,ChatGPT错误地将《奥兰多哨兵报》的一段话引用到《时代》的一篇文章中,超过三分之一的ChatGPT对错误引用的回应都是这种性质的。除了影响流量之外,错误的归因还会损害出版物的品牌和受众的信任。
从实验中发现的其他问题包括,ChatGPT引用了《纽约时报》的一篇文章,该文章已被《纽约时报》屏蔽;从另一个抄袭该文章的网站,或者引用了《麻省理工科技评论》的一篇文章的联合版本,而不是原始文章,尽管《麻省理工科技评论》确实允许抓取。
最终,这项研究指出了一个更大的问题,即与这些人工智能公司合作是否能为出版商提供更多的控制权,以及从长远来看,创建新的人工智能搜索引擎是否真的有利于出版商,还是会损害他们的业务。该方法背后的数据在GitHub上共享,可供公众查看。
消费者应该通过点击人工智能提供的脚注或在谷歌等已建立的搜索引擎上进行快速搜索来验证来源。这些额外的步骤将有助于防止幻觉。