关于人工智能的大惊小怪_工程百科_

　　人工智能(AI)对人类到底是正面的还是负面的，目前还没有定论，围绕这项技术的快速发展和采用引发了一系列争论。

　　例如，在欧盟，企业因不遵守该地区的数据隐私法规而遇到监管障碍。

　　meta早在6月份就宣布，它将把欧洲用户的社交媒体帖子纳入其羊驼人工智能模型的人工智能训练数据中。由于Llama是一个多模式AI，这将包括从文本和图像到视频和音频的所有内容。

　　不久之后，爱尔兰数据保护委员会(DPC)要求这家社交媒体巨头不要利用该地区的社交媒体内容来训练大型语言模型，这促使meta推迟了其在欧盟的人工智能发布，令其他欧洲监管机构感到高兴。

　　英国和欧盟的用户有“反对权”，这将有效地阻止meta在训练其人工智能模型时使用他们的数据。然而，这个过程被描述为乏味和尴尬。

　　与此同时，根据在线科技出版物Mashable的一份报告，在没有像GDPR这样严格的数据保护法规的其他地区，就没有这个选择。

　　X(前身为Twitter)在7月底采取了类似的举措，利用用户帖子来培训其Grok人工智能模型，这促使DPC和英国信息专员办公室(Information Commissioner 's Office)就数据收集问题对该平台提出质疑。

　　据《卫报》报道，埃隆·马斯克(Elon musk)所有的平台让用户默认选择允许人工智能对他们的数据进行训练，这违反了英国的《通用数据保护条例》(GDPR)。

　　根据英国的《通用数据保护条例》(GDPR)，公司不允许默认实施同意，X的设置页面就是这种情况。

　　深陷争议

　　关于输入人工智能模型的训练数据内容的报道也很广泛，包括被盗和非法内容的指控。

　　早在去年12月，斯坦福互联网观测站的研究人员就发现，Laion-5B数据集包含了从社交媒体帖子和热门成人网站上抓取的1679张由儿童性虐待材料(CSAM)组成的非法图像。该数据集用于训练流行的AI图像生成器Stable Diffusion。

　　关于人工智能训练中数据集的进一步讨论涉及内容的来源。非营利组织EleutherAI编制了一个名为“The Pile”的庞大数据集，其中包含超过17万个YouTube视频的标题。

　　这些标题是未经允许拍摄的，据称被Anthropic、Nvidia和Salesforce等大公司使用。

　　最初的报道称，苹果公司将这些被盗数据用于人工智能培训，但该公司此后驳斥了这一说法。

　　来自比斯特先生、PewDiePie、马奎斯·布朗利(Marques Brownlee)和Jacksepticeye等有影响力的人的内容，以及《华尔街日报》、美国国家公共电台(NPR)和英国广播公司(BBC)等各种脱口秀和新闻媒体的内容，都被纳入该数据集。

　　据7月底的报道，据称布朗利的视频还被进一步用作Runway未经同意开发的人工智能视频生成工具的训练数据。报道称，他的视频中有1709个视频被用于人工智能训练。

　　在人工智能领域，直接侵犯版权的指控也一直是法律纠纷的主题，包括环球音乐集团(Universal music Group)、索尼音乐(Sony music)和华纳唱片(Warner Records)在内的音乐公司联盟声称，人工智能音乐制作公司Udio和Suno侵犯了它们的版权。

　　该诉讼声称，人工智能公司使用音乐厂牌拥有的版权材料训练他们的音乐生成模型，要求在训练中使用的每首歌曲赔偿15万美元(674,805令吉)。

　　去年12月，《纽约时报》就新闻内容对chatgpt制造商OpenAI(及其所有者微软)发起了类似的诉讼，目前正在进行中。

　　《纽约时报》的声明称，这家美国报纸的版权内容被非法用于开发人工智能产品，“威胁到《纽约时报》提供这项服务的能力”。

　　OpenAI和微软都反驳说，他们的产品不能替代《纽约时报》的报道，并要求法院驳回诉讼。

　　美联社、Axel Springer、FT集团、新闻集团和Vox Media等其他新闻提供商已与OpenAI达成许可协议，允许将其内容用于OpenAI的大型语言模型(llm)的培训。

　　今年6月，《福布斯》(Forbes)和《连线》(Wired)杂志发表了更直接的剽窃指控，称人工智能搜索和聊天机器人初创公司Perplexity一直在从这两家杂志各自的网站上抓取内容。

　　《福布斯》称，Perplexity利用人工智能根据该杂志在其网站上发布的一篇报道，制作了一篇文章、播客和YouTube视频。这是在未经《福布斯》允许的情况下进行的，并将其归功于原始报告。

　　《纽约时报》进一步声称，他们还发现了其他由Perplexity转载的抄袭报道，其中的信息来自彭博社和CNBC。

　　另一方面，《连线》杂志声称，Perplexity一直无视“Robots .txt”文件，这是机器人排除协议(Robots Exclusion Protocol)中使用的一个文件，旨在禁止网络抓取和爬虫程序，这家人工智能公司表示，它遵守了该协议。

　　在一份报告中，这家科技杂志声称，它监控了其网站的网络流量，并根据网站上发表的一篇文章的提示，将其链接到与Perplexity相关的机器人。

　　它进一步与OpenAI的ChatGPT和Anthropic的Claude进行了比较，后者对有问题的故事提供了一个假设，但明确表示他们无法访问它。

　　7月30日，这家初创公司与包括《纽约时报》、《财富》和Wordpress在内的多家媒体达成了一项收入分成计划，该计划将为人工智能生成的回复中引用的文章支付报酬。

关于人工智能的大惊小怪