二维码
文文衫

扫一扫关注

当前位置: 首页 » 新闻资讯 » 新闻行业 » 正文

你的社交媒体帖子如何训练人工智能:你需要知道什么"(真的有挂)-知乎

放大字体  缩小字体 发布日期:2025-07-04 21:40:16    来源:本站    作者:admin    浏览次数:67    评论:0
导读

    在社交媒体和搜索引擎的使用过程中,我们常常以个人信息为代价换取便利。实际上,科技巨头的商业模式赋予了个人数据一种

  Facebook, WhatsApp, Messenger 和 Instagram 图标显示在手机屏幕上的插图照片,拍摄于波兰克拉科夫,2022年4月6日。 (Photo by Jakub Porzycki/NurPhoto) (Photo by Jakub Porzycki / NurPhoto / NurPhoto via AFP)

  在社交媒体和搜索引擎的使用过程中,我们常常以个人信息为代价换取便利。实际上,科技巨头的商业模式赋予了个人数据一种可以交易的经济价值。

  如今,生成式人工智能市场的迅猛发展使得这一问题更加复杂化。

  生成式人工智能指的是能够生成高质量文本、图像等内容的深度学习模型,这些模型通过分析大量数据进行“学习”。

  这些数据可能是生物医学摘要,用于设计回答医学问题的模型。或者,以OpenAI的ChatGPT为例,它利用了互联网上所有著名的英语文本库,以及超过100万小时的YouTube视频转录。

  人工智能竞赛已经演变成对推动人工智能发展所需数字数据的激烈争夺。据《纽约时报》报道,为了获取这些数据,OpenAI、谷歌和meta等公司不惜违反公司政策,甚至讨论修改法律。

  拥有Facebook、Instagram和WhatsApp的meta公司已经确认,它使用用户的社交媒体帖子和互动来训练其人工智能系统。至少从2023年9月起,新西兰用户的帖子可能已被用于此目的。

  与此同时,由于欧洲的数据保护法规,欧洲用户收到了关于隐私政策变更的通知,并有机会对此提出异议。

  meta AI的开源AI模型名为Llama。奥克兰理工大学计算机科学与软件工程系的高级讲师肯尼斯·约翰逊博士解释说,它是通过处理公开的网络文本和部分公开的社交媒体信息来训练的。

  “尽管meta在2023年声称仅使用公开帖子来训练人工智能,但其隐私政策表明,它可以使用平台上的任何内容。”

  他列举了我们有意或无意与社交媒体巨头分享的信息:帖子、照片、信息、应用、购买、互动、联系、设备、互联网服务提供商、语言、位置信息等。

  “这些信息中的任何一个都可以用来训练人工智能,但很难确定具体使用了哪些。”

  用户可能会争辩说他们不同意这样做,但约翰逊表示这并不重要。

  “如果你使用这个平台,你就已经同意了meta的条款和条件。随着时间的推移,政策也在更新。你无需点击任何按钮,就已经默认接受了这些条款。”

  这不仅仅是元数据:“所有数字服务都会收集你的某种数据。我认为让普通新西兰人意识到他们的数据是有价值的是很重要的。”

  公共利益智库Brainbox的人工智能负责人阿林·罗宾斯在接受新西兰广播公司采访时表示,即使删除社交媒体账户“也不能完全保护你的数据不被收集”。

  “越来越多的人正在挖掘每一次在线互动的数据,以训练人工智能。”

  虽然个人可以通过减少在线发布内容、避免使用不道德的企业和平台、使用不适合模型训练的工具(如Nightshade)来进行抵制,但最终“这些都是重大的系统性问题,需要系统性的解决方案”。

  “影响最有效的方式可能是尽你所能,使寻求这些解决方案对政府和国际机构更具吸引力。”

  欧洲的通用数据保护条例(GDPR)可能是世界上最严格的数据保护法规,它为meta和其他希望利用用户生成内容改进模型的公司设置了障碍。

  今年6月,meta确认将推迟在欧盟和英国用户的Facebook和Instagram内容上训练大型语言模型。

  负责监督meta遵守GDPR的爱尔兰数据保护委员会表示,欢迎这一决定,并将继续与该公司接触。

  罗宾斯说:“在这方面,GDPR是一种礼物,因为欧盟是一个足够强大的经济力量,大公司倾向于遵守他们的规定,而不是放弃欧洲市场,这意味着他们已经在其系统中建立了GDPR的合规程序。”

  但法律解决方案并不完美,他补充说,正在进行的诉讼表明,OpenAI的ChatGPT等大型人工智能模型的大量早期数据收集不仅违反了GDPR,而且违反了许多版权法。

  “有一种强烈的动机,让你尽可能地抓住一切,并努力迅速行动,这样当人们开始关注你的时候,你就会变得太大、太有影响力,无法对你在通往高层的道路上可能犯下的任何轻率行为进行有意义的惩罚。”

  在2023年12月给即将上任的司法部长的简报中,隐私专员办公室主张“进一步使《隐私法》现代化,并为隐私监管机构提供更好的资源”,称它正在“与志同道合的国家失去一致”。

  “隐私法案是基于2013年达成的政策,过去十年见证了生物识别和人工智能等重要新技术的发展和广泛采用,并没有考虑到儿童隐私面临的新风险。”

  在给新西兰广播公司的一封电子邮件中,隐私专员办公室的一位发言人说:“人工智能工具的工作基础是收集大量的训练数据,这确实带来了一些新的隐私挑战。当这些工具回答问题或生成图像时,人们的信息有泄露的风险,而且它们也可能被用于促进诈骗和冒充。”

  虽然许多广泛使用的人工智能模型都有防止它们共享个人识别信息的屏障,但一些模型被骗泄露了数据。

  例如,研究人员发现,流行的图像生成模型可以被提示生成真实人物的可识别照片。他们还可以反刍出医学图像和艺术家的版权作品的精确副本。

  发言人说:“我们可以采取的一个步骤是更新我们的隐私法,以提供更好的保护,并支持安全可靠地使用这些工具。”

  周三,科学、创新和技术部长朱迪思·柯林斯会见了隐私专员迈克尔·韦伯斯特。

  之后,她在给新西兰移民局的电子邮件回复中说:“新西兰有现有的监管框架,包括隐私、消费者保护和人权,可以为人工智能造成的伤害提供适用的权利和补救措施。”

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.whsdu.com All Rights Reserved

赣ICP备16007947号-10