一项新的协议可以检测和删除由机器人和试图参加在线研究的人创建的虚假数据,以防止有偏见的结果和向不良行为者支付无端费用——这是第一个专门为农村社区收集数据而设计的协议。
多步骤方案的灵感来自大流行时期的一项健康习惯在线研究,该研究突然产生了数百个注册尝试,尽管它位于一个农村小镇。
“当研究转移到网上时,我们变得更加依赖在线招聘和数据收集技术,”兽医学院公共和生态系统健康系实践教授卡拉·汉森说,她是这项研究的第一作者,发表在11月9日的《方法与协议》上。“从每天只有几个人,一夜之间就变成了数百人。在一个乡村小镇,几百人在一个晚上参加我们的研究是不可能的。”
为了解决这个问题,研究人员首先删除了所有来自地理研究区域以外的IP地址的注册尝试,过滤掉了25%的尝试。然而,这和其他传统的自动化技术来删除欺诈性条目是不够的。
汉森说:“我们知道基本的技术,但没有一项专门针对农村地区。”“有些需要适应我们的人群。”
例如,另一个经典的过滤工具限制每个IP地址只能注册一个人。汉森说,但在互联网接入有限的农村地区,许多家庭成员可能共用一台电脑,或者使用图书馆的公用电脑。
“为了获得一个经济多样化的代表性样本,”她说,“我们需要适应这种限制。”
在使用了自动化工具之后,汉森和他的同事转而使用人工技术,根据邮政数据库检查所有提交的地址。汉森说:“进行所有这些主动验证测试既耗时又昂贵。“每走一步,我们都会发现更多的虚假注册。”
向研究参与者提供的报酬吸引了机器人,并导致真人试图使用假身份多次注册。汉森说:“当我们打电话时,有时人们并不知道这项研究,所以他们被认为是欺诈企图,他们被排除在研究之外。”“在某些情况下,电话号码甚至不存在。”
最终,他们发现74%的尝试是欺诈性的。他们还发现,一些筛选标准可能过于热心,将真正的参与者排除在外。例如,一些看似合法参与者的人在研究的第一年和第二年报告的体重相差100磅。在这些情况下,研究小组通过电话核实了数据。
“在给参与者贴上欺诈标签时要谨慎一些;有些人确实瘦了很多,”汉森说。“还有人把体重打错了,我们想和这些参与者谈谈,了解到底发生了什么。”
同样,一些真实的参与者在连续的年份输入了不同的出生日期。研究小组发现,这些案例中有40多个是真实的参与者,其中一些人由于担心身份被盗而提供了假的出生日期。
“我们不信任别人,但忘记了他们也怀疑我们,”汉森说。
虽然发表的论文使其他研究人员可以访问他们的多步骤协议,但它也使人工智能能够学习这种筛选技术,并欺骗未来的欺诈检测系统。出于这个原因,论文的作者描述了过滤技术的类别,但没有描述每种方法的确切细节。
汉森说:“为了领先于机器人,这种竞赛将一直持续下去。”
尽管如此,汉森认为与其他研究人员分享这些工具的好处超过了公开发布他们的发现的成本。最后,汉森说,虽然自动化技术在减少积极审查入学数据的时间方面很有用,但它们是不够的。
“我们需要与参与者进行人与人之间的互动,以确定他们是谁,”她说。
Elodie Smith是兽医学院的一名作家。