自从OpenAI的ChatGPT在2022年引发了生成式人工智能热潮以来,很明显,拥有正确的数据,足够的数据,对于创建准确、可靠和高效的人工智能模型至关重要。
这个问题?最好的数据,特别是卫生和金融等特定领域的专业“专家”数据,目前供不应求。
人工智能公司已经在互联网上挖掘新信息,但人工智能模型一直处于饥饿状态——必须得到喂饱。
总部位于旧金山的初创公司Gretel AI一直认为,最令人满意的解决方案是制造出和真食物一样美味的假食物。它帮助安永(EY)、谷歌(Google)和美国司法部(US Department of Justice)等客户生成合成数据——即模仿真实世界数据特征的人工生成数据。
而且做起来也越来越容易了:例如,今天,Gretel宣布了一个由人工智能驱动的生成系统的广泛可用性,该系统可以让用户为表格数据创建合成数据集——想象一下像Excel电子表格一样以列和行排列的文本和数字数据——只需像ChatGPT那样使用自然语言提示符。
假设一家银行想要创建一个合成数据集,该数据集与其自己的客户数据相似,但不包括实际的个人姓名或信息。使用Gretel的Navigator产品,银行可以根据Gretel自己的数据集或银行自己的专有数据,提示系统创建数百万个虚构的姓名、id、日期、金额和账户余额。
Gretel声称,由此产生的计算机生成的数据不会侵犯客户隐私,因为它不包括任何现实世界的客户信息,并且可以生成足够的数据来训练一个强大、准确的模型。
Gretel联合创始人兼首席执行官阿里?戈尔山在接受《财富》杂志采访时表示,由于数据稀缺迫使企业寻找其他来源来构建通用模型或针对特定任务对模型进行微调,合成数据将在2024年出现。
戈尔山之前曾联合创办过两家以安全为重点的初创公司,他指出,该公司成立于2020年,目的是生成注重隐私的数据(Gretel的名字来自《Hansel And Gretel》的经典故事,Hansel和Gretel为了找到回家的路留下了一串面包屑)。该公司“希望确保人们不会留下数字面包屑”,同时为开发者提供一种访问有用数据的方法,特别是在高度监管的行业。
他说:“我们从来没有真正考虑过数据耗尽的情况——那是一个ChatGPT时刻。”但现在,数据稀缺——以及数据隐私和安全——是公司转向将合成数据作为训练人工智能模型的一种选择的原因。
Golshan强调,生成合成数据并不是大量的低质量、无用的数据(想想Reddit上的帖子)。“人们认为合成数据与假数据或垃圾数据可以互换,他们只是需要更多的数据,”他说。“这就是你最终产生这些有毒的燕尾和幻觉的地方——质量的部分必须在那里。”
他补充说,未来20年推动业务发展的是,在“混乱、公开、充斥隐私的数据”的基础上进行大规模人工智能投资,并“将它们插入我们敏感的、拥有的、特定领域的数据中——这些数据是独一无二的,可以推动模型向前发展。”
他还反驳了合成数据不如真实数据“好”的观点,以及人工智能根据自己的幻觉或错误信息进行自我训练的潜在危险。由于该公司主要为企业、组织和政府提供服务,因此Gretel的工作通常从公司已有的数据种子开始——无论是患者数据、欺诈数据还是交易数据。他说:“这是我们构建其余数据的边界和大门。”
Gretel的最新产品甚至可以让公司在他们缺乏信息的话题上生成数据。它的技术侧重于高度具体的数据,旨在改善客户内部系统中的个人任务,而不是基于从互联网上抓取的数百万页数据,这些数据可能会被证明是有问题的。
Gretel并不是唯一一家试图垄断人工智能模型合成数据市场的公司。SynthLabs、Synthetaic和Clearbox AI等初创公司都在竞相为企业提供他们所需的所有数据——也就是计算机生成的数据。
这促使戈尔山和他的联合创始人开始考虑未来。他表示,企业很快就能通过允许其他人购买经过该组织独特数据集训练的合成数据来赚钱。例如,拥有大量数据但没有建立人工智能模型的组织可以将其数据的访问权出售给其他人,以帮助培训他们的合成数据。
为此,Golshan说,Gretel的下一个重大举措是建立一个综合数据和模型交换。他解释说:“我们将使公司和客户能够根据他们的数据训练模型,得到数据安全的数学保证,有人可以来‘订阅’这个模型,生成数据,并按需付费。”
他补充说,这将把Gretel提升到一个新的水平,“成为私人数据的安全接口,在那里你可以消除这种挖掘和收集数据的剥削性方法。”他说,这也意味着像Anthropic和OpenAI这样的公司,他们已经建立了基于大量数据的巨大人工智能模型,他们不需要与他们想要获得数据的每个公司达成许可。
至于资金,Gretel在2021年的B轮融资中共筹集了6800万美元(3.2028亿令吉)。Golshan说,这家初创公司还有很多钱,“还有大约两年的时间”。但在这个合成数据的“时刻”,他说他看到了建立下一个Databricks或Snowflake(两个最大的数据云平台)甚至OpenAI的机会。
他说:“我们正在积极地向它倾斜,因为我们有很大的吸引力。”“我们设想建立下一个安全、高质量的数据业务,如果你考虑到需求,这是一个相当重要的机会。——Fortune.com/The纽约时报
×