"); //-->
翻译:顾伟嵩校对:欧阳锦
大型语言模型是根据从互联网上收集的大量个人数据进行训练的。所以我想知道:它对我有什么影响?
对于一位报道AI的记者来说,今年最大的新闻之一是大型语言模型的兴起。这些人工智能模型生成了本是人类才能写出的文本,有时非常令人信服,他们欺骗了人们,让他们认为自己是有意识的。
这些模型的力量来自于从互联网上收集的大量公开的人造文本。这不禁让我思考:这些模型拥有关于我的什么数据?并且这些数据是怎么被滥用的?
这不是一个无聊的问题。自从大约十年前的一次伤害经历以来,我一直对公开发布任何有关我个人生活的信息感到恐惧。我的照片和个人信息在一个在线论坛上大肆传播,然后被那些不喜欢我为某个芬兰报纸写的专栏的人所剖析和嘲笑。
在那之前,像许多人一样,我不小心在互联网上乱放了我的数据:个人博客帖子、晚上拍的尴尬照片、以及我的位置信息、关系状态和政治偏好的帖子,并且公开给任何人看。即使现在,我仍然是一个相对公众的人物,由于我是一名记者,我的整个职业生涯信息基本上只需一次在线搜索就能全部看到。
OpenAI提供了对其著名的大型语言模型GPT-3的有限访问,而Meta允许人们通过一个名为BlenderBot 3的公开可用的聊天机器人来使用其模型OPT-175B。
我决定测试这两个模型,首先问GPT-3:谁是Melissa Heikkilä?(Who is Melissa Heikkilä?)
当我读到这时,我愣住了。Heikkilä是2022年我的家乡芬兰的第18个最常见的姓氏,但我是那个姓氏的人中唯一一个用英语写作的记者。该模型将其与新闻业联系起来本不该让我惊讶。因为当大型语言模型从互联网上包括新闻文章和社交媒体帖子中获取大量数据时,记者和文章作者的名字经常出现。
然而,面对一些事实上是正确的事情,它是令人不安的。它还知道什么??
但很快我就明白了,这个模型对我来说并没有什么意义。它随后开始给我其收集的关于芬兰剩下13931个关于Heikkiläs的信息,以及其他与芬兰有关的东西的随机文本。
哈哈,谢谢,但我想你指的是Lotta Heikkilä,她进入了选美比赛前十,但没有获胜。
原来我是个无名小卒。这是AI世界的一件好事。
大型语言模型(LLMs),如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B,在AI研究中是炙手可热的,它们正在成为互联网轨道上越来越不可或缺的一部分。LLMs被用于支持聊天机器人,帮助客户服务,从而创建更强大的在线搜索,并帮助软件开发人员写代码。
如果你在互联网上用英语发布了任何个人信息,你的数据可能有机会成为世界上最流行的LLMs的一部分。
谷歌(Google)和OpenAI等科技公司不会发布有关用于构建语言模型的数据集的信息,但它们不可避免地包含一些敏感的个人信息,如地址、电话号码和电子邮件地址。
ETH计算机科学副教授弗洛里安·特拉梅尔(Florian Tramèr)警告说,这对网络隐私来说构成了一个“定时炸弹”,并带来了大量安全和法律风险。与此同时,改善机器学习隐私和规范技术的努力仍处于起步阶段。
我在欧洲生活了一辈子,欧盟严格的数据保护制度GDPR自2018年开始实施,这让我在网上的相对匿名成为可能。
然而,我的老板,麻省理工技术评论主编马特·霍南(Mat Honan)绝对是一个大人物。
GPT-3和BlenderBot都“知道”他是谁。这就是GPT-3对他的影响。
这并不奇怪,马特在很长一段时间内都非常活跃,这意味着他的在线足迹(online footprint)比我大。这也可能是因为他在美国,大多数大型语言模型都非常关注美国。美国没有联邦数据保护法。马特居住的加利福尼亚州确实有一个,但直到2020年才生效。
根据GPT-3和BlenderBot,马特的成名是由于他在2012年《Wired》杂志上发表的一篇文章中提到的“史诗般的黑客行为”。由于苹果和亚马逊系统的安全漏洞,黑客控制并删除了马特的完整的数据信息。[编者的提示:他没有攻击巴拉克·奥巴马(Barack Obama)和比尔·盖茨(Bill Gates)的账户。]
但它变得更令人毛骨悚然。经过一点刺激,GPT-3告诉我马特有一个妻子和两个年幼的女儿(除了名字外的内容都正确),住在旧金山(正确)。它还告诉我,它不确定马特是否有狗:“从社交媒体上得到的情况来看,Mat Honan似乎没有任何宠物。他过去曾在推特上发布过他对狗的喜爱,但他似乎没有自己的宠物。”(不正确)
该系统还为我提供了他的工作地址、电话号码(不正确)、****号码(也不正确)、马萨诸塞州剑桥市(麻省理工技术评论的总部所在地)的随机电话号码和旧金山当地社会保障管理局旁的一栋大楼的地址。
据一位OpenAI发言人说,GPT-3的数据库从多个来源收集了有关马特的信息。马特与旧金山的联系体现在他的推特个人资料和领英个人资料中,这两个资料以他的名字出现在谷歌搜索结果的第一页。他在麻省理工学院技术评论的新工作被广泛宣传和推广。马特的工作在社交媒体上迅速传播,并且关于这他还接受了媒体采访。
对于其他更多的个人信息,GPT-3有可能产生“幻觉”。
“GPT-3根据用户提供的文本输入预测下一系列单词。有时,该模型可能会生成不真实的信息,因为它试图根据用户所提供的训练数据和上下文中的统计模式生成可信的文本。这通常被称为‘幻觉’,”OpenAI的发言人说。
我问马特他对这一切有何看法。“GPT-3生成的一些答案不太正确。(我从未黑客攻击过奥巴马或比尔·盖茨!)”他说。“但大多数都很接近,有些是准确的。这有点令人不安。但我确信AI不知道我住在哪里,所以我不会立即面临天网派终结者来敲门的危险。我想我们可以活到明天。”
弗洛里安·特拉梅尔(Florian Tramèr)和一组研究人员设法从来自GPT-2中提取敏感的个人信息,如电话号码、街道地址和电子邮件地址。他们还让GPT-3制作了《哈利·波特》的第一本书,这本书是受版权保护的。
曾在谷歌工作的特拉梅尔说,随着时间的推移,问题只会越来越严重。“人们似乎还没有真正意识到这有多危险,”他说,他指的是在可能包含敏感或故意误导数据的大规模数据集上进行一次训练的模型。
斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隐私和数据政策研究员詹妮弗·金(Jennifer King)表示,在不考虑隐私的情况下滥用LLMs的决定让人想起了2007年谷歌推出互动地图谷歌街景(Google Street View)时发生的事情。
谷歌街景服务的事件是一个偷窥者的喜悦:人们挖鼻子、男人离开脱衣舞俱乐部和毫无防备的日光浴者的图像被上传到系统中。谷歌还通过WiFi网络收集了密码和电子邮件地址等敏感数据。街景服务(Street View)遭到了强烈的反对,一个1300万美元的法庭诉讼,甚至在一些国家被禁止。谷歌不得不设置一些隐私功能,比如模糊一些房屋、人脸、窗户和车牌。
“不幸的是,我觉得谷歌甚至其他科技公司都没有吸取任何教训,”金说。
模型越大,风险越大
陷入困境
忽视隐私可能意味着科技公司最终会遇到越来越强硬的科技监管机构的麻烦。没有速效****
有一些努力使机器学习领域更加注重隐私。在开发新的开放存取语言模型BLOOM期间,法国数据保护局与AI初创公司Hugging Face合作,提高对LLMs中数据保护风险的认识。玛格丽特·米切尔(Margaret Mitchell)是一位AI研究人员,也是Hugging Face的伦理学家,她告诉我,她也在努力为LLMs中的隐私创建一个基准。*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。