在加州旧金山联邦法院提起的诉状指控,这两家公司忽视了为其 AI 模型获取数据的合法途径,而是选择了在不支付费用的情况下收集数据。
诉状称:“尽管购买和使用个人信息方面已有明确的法规条文,但两位被告还是采取了不同的方法:盗窃。他们一贯从互联网、书籍、文章、网站和帖子中抓取了 3000 亿个单词,其中包括未经所有者同意擅自获取的个人信息。OpenAI 这么做是秘密进行的,并没有按照适用法律的要求注册为一家数据经纪商。”
诉状指控,通过其 AI 产品,这两家公司“收集、存储、跟踪、共享和披露”了数百万人的个人信息,其中包括产品详细信息、账户信息、姓名、联系资料、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天记录、使用情况方面的数据、分析结果、cookie、搜索记录及其他在线活动。
诉状称,微软和 OpenAI 往其 AI 产品中嵌入了数百万人的个人信息,这些信息反映了这些人的爱好、宗教信仰、政治观点、投票记录、社会及支持团体成员身份、性取向及性别身份、工作经历、家庭照片、朋友及在线互动产生的其他数据。
OpenAI 开发了一系列文本生成大型语言模型,包括 GPT-2、GPT-4 和 ChatGPT。微软不仅大力支持这项技术,还一直将该技术整合到其庞大产品帝国的各个角落,从 Windows到 Azure,不一而足。
诉状援引了 IT 外媒 The Register 在 2021 年 3 月 18 日关于该主题的特别报道,声称:“在个人身份信息方面。被告未能充分地用其训练模型加以过滤,导致数百万人面临信息在提示中泄露或以其他方式泄露给全球各地的陌生人这一风险。”
这份长达 157 页的诉状大量引用了媒体和学术引文,表达了AI 模型和伦理道德方面的担忧,但对具体的危害案例却很少提及。
对于16 位原告来说,诉状表明他们使用了 ChatGPT 以及 Reddit 等其他互联网服务,以为自己的数字互动内容不会被添加到 AI 模型中。
至于原告创建的内容和元数据到底是如何实际被利用的,以及 ChatGPT 或其他模型是否会再现这些数据,还有待观察。
OpenAI 在过去通过过滤个人信息来处理个人信息的再现问题。
该诉讼正在寻求集体诉讼和高达 30 亿美元(217.42 亿元人民币)的损害赔偿金,不过这个数字可能只是暂定金额。如果原告胜诉,将根据法院的裁决敲定任何实际的损害赔偿金。
诉状称,微软和 OpenAI 通过获取和使用个人信息,以及通过与 ChatGPT 和类似产品进行集成、非法拦截用户和第三方服务之间的通信内容,违反了美国的《电子隐私通信法案》。
原告进一步声称,被告通过插件拦截交互数据违反了《计算机欺诈和滥用法案》。
诉状还指控被告违反了《加州侵犯隐私法案》、不正当竞争法案《伊利诺伊州生物特征识别信息隐私法案》以及消费者欺诈和欺骗性商业行为法律《纽约商业法》,还存在疏忽和不当得利等其他一般性危害(侵权行为)。
去年 11 月,微软、旗下的 GitHub 子公司和 OpenAI 三方遭到起诉,被指控通过GitHub 提供的基于 OpenAI 模型的 Copilot 服务,复制了数百万软件开发者的代码,因而违反了许可要求。该案仍在审理中。
相关教程
2023-06-29
2023-10-12
2023-11-02
2023-07-19
2024-08-18
2024-09-12
2023-06-13
2023-06-19
2023-06-13
2024-04-30
2024-11-17
2024-11-16
2024-11-16
2024-11-15
2024-11-15
2024-11-15