12亿人类海量个人和社会信息数据泄漏,总数据量超4TB
2019年10月16日,鲍勃·迪亚琴科(Bob Diachenko)和文尼·特洛亚(Vinny Troia)发现了一个开放的Elasticsearch服务器,该服务器包含前所未有的40亿个用户帐户,涵盖了超过4 TB的数据。
所有数据集中的存在唯一身份ID的人员总数达到了12亿,这是有史以来单一来源组织最大的数据泄露事件之一。泄漏的数据包含姓名,电子邮件地址,电话号码,LinkedIN和Facebook个人资料信息。
导致此数据泄漏与众不同的原因在于,它包含似乎来自两个不同的数据公司的数据集。
开放的Elasticsearch服务器
发现的包含所有信息的Elasticsearch服务器未受到保护,可以通过Web浏览器访问http://35.199.58.125:9200。无需密码或任何形式的身份验证即可访问或下载所有数据。
Elasticsearch将其信息存储在索引中,该索引类似于数据库的类型。以下是发现的服务器上可用的不同索引(数据库)的屏幕快照。
大部分数据跨越4个单独的数据索引,分别标记为“ PDL”和“ OXY”,每个索引约有10亿人的信息。数据库中的每个用户记录都标记有一个分别与PDL或Oxy匹配的“源”字段。
公司1:人员数据实验室(PDL)
根据对数据的分析,认为PDL索引中的数据源自数据聚合和扩充公司People Data Labs。
对近30亿个PDL用户记录进行数据去重后,大约有12亿唯一身份用户和6.5亿个唯一电子邮件地址,这与他们网站上提供的统计数据一致。三个不同的PDL索引中的数据也略有不同,其中一些集中在抓取的LinkedIN领英信息,电子邮件地址和电话号码上,而其他索引则提供了有关个人社交媒体配置文件(例如某人的Facebook,Twitter和Github URL)的信息。
根据他们的网站,PDL应用程序可用于搜索:
超过15亿独特的人,其中包括近2.6亿的美国人。
超过10亿个人电子邮件地址。为美国,英国和加拿大70%以上的决策者提供工作电子邮件。
超过4.2亿个Linkedin网址
超过10亿个Facebook网址和ID。
4亿多个电话号码。2亿+个基于美国的有效手机号码。
通知PDL之后,分析人员被告知问题服务器不属于它们。因为相关服务器位于Google Cloud谷歌云上,而PDL API似乎使用Amazon Web Services。
为了测试数据是否属于PDL,分析人员在他们的网站上创建了一个免费帐户,该帐户每月为用户提供1,000次免费人员查找。
以下是从35.199.58.125服务器下载的安全分析人员的个人数据记录
分析人员称数据几乎100%与个人资料匹配。
需要复制数据段的自行访问网址
https://www.dataviper.io/blog/2019/pdl-data-exposure-billion-people/
在打开的Elasticsearch服务器上发现的数据几乎与People Data Labs API返回的数据完全匹配。唯一的区别是PDL返回的数据还包含教育历史记录。从服务器下载的任何数据中都没有教育信息。其他所有内容都完全相同,包括具有多个电子邮件地址和多个电话号码的帐户。
为了确认这一点,安全分析人员随机测试了50个其他用户,结果始终一致。
有趣的是,在返回安全分析人员的个人资料电话号码1-636-825-2744,但分析人员并不记得有这个电话号码,在调查发现,大约10年前,作为AT&T电视套装的一部分,他获得了固定电话号码,但座机从未使用过,也从未提供给任何人,因此可见,其中一部分数据大概是从AT&T处泄露。
公司2:OxyData.Io(OXY)
经过一些基本的研究之后,数据中还出现了另一家数据公司OxyData.io。OxyData的网站声称拥有4TB的用户数据(恰好是发现的数量),但只有3.8亿个人资料。
对“ Oxy”数据库的分析显示,几乎所有LinkedIN数据(包括招聘者信息)都被删掉了。
联系OxyData后,被告知服务器不属于它们。Oxy不愿意让分析人员访问他们的API来测试/比较配置文件,但发送了安全分析人员自己记录的副本以进行分析。他们发送的数据主要包含已删掉的LinkedIN配置文件,似乎与数据匹配。
充分说明了,卖数据的公司真tn的可怕。
IP地址35.199.58.125除了只能知道原来托管在谷歌云之外,对于其幕后的主人一无所知。
最后,当分析人员反馈给FBI后,过了不久,曝光服务器关闭了。