改变的数据集仍然可以提供统计完整性并保护隐私
宾夕法尼亚州立大学统计学家表示,综合网络可能会增加某些数据的可用性,同时仍能保护个人或机构的隐私。
“我的主要兴趣在于开发方法,以便能够以有助于科学发现的方式更广泛地共享机密数据,”宾夕法尼亚州Eberly科学学院统计学副教授和研究生教育副院长AleksandraSlavkovic说。“能够以最小的可量化风险共享机密数据,以发现敏感信息并确保统计准确性和完整性,这是我们的目标。”
Slavkovic通过跨学科合作找到了解决这一数据隐私问题的方法,特别是与计算机和社会科学家合作。她的研究重点是各种数据,包括捕获个人或机构等实体之间关系信息的网络数据。她在华盛顿特区举行的2019年美国科学促进会年会上报告了她今天(2月16日)提供满足隐私差异概念的合成网络的方法。
差异隐私为个人的隐私损失提供了数学上可证明的保证。
科学家希望获得他人收集的数据用于他们的研究,但这种访问也可能损害个人隐私,即使在删除所谓的个人身份数据之后也是如此。
“大量的辅助数据是罪魁祸首,”斯拉夫科维奇说。“随着数据收集和记录联动的方法和技术进步,更容易访问可能与手头数据集相关的各种数据源,以及资助机构分享数据的要求,数据隐私的风险正在增加。但是,找到好处管理隐私损失的解决方案对于实现可靠的科学发现至关重要。“
例如,关于HIV药物的药物试验的公开信息将表明谁在治疗组中以及谁在对照组中。治疗组仅包含被诊断患有HIV的人,即使数据所有者从该数据集中隐瞒了个人详细信息,也会保留一些识别信息。由于如今在社交媒体和其他数据集中可以获得如此多的信息,因此可以连接点并识别人,从而可能揭示他们的HIV状态。
“连接两个数据集的技术,比如选民记录和健康保险数据,已大大改善,”斯拉夫科维奇说。“在最早的调查结果之一中,LatanyaSweeny(现在在哈佛大学)表明,通过链接这些类型的数据,您可以根据他们的出生日期,性别和5位数确定1990年美国人口普查中87%的人。最近,研究人员使用推文和相关的Twitter元数据来证明他们能够以96.7%的准确率识别用户。“
斯拉夫科维奇指出,不仅数据包含在数据库中的人或机构,而且数据库外的人也可能直接或通过关联侵犯隐私。数据集中的信息与社交媒体上的信息之间的联系可能导致严重的隐私后悔-如果被披露,诸如艾滋病病毒感染状况或性取向等可能会产生严重后果。
虽然隐私很重要,但收集的数据集构成了研究人员必不可少的信息来源。目前,在某些情况下,当数据特别敏感时,研究人员必须亲自前往数据存储库进行研究,使研究更加困难和昂贵。
Slavkovic对网络数据感兴趣。显示人员或机构-节点-以及节点之间连接的互连性的信息。她的方法是创建略微改变的镜像网络数据集,其中一些节点移动,连接移位或边缘改变。
“目的是创建满足严格的差异隐私要求的新网络,同时从原始网络中捕获大部分统计特征,”Slavkovic说。
这些合成数据集可能足以让一些研究人员满足他们的研究需求。对于其他人来说,在必须转到数据存储站点之前测试他们的方法和假设就足够了。研究人员可以在等待使用其存储库站点中的原始数据的许可时测试代码,进行探索性研究以及可能的基本分析。
“我们不能满足所有统计分析对相同类型的改变数据的要求,”斯拉夫科维奇说。“有些人需要原始数据,但其他人可能会使用合成网络这样的合成数据。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【盘点七个字的唯美爱情诗句】在古诗词中,爱情是永恒的主题,而七言诗句因其结构整齐、节奏感强,常被用来表...浏览全文>>
-
【盘点盘头发的方法】盘头发是日常造型中非常实用的一项技能,不仅能提升整体形象,还能根据场合和心情进行变...浏览全文>>
-
【盘点怕黑的原因】在日常生活中,很多人会因为“怕黑”而感到不安或紧张,尤其是在夜晚或光线不足的环境中。...浏览全文>>
-
【盘点女子皈依的禁忌】在佛教文化中,皈依是信众正式成为佛弟子的重要仪式,象征着对佛法僧三宝的敬仰与归顺...浏览全文>>
-
【盘点女生说你傻的意思】在日常生活中,女生常说“你傻”这句话,表面上看起来像是批评,但其实背后可能隐藏...浏览全文>>
-
【盘点女人佩戴玉葫芦的禁忌】在中国传统文化中,玉器不仅是装饰品,更承载着丰富的文化寓意和风水意义。玉葫...浏览全文>>
-
【盘点女人好好爱自己的句子】在快节奏的生活中,越来越多的女性开始意识到“好好爱自己”不仅是生活的一种态...浏览全文>>
-
【盘点女人戴银手镯的好处和禁忌】银手镯作为一种传统的饰品,不仅具有装饰作用,还承载着文化与健康方面的意...浏览全文>>
-
【排列组合有哪些公式】在数学中,排列组合是研究从一组元素中选择或安排元素的方法。它们广泛应用于概率、统...浏览全文>>
-
【排列组合算法】在数学和计算机科学中,排列组合是研究从一组元素中选择或安排元素的方法。它们广泛应用于概...浏览全文>>