内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

专属服务器_ISA服务器_测评

2021-06-09 14:00 出处:欧普曼云计算 人气: 评论(0

专属服务器_ISA服务器_测评

防止个人身份信息的暴露,又称PII,是组织的一个大问题,并不是那么容易做到。谷歌的云数据丢失防护(DLP)可以帮助识别和隐藏通过直观灵活的平台暴露的PII。

在之前的"负责你的数据"帖子中,我们讨论了如何使用云数据丢失防护(DLP)来获得对你的数据的可见性,以及如何通过反识别来保护敏感数据,模糊处理和最小化技术。在这篇文章中,我们将讨论另一种风险:重新识别,以及如何衡量和降低它。

谷歌最近的一篇研究论文将重新识别风险定义为"一些假定匿名或假名的数据集可能被取消匿名化,大数据市场,以恢复用户的身份。"换句话说,可以连接到个人可以暴露有关他们的信息,这可以使数据更加敏感。例如,仅54392这个数字并不特别敏感。然而,如果你知道这是某人的薪水以及其他关于他们的细节(例如,他们的性别、邮政编码、母校),将该数据与之关联的风险上升。

考虑重新识别风险

有各种因素可以增加或减少重新识别风险,这些因素可以随着数据的变化而变化。在这篇博文中,我们提出了一种使用系统和可测量的方法对这些风险进行推理的方法。

假设您希望与分析团队共享数据,并希望确保降低重新识别的风险;有两种主要类型的识别码需要考虑:

在评估重新识别风险时,您需要考虑如何处理直接识别码和准识别码。对于直接标识符,云服务器那个好,您可以考虑诸如编校或用假名或令牌替换之类的选项。为了识别准标识符中的风险,一种方法是测量统计分布以找到任何唯一值。例如,以数据点"27岁"为例。你的数据集中有多少人年龄在27岁?如果您的数据集中"27岁"的人很少,云服务器服务器,则重新识别的潜在风险更高,而如果27岁的人很多,则风险会降低。

了解k-匿名性

k-匿名性是一个属性,表示有多少个人共享相同的值或一组值。继续上面的例子,假设您有100万行数据,返利软件,包括一列年龄,在这100万行中只有一个人的年龄为27岁。在这种情况下,"age"列的k值为1。如果每个年龄段至少有10个人,那么k值为10。您可以跨单个列(如age)或跨多个列(如age+zip code)度量此属性。如果邮政编码94043中只有一个27岁的人,则该组(2794043)的k值为1。

了解一组列的最低k值很重要,但您还需要了解这些k值的分布。也就是说,10%的数据具有低k值还是90%的数据具有低k值?换句话说,您能简单地删除具有低k值的行吗?或者您需要用另一种方法来修复它吗?一种称为泛化的技术在这里很有用,它允许您保留更多的行,但代价是每行显示较少的信息;例如,"bucketing"age为5年的跨度,将age=27替换为age="26-30",允许您保留数据中的实用性,但使其不那么明显。

,国家大数据
分享给小伙伴们:
本文标签: 专属服务器测评

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表