内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

美国服务器_装服务器系统_价格

2021-07-09 03:05 出处:欧普曼云计算 人气: 评论(0

对于像我这样的公司领域的数据科学家来说,数据隐私是一个巨大的挑战:数据是我们可以用分析或机器学习做的所有强大事情的来源,但由于它往往是个人的和敏感的,我们不能简单地使用它,因为我们的责任当然是保护个人的隐私。这是由立法所涵盖的,例如欧洲的GDPR,它还要求我们获得客户的适当同意,才能在此类应用程序中使用他/她的数据。在许多情况下,我们确实记录了一些同意书,但它不包括我们的具体使用案例,因为在请求同意书时它还不知道。

除了从客户那里获得新的同意书之外,使用所有数据的选项之一是使用不允许识别客户的匿名版本的数据个人。不过,以一种安全、合法的方式进行匿名化并不是那么容易,似乎这还不够,匿名化数据通常被认为对数据科学的使用毫无用处。

谢天谢地,SAP HANA数据匿名化团队开始接受第一个挑战,他们要求我接受第二个挑战。

因此,我们的计划是:将公开的、众所周知的成人数据集,放入SAP HANA数据库,对其运行SAP HANA数据匿名化功能,然后查看与使用原始数据集相比,我们看到的预测准确性损失有多大。

如果您想逐行跟踪我的编码,请查看Jupyter笔记本中的示例:成人数据集上的K-匿名

笔记本设计为按原样运行,理想的SAP HANA云,你可以在这里尝试!

坦率地说,匿名化不仅仅是从数据集中删除ID和名称。大量的研究已经证明这样做并不能很好地保护数据的隐私。简单想想你公司旅游数据中的一位19岁的HON-CIRLCE会员——你很可能会认识那个没有名字和身份证的人。为了保护该员工的隐私(旅行详细信息),您可以删除这些泄露的信息,如年龄或常客状态,我们称之为准标识符或"模糊"实际敏感数据(旅行详细信息)。

研究为我们提供了各种知名算法来实现这一点,有不同的隐私和效用保证。SAP HANA data Anonymination附带了三个选项——k-匿名、l-多样性和差异隐私。

对于本文,我们将坚持k-匿名,而其他选项可能会成为未来博客文章的一部分。对于我们的常客,这可能是一群具有"年龄在18到25岁之间"和"常客身份"特征的员工。

那么,让我们开始吧。成人数据集是最知名的公开数据集之一,经常用于数据科学演示和演示。它包含了一系列个人特征和收入水平信息的美国人口普查数据,分为低于或高于5万美元的两组。典型的问题是,某些算法能根据这些特征预测出个人收入的等级有多高。

显然,收入数据是高度敏感的,但可能会被准标识符(年龄、职业、婚姻状况等)所揭示:假设你认识一位寡居的白人女性,出生在危地马拉的她只通过了学前班:如果我们的数据集不仅仅是一个小摘录,那就足够了解她的薪水了。由于我们不希望发生这种情况,我们希望在处理数据之前保护此信息。

为此,我们将要求匿名数据集为k-anonymous,k=10,这意味着任何个人记录都与至少9个其他记录共享准标识符(年龄、职业、婚姻状况等)。

SAP HANA数据匿名实现了这一点通过匿名化的观点。这是一个专门的视图,淘客发单软件,建立在任何(HANA)数据源之上,小企业管理软件免费,指定匿名化参数以及如何处理包含列的信息。

对于k匿名,我们需要指定每个列可以聚合到的级别。有三种方法可以实现该规范:

我们将使用前两个选项。

首先,我们将指定函数来将数值分组到bucket中。我们使用两个独立的函数,因为年龄、工作时间和受教育年限的值范围明显不同。

第二,我们将为分类变量定义嵌入式层次结构。不幸的是,如果准标识符包含许多不同的值,并且我们希望创建外部层次结构以供将来生产性(重用)使用,那么这将非常麻烦。最后一件事是实际匿名化视图的语法。

将其全部设置在一起将给出下面的定义。

请注意,视图的核心定义后面是一个"刷新"语句,这是实际运行匿名化计算所必需的。如果定义的条件不允许解决此匿名化问题,则会在此时抛出一个错误。

查询新视图会得到以下结果:

如您所见,许多列已被"*"完全屏蔽。这有两个原因:

让我们再来一次"多维严格"的重新编码方案,最近SAP HANA Cloud引入了该方案,允许所有组对每个列都有一个单独的匿名级别。

正如您所看到的,更多的信息被保留,而隐私保证仍然可以为了这篇文章,不幸的是,我们需要再让信息丢失更严重一点,因为我们希望看到算法在这个次优条件下运行。为此,我们将在每个列的层次结构级别上定义一些最小值和最大值。这将强制算法聚合一些列,虽然在技术上没有必要。

现在的定义如下:

结果如下:

您可能已经注意到我秘密引入了一个名为"loss"的新参数。这允许我在匿名期间忽略一定比例的数据。从技术上讲,它们被删除了,这应该允许匿名化和较低的泛化级别,因为某些行的价格被删除了。当然,这只适用于我们的训练数据,而测试数据保持不变,以便与原始数据进行适当的比较。

这样,我们就可以进入数据科学/机器学习部分。

由于我的数据位于SAP HANA数据库中,因此将SAP HANAs ML库(PAL)用于ML部分非常有意义。在此基础上,我们将选择一种全新的混合梯度增强树算法进行分类。由于这不是本文的重点,我没有花太多时间优化培训。一些简单的关于网格搜索的核心参数,我们很好去。感谢舒适的Python API,我们甚至不需要离开Python环境。

为了公平比较,原始数据集和匿名数据集都使用相同的模型定义进行训练,而网格搜索允许特定的参数选择。

显然,你可以看到模型之间影响因素的差异,反映了匿名数据集中的信息丢失。

尽管如此,从总体结果来看,差异还是相当小的。我们确实看到,匿名数据的预测准确率为85.8%,而原始数据的预测准确率为87.1%。此外,检查混淆矩阵以及标准性能指标(如召回/准确度和F值)表明,性能具有可比性,但差异很小。

总体而言,我们可以得出结论,我们的预测将以可比的准确度水平处理匿名数据,同时保护个人隐私。

当然,广西大数据,这可能并不适用于每一个案例,你可能会说,成人数据集甚至不是最难解决的问题之一。但它明确指出,值得仔细研究个案,并适当调查匿名数据是否可用于您的ML案例,尤其是在大多数涉及个人数据的情况下,匿名化是获取数据的唯一选择。

如果你一直和我呆在一起,仔细听我的解释,你可能已经意识到我故事中的这一点差距。是吗?

使用多维重新编码方案可以让我得到更好看的数据,但由于数据集中的每个组都可能有其单独的匿名级别,物联网专用卡,训练数据和测试数据之间可能会有所不同。因此,这将导致我的模型在训练期间没有看到的测试数据特征。

为了解决这个问题,您可能会想到两种方法:

我在笔记本中的两种方法上都放了一些示例代码。

对于字典方法,基本上是在训练集上运行全局\u严格匿名化,然后提取哪些原始值是指哪些匿名值(对于k个个体的所有不同组,它们都是静态的),云服务器怎么用,并将这些转换应用于测试数据和您在生产中使用的任何数据。

分享给小伙伴们:
本文标签: 美国服务器系统价格

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表