聊聊数据匿名化技术
前言
近年来,聊聊随着数据挖掘 ,数据术机器学习等技术的匿名发展与深入,企业从普通用户处收集到的化技大量的数据就变得越来越有价值 ,对这些数据进行分析处理可以更好的聊聊了解用户的习惯和喜好,从而向用户提供更加个性化的数据术服务,最终使得用户对商业以及研究的匿名价值最大化。但是化技在使用包含有大量个人敏感信息的数据的高防服务器过程中,不管是聊聊直接发布或者内部分析都可能使得不法分子收集到用户的隐私 ,损害用户的数据术相关权益,因此有必要对输出的匿名数据进行匿名化处理。
在个保法和GDPR/CCPA中 ,化技对匿名化(anonymization)的聊聊定义是相似的 。 匿名化是数据术指个人信息经过处理后,无论是香港云服务器匿名否借助其他信息或工具都无法识别特定自然人且不能复原的过程 。
一 、匿名化常用技术手段
1 、属性抑制
· 属性抑制是指删除数据集中某个属性的全部数据(删除某个列) ,该技术一般应用在匿名化过程开始时 。· 某些情况下,可以使用派生属性来提高数据集的可用性,例如抑制“工作开始时间”和“工作结束时间” ,但是可以创建“工作年限”属性处理前
姓名
公司
工作开始时间
工作结束时间
张三
abc
2015.9
2018.3
李四
tbc
2016.9
2022.4
王五
bcd
2013.9
2021.10
孙六
jbc
2011.9
2023.10
处理后 ,“姓名”抑制 ,派生“工作年限”
公司
工作年限(年)
abc
3
tbc
6
bcd
8
jbc
12
复制data = DataAnonymizationUtil.dropColumns(String... columns,data);data = DataAnonymizationUtil.createColumns(String... columns,data);1.2 、模板下载记录抑制
· 记录抑制是指删除数据集中的整条记录,删除唯一或不满足标准(例如k‑匿名)的异常记录。· 删除记录可能会影响数据集,比如可能会影响统计数据种的平均数,中位数等。处理前 :
姓名
公司
工作开始时间
工作结束时间
张三
abc
2015.9
2018.3
李四
abc
2016.9
2019.4
王五
abc
2017.9
2020.10
孙六
abc
2011.9
2023.10
姓名属性抑制,以及时间派生属性后
公司
工作年限(年)
abc
3
abc
3
abc
3
abc
12
从上面可以看出 ,孙六的12年和其他人员的工作年限比起来会特别的大,如果其他的建站模板一些信息,可能会猜出第四行为孙六 ,因此应该将第四行删除
第四行记录抑制(删除)后
公司
工作年限(年)
abc
3
abc
3
abc
3
复制data = DataAnonymizationUtil.deleteRows(int[] rowNumber,data);1.3 、数据脱敏(字符屏蔽)
· 数据脱敏是数据字符的更改 ,例如通过符号*或x等对源数据进行替换修改 ,一般为部分脱敏,即应用与属性中的一些字符 ,主要应用于当隐藏属性的部分就满足所需的匿名程度时。· 脱敏需要考虑屏蔽掉的字符是否反应原数据的亿华云相关信息 。提前知道数据内本身的规则屏蔽尤其重要 ,以确保屏蔽到正确的字符 。比如数据中的校验位(比如身份证的校验位) ,如果脱敏不彻底,校验位可能用于恢复脱敏数据。处理前
工号
层级
工作年限
1234
6
1
1324
7
2
1423
8
3
脱敏后
工号
层级
工作年限
1
***6
1
1
***7
2
1
***8
3
复制data = DataAnonymizationUtil.maskColumn(String... columns,data);1.