数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。
目前,数据挖掘中的隐私保护方法研究主要有:在挖掘算法中建立隐私约束规则、在应用挖掘算法之前对挖掘数据集应用随机化方法、对隐私建立度量评估、取代本样本真实数据、对记录进行交换等,同时还有在分布式环境下的数据挖掘(数据元组水平分布和属性垂直分布) 隐私保护以及通过对原始数据的混乱或扭曲进行隐私保护、敏感数据隐藏算法、规则混乱、取样法等方面[4 ] 。这些研究的焦点主要集中在关联规
则隐私保护和分类隐私保护,研究的场景可以归结为两种:个人隐私保护和分布式数据挖掘中的隐私保护。
隐私保护算法分类
数据分布方式 | 隐私保护 技术 | 数据更改 方法 | 数据挖掘 算法 |
集中式 | 启发式 | 滑动窗口法关联规则 | 关联规则 |
随机修改部分值为1 的数据为0 | 关联规则 | ||
添加随机数 | 关联规则 | ||
重建式 | 添加随机偏移量 | 分类 | |
机修改部分数据 | 关联规则 | ||
贝努里概率模型 | 关联规则 | ||
水平分布 | 加密式 | 加密、添加随机数 | 关联规则 |
垂直分布 | 加密式 | 加随、添加随机数 | 关联规则 |
联系客服