数据挖掘中的隐私保护

数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。

目前,数据挖掘中的隐私保护方法研究主要有:在挖掘算法中建立隐私约束规则、在应用挖掘算法之前对挖掘数据集应用随机化方法、对隐私建立度量评估、取代本样本真实数据、对记录进行交换等,同时还有在分布式环境下的数据挖掘(数据元组水平分布和属性垂直分布) 隐私保护以及通过对原始数据的混乱或扭曲进行隐私保护、敏感数据隐藏算法、规则混乱、取样法等方面[4 ] 。这些研究的焦点主要集中在关联规

则隐私保护和分类隐私保护,研究的场景可以归结为两种:个人隐私保护和分布式数据挖掘中的隐私保护。

现有的一些隐私保护技术大体上可基于下面因素对它们分类:数据分布、隐私保护技术、数据或规则更改方法、数据挖掘算法。

隐私保护算法分类

数据分布方式	隐私保护技术	数据更改方法	数据挖掘算法
集中式	启发式	滑动窗口法关联规则	关联规则
		随机修改部分值为1 的数据为0	关联规则
		添加随机数	关联规则
	重建式	添加随机偏移量	分类
		机修改部分数据	关联规则
		贝努里概率模型	关联规则
水平分布	加密式	加密、添加随机数	关联规则
垂直分布	加密式	加随、添加随机数	关联规则

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。