数据脱敏的常用方法和工具有哪些?

数据泄露事件层出不穷,各国对隐私数据保护要求越来越严,通过数据脱敏产品,可以有效防止企业内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下从企业流出。满足企业既要保护隐私数据,同时又保持监管合规,满足企业合规性。


什么是数据脱敏?


数据脱敏是一种保护敏感信息的技术手段,是指在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度,减少个人隐私泄露的风险,如身份证号、手机号、银行卡号等。具体效果上,主要是去标识化和匿名化。

■ 去标识化:是指通过对个人信息的技术处理,使得在不借助额外信息的情况下,无法识别个人信息主体
■ 匿名化:是指通过对个人信息的技术处理,使得个人信息主体无法被识别或关联,且处理后的信息不能被还原的过程


数据脱敏的分类


数据脱敏可以分为静态脱敏和动态脱敏。静态脱敏是指对敏感数据进行变形、替换、或屏蔽处理后,将数据从生产环境导入到其他非生产环境进行使用,例如需要将生产数据导出发送至开发、测试等环境。 动态脱敏会对数据进行多次脱敏,更多应用于直接连接生产数据的场景,在用户访问生产环境敏感数据时,通过匹配用户IP或MAC地址等脱敏条件,根据用户权限采用改写查询SQL语句等方式返回脱敏后的数据。例如运维人员在运维工作中直连生产数据库,业务人员需要通过生产环境查询客户信息等。


数据脱敏的常见方式有哪些?


在数据脱敏的过程中,需要根据不同的数据使用场景,选择相应的数据脱敏方式。较为常见数据脱敏方式包括以下几种:

■ 掩码屏蔽:使用*掩盖部分数据,如保留身份证前6位代表地区信息的数字,其余用*代替,被掩码屏蔽的部分可以根据需要进行调整。

■ 随机化:使用随机数据代替真实值,如随机生成客户姓名代替真实值。

■ 数据替换:使用虚拟值替换真实值,如设置一个常数,将所有手机号统一替换为“13100220002”。

■ 泛化:在保留数据局部特征的情况下,对数值型字段进行归类后替换原有数值,使原有数据特征被模糊化。如根据借记卡余额数值分为 “<5万”, “5-10万”, “10-15万”等区间,并将其替换原有的借记卡余额数据。

■ 截断:13100220002 截断为 131,舍弃必要信息来保证数据的模糊性。

■ 平均值:针对数值型数据,计算它们的平均值后,将脱敏值在均值附近随机分布,在改变数值的情况下不改变数据总值和均值。

■ 偏移取整:将数据中的数字随机进行位移,从而改变原始数据。以开户时间为例,经过偏移取整后,开户时间2015-07-26 15:03:24变成了2017-06-25 15:00:00。


数据脱敏的工具——SNP测试数据管理器(Test Data Organizer)


SNP测试数据管理器有强大的脱敏框架,包括针对SAP ERP、SAP S/4HANA®、SAP CRM、SAP SRM、SAP HCM的预定义脱敏内容,具有大量预先配置脱敏规则的标准对象(e.g. vendors, customers),子对象 (e.g.name and address data, bank data, communication data, etc.),通过SNP的预定义标准规则进行数据脱敏,预定义的内容可以灵活地根据客户需求进行扩展。在数据测试期间保护敏感数据,确保遵守数据保护/GDPR法规。


SNP 测试数据管理器除了可以进行数据脱敏保护,在测试SAP系统中还可以赋予客户更多的价值:


影响:通过选择相关的主数据和事务数据,可以大大减少数据量并节省磁盘空间

节省成本:在基础设施以及人员投入方面节省 40% 至 70% 的投入

可靠:充分利用高质量的测试数据

停机时间最小化:维持运营

快速:使用预定义模板按一下按钮即可接收测试数据


更多新闻资讯请点击:


标签:SAP数据管理 · SAP数据集成