什么是数据匿名化?
数据匿名化旨在通过删除或加密数据库中的个人身份信息来保护私人或敏感数据。数据匿名化的目的是在保护个人或公司隐私活动的同时,维护所收集和共享数据的完整性。
数据匿名化也称为“数据混淆”、“数据掩码”或“数据去标识化”。它与去匿名化形成对比,去匿名化是数据挖掘中使用的技术,旨在重新识别加密或模糊的信息。
要点总结
- 数据匿名化是指从敏感数据中去除或加密个人或身份识别信息。
- 随着企业、政府、医疗保健系统和其他组织越来越多地将个人信息存储在本地或云服务器上,数据匿名化对于维护数据完整性和防止安全漏洞至关重要。
- 在高度敏感的医疗保健和金融领域,必须以符合监管要求的方式对患者或客户数据进行模糊处理。
了解数据匿名化
企业在日常业务运营中会产生、存储和处理海量的敏感数据。由于各个行业和国家生成和共享的数据中蕴含着相关信息,科技进步得以蓬勃发展。得益于社交媒体和电子商务平台等领域共享的数据,金融科技( Fintech )在为客户定制金融服务方面取得了长足进步。
数字媒体和电子商务公司之间共享的数据帮助这两个行业更好地在其网站上向特定用户或消费者投放产品广告。然而,为了使共享数据发挥作用,同时又不泄露数据库中客户的身份信息,必须采用匿名化技术。
数据匿名化实践
数据匿名化在大多数处理敏感信息的行业中得到应用,例如医疗保健、金融和数字媒体行业,旨在提升数据共享的完整性。数据匿名化降低了在不同国家、行业甚至同一公司内部不同部门之间共享数据时发生意外泄露的风险,同时也减少了身份盗窃的发生几率。
例如,如果医院在与医学研究实验室或制药公司共享患者机密数据时能够确保患者匿名,那么这种做法就符合伦理。具体做法是从共享列表中删除患者的姓名、社会安全号码、出生日期和地址,同时保留医学研究所需的重要信息,例如年龄、疾病、身高、体重、性别、种族等。
数据匿名化技术
数据匿名化可以通过多种方式实现,包括删除、加密、概括等等。公司可以从收集的数据中删除个人身份信息 (PII) ,或者使用强密码对这些信息进行加密。企业还可以选择对数据库中收集的信息进行概括。例如,一个表格包含了五位零售业 CEO 的确切总收入。假设记录的收入分别为 52 万美元、23 万美元、10.9 万美元、87.5 万美元和 12.4 万美元。这些信息可以概括为“低于 50 万美元”和“高于或等于 50 万美元”等类别。虽然数据经过了模糊处理,但对用户仍然有用。
数据匿名化推理
数据匿名化是指对机密信息进行脱敏和掩蔽处理,即使发生数据泄露,泄露者也无法利用这些数据。保护数据在每个组织中都应是重中之重,因为落入不法分子手中的机密信息可能会被有意或无意地滥用。处理敏感客户信息时缺乏敏感性可能会给企业带来巨大损失,因为监管机构会对严重疏忽行为进行严厉打击。诸如支付卡行业数据安全标准 ( PCI DSS) 等法律法规要求规定,一旦发生信用卡数据泄露,金融机构将面临巨额罚款。加拿大《个人信息保护和电子文件法》(PIPEDA) 规范了企业披露和使用个人信息的行为。此外,还有许多其他监管机构负责监督组织对私人数据的使用或滥用情况。
通过一种称为去匿名化(或“重新识别”)的过程,可以对匿名化数据进行解码。由于匿名化数据可以被解码和还原,批评者认为匿名化会给人一种虚假的安全感。