I
信息安全技术
个人信息去标识化效果分级评估规范
Information security technology —
Gradation and evaluation for the effect of personal information de-identification
(征求意见稿)
(本稿完成日期:2021 年 4 月 2 日)
XXXX-XX-XX 发布XXXX-XX-XX 实施
GB/T XXXXX—XXXX
目次
前言
引言
1 范围
2规范性引用文件
3术语和定义
4个人信息标识度分级
4.1 概述
4.21 级(能直接识别主体的数据)
4.32 级(消除直接标识符的数据)
4.43 级(重标识风险可接受数据)
4.5 4 级(聚合数据)
5个人信息去标识化效果评定
5.1评定流程
5.2重标识风险计算
附 录 A (资料性) 直接标识符示例
附 录 B (资料性) 准标识符示例
附 录 C (资料性) 去标识化效果分级评定示例
参考文献
前言
本标准按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的其他内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本标准由全国信息安全标准化技术委员会(SAC/TC260)提出并归口。
本标准主要起草单位:清华大学、中国电子技术标准化研究院、北京大学、北京神州绿盟科技有限公司、上海三零卫士信息安全有限公司、中国软件评测中心、北京天融信网络安全技术有限公司、阿里巴巴(北京)软件服务有限公司、北京信息安全测评中心、腾讯科技(北京)有限公司、北京百度网讯科技有限公司、中国人民银行数字货币研究所。
本标准主要起草人:金涛、王建民、周晨炜、谢安明、张峰昌、陈磊、查海平、赵亮、王龑、叶晓俊、屈劲、白晓媛、李媛、刘巍然、刘俊河、洪爵、宋玲娓。
引言
GB/T 35273-2020《信息安全技术 个人信息安全规范》对个人信息的安全使用提出了规范,提出了去标识化的要求。GB/T 37964-2019《信息安全技术 个人信息去标识化指南》就如何开展去标识化活动给出了指导。本标准旨在依据个人信息能多大程度上标识个人身份进行个人信息去标识化效果分级,可用于评价个人信息去标识化活动的效果,从而在保护个人信息安全的前提下促进数据的共享使用,也可以细化不同分级个人信息的安全措施。
信息安全技术个人信息去标识化效果分级评估规范
1范围
本文件提出了个人信息标识度分级和评定方法。
本文件适用于个人信息去标识化活动,也适用于开展对个人信息安全管理、监管和评估。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 25069 信息安全技术 术语
GB/T 35273—2020 信息安全技术 个人信息安全规范
GB/T 37964—2019 信息安全技术 个人信息去标识化指南
3术语和定义
GB/T 25069、GB/T 35273—2020、GB/T 37964—2019中界定的以及下列术语和定义适用于本文件。
3.1
个人信息personal information
以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。
[来源:GB/T 35273-2020,定义3.1]
3.2
个人信息主体personal data subject
个人信息所标识或者关联的自然人。
[来源:GB/T 35273-2020,定义3.3]
3.3
去标识化de-identification
通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联个人信息主体的过程。
[来源:GB/T 35273-2020,定义3.15]
3.4
微数据microdata
一个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。
[来源:GB/T 37964—2019,定义3.4]
3.5
聚合数据aggregate data
表征一组个人信息主体的数据。
[来源:GB/T 37964—2019,定义3.5]
3.6
标识符identifier
微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。
[来源:GB/T 37964—2019,定义3.6]
3.7
直接标识符direct identifier
微数据中的属性,在特定环境下可以单独识别个人信息主体。
[来源:GB/T 37964—2019,定义3.7]
示例:常见的直接标识符参见附录A。
3.8
准标识符quasi-identifier
微数据中的属性,结合其它属性可唯一识别个人信息主体。
[来源:GB/T 37964—2019,定义3.8]
示例:常见的准标识符参见附录B。
3.9
重标识re-identification
把去标识化的数据集重新关联到原始个人信息主体的过程。
3.10
完全公开共享completely public sharing
数据一旦发布,很难召回,一般通过互联网直接公开发布。
[来源:GB/T 37964—2019,定义3.12]
3.11
受控公开共享controlled public sharing
通过数据使用协议对数据的使用进行约束。
[来源:GB/T 37964—2019,定义3.13]
3.12
领地公开共享enclave public sharing
在物理或者虚拟的所辖范围内共享,数据不能流出到领地范围外。
3.13
标识度identifiability
从数据中能识别出个人信息主体的程度。
3.14
等价类equivalence class
所有准标识符属性值相同的数据记录行的集合。
4个人信息标识度分级
4.1概述
基于重标识风险从高到低,个人信息标识度分级划分为 4 级,如图 1 所示。
4.2 1 级(能直接识别主体的数据)
包含直接标识符(例如:姓名、手机号、身份证号等)的数据,在特定环境下能直接识别个人信息主体。
4.3 2 级(消除直接标识符的数据)
删除了直接标识符,但包含准标识符的数据。例如:包含了性别、生日、民族这些可关联识别个人信息主体的信息。或者对直接标识符进行了处理(例如:泛化、抑制等),使其不再能直接(单独)标识个人身份。例如:常见的身份证号码或者手机号码将部分位段标“*”处理,已转化为准标识符。
并且重标识风险高于设定阈值的数据。
重标识风险按照 5.2 计算。重标识风险阈值建议设定为 0.05。
4.4 3 级(重标识风险可接受数据)
消除了直接标识符,且重标识风险低于设定阈值的数据。
重标识风险按照 5.2 计算。重标识风险阈值建议设定为 0.05。
4.5 4 级(聚合数据)
对数据进行汇总分析得出的聚合数据,不再包含个例数据。例如总计数、最大值、最小值、平均值等。
5个人信息去标识化效果评定
5.1评定流程
个人信息去标识化效果评定流程如图2所示,包括去标识化定性评定和重标识风险定量计算。去标识化评定过程如下:
a)接收待评估数据集、数据共享类型(若不给定,默认为完全公开共享)及设定的重标识风险阈值(若不给定,默认为0.05);
b)定性评估数据集去标识化处理情况;
c)判断是否为聚合数据,如果是则评定为4级,否则进行下一步判断;
d)判断是否消除了直接标识符,如果否则评定为1级,是则进行下一步判断;
e)根据5.2节方法,定量计算重标识风险,并进行下一步判断;
f)比较重标识风险与给定风险阈值大小,如果小于风险阈值则评定为3级,否则评定为2级。
5.2重标识风险计算
5.2.1概述
重标识风险计算是综合考虑数据和环境因素的计算过程。先计算每行记录的重标识概率,进而计算数据集的重标识概率,然后再结合环境风险计算整个数据集的重标识风险。
5.2.2计算每行记录重标识概率
5.2.3计算数据集风险
等价类内所有记录的重标识风险是相同的。表1列出了两种常用的数据集风险度量指标。其中|𝐽|表示数据集等价类的个数。
5.2.4计算环境风险
环境风险计算有以下两种情况:
a)完全公开共享数据发布,攻击者对数据集进行重标识攻击的概率为pr(context)=1;
b)受控公开共享数据发布和领地公开共享数据发布,取下述概率的最大值,标记为pr(context): 1) 内部故意攻击,根据隐私和安全控制水平,以及接收者的动机和能力,可以估计内部人员发起重标识攻击的可能性。具体如表 2 所示:
表 2重标识攻击的可能性分析表
隐私和安全控制水平 |
动机和能力 |
重标识攻击概率 |
高 | 低 | 0.05 |
中 | 0.1 | |
高 | 0.2 | |
中 | 低 | 0.2 |
中 | 0.3 | |
高 | 0.4 | |
低 | 低 | 0.4 |
中 | 0.5 | |
高 | 0.6 |
2)熟悉数据集的内部人无意识重标识,概率等于随机接收者在数据集中知道某人的概率,该概率的计算公式是:
式中:p是所有人中具有数据集中讨论的条件或特征的个体的百分比,p的值应由最近的人口统计确定;m是认识的平均人数,建议m的平均值应在150到190之间。
3)数据泄露,概率等于数据接收方设施发生数据泄露的概率。
5.2.5计算总体风险
总体风险计算方法如下:
附录A
(资料性) 直接标识符示例
任何在特定环境下可唯一识别个人的识别号码、特征或代码,常见的直接标识符包括但不限于:
a)姓名
b)公民身份号码
c)护照号
d)驾照号
e)详细住址
f)电子邮件地址
g)电话号码
h)传真号码
i)银行账户
j)车辆标识符和序列号,包括车牌号
k)社会保障号码
l)健康卡号码
m)病历号码
n)设备标识符和序列号
o)生物识别码,包括指纹和声纹等识别码
p)全脸图片图像和其它任何可比对的图像
q)账号、证书号或许可证号
r)互联网协议(IP)地址号
s)网络通用资源定位符(URL)
附录B
(资料性) 准标识符示例
任何在相应环境下无法单独唯一识别个人信息主体,但结合其它信息可唯一识别个人信息主体的属性,常见的准标识符包括但不限于:
a)性别
b)出生日期或年龄
c)事件日期(例如入院、手术、出院、访问相关日期)
d)地理范围(例如邮政编码、建筑名称、地区)
e)族裔血统
f)国籍、籍贯
g)语言
h)原住民身份
i)可见的少数民族地位
j)职务、工作单位、部门等职业信息
k)婚姻状况
l)受教育水平
m)上学年限
n)总收入
o)宗教信仰
附录C
(资料性)
去标识化效果分级评定示例
C.1数据集及条件
某医院领地公开共享的一批胃癌患者的用药记录数据集,已经对姓名、年龄等属性进行去标识化处理,如表C.1所示。
表 C.1某医院内部的去标识化数据集
性别 | 年龄 | 药物编码 |
男 | 35-40 | 700225 |
女 | 35-40 | 355421 |
男 | 51-55 | 355611 |
男 | 35-40 | 455641 |
女 | 45-50 | 355421 |
男 | 41-45 | 255456 |
男 | 51-55 | 355421 |
男 | 35-40 | 756987 |
女 | 35-40 | 700227 |
男 | 51-55 | 379044 |
女 | 35-40 | 455641 |
男 | 41-45 | 355459 |
女 | 45-50 | 700225 |
男 | 41-45 | 487792 |
女 | 45-50 | 437562 |
男 | 51-55 | 736920 |
该去标识数据集有以下通过判定或获取到的条件:
a)定性判定:该领地公开共享数据集采取高级别的隐私和安全控制水平,攻击者发起攻击的动机处于中等;
b)根据 GCO 在线数据库估计,国内胃癌患者约 151 万,占总人口的 0.00108(总人口约为 140005万人);假设该数据集的接收者认识的平均人数为 150;
c)根据相关统计和估算,医疗数据泄露的概率为 5%;
d)重标识风险阈值设定为 0.05。
C.2评定过程
按照5.1所述评定过程评定如下:
a)数据不是聚合数据,不是 4 级,继续评定如下;
b)数据不含任何直接标识符,不是 1 级,继续评定如下;
c)数据风险计算:
1)计算表 C.1 每行记录的重标识概率。首先,确定数据集的等价类:在表 C.1 中,“性别”和“年龄”为准标识符(“药物编码”不是标识符),准标识符属性值相同的数据记录行作为一个等价类,因此一共有 5 个等价类。然后,计算数据集中每一个等价类的大小,以及相应的重标识概率,如表 C.2 所示。
参考文献
[1]中华人民共和国全国人民代表大会常务委员会,中华人民共和国个人信息保护法(草案),2020年10 月.
[2]国家互联网信息办公室,数据安全管理办法(征求意见稿),http://www.moj.gov.cn/news/content/2019- 05/28/zlk_235861.html,2019年5月28日.
[3]中华人民共和国全国人民代表大会常务委员会,中华人民共和国网络安全法,2016年11月7日.
[4]Information and Privacy Commissioner of Ontario, De-identification Guidelines for Structured Data, June 2016
[5]Nelson, Gregory S. "Practical implications of sharing data: a primer on data privacy, anonymization, and de-identification." SAS Global Forum Proceedings. 2015.
[6]El Emam K. Guide to the de-identification of personal health information. Auerbach Publications, 2013.
[7]ISO/IEC 20889, Privacy enhancing data deidentification terminology and classification of techniques, 2018.
[8]El Emam, Khaled, et al. "De-identifying a public use microdata file from the Canadian national discharge abstract database." BMC medical informatics and decision making 11.1 (2011): 53.