电子政务信息资源共享中的隐私保护方法

点赞:34125 浏览:157177 近期更新时间:2024-04-12 作者:网友分享原创网站原创

文章编号:1001-9081(2012)01-0082-04 doi:10.3724/SP.J.1087.2012.00082

摘 要:为解决电子政务信息资源共享中的隐私保护问题,提出一种隐私保护模型.模型将电子政务信息资源共享划分为基于数据挖掘或统计产生决策的业务和业务协同两类,分别采用数据预处理对隐私信息泛化和使用业务协同模拟器确定协同业务所需的最小隐私信息集合的方法,解决共享中的隐私保护问题.分析结果表明所提方法能有效保护隐私信息.

关 键 词 :电子政务;信息资源共享;隐私保护;泛化;业务协同

中图分类号: TP393.08 文献标志码:A

Abstract: To protect privacy in Egovernment information resource sharing, a privacy protection model was proposed. The model could classify information resource sharing into two types: one is decision making business based on data mining or statistics and the other is business collaboration. The model adopted data preprocessing method to generalize privacy and a business collaboration simulator to determine the minimum privacy set for business collaboration respectively to protect privacy in the two types of businesses. The analytical results show the proposed method is effective in privacy protection.

Key words: Egovernment, information resource sharing, privacy protection, generalization, business collaboration

电子政务信息资源共享中的隐私保护方法参考属性评定
有关论文范文主题研究: 关于电子政务的文章 大学生适用: 学士学位论文、学院学士论文
相关参考文献下载数量: 63 写作解决问题: 如何写
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 刊物发表、初级职称
所属大学生专业类别: 如何写 论文题目推荐度: 免费选题

0 引言

电子政务信息资源共享对于推进我国电政务建设意义重大,随着电子政务信息资源共享建设的不断深化,隐私保护问题引起了广泛关注[1-3].目前电子政务信息资源共享的隐私问题研究多集中在法律和制度层面,隐私保护需要集法律、技术、制度、社会等多种因素为一体,因此从技术层面探索电子政务信息资源共享中的隐私保护方法对于我国电子政务安全的建设具有重要的理论和实践价值.

电子政务信息资源共享的主要应用包括两种:一是对共享信息资源进行数据分析等工作以实现对相关政策、业务的决策支持;二是用共享信息资源完成业务协同,更好地实现怎么写作型政府建设.在信息资源共享的过程中,如何在保证电子政务业务完成的前提下有效地保护隐私信息,是研究安全的电子政务信息资源共享建设亟待解决的关键问题之一.

本文提出一个适用于电子政务信息资源共享的隐私保护模型,该模型通过泛化隐私信息来解决通过共享信息资源实现决策过程中的隐私保护问题,采用一个业务协同模拟器来确定实现电子政务业务协同前提下共享的包含最少隐私信息的集合.通过应用分析表明,提出的隐私保护模型能够灵活地应用在电子政务信息资源共享之中,并提供有效地隐私保护.

1.相关概念

1.1 电子政务信息资源

电子政务信息资源是指公共管理部门在履行政务活动中所形成的以数字代码形式传输和存储在特定介质上的各种有用信息的集合[4].

通过6个角度对电子政务共享信息中的“信息”类型的划分,来理解电子政务中信息共享中“信息”的内容:

1)按照信息产生方式可分为政府与政府之间交往所形成的信息(GG)、政府在商业中所形成的信息(GB)、政府与公民交往所形成的信息(GC);

2)按照涉密信息类别可分为国家机密、商业秘密、个人隐私和工作秘密;

3)按照共享方式可分为完全共享的信息(无条件共享)、部分共享的信息(有条件共享)和不共享的信息(完全不共享);

4)按照信息敏感程度可分为包含隐私的信息、不包含的隐私的信息;

5)按照信息获取的方式可分为政府机构在管理国家和社会事务的过程中所形成的信息和政府在管理国家和社会事务中所收集的信息;

6)按照信息的产生角色可分为个人用户、企业用户和政府人员.

电子政务信息共享中的“信息”的划分角度还有很多,针对不同的研究目的,会有不同的分类方法.需要说明的是,由于政府信息的复杂性,无论从什么角度划分,各种类型的信息之间并不存在严格的划分界限,彼此之间常常有交叉和重叠,甚至在时机成熟时互相转换.

1.2 隐私信息

隐私是集法律、社会、心理等多种元素为一体的综合性概念,隐私概念没有标准定义,但强调个人对其隐私信息的控制能力[5-6].从隐私的种类来看,可以将其分为三类:个人事务、个人信息和个人领域.因此,电子政务信息资源共享中的涉及到的隐私信息,可以认为是个人信息以及个人事务、个人领域的信息表现形式.

1.3 信息资源的属性

信息资源共享集合中的信息根据数据属性可划分为4种.

1)标识符(Identifies).唯一标识个体身份的属性或属性组合,如号、社会保险号和姓名等.

2)准标识符(Quasiidentifiers).与其他共享的信息资源进行链接以标识个体身份的属性或属性组合,如性别、出生日期和邮政编码等.

3)敏感属性(Sensitive attributes).共享时需要保密的属性,如薪金、信仰和健康状况等.


4)非敏感属性(Nonsensitive attributes).共享时公开的属性,又称普通属性.

2.隐私保护模型

电子政务信息资源共享从共享模式上分为三种:政府部门内部信息共享、政府部门之间信息共享和政府与社会之间信息共享(即信息公开).其中:政府与社会之间信息共享(即信息公开)可以参照《保密法》、《信息公开条例》等相关法律法规开展工作并对涉及到相关隐私信息进行保护;政府部门内部信息共享可以参照政务部门的信息处理规范以及采用相关的安全技术手段保护隐私信息;但由于政府部门之间信息共享工作流程较为复杂且也是电子政务信息共享建设工作的难点和重点,因此本文重点研究政府部门之间的信息共享中的隐私保护方法.

为解决政府部门之间信息资源共享中的隐私保护问题,提出一个隐私保护模型.该模型由三部分组成:业务识别模块、数据预处理模块和业务协同模拟器.业务识别模块用于识别电子政务信息资源共享的业务类别,包括以数据挖掘(或数据统计)技术来实现相关政务决策(简称业务1)和共享信息完成电子政务业务协同(简称业务2)两种.数据预处理模块用于业务1之中,通过对共享信息中涉及到的隐私信息的泛化预处理,保护在数据挖掘(或数据统计)产生决策的过程中涉及到的相关隐私信息.业务协同模拟器用于业务2之中,其输入是实现业务协同的各个部门申请共享信息的属性组合,通过协同业务的小规模模拟并对比模拟器的输出,来确定实现协同业务所需共享的包含最少隐私信息的集合.隐私保护模型的体系结构如图1所示.


隐私保护模型的输入为电子政务信息资源共享集合,输出为具备隐私保护功效的新的信息资源共享集合.模型的应用流程包括以下步骤.

第一步 模型通过业务识别模块识别出信息资源共享的类别.

第二步 如果共享类别属于业务1,则使用数据预处理模块对共享信息资源集合中的数据属性分类,根据分类结果进行隐私泛化处理,产生一个新的共享信息集合;否则,至第三步.

第三步 属于业务2,使用业务协同模拟器,通过对业务的小规模模拟找出不必要共享的隐私信息类别,产生一个确保业务实现的包含最少隐私信息的共享数据集合.

2.1 业务识别模块

业务识别模块负责识别电子政务信息资源共享的业务类别,并将其区分为以数据挖掘(或数据统计)技术来实现相关政务决策和共享信息完成电子政务业务协同两种.

其识别的基本原则为:前者是对数据做分析(加工)产生新的知识;后者是直接使用共享的数据完成业务,不对数据做加工处理.

2.2 数据预处理模块

业务1即以数据挖掘(或数据统计)技术来实现相关政务决策面临的隐私问题包括:保护隐私信息和保护数据表链接带来的推断隐私信息安全.数据预处理模块通过对隐私信息的泛化预处理,实现对隐私信息和数据表链接带来的推断隐私信息的保护.数据预处理模块的实现包括以下几个步骤.

1)划分数据属性.

将共享的信息资源按照属性划分为标识符、准标识符、敏感属性和非敏感属性四种.

2)隐私泛化.

对标识符、准标识符和敏感属性作泛化处理.

①将标识符存储在一张序号表之中(如表1~2所示),在业务1的实现过程中,用序号代替该标识符;

②对于准标识符和敏感属性,采用匿名化的隐私保护技术对数据进行预处理.

匿名化的隐私保护有多种方法技术,如经典的k匿名方法、l多样性原则、psensitive的k匿名、(α,k)匿名、(k,e)匿名、(tcloseness)匿名等技术[7].k匿名方法由Samarati等[8]提出,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私.k匿名通过参数k指定用户可承受的最大信息泄露风险.为解决同质攻击和背景知识攻击带来的隐私泄露,Machanahala等在k匿名基础上提出了l多样性[9].Psensitive的k匿名在满足k匿名的前提下,还要求同一等价类中的记录至少出现p个不同的敏感属性值.(α,k)匿名要求在满足k匿名的前提下,要求同一等价类中任何一个敏感属性值出现的概率不大于α(0<α<1).(k,e)匿名原则要求等价类内敏感属性值的区间范围至少为e.(tcloseness?)匿名在满足k匿名的前提下,要求等价类内敏感属性值的分布与敏感属性值在匿名化表中的总体分布的差异不超过t.

在此,不指定具体的匿名化技术,在实际应用中根据需要对共享的隐私信息选择合适的方法做预处理.数据预处理算法如算法1所示.

算法1 数据预处理.

程序前

//信息资源属性枚举

enum DataAttrType

{Identifies,QuasiIdentifies,Sensitive,NSensitive}

//将标识符属性存入数据库并返回自增长ID

private Object Get Identity ID(Object data) {}

//k匿名方法列表

private Object K_Anonymity_ConvertObject data){}

private Object K_Anonymity_P_ConvertObject data){}

private Object T_Closeness_ConvertObject data){}

//数据预处理,隐私信息泛化

public List ConvertData(ListdLIST)

{

List result等于newList List(),

foreach (object data in list)

{

DataAttrType等于GetDataAttrType(data),

object identityObj等于null,

switch(type)

{

case DataAttrType.Identities:

identityObj等于GetIdentifyID(data),

break,

default:

identityObj等于K_Anonymity_Convert(data),

break,

}

result.Add(data),

}

return result,

}

程序后

经过数据预处理产生的新的数据集合,是对以数据挖掘(或数据统计)技术来实现相关政务决策过程中的隐私信息进行泛化的结果.新的数据集合能够保护隐私信息不因数据表链接而被推断,同时,降低了隐私信息在共享过程中因人为、技术、或管理等因素带来的泄露风险,在一定程度上保护了隐私信息的安全.

2.3 业务协同模拟器

业务2即共享信息以完成电子政务业务协同面临的隐私保护问题突出表现为隐私信息共享过量,对隐私信息安全造成威胁.业务协同模拟器用于在保证电子政务业务协同完成的前提下,确定出包含最少隐私信息的共享集合.模拟器的现实包括以下几个步骤.

1)设各个部门准备共享信息资源的集合为C,I表示集合中的一行记录I{i1,i2,等,im}(m≥1),其中,ij(1≤j≤m)表示的是I中数据字段的类别(如姓名、号等).数据字段类别的属性共有四种:标识符、准标识符、敏感属性和非敏感属性.

2)对于记录I中的数据字段类别,选取r(r≥1)个数据字段作业务协同模拟.输入I{i1,i2,等,im}(m≥1)中所有数据类别的子集合进行业务协同模拟(每种数据输入r条记录),即输入{(i1),(i2),等,(im),(i1,i2),(i1,i3),等,(i1,i2,等,im)}(共有Cmm种).经过业务模拟后,如果某种输入能完成业务协同记为1;否则记为0.

3)设经业务模拟后,输出为1的所有输入集合为INP{input1,input2,等,inputn},其包含的数据类别分别为{(i1,i2,等,ir),等,(i1,i2,等,is)}.选取输入集合INP中包含标识符、准标识符和敏感属性最少的集合,作为新的信息共享集合.

业务协同模拟算法如算法2所示.

算法2 业务协同模拟.

程序前

//选取包含标识符和敏感属性最少的集合

private Object GetMinCollection(List dataList){}

//对业务进行模拟,完成业务返回1,未完成返回0


private int Simulate(Object obj){}

//将数据字段类别的所有子集合选出

private List SelectSubCollection(List dataList){}

//主函数,最终返回包含标识符和敏感属性最少的集合

public Object Execute(List dataList)

{

//存储业务模拟成功的子集合

List successList等于new List(),

List subList等于SelectSubCollection(dataList),

foreach (Object obj in subList)

{

int isSuccess等于Simulate(obj),

if (isSuccess等于等于1)

{

successList.Add(obj),

}

}

Object result等于GetMinLengthCollection(successList),

return result,

}

程序后

经过模拟器产生的新的数据集合,能够确保在完成业务协同的前提下,共享包含最少隐私信息的集合,从而降低了隐私信息在共享过程中因人为、技术、或管理等因素带来的泄露风险,在一定程度上保护了隐私信息的安全.

需要说明的是,一些以数据挖掘(或数据统计)技术来实现相关政务决策的信息资源共享,可以先使用业务协同模拟器,找出需要共享的包含最少隐私信息的集合,然后再对数据做预处理,这样能够实现更加有效的隐私保护.但本文没有将这两种方法合并在一个流程之中,因为:在以数据挖掘(或数据统计)来实现相关政务决策的信息资源共享工作中,很难事先做出业务模拟(某些看似不必要共享的隐私信息,有时可能会通过数据挖掘产生出有用的知识).

3.应用分析

在应用分析中,举两个例子来说明隐私保护模型在电子政务信息资源共享中的使用.

例1 出入境检验检疫部门与卫生部门共享信息实现对某几种传染疾病的预测分析.

由于该业务需要对共享的信息做数据分析(加工)产生新的知识,业务识别模块将该预测归类为业务1,即以数据挖掘(或数据统计)技术来实现相关政务决策.因此首先需要对共享的数据属性进行划分,然后对隐私信息做泛化处理,最终产生一个新的具有隐私保护效果的共享数据集合.

卫生部门需要出入境检验检疫部门提供共享的信息包括感染某几种传染疾病的人员的信息:S1{姓名,国籍,出入境记录,性别,年龄,疾病名称}.

出入境检验检疫部门提供的信息中包含标识符“姓名”,准标识符“年龄”,敏感属性“疾病名称”,预处理共享信息集合S1:

1)将“姓名”存储在一张序号表中,以序号代替姓名;

2)将“年龄”用k匿名技术做预处理.

处理前的数据表如表3所示,经过预处理的数据表如表4所示.由于是作疾病预测分析,且对标识符“姓名”和准标识符“年龄”已经做了泛化处理,故不再对敏感属性“疾病”做预处理.表4是经过预处理后带有隐私保护的新的共享信息集合,卫生部门根据表4不能确定出每条记录所对应的人员,并能够保护隐私信息不因与卫生部门的数据表链接而被推断.同时,使用表4不影响卫生部门对疾病的预测工作.

需要说明的是,当某传染疾病事态严重并且数据属性“年龄”对于疾病防治非常重要时,则不再对属性“年龄”做泛化处理,以确保国家对传染疾病开展有效地防控工作.

例2 电子政务业务协同.

在门赴港澳商务通行证的审批事项中,根据政策需要申请方的纳税信息.以往该信息需要由申请方出具证明材料,而门通过与税务部门的信息资源共享,并开通网上申请,则可以方便公众足不出户通行证.

由于该业务直接使用共享的数据完成业务,不对数据做加工处理,则本文的模型将该业务划分为业务2,即共享信息完成电子政务业务协同.

在该协同业务中,税务部门共享的信息包括7种类别:S2{姓名,性别,号,纳税信息,收入信息,税务登记证,工商营业执照}.其中,标识符为“姓名”、“号”,准标识符为“税务登记证”,和“工商营业执照”,敏感属性为“纳税信息”和“收入信息”.

选取每种类别的2条记录作为业务模拟使用,将这7种类别的全部子集分别输入到业务模拟器中,即模拟输入任意一个数据属性的子集,门是否能够得到足够的信息完成审批业务.

经模拟后发现,在保证业务完成的条件下,包含最少的标识符、准标识符和敏感属性的集合为S2′{姓名,性别,号,纳税信息,税务登记证,工商营业执照},而“收入信息”则不必共享.因此,将集合S2′作为新的信息共享集合,该集合是能够确保业务完成的具有隐私保护效果的共享集合.

4.结语

电子政务信息资源共享能够提高政府的行政执行力、政策实施的准确性和有效性,改善政府的管理和怎么写作,但同时也带来了隐私保护的问题.本文分析归纳了电子政务信息资源共享的业务类别,提出了一个适用于电子政务信息资源共享的隐私保护模型,该模型能够实现对共享信息资源以完成政务决策过程中的隐私保护和确定出完成电子政务业务协同前提下共享包含最少隐私的信息资源集合.应用分析表明,该模型适用于电子政务信息资源共享并能提供有效的隐私保护.将该模型应用在实际电子政务信息资源共享中分析和优化,是下一步研究中需要做的工作.