九百万安卓模拟器pc版(为什么高中生的压力还这么大)
资讯
2023-12-15
160
1. 九百万安卓模拟器pc版,为什么高中生的压力还这么大?
高考的录取率已达90%左右,作为高中生为何还觉得“压力山大”?
这是一个非常好的问题,恰到好处地抓住了高考的“脉门”,高考录取率都这么高了,大学基本就是十拿九稳,高中生还紧张与压力个什么劲呢?在2018年,全国高等学校高考实际录取率是81.13%,而2019年,全国高等学校高考实际录取率是87.29%,事实上我国已经实现了普及高等教育!有人会说,这里的“高等学校”包括了高职院校,含有大量的大专生呢?确实不错,这个数据里真的包括了大专生,但是2019年的本科升学率可是60%哦,国家可是一年就招了600万本科生!那么高中生的“压力山大”究竟从何而来呢?笔者谈三点:
首先、同样是参加高考,同样是考上大学,大学与大学之间的差距就大发了。我们以武汉大学和江苏海洋大学为例,比较分析江苏考生考取两所大学的难度差距有多大?2019年江苏考生如果想要考上武汉大学,理科考生最低分必须达到395分(一本线是345分),文科考生最低分是388分(一本线是339分),这都需要远超一本线50分以上,才会有机会;而江苏考生考上江苏海洋大学呢?理科考生只需要高考成绩达到334分,文科考生只需要327分,就可以妥妥地去上学了!作为江苏考生是想上武汉大学还是想上江苏海洋大学呢?武汉大学是排名全国前10的名校,江苏海洋大学却是名不见经传,这个问题你可以用脚指头去想!
其次、名校就那么多,每年招生人数几乎相差不大,上名校竞争性相当强。当前,我们口里所说的名校,主要就是指“双一流”大学,即世界一流大学建设高校和一流学科建设高校;世界一流大学建设高校42所(其中36所为A类建设高校,6所为B类建设高校),世界一流学科建设高校95所,总计137所双一流大学;而实际上能够真正称得上国内名校的,还是39所原985工程高校,在人们心目中,它们是不可替代的国内名校代名词,例如大家耳熟能详的清华大学、北京大学、复旦大学、南京大学、上海交通大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等,什么c9联盟啦,什么华东五校啦,都在其中;它们每年高考录取率都是差不多的,2019年达到最高录取率也不过6.55%,太难考了!
再者、不同档次的大学,毕业后的就业差距也是十万八千里,名校毕业生抢着要,普通大学难找工作。每年名校毕业生就那么多,国内越来越多的用人单位却都想招聘到更加优秀的大学毕业生,所以名校毕业生基本都是非常抢手的A+类货,不需要你去费尽心思地去努力找工作,而都是好工作排队来找你,你却可以稳坐钓鱼台地挑肥拣瘦谈条件!但是为数众多的普通院校大学毕业生呢?不仅要费劲吧啦地做漂亮的个人简历,而且还要东跑西颠地到处参加人才招聘会,特别要参加各类招聘考试,笔试完了还有面试,还得像个无头苍蝇似的忍受着到处碰壁的尴尬与苦恼,就算这样了,还是有不少大学生找不到工作,甚至沦为做苦力的打工仔!
综上所述,笔者认为,高考的录取率已达90%左右,作为高中生为何还觉得“压力山大”?理由简单一句话,就是那句俏皮的网络语“理想很丰满,现实很骨感”!现在的出人头地不再是考上大学,而是要考上名校,因为社会在高速发展,对人才的素质要求也是水涨船高了!
2. 光速模拟器游戏闪退?
如果光速模拟器游戏闪退,可能是由许多不同的原因引起的。以下是一些建议的解决方法:
1. 更新显卡驱动程序:确保你的显卡驱动程序是最新的版本。你可以前往显卡制造商的官方网站或使用自动更新驱动程序的软件来下载和安装最新的驱动程序。
2. 检查游戏文件完整性:在游戏闪退之前,有可能游戏文件损坏或缺失。对于Steam平台上的游戏,你可以在Steam客户端中使用"验证游戏文件完整性"的选项,它会自动检查并修复游戏文件。
3. 关闭其他程序:有时,一些后台运行的程序可能会干扰游戏的正常运行,尝试关闭其他不必要的程序和应用程序,然后重新启动游戏。
4. 降低图形设置:如果你的计算机配置较低,游戏闪退可能是因为无法处理游戏的高图形设置。尝试降低游戏的图形设置,包括分辨率、画质和特效等,并查看是否能够避免游戏闪退。
5. 更新操作系统:确保你的操作系统是最新的版本,因为更新可能会修复一些已知的问题和错误。
6. 打开兼容性模式:对于特定的游戏,你可以尝试将该游戏设置为兼容模式。在游戏的属性设置中,找到“兼容性”选项,勾选“以兼容模式运行此程序”并选择合适的操作系统。
如果以上方法没有解决问题,建议你查看游戏的官方支持论坛或联系游戏开发者以获取更具体的帮助。
3. 它在将来会不会真的干掉百度和阿里巴巴?
如果一个公司涉及行业所有领域就能干掉竞争对手,那么乐视就笑了。
腾讯之所以能涉及多个行业,是因为腾讯在即时通讯领域有绝对的霸主地位,才会衍生出游戏、娱乐等超级挣钱的项目,而资本是逐利的,有了很多钱当然要去进行各种投资,一方面是赚更多钱的需要,另一方面是分散风险的需要,正所谓,东方不亮西方亮,总有一个公司能挣到更多钱,但是前提是有一个主业能保证持续挣钱。
腾讯想要干掉阿里、百度,必须要能保证主业垄断地位不受威胁,同时又能在阿里和百度主业上持续进攻并成功挤走他们。除了百度在搜索领域高枕无忧,腾讯和阿里现在正在互相渗透,在可以预见的未来,腾讯干掉两家的可能性基本为0。
腾讯和阿里的大战,正在如火如滁的开展。阿里的钉钉用户量突破1亿,正在逐渐崛起向腾讯的微信qq发出挑战。腾讯联合京东、唯品会、拼多多在电商领域向阿里挑战,最近更是推出微选进入电商。然后新零售线下布局,阿里和腾讯均通过入股、控股、收购的方式展开激烈争夺。
而百度真正的竞争对手,是今日头条。百度在2018年将会全面加强内容"信息流"建设,来对抗今日头条,而百度凭借搜索垄断地位的狙击,应该会很猛烈。
历史上,从来没有一个企业永远不倒,微软也说,我们离倒闭只有1个月,而马云在谈到阿里时说,他每天都睡不着觉,每天都如履薄冰,害怕一个决策失误,对公司造成毁灭打击。
所以,如果一个企业如果可以坚持长盛不衰,能做成百年企业,那这个公司就相当厉害了。我相信BAT会在将来做出改变,迎接挑战,也相信后来创业企业,能够用创新和思路对巨头进行挑战,这样才能促进行业进步,经济发展,也符合我们国家"大众创业,万众创新"的国家决策。我是王小雷,喜欢我的文章,欢迎您点赞关注。我会写出更好文章回报朋友们厚爱,谢谢您的支持!
4. 了不起的修仙模拟器悟性怎么加?
1
【九转金丹直指】:
要求属性:高神识,高悟性,中根骨。
ps:九转金丹秘籍树自带丹方和大量增加炼丹成功率的秘籍,有次丹奴全门派天天嗑药不是梦,火系功法,以灵木突破合宜。
2
【己寅九冲多宝真解】:
要求属性:高神识,中悟性,中机缘。
此功法炼器成功率有提升,宜有炼灵气为灵石灵晶之能,得此宝奴众剑仙人人可得名剑,美中不足则木系功法,前期难矣,与金丹直指同为至正功法,并无邪法修炼之能。
3
【七杀剑诀】:
要求属性:高神识,高根骨,中机缘。
正道真仙九百万,遇魔也须尽低眉,秘籍参悟除辅助修炼外全部为增强御器之功,至霸之剑,同阶无敌(火系法爷除外),小道剑仙门灭于七杀魔宫之手,北斗洞劫护山弟子不及此魔道矣,然则一需剑胎入金丹,二无增灵之能,欲成真仙难矣。
4
【偷天决】:
要求属性:极高根骨。没别的,你头铁你就修这个。
荒古天地无灵气,独以此功逆乾坤,前期突破容易,全程心疼不可挽回,寿元之深厚为天下无双之能,然则近古灵气日深,此魔道成道难矣,幸而只需根骨强就可修炼,入门门槛较低。
5
【太上忘情道】:
要求属性:极高魅力,高悟性,中神识。
这种功法好像是好多修仙小说高冷女主标配。
人非草木孰无情,欲斩情念先动心,秘籍树有修剑之能,余则乃辅助修炼之功,有分神修炼及惑人心智之力,此魔功需天人之姿方可入门修炼,魅力不可靠筑基丹提升,欲以此邪法得证仙位必要天资绝顶方可 。
5. 有充足的时间是否能让蚂蚁发展出强大的科技?
或许可以。
首先确认这个是一个很包含很多学术的问题。世界各地有超过12000种蚂蚁,它们有独特的进化,以适应不同的环境,食物来源:食肉还是素食,吃菌类还是杂吃者。
那么不包括已经灭绝的蚂蚁种类,它们已经进化了至少12000次了,哪类为何我们还没有看见有拿机关枪在突突突的蚂蚁呢?因为“物竞天择,适者生存".生物的适应性确保了生物在长久而缓慢的进化过程中保存物种。所以没有蚂蚁会拿机关枪,因为人类不会容忍这中情况出现,否则蚂蚁恐怕会被灭种!
但其实我可以告诉你,N多年以前(一亿年左右吧),地球出现过跟现在蚂蚁不一样的种类,科学家称它为地狱蚂蚁。
这是一张通过3D渲染一只困在琥珀石里的古代蚂蚁
这些古蚂蚁长着长发,头发上长着胡须,分析这些被困的蚂蚁及其壮观的头饰,显示它们是世界上最古老的真正的蚂蚁之一。这些昆虫生活在七千九百万到九千九百万年前,似乎是最早脱离原来的蚂蚁家族的群体之一。
地狱蚂蚁有别于现在的下颚型蚂蚁,现代的下颚蚂蚁是侧向咬合,而它是向上咬合。证明地狱蚂蚁是可以猎杀更强大的猎物,食物来源增加。随着食物来源增加,各种各类型的氨基酸便会增加更好的蛋白质合成,生物自然获得进化的可能性。
所以,假设我提供足够好的场地,通过提供食物,改变环境,蚂蚁一代一代进化下去,是相当有可能会变成有智慧的生物。
不过这是一个相当巨大的工程,能做到的恐怕是比我们更上一级维度的事物了。
6. windowsxp32位的?
你说的是安卓模拟器BlueStacks把要使用这个软件 xp用户需先安装WindowsInstaller4.5和.NETFramework2.0SP2或者.NETFramework2.0SP3 才能使用。WIN7用户则不用。 还有个你可以去下载个九百万安卓模拟器。很小没有BlueStacks那么大。
7. 大家对于大数据怎么看?
数据 v.s. 隐私
在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这过程中数据就不可避免的暴露在外。历史上就有很多公开的数据暴露了用户隐私的案例。
美国在线(AOL)是一家美国互联网服务公司,也是美国最大的互联网提供商之一。在 2006 年8月,为了学术研究,AOL 公开了匿名的搜索记录,其中包括 65 万个用户的数据,总共 20M 条查询记录。在这些数据中,用户的姓名被替换成了一个个匿名的 ID,但是纽约时报通过这些搜索纪录,找到了 ID 匿名为4417749的用户在真实世界中对应的人。ID 4417749 的搜索记录里有关于“60岁的老年人”的问题、“Lilburn地方的风景”、还有“Arnold” 的搜索字样。通过上面几条数据,纽约时报发现 Lilburn 只有14个人姓Arnold,最后经过直接联系这14个人确认 ID 4417749 是一位62岁名字叫 Thelma Arnold的老奶奶。最后 AOL 紧急撤下数据,发表声明致歉,但是已经太晚了。因为隐私泄露事件,AOL遭到了起诉,最终赔偿受影响用户总额高达五百万美元。
同样是 2006年,美国最大的影视公司之一 Netflix,举办了一个预测算法的比赛(Netflix Prize),比赛要求在公开数据上推测用户的电影评分 。Netflix 把数据中唯一识别用户的信息抹去,认为这样就能保证用户的隐私。但是在 2007 年来自The University of Texas at Austin 的两位研究人员表示通过关联 Netflix 公开的数据和 IMDb(互联网电影数据库)网站上公开的纪录就能够识别出匿名后用户的身份。三年后,在2010年,Netflix 最后因为隐私原因宣布停止这项比赛,并因此受到高额罚款,赔偿金额总计九百万美元。
近几年各大公司均持续关注用户的隐私安全。例如苹果 在2016 年 6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。苹果声称他能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差分隐私技术又是怎么做的呢?
在大数据时代,如何才能保证我们的隐私呢?要回答这个问题,我们首先要知道什么是隐私。
什么是隐私?
我们经常谈论到隐私泄漏、隐私保护,那么 什么是隐私呢? 举个例子,居住在海淀区五道口的小明经常在网上购买电子产品,那小明的 姓名 、 购买偏好 和 居住地址 算不算是隐私呢?如果某购物网站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京海淀区五道口的用户更爱买电子产品,那么小明的隐私是否被泄漏了呢?要弄清楚隐私保护,我们先要讨论一下究竟什么是隐私。
对于隐私这个词,科学研究上普遍接受的定义是“单个用户的某一些属性 ”,只要符合这一定义都可以被看做是隐私。我们在提“隐私”的时候,更加强调的是“ 单个用户 ”。那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明这个单个用户,“购买偏好”和“居住地址”就是隐私。如果公开的数据说住在五道口的小明爱买电子产品,那么这显然就是隐私泄漏了。但是如果数据中只包含一个区域的人的购买偏好,就没有泄露用户隐私。如果进一步讲,大家都知道小明住在海淀区五道口,那么是不是小明就爱买点此产品了呢?这种情况算不算事隐私泄漏呢?答案是不算,因为大家只是通过这个趋势推测,数据并不显示小明一定爱买电子产品。
所以,从隐私保护的角度来说,隐私是针对 单个用户 的概念,公开 群体用户 的信息不算是隐私泄漏,但是如果能从数据中能准确推测出个体的信息,那么就算是隐私泄漏。
隐私保护的方法
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。
第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、 ε-differentialprivacy(差分隐私)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。 今天主要介绍k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私)。 这些方法先从直观的角度去衡量一个公开数据的隐私性,再到使用密码学、统计学等工具保证数据的隐私性。
下面我们一一解读这四种隐私保护的方法:
k-anonymity(k-匿名化)
k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一种数据匿名化方法。
我们先看一下下面的这个表格:
大数据时代下的隐私保护-36大数据
我们把要表格中的公开属性分为以下三类:
Key attributes: 一般是个体的唯一标示,比如说 姓名、 地址、电话等等,这些内容需要在公开数据的时候删掉。
Quasi-identifier: 类似 邮编 、 年龄 、生日、 性别 等不是唯一的,但是能帮助研究人员关联相关数据的标示。
Sensitive attributes: 敏感数据,比如说 购买偏好 、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。
简单来说,k-anonymity 的目的是保证公开的数据中包含的个人信息至少 k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意 quasi-identifier信息,相同的组合都需要出现至少 k 次。
举个例子,假设一个公开的数据进行了 2-anonymity 保护。如果攻击者想确认一个人(小明)的敏感信息(购买偏好),通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据到底哪个是小明了,从而也就保证了小明的隐私不会被泄露。
下面这个表就是 2-anonymization 过的信息:
大数据时代下的隐私保护-36大数据
k-anonymity的方法主要有两种,一种是删除对应的数据列,用星号(*)代替。另外一种方法是用概括的方法使之无法区分,比如把年龄这个数字概括成一个年龄段。对于邮编这样的数据,如果删除所有邮编,研究人员会失去很多有意义的信息,所以可以选择删除最后一位数字。
从这个表中,即使我们知道小明是男性、24岁、邮编是100083,却仍然无法知道小明的购买偏好。而研究人员依然可以根据这些数据统计出一些有意义的结果,这样既兼顾了个人的隐私,又能为研究提供有效的数据。
k-anonymity 能保证以下三点:
攻击者无法知道某个人是否在公开的数据中
给定一个人,攻击者无法确认他是否有某项敏感属性
攻击者无法确认某条数据对应的是哪个人( 这条假设攻击者除了 quasi-identifier 信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露 )
攻击方法
未排序匹配攻击 (unsorted matching attack) : 当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
补充数据攻击 (complementary release attack) : 假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息。
除此之外,如果敏感属性在同一类 quasi-identifiers 中缺乏多样性,或者攻击者有其它的背景知识,k-anonymity 也无法避免隐私泄露。
大数据时代下的隐私保护-36大数据
我们知道李雷的信息,表中有两条对应的数据,但是他们的购买偏好都是电子产品。因为这个敏感属性缺乏多样性,所以尽管是 2-anonimity 匿名化的数据,我们依然能够获得李雷的敏感信息。
大数据时代下的隐私保护-36大数据
如果我们知道小紫的信息,并且知道她不喜欢购买护肤品,那么从表中,我们仍可以确认小紫的购买偏好是厨具。
l-diversity(l-多样化)
通过上面的例子,我们引出了多样化的概念。简单来说,在公开的数据中,对于那些quasi-identifier 相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。
l-diversity 保证了相同类型数据中至少有 l 种内容不同的敏感属性。
大数据时代下的隐私保护-36大数据
例如在上图的例子中,有 10 条相同的类型的数据,其中 8 条的购买偏好是电子产品,其他两条分别是图书和家用电器。那么在这个例子中,公开的数据就满足 3-diversity 的属性。
除了以上介绍的简单 l-diversity 的定义,还有其他版本的 l-diversity,引入了其他统计方法。比如说:
基于概率的l-diversity (probabilistic l-diversity): 在一个类型中出现频率最高的值的概率不大于 1/l。
基于墒的l-diversity (entropy l-diversity): 在一个类型中敏感数据分布的墒至少是 log(l)。
递归 (c,l)-diversity (recursive (c, l)-diversity): 简单来说就是保证最经常出现的值的出现频率不要太高。
l-diversity 也有其局限性:
敏感属性的性质 决定即使保证了一定概率的 diversity 也很容易泄露隐私。例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是 1%)和“艾滋病阴性”(出现概率是 99%),这两种值的敏感性不同,造成的结果也不同。
有些情况下 l-diversity 是没有意义的 :比如说艾滋病数据的例子中仅含有两种不同的值,保证2-diversity 也是没有意义的。
l-diversity 很难达成: 例如,我们想在 10000 条数据中保证 2-diversity,那么可能最多需要10000* 0.01 = 100 个相同的类型。这时可能通过之前介绍的 k-anonymity的方法很难达到。
偏斜性攻击 (Skewness Attack) : 假如我们要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了 diversity,但是我们泄露隐私的可能性会变大。因为l-diversity 并没有考虑敏感属性的总体的分布。
l-diversity 没有考虑敏感属性的语义 ,比如说下面的例子,我们通过李雷的信息从公开数据中关联到了两条信息,通过这两条信息我们能得出两个结论。第一,李雷的工资相对较低;第二,李雷喜欢买电子电器相关的产品。
大数据时代下的隐私保护-36大数据
t-closeness
上面最后一个问题就引出了 t-closeness 的概念,t-closeness 是为了保证在相同的quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值 t。
如果刚才的那个数据保证了 t-closeness 属性,那么通过李雷的信息查询出来的结果中,工资的分布就和整体的分布类似,进而很难推断出李雷工资的高低。
最后,如果保证了 k-anonymity,l-diversity 和 t-closeness,隐私就不会泄露了么?答案并不是这样,我们看下面的例子:
大数据时代下的隐私保护-36大数据
在这个例子中,我们保证了 2- anonymity , 2-diversity , t-closeness(分布近似),工资和购买偏好是敏感属性。攻击者通过李雷的个人信息找到了四条数据,同时知道李雷有很多书,这样就能很容易在四条数据中找到李雷的那一条,从而造成隐私泄露。可能有些读者会有疑问,通过背景知识攻击 k-anonymity 的前提是不是假设了解 quasi-identifier ?并不是这样,针对敏感属性的背景攻击对 k-anonymity 也适用,所以无论经过哪些属性保证,隐私泄露还是很难避免。
差分隐私(differential privacy)
除了之前我们介绍的针对 k-anonymity, l-diversity,t-closeness 三种隐私保护方法的攻击之外,还有一种叫做差分攻击 ( differential attack ) 。举个例子,购物公司发布了购物偏好的数据,说我们有 100 个人的购物偏好数据,其中有 10 个人偏爱购买汽车用品,其他 90 个偏爱购买电子产品。如果攻击者知道其中 99 个人是偏爱汽车用品还是电子产品,就可以知道第 100 个人的购物偏好。这样通过比较公开数据和既有的知识推测出个人隐私,就叫做差分攻击。
在 2009 年,微软研究院的Cynthia Dwork 提出差分隐私的概念,差分隐私就是为了防止差分攻击, 也就是说尽管攻击者知道发布的 100 个人的个人以信息和其中 99 个人的信息,他也没办法通过比对这两个信息获得第 100 个人的信息 。
简单来说,差分隐私就是用一种方法使得查询 100 个信息和查询其中 99 个的信息得到的结果是相对一致的,那么攻击者就无法通过比较(差分)数据的不同找出第100 个人的信息。 这种方法就是加入 随机性 ,如果查询 100 个记录和 99 个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。进一步说,对于差别只有一条记录的两个数据集 D 和 D’ (neighboring datasets),查询他们获得结果相同的概率非常接近。注意,这里并不能保证概率相同,如果一样的话,数据就需要完全的随机化,那样公开数据也就没有意义。所以,我们需要尽可能接近,保证在隐私和可用性之间找到一个平衡。
ε-差分隐私 (ε-differential privacy, ε-DP) 可以用下面的定义来表示:
大数据时代下的隐私保护-36大数据
其中 M 是在 D 上做任意查询操作,对查询后的结果加入一定的随机性,也就是给数据加噪音,两个datasets 加上同一随机噪音之后查询结果为 C 的概率比小于一个特定的数 。这样就能保证用户隐私泄露的概率有一个数学的上界,相比传统的 k-anonymity,差分隐私使隐私保护的模型更加清晰。
我们用一个例子解释差分隐私的定义:
大数据时代下的隐私保护-36大数据
上图中 D1 和D2 是两个neighboring datasets,他们只有一条记录不一致,在攻击者查询“20-30岁之间有多少人偏好购买电子产品”的时候,对于这两个数据库得到的查询结果是 100 的概率分别是 99% 和 98%,他们的比值小于某个数。如果对于任意的查询,都能满足这样的条件,我们就可以说这种随机方法是满足ε-差分隐私的。因为 D1 和 D2 是可以互换的,所以更加严格的讲,他们的比值也要大于 。
无论查询是什么,两个相邻的数据库返回的结果总是近似的。
要达到数据的差分隐私有四种方法:
输出结果变换
输入查询变换
中间值变换
抽样和聚合数据
本文接下来主要介绍输出结果变换的方法,这种方法主要针对查询结果是数值或者数值向量的情况,通过加入噪声使输出结果达到 ε-DP。
输出结果变换:加入噪声
在差分隐私中,防止隐私泄露的重要因素是在查询结果中加噪音, 对于数值的查询结果,一种常见的方法就是对结果进行数值变换。要解释如何加入噪音,我们先看一下下面的这个例子:
大数据时代下的隐私保护-36大数据
假如某公司公开了数据,并且对外提供了查询数据的接口 f(x),针对不同的查询 x,服务器都会输出一个查询结果 f(x) + 噪声,加入噪声就是为了保证 ε-差分隐私。
那么如何选择噪声呢?
差分隐私方法中,作者巧妙的利用了拉普拉斯分布的特性,找到了合适的噪声方法。针对数值或向量的查询输出,M(x) = f(x) + 噪声。我们能得出以下结论:
其中 Lap 是拉普拉斯分布,GS 表示 global sensitivity:
详细的证明可以参考差分隐私的相关文章。
我们有了这个结论,想要对某个查询接口 f(x) 保证 ε-DP 的话,只需要在查询结果上加入 Lap(GS/e) 的噪声就可以了。
拉普拉斯分布和其概率密度函数如下:
大数据时代下的隐私保护-36大数据
大数据时代下的隐私保护-36大数据
(ε,δ)-differential privacy, (ε, δ)-DP
ε-DP 是一种“严格”的隐私保护保证,当在数据库中添加和删除一条数据时候,保证 所有 查询的输出都类似。但是(ε, δ)-DP 在 ε-DP 的保证中允许了一定概率的错误发生,比如说,用户在 (ε, δ)-DP 的保护下会有 δ 概率的隐私泄露。
大数据时代下的隐私保护-36大数据
基于这些的概念,差分隐私在机器学习算法中也能够使用,常见的算法,比如说 PCA、logistic regression、SVM都有对应的差分隐私化算法。
差分隐私在数据的实用性和隐私性之间达到了平衡,使用者可以通过设定自己的“隐私预算”(privacy budget)来调整数据的实用性和隐私性。但是差分隐私也不是万能的,其中加入噪声的很多算法需要在大量的数据集上才实用。除此之外,什么才是“隐私预算”的合理设定也是一个问题。这些都是差分隐私面临的问题和挑战。并且由于差分隐私对于“背景知识”的要求过于强,所以需要在结果中加入大量随机化,导致数据的可用性(utility)急剧下降。但是差分隐私作为一个非常优雅的数学工具,是隐私保护的研究在未来的一个发展方向。差分隐私用严格的数学证明告诉人们一个匿名化的公开数据究竟能保护用户多少的隐私。
k-匿名化与 ε-差分隐私的关系
我们前面分别单独介绍了 k-匿名化和 ε-差分隐私,k-匿名化相对比较容易理解和实践,差分隐私更像是从理论上证明了隐私保护的边界。 虽然方法的分析角度完全不同,但是它们之间却有着紧密的联系。普渡大学的Ninghui Li教授在 Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy 文章中详细分析了 k-匿名化和 ε-差分隐私之间的关系。文章证明了在使用 k-匿名化“得当”的情况下,可以满足一定条件的 (ε, δ)-differentialprivacy。同时也提出了一种 k-anonymity 的变形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS ,通过变形后的 k-anonymity 就可以使之满足差分隐私。通过使用差分隐私这种工具,我们就能精确的衡量前人提出的 k-anonymity,在理论研究上具有重要意义。
实际案例
在实际应用中使用差分隐私时需要考虑的问题还有很多,我们在介绍差分隐私的时候假设所有的查询操作都由可信的数据库处理,数据库里存储着用户的原始数据。那么如果数据库被攻击了,包含用户隐私的原始数据就泄露了。
如果不收集用户的原始数据, 在客户端上先做差分隐私,再上传给服务器 ,这个问题就解决了。最近Google率先使用RAPPOR系统在 Chrome 浏览器上通过这种方法收集用户的使用情况数据。RAPPOR 基于“随机应答”(randomized response)的方法保护用户的原始数据不被泄露,随机应答的流程如下:
当用户需要上报个人数据的时候,首先“抛硬币”决定是否上报真实数据。如果是正面,则上报真实数据。如果不是,就上报一个随机的数据,再“抛一次硬币”决定随机数据的内容。
服务器收到所有的数据后,因为知道“抛硬币”是正面的概率,服务器就能够判断返回的数据是正确的概率。
这种“随机应答”的方法在理论上也被证明是服从ε-差分隐私的。对于用户来说,隐私数据在上报给服务器之前就已经加了噪声,从而具有一定保证。对于公司来说,也能收集到有效的数据。
RAPPOR 使用“随机应答”的方法克服了之前只能回答简单查询语句的限制,现在可以上报包含字符串这类更加复杂的回答。RAPPOR 在上报字符串信息的时候首先使用“布隆过滤器”(bloom filter)算法把字符串哈希到一个数组中,然后再加入噪声传给服务器。布隆过滤器不需要存储元素本身,并可以用于检索一个元素是否在一个集合中。通过使用这种方法,就可以对字符串数据添加噪音,保护用户的隐私。
苹果在 2016 年的世界开发者大会(WWDC)上也宣布使用差分隐私的方法收集用户数据。虽然苹果没有透露具体的细节,我们从官方的描述中也可以推测出苹果也使用了在客户端上做匿名化再传输到服务器的方法。
Differentialprivacy is a research topic in the areas of statistics and data analytics thatuses hashing, subsampling and noiseinjection to enable…crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.
我们刚才介绍的 Google 和 Apple 的模型都是先在本地做差分隐私,然后再上报给服务器,我们把这种方法叫做本地模式(local mode)。这种差分隐私的做法在上报数据可以相互关联的情况下还是存在隐私泄漏。Google的RAPPOR虽然解决了对同一个数据的多次上报的隐私泄露问题,但并没有解决多个相关数据上报后产生的隐私泄露问题。对于这一问题,Apple也没有给出详细的解释。
除了Google 和苹果在内部产品中使用差分隐私方法,哈佛大学公开了一个名为PSI (Ψ) 的项目,提供了一个便捷的差分隐私工具。使用者通过上传数据,调整差分隐私的参数,就可以获得满足差分隐私的数据集。
总结一句:通过大数据我能知道全国哪个省的女人胸最小,想知道的点关注私聊我
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!
1. 九百万安卓模拟器pc版,为什么高中生的压力还这么大?
高考的录取率已达90%左右,作为高中生为何还觉得“压力山大”?
这是一个非常好的问题,恰到好处地抓住了高考的“脉门”,高考录取率都这么高了,大学基本就是十拿九稳,高中生还紧张与压力个什么劲呢?在2018年,全国高等学校高考实际录取率是81.13%,而2019年,全国高等学校高考实际录取率是87.29%,事实上我国已经实现了普及高等教育!有人会说,这里的“高等学校”包括了高职院校,含有大量的大专生呢?确实不错,这个数据里真的包括了大专生,但是2019年的本科升学率可是60%哦,国家可是一年就招了600万本科生!那么高中生的“压力山大”究竟从何而来呢?笔者谈三点:
首先、同样是参加高考,同样是考上大学,大学与大学之间的差距就大发了。我们以武汉大学和江苏海洋大学为例,比较分析江苏考生考取两所大学的难度差距有多大?2019年江苏考生如果想要考上武汉大学,理科考生最低分必须达到395分(一本线是345分),文科考生最低分是388分(一本线是339分),这都需要远超一本线50分以上,才会有机会;而江苏考生考上江苏海洋大学呢?理科考生只需要高考成绩达到334分,文科考生只需要327分,就可以妥妥地去上学了!作为江苏考生是想上武汉大学还是想上江苏海洋大学呢?武汉大学是排名全国前10的名校,江苏海洋大学却是名不见经传,这个问题你可以用脚指头去想!
其次、名校就那么多,每年招生人数几乎相差不大,上名校竞争性相当强。当前,我们口里所说的名校,主要就是指“双一流”大学,即世界一流大学建设高校和一流学科建设高校;世界一流大学建设高校42所(其中36所为A类建设高校,6所为B类建设高校),世界一流学科建设高校95所,总计137所双一流大学;而实际上能够真正称得上国内名校的,还是39所原985工程高校,在人们心目中,它们是不可替代的国内名校代名词,例如大家耳熟能详的清华大学、北京大学、复旦大学、南京大学、上海交通大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等,什么c9联盟啦,什么华东五校啦,都在其中;它们每年高考录取率都是差不多的,2019年达到最高录取率也不过6.55%,太难考了!
再者、不同档次的大学,毕业后的就业差距也是十万八千里,名校毕业生抢着要,普通大学难找工作。每年名校毕业生就那么多,国内越来越多的用人单位却都想招聘到更加优秀的大学毕业生,所以名校毕业生基本都是非常抢手的A+类货,不需要你去费尽心思地去努力找工作,而都是好工作排队来找你,你却可以稳坐钓鱼台地挑肥拣瘦谈条件!但是为数众多的普通院校大学毕业生呢?不仅要费劲吧啦地做漂亮的个人简历,而且还要东跑西颠地到处参加人才招聘会,特别要参加各类招聘考试,笔试完了还有面试,还得像个无头苍蝇似的忍受着到处碰壁的尴尬与苦恼,就算这样了,还是有不少大学生找不到工作,甚至沦为做苦力的打工仔!
综上所述,笔者认为,高考的录取率已达90%左右,作为高中生为何还觉得“压力山大”?理由简单一句话,就是那句俏皮的网络语“理想很丰满,现实很骨感”!现在的出人头地不再是考上大学,而是要考上名校,因为社会在高速发展,对人才的素质要求也是水涨船高了!
2. 光速模拟器游戏闪退?
如果光速模拟器游戏闪退,可能是由许多不同的原因引起的。以下是一些建议的解决方法:
1. 更新显卡驱动程序:确保你的显卡驱动程序是最新的版本。你可以前往显卡制造商的官方网站或使用自动更新驱动程序的软件来下载和安装最新的驱动程序。
2. 检查游戏文件完整性:在游戏闪退之前,有可能游戏文件损坏或缺失。对于Steam平台上的游戏,你可以在Steam客户端中使用"验证游戏文件完整性"的选项,它会自动检查并修复游戏文件。
3. 关闭其他程序:有时,一些后台运行的程序可能会干扰游戏的正常运行,尝试关闭其他不必要的程序和应用程序,然后重新启动游戏。
4. 降低图形设置:如果你的计算机配置较低,游戏闪退可能是因为无法处理游戏的高图形设置。尝试降低游戏的图形设置,包括分辨率、画质和特效等,并查看是否能够避免游戏闪退。
5. 更新操作系统:确保你的操作系统是最新的版本,因为更新可能会修复一些已知的问题和错误。
6. 打开兼容性模式:对于特定的游戏,你可以尝试将该游戏设置为兼容模式。在游戏的属性设置中,找到“兼容性”选项,勾选“以兼容模式运行此程序”并选择合适的操作系统。
如果以上方法没有解决问题,建议你查看游戏的官方支持论坛或联系游戏开发者以获取更具体的帮助。
3. 它在将来会不会真的干掉百度和阿里巴巴?
如果一个公司涉及行业所有领域就能干掉竞争对手,那么乐视就笑了。
腾讯之所以能涉及多个行业,是因为腾讯在即时通讯领域有绝对的霸主地位,才会衍生出游戏、娱乐等超级挣钱的项目,而资本是逐利的,有了很多钱当然要去进行各种投资,一方面是赚更多钱的需要,另一方面是分散风险的需要,正所谓,东方不亮西方亮,总有一个公司能挣到更多钱,但是前提是有一个主业能保证持续挣钱。
腾讯想要干掉阿里、百度,必须要能保证主业垄断地位不受威胁,同时又能在阿里和百度主业上持续进攻并成功挤走他们。除了百度在搜索领域高枕无忧,腾讯和阿里现在正在互相渗透,在可以预见的未来,腾讯干掉两家的可能性基本为0。
腾讯和阿里的大战,正在如火如滁的开展。阿里的钉钉用户量突破1亿,正在逐渐崛起向腾讯的微信qq发出挑战。腾讯联合京东、唯品会、拼多多在电商领域向阿里挑战,最近更是推出微选进入电商。然后新零售线下布局,阿里和腾讯均通过入股、控股、收购的方式展开激烈争夺。
而百度真正的竞争对手,是今日头条。百度在2018年将会全面加强内容"信息流"建设,来对抗今日头条,而百度凭借搜索垄断地位的狙击,应该会很猛烈。
历史上,从来没有一个企业永远不倒,微软也说,我们离倒闭只有1个月,而马云在谈到阿里时说,他每天都睡不着觉,每天都如履薄冰,害怕一个决策失误,对公司造成毁灭打击。
所以,如果一个企业如果可以坚持长盛不衰,能做成百年企业,那这个公司就相当厉害了。我相信BAT会在将来做出改变,迎接挑战,也相信后来创业企业,能够用创新和思路对巨头进行挑战,这样才能促进行业进步,经济发展,也符合我们国家"大众创业,万众创新"的国家决策。我是王小雷,喜欢我的文章,欢迎您点赞关注。我会写出更好文章回报朋友们厚爱,谢谢您的支持!
4. 了不起的修仙模拟器悟性怎么加?
1
【九转金丹直指】:
要求属性:高神识,高悟性,中根骨。
ps:九转金丹秘籍树自带丹方和大量增加炼丹成功率的秘籍,有次丹奴全门派天天嗑药不是梦,火系功法,以灵木突破合宜。
2
【己寅九冲多宝真解】:
要求属性:高神识,中悟性,中机缘。
此功法炼器成功率有提升,宜有炼灵气为灵石灵晶之能,得此宝奴众剑仙人人可得名剑,美中不足则木系功法,前期难矣,与金丹直指同为至正功法,并无邪法修炼之能。
3
【七杀剑诀】:
要求属性:高神识,高根骨,中机缘。
正道真仙九百万,遇魔也须尽低眉,秘籍参悟除辅助修炼外全部为增强御器之功,至霸之剑,同阶无敌(火系法爷除外),小道剑仙门灭于七杀魔宫之手,北斗洞劫护山弟子不及此魔道矣,然则一需剑胎入金丹,二无增灵之能,欲成真仙难矣。
4
【偷天决】:
要求属性:极高根骨。没别的,你头铁你就修这个。
荒古天地无灵气,独以此功逆乾坤,前期突破容易,全程心疼不可挽回,寿元之深厚为天下无双之能,然则近古灵气日深,此魔道成道难矣,幸而只需根骨强就可修炼,入门门槛较低。
5
【太上忘情道】:
要求属性:极高魅力,高悟性,中神识。
这种功法好像是好多修仙小说高冷女主标配。
人非草木孰无情,欲斩情念先动心,秘籍树有修剑之能,余则乃辅助修炼之功,有分神修炼及惑人心智之力,此魔功需天人之姿方可入门修炼,魅力不可靠筑基丹提升,欲以此邪法得证仙位必要天资绝顶方可 。
5. 有充足的时间是否能让蚂蚁发展出强大的科技?
或许可以。
首先确认这个是一个很包含很多学术的问题。世界各地有超过12000种蚂蚁,它们有独特的进化,以适应不同的环境,食物来源:食肉还是素食,吃菌类还是杂吃者。
那么不包括已经灭绝的蚂蚁种类,它们已经进化了至少12000次了,哪类为何我们还没有看见有拿机关枪在突突突的蚂蚁呢?因为“物竞天择,适者生存".生物的适应性确保了生物在长久而缓慢的进化过程中保存物种。所以没有蚂蚁会拿机关枪,因为人类不会容忍这中情况出现,否则蚂蚁恐怕会被灭种!
但其实我可以告诉你,N多年以前(一亿年左右吧),地球出现过跟现在蚂蚁不一样的种类,科学家称它为地狱蚂蚁。
这是一张通过3D渲染一只困在琥珀石里的古代蚂蚁
这些古蚂蚁长着长发,头发上长着胡须,分析这些被困的蚂蚁及其壮观的头饰,显示它们是世界上最古老的真正的蚂蚁之一。这些昆虫生活在七千九百万到九千九百万年前,似乎是最早脱离原来的蚂蚁家族的群体之一。
地狱蚂蚁有别于现在的下颚型蚂蚁,现代的下颚蚂蚁是侧向咬合,而它是向上咬合。证明地狱蚂蚁是可以猎杀更强大的猎物,食物来源增加。随着食物来源增加,各种各类型的氨基酸便会增加更好的蛋白质合成,生物自然获得进化的可能性。
所以,假设我提供足够好的场地,通过提供食物,改变环境,蚂蚁一代一代进化下去,是相当有可能会变成有智慧的生物。
不过这是一个相当巨大的工程,能做到的恐怕是比我们更上一级维度的事物了。
6. windowsxp32位的?
你说的是安卓模拟器BlueStacks把要使用这个软件 xp用户需先安装WindowsInstaller4.5和.NETFramework2.0SP2或者.NETFramework2.0SP3 才能使用。WIN7用户则不用。 还有个你可以去下载个九百万安卓模拟器。很小没有BlueStacks那么大。
7. 大家对于大数据怎么看?
数据 v.s. 隐私
在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这过程中数据就不可避免的暴露在外。历史上就有很多公开的数据暴露了用户隐私的案例。
美国在线(AOL)是一家美国互联网服务公司,也是美国最大的互联网提供商之一。在 2006 年8月,为了学术研究,AOL 公开了匿名的搜索记录,其中包括 65 万个用户的数据,总共 20M 条查询记录。在这些数据中,用户的姓名被替换成了一个个匿名的 ID,但是纽约时报通过这些搜索纪录,找到了 ID 匿名为4417749的用户在真实世界中对应的人。ID 4417749 的搜索记录里有关于“60岁的老年人”的问题、“Lilburn地方的风景”、还有“Arnold” 的搜索字样。通过上面几条数据,纽约时报发现 Lilburn 只有14个人姓Arnold,最后经过直接联系这14个人确认 ID 4417749 是一位62岁名字叫 Thelma Arnold的老奶奶。最后 AOL 紧急撤下数据,发表声明致歉,但是已经太晚了。因为隐私泄露事件,AOL遭到了起诉,最终赔偿受影响用户总额高达五百万美元。
同样是 2006年,美国最大的影视公司之一 Netflix,举办了一个预测算法的比赛(Netflix Prize),比赛要求在公开数据上推测用户的电影评分 。Netflix 把数据中唯一识别用户的信息抹去,认为这样就能保证用户的隐私。但是在 2007 年来自The University of Texas at Austin 的两位研究人员表示通过关联 Netflix 公开的数据和 IMDb(互联网电影数据库)网站上公开的纪录就能够识别出匿名后用户的身份。三年后,在2010年,Netflix 最后因为隐私原因宣布停止这项比赛,并因此受到高额罚款,赔偿金额总计九百万美元。
近几年各大公司均持续关注用户的隐私安全。例如苹果 在2016 年 6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。苹果声称他能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差分隐私技术又是怎么做的呢?
在大数据时代,如何才能保证我们的隐私呢?要回答这个问题,我们首先要知道什么是隐私。
什么是隐私?
我们经常谈论到隐私泄漏、隐私保护,那么 什么是隐私呢? 举个例子,居住在海淀区五道口的小明经常在网上购买电子产品,那小明的 姓名 、 购买偏好 和 居住地址 算不算是隐私呢?如果某购物网站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京海淀区五道口的用户更爱买电子产品,那么小明的隐私是否被泄漏了呢?要弄清楚隐私保护,我们先要讨论一下究竟什么是隐私。
对于隐私这个词,科学研究上普遍接受的定义是“单个用户的某一些属性 ”,只要符合这一定义都可以被看做是隐私。我们在提“隐私”的时候,更加强调的是“ 单个用户 ”。那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明这个单个用户,“购买偏好”和“居住地址”就是隐私。如果公开的数据说住在五道口的小明爱买电子产品,那么这显然就是隐私泄漏了。但是如果数据中只包含一个区域的人的购买偏好,就没有泄露用户隐私。如果进一步讲,大家都知道小明住在海淀区五道口,那么是不是小明就爱买点此产品了呢?这种情况算不算事隐私泄漏呢?答案是不算,因为大家只是通过这个趋势推测,数据并不显示小明一定爱买电子产品。
所以,从隐私保护的角度来说,隐私是针对 单个用户 的概念,公开 群体用户 的信息不算是隐私泄漏,但是如果能从数据中能准确推测出个体的信息,那么就算是隐私泄漏。
隐私保护的方法
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。
第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、 ε-differentialprivacy(差分隐私)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。 今天主要介绍k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私)。 这些方法先从直观的角度去衡量一个公开数据的隐私性,再到使用密码学、统计学等工具保证数据的隐私性。
下面我们一一解读这四种隐私保护的方法:
k-anonymity(k-匿名化)
k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一种数据匿名化方法。
我们先看一下下面的这个表格:
大数据时代下的隐私保护-36大数据
我们把要表格中的公开属性分为以下三类:
Key attributes: 一般是个体的唯一标示,比如说 姓名、 地址、电话等等,这些内容需要在公开数据的时候删掉。
Quasi-identifier: 类似 邮编 、 年龄 、生日、 性别 等不是唯一的,但是能帮助研究人员关联相关数据的标示。
Sensitive attributes: 敏感数据,比如说 购买偏好 、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。
简单来说,k-anonymity 的目的是保证公开的数据中包含的个人信息至少 k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意 quasi-identifier信息,相同的组合都需要出现至少 k 次。
举个例子,假设一个公开的数据进行了 2-anonymity 保护。如果攻击者想确认一个人(小明)的敏感信息(购买偏好),通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据到底哪个是小明了,从而也就保证了小明的隐私不会被泄露。
下面这个表就是 2-anonymization 过的信息:
大数据时代下的隐私保护-36大数据
k-anonymity的方法主要有两种,一种是删除对应的数据列,用星号(*)代替。另外一种方法是用概括的方法使之无法区分,比如把年龄这个数字概括成一个年龄段。对于邮编这样的数据,如果删除所有邮编,研究人员会失去很多有意义的信息,所以可以选择删除最后一位数字。
从这个表中,即使我们知道小明是男性、24岁、邮编是100083,却仍然无法知道小明的购买偏好。而研究人员依然可以根据这些数据统计出一些有意义的结果,这样既兼顾了个人的隐私,又能为研究提供有效的数据。
k-anonymity 能保证以下三点:
攻击者无法知道某个人是否在公开的数据中
给定一个人,攻击者无法确认他是否有某项敏感属性
攻击者无法确认某条数据对应的是哪个人( 这条假设攻击者除了 quasi-identifier 信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露 )
攻击方法
未排序匹配攻击 (unsorted matching attack) : 当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
补充数据攻击 (complementary release attack) : 假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息。
除此之外,如果敏感属性在同一类 quasi-identifiers 中缺乏多样性,或者攻击者有其它的背景知识,k-anonymity 也无法避免隐私泄露。
大数据时代下的隐私保护-36大数据
我们知道李雷的信息,表中有两条对应的数据,但是他们的购买偏好都是电子产品。因为这个敏感属性缺乏多样性,所以尽管是 2-anonimity 匿名化的数据,我们依然能够获得李雷的敏感信息。
大数据时代下的隐私保护-36大数据
如果我们知道小紫的信息,并且知道她不喜欢购买护肤品,那么从表中,我们仍可以确认小紫的购买偏好是厨具。
l-diversity(l-多样化)
通过上面的例子,我们引出了多样化的概念。简单来说,在公开的数据中,对于那些quasi-identifier 相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。
l-diversity 保证了相同类型数据中至少有 l 种内容不同的敏感属性。
大数据时代下的隐私保护-36大数据
例如在上图的例子中,有 10 条相同的类型的数据,其中 8 条的购买偏好是电子产品,其他两条分别是图书和家用电器。那么在这个例子中,公开的数据就满足 3-diversity 的属性。
除了以上介绍的简单 l-diversity 的定义,还有其他版本的 l-diversity,引入了其他统计方法。比如说:
基于概率的l-diversity (probabilistic l-diversity): 在一个类型中出现频率最高的值的概率不大于 1/l。
基于墒的l-diversity (entropy l-diversity): 在一个类型中敏感数据分布的墒至少是 log(l)。
递归 (c,l)-diversity (recursive (c, l)-diversity): 简单来说就是保证最经常出现的值的出现频率不要太高。
l-diversity 也有其局限性:
敏感属性的性质 决定即使保证了一定概率的 diversity 也很容易泄露隐私。例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是 1%)和“艾滋病阴性”(出现概率是 99%),这两种值的敏感性不同,造成的结果也不同。
有些情况下 l-diversity 是没有意义的 :比如说艾滋病数据的例子中仅含有两种不同的值,保证2-diversity 也是没有意义的。
l-diversity 很难达成: 例如,我们想在 10000 条数据中保证 2-diversity,那么可能最多需要10000* 0.01 = 100 个相同的类型。这时可能通过之前介绍的 k-anonymity的方法很难达到。
偏斜性攻击 (Skewness Attack) : 假如我们要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了 diversity,但是我们泄露隐私的可能性会变大。因为l-diversity 并没有考虑敏感属性的总体的分布。
l-diversity 没有考虑敏感属性的语义 ,比如说下面的例子,我们通过李雷的信息从公开数据中关联到了两条信息,通过这两条信息我们能得出两个结论。第一,李雷的工资相对较低;第二,李雷喜欢买电子电器相关的产品。
大数据时代下的隐私保护-36大数据
t-closeness
上面最后一个问题就引出了 t-closeness 的概念,t-closeness 是为了保证在相同的quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值 t。
如果刚才的那个数据保证了 t-closeness 属性,那么通过李雷的信息查询出来的结果中,工资的分布就和整体的分布类似,进而很难推断出李雷工资的高低。
最后,如果保证了 k-anonymity,l-diversity 和 t-closeness,隐私就不会泄露了么?答案并不是这样,我们看下面的例子:
大数据时代下的隐私保护-36大数据
在这个例子中,我们保证了 2- anonymity , 2-diversity , t-closeness(分布近似),工资和购买偏好是敏感属性。攻击者通过李雷的个人信息找到了四条数据,同时知道李雷有很多书,这样就能很容易在四条数据中找到李雷的那一条,从而造成隐私泄露。可能有些读者会有疑问,通过背景知识攻击 k-anonymity 的前提是不是假设了解 quasi-identifier ?并不是这样,针对敏感属性的背景攻击对 k-anonymity 也适用,所以无论经过哪些属性保证,隐私泄露还是很难避免。
差分隐私(differential privacy)
除了之前我们介绍的针对 k-anonymity, l-diversity,t-closeness 三种隐私保护方法的攻击之外,还有一种叫做差分攻击 ( differential attack ) 。举个例子,购物公司发布了购物偏好的数据,说我们有 100 个人的购物偏好数据,其中有 10 个人偏爱购买汽车用品,其他 90 个偏爱购买电子产品。如果攻击者知道其中 99 个人是偏爱汽车用品还是电子产品,就可以知道第 100 个人的购物偏好。这样通过比较公开数据和既有的知识推测出个人隐私,就叫做差分攻击。
在 2009 年,微软研究院的Cynthia Dwork 提出差分隐私的概念,差分隐私就是为了防止差分攻击, 也就是说尽管攻击者知道发布的 100 个人的个人以信息和其中 99 个人的信息,他也没办法通过比对这两个信息获得第 100 个人的信息 。
简单来说,差分隐私就是用一种方法使得查询 100 个信息和查询其中 99 个的信息得到的结果是相对一致的,那么攻击者就无法通过比较(差分)数据的不同找出第100 个人的信息。 这种方法就是加入 随机性 ,如果查询 100 个记录和 99 个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。进一步说,对于差别只有一条记录的两个数据集 D 和 D’ (neighboring datasets),查询他们获得结果相同的概率非常接近。注意,这里并不能保证概率相同,如果一样的话,数据就需要完全的随机化,那样公开数据也就没有意义。所以,我们需要尽可能接近,保证在隐私和可用性之间找到一个平衡。
ε-差分隐私 (ε-differential privacy, ε-DP) 可以用下面的定义来表示:
大数据时代下的隐私保护-36大数据
其中 M 是在 D 上做任意查询操作,对查询后的结果加入一定的随机性,也就是给数据加噪音,两个datasets 加上同一随机噪音之后查询结果为 C 的概率比小于一个特定的数 。这样就能保证用户隐私泄露的概率有一个数学的上界,相比传统的 k-anonymity,差分隐私使隐私保护的模型更加清晰。
我们用一个例子解释差分隐私的定义:
大数据时代下的隐私保护-36大数据
上图中 D1 和D2 是两个neighboring datasets,他们只有一条记录不一致,在攻击者查询“20-30岁之间有多少人偏好购买电子产品”的时候,对于这两个数据库得到的查询结果是 100 的概率分别是 99% 和 98%,他们的比值小于某个数。如果对于任意的查询,都能满足这样的条件,我们就可以说这种随机方法是满足ε-差分隐私的。因为 D1 和 D2 是可以互换的,所以更加严格的讲,他们的比值也要大于 。
无论查询是什么,两个相邻的数据库返回的结果总是近似的。
要达到数据的差分隐私有四种方法:
输出结果变换
输入查询变换
中间值变换
抽样和聚合数据
本文接下来主要介绍输出结果变换的方法,这种方法主要针对查询结果是数值或者数值向量的情况,通过加入噪声使输出结果达到 ε-DP。
输出结果变换:加入噪声
在差分隐私中,防止隐私泄露的重要因素是在查询结果中加噪音, 对于数值的查询结果,一种常见的方法就是对结果进行数值变换。要解释如何加入噪音,我们先看一下下面的这个例子:
大数据时代下的隐私保护-36大数据
假如某公司公开了数据,并且对外提供了查询数据的接口 f(x),针对不同的查询 x,服务器都会输出一个查询结果 f(x) + 噪声,加入噪声就是为了保证 ε-差分隐私。
那么如何选择噪声呢?
差分隐私方法中,作者巧妙的利用了拉普拉斯分布的特性,找到了合适的噪声方法。针对数值或向量的查询输出,M(x) = f(x) + 噪声。我们能得出以下结论:
其中 Lap 是拉普拉斯分布,GS 表示 global sensitivity:
详细的证明可以参考差分隐私的相关文章。
我们有了这个结论,想要对某个查询接口 f(x) 保证 ε-DP 的话,只需要在查询结果上加入 Lap(GS/e) 的噪声就可以了。
拉普拉斯分布和其概率密度函数如下:
大数据时代下的隐私保护-36大数据
大数据时代下的隐私保护-36大数据
(ε,δ)-differential privacy, (ε, δ)-DP
ε-DP 是一种“严格”的隐私保护保证,当在数据库中添加和删除一条数据时候,保证 所有 查询的输出都类似。但是(ε, δ)-DP 在 ε-DP 的保证中允许了一定概率的错误发生,比如说,用户在 (ε, δ)-DP 的保护下会有 δ 概率的隐私泄露。
大数据时代下的隐私保护-36大数据
基于这些的概念,差分隐私在机器学习算法中也能够使用,常见的算法,比如说 PCA、logistic regression、SVM都有对应的差分隐私化算法。
差分隐私在数据的实用性和隐私性之间达到了平衡,使用者可以通过设定自己的“隐私预算”(privacy budget)来调整数据的实用性和隐私性。但是差分隐私也不是万能的,其中加入噪声的很多算法需要在大量的数据集上才实用。除此之外,什么才是“隐私预算”的合理设定也是一个问题。这些都是差分隐私面临的问题和挑战。并且由于差分隐私对于“背景知识”的要求过于强,所以需要在结果中加入大量随机化,导致数据的可用性(utility)急剧下降。但是差分隐私作为一个非常优雅的数学工具,是隐私保护的研究在未来的一个发展方向。差分隐私用严格的数学证明告诉人们一个匿名化的公开数据究竟能保护用户多少的隐私。
k-匿名化与 ε-差分隐私的关系
我们前面分别单独介绍了 k-匿名化和 ε-差分隐私,k-匿名化相对比较容易理解和实践,差分隐私更像是从理论上证明了隐私保护的边界。 虽然方法的分析角度完全不同,但是它们之间却有着紧密的联系。普渡大学的Ninghui Li教授在 Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy 文章中详细分析了 k-匿名化和 ε-差分隐私之间的关系。文章证明了在使用 k-匿名化“得当”的情况下,可以满足一定条件的 (ε, δ)-differentialprivacy。同时也提出了一种 k-anonymity 的变形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS ,通过变形后的 k-anonymity 就可以使之满足差分隐私。通过使用差分隐私这种工具,我们就能精确的衡量前人提出的 k-anonymity,在理论研究上具有重要意义。
实际案例
在实际应用中使用差分隐私时需要考虑的问题还有很多,我们在介绍差分隐私的时候假设所有的查询操作都由可信的数据库处理,数据库里存储着用户的原始数据。那么如果数据库被攻击了,包含用户隐私的原始数据就泄露了。
如果不收集用户的原始数据, 在客户端上先做差分隐私,再上传给服务器 ,这个问题就解决了。最近Google率先使用RAPPOR系统在 Chrome 浏览器上通过这种方法收集用户的使用情况数据。RAPPOR 基于“随机应答”(randomized response)的方法保护用户的原始数据不被泄露,随机应答的流程如下:
当用户需要上报个人数据的时候,首先“抛硬币”决定是否上报真实数据。如果是正面,则上报真实数据。如果不是,就上报一个随机的数据,再“抛一次硬币”决定随机数据的内容。
服务器收到所有的数据后,因为知道“抛硬币”是正面的概率,服务器就能够判断返回的数据是正确的概率。
这种“随机应答”的方法在理论上也被证明是服从ε-差分隐私的。对于用户来说,隐私数据在上报给服务器之前就已经加了噪声,从而具有一定保证。对于公司来说,也能收集到有效的数据。
RAPPOR 使用“随机应答”的方法克服了之前只能回答简单查询语句的限制,现在可以上报包含字符串这类更加复杂的回答。RAPPOR 在上报字符串信息的时候首先使用“布隆过滤器”(bloom filter)算法把字符串哈希到一个数组中,然后再加入噪声传给服务器。布隆过滤器不需要存储元素本身,并可以用于检索一个元素是否在一个集合中。通过使用这种方法,就可以对字符串数据添加噪音,保护用户的隐私。
苹果在 2016 年的世界开发者大会(WWDC)上也宣布使用差分隐私的方法收集用户数据。虽然苹果没有透露具体的细节,我们从官方的描述中也可以推测出苹果也使用了在客户端上做匿名化再传输到服务器的方法。
Differentialprivacy is a research topic in the areas of statistics and data analytics thatuses hashing, subsampling and noiseinjection to enable…crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.
我们刚才介绍的 Google 和 Apple 的模型都是先在本地做差分隐私,然后再上报给服务器,我们把这种方法叫做本地模式(local mode)。这种差分隐私的做法在上报数据可以相互关联的情况下还是存在隐私泄漏。Google的RAPPOR虽然解决了对同一个数据的多次上报的隐私泄露问题,但并没有解决多个相关数据上报后产生的隐私泄露问题。对于这一问题,Apple也没有给出详细的解释。
除了Google 和苹果在内部产品中使用差分隐私方法,哈佛大学公开了一个名为PSI (Ψ) 的项目,提供了一个便捷的差分隐私工具。使用者通过上传数据,调整差分隐私的参数,就可以获得满足差分隐私的数据集。
总结一句:通过大数据我能知道全国哪个省的女人胸最小,想知道的点关注私聊我
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!