发布时间:2019-02-15 10:22 原文链接: 你的朋友“出卖”了你

  即便你完全删除自己的社交账户,也不能保证隐私。如果你可以链接到其他用户,他们的活动也可以“曝光”你的信息。现在,计算机科学家已经证明,利用你的10个最亲密联系人的推特信息流,比用自己的信息流更能预测你未来的推文。

  没有参与这项研究的奥地利维也纳医科大学计算社会科学家David Garcia表示,从这种“二手”监控中判断一个人的性格“比看上去要容易得多”。

  这里,美国佛蒙特大学研究人员没有预测任何人的真实推文,而是利用一种名为信息熵的测量方法,估计了一个人未来将发布的推文的可预测性。更多的熵意味着更多的随机性和更少的重复。

  他们研究了927名用户的推特信息流,每个人都有50到500名关注者。在每个人的信息流中,他们计算出单词序列包含了多少熵。然后,他们把这个数字输入信息理论工具——范诺不等式,计算一个人的信息流能否准确预测其下一条推文的第一个单词。平均而言,准确率的上限是53%。但是预测每一个连续的单词就不那么准确了。

  接下来,研究人员计算了基于用户信息流,外加15个与其最接近的联系人的信息流的预测上限:准确率上升到60%。当他们从等式中删除用户信息流时,这个数字下降到57%。

  研究人员近日在《自然—人类行为》上发表报告称,这意味着利用用户联系人的信息流预测效果几乎和包括用户在内的信息流一样准确,甚至比单独观察用户信息流更好。仅仅利用10个联系人的信息流就超过了利用用户个人信息流的预测准确度。相比之下,根据陌生人的推文随机分类预测某人会写什么,准确率最高可达51%。

  “我们用信息论中一些非常有趣的数学知识展示了,如果有完美的机器学习方法,你能做得怎么样。”研究报告第一作者、佛蒙特大学数据科学家James Bagrow说。

  英国巴斯大学心理学家Joanne Hinds对此表示赞同。她说,这是一种独特的方法,超越了该领域现有的许多工作。

  Bagrow说,研究结果表明,原则上,人们可以粗略地预测那些甚至不在推特上的人会发什么样的推文。在现实中,这意味着找出一个人社交网络的朋友,然后找到这些朋友的动态。

  目前,许多应用程序都能访问联系人列表,有些甚至共享联系人列表。以脸书为例,它利用用户的联系人列表创建甚至不在互联网的人的“影子档案”。

  研究人员已经使用推文预测性格、抑郁和政治倾向。基于朋友推文可能也会得出同样的推论。

  不过,Bagrow表示,这项工作的一个实际局限性是把所有词汇都视为信息量均等,但有些人可能会比其他人更了解你。如果你的朋友发了很多关于同性恋权利的推特,或者只关注共和党政客,这可能会特别暴露出你的性取向或政治倾向。

  Garcia也发现交友网站上的联系人可以预测一个人的性取向和关系状态,而推特上的联系人可以预测一个人的位置。Hinds说:“我们仅仅触及了通过这种方式可以揭示的信息类型的表面。”

  Bagrow说:“就隐私而言,我担心的是,这些大平台获取数据的方式太多了,我认为人们没有意识到这一点的危险。”而且,人们可能没有考虑到的另一件事是:“当他们放弃自己的数据时,他们也在放弃朋友的数据。”

相关文章

专家热议以信息技术助推产业升级

“电子信息产业作为国民经济的战略性、基础性和先导性产业,是形成新质生产力的中坚力量。”以“信息科技·新质生产力”为主题、由中国电子学会举办的第十七届中国电子信息年会近日在浙江省宁波市开幕,工业和信息化......

科学家发现高效提取宇宙学信息新途径

在精确宇宙学时代,大规模星系红移巡天是探索宇宙的利器。科学家通过测量大量遥远天体的光谱,利用红移巡天获得宇宙不同演化时期的密度场。星系密度场包含星系成团性信息,体现在星系的两点关联函数和多点关联函数中......

财政部:进一步提高政府采购信息查询使用便利度

28日,财政部发布关于进一步提高政府采购信息查询使用便利度的通知。财办库〔2024〕30号各省、自治区、直辖市、计划单列市财政厅(局),新疆生产建设兵团财政局:为加强全国政府采购数据共享共用,进一步提......

新一批技术与创新支持中心启动筹建4家北京机构入选

2月21日,记者从市知识产权局获悉,第二期第一批技术与创新支持中心(TISC)筹建机构名单确定,北京亦庄科技创新有限公司、华智众创(北京)投资管理有限责任公司、北京梦知网科技有限公司、国家图书馆等4家......

厚植新质生产力释放更强动力本市十大高精尖产业均破千亿级

北京高精尖产业结构更显“含金量”。记者日前从2024年全市经济和信息化工作会上获悉,去年,本市十大高精尖产业全部突破千亿级,新一代信息技术集群产值更是突破三万亿。今年将释放更强动力,规模以上工业增加值......

首个基因测试公司23andMe爆发数据泄露风波,690万用户信息外泄

23andMe于周一披露,10月份的数据泄露影响了总共690万用户档案。在上周五的一份监管文件中,这家消费者基因测试公司表示,它的调查发现0.1%,约14,000个用户账户最初被一名威胁行为者使用从其......

卫健委发布《卫生健康信息数据元目录 第1部分:总则》等34项卫生行业标准

近日,卫健委发布《卫生健康信息数据元目录第1部分:总则》等34项推荐性卫生行业标准,,涉及总则、标识、实验室检查、医学诊断等项目,详情如下:标准编号标准名称代替标准编号WS/T363.1—2023卫生......

124名科学家联合署名:综合信息理论是“伪科学”

9月15日,一篇由124名学者联合署名并公布于预印本平台PsyArXiv的文章,在科学界引起轩然大波。这篇文章指出,综合信息理论(IIT)是伪科学。什么是IIT?据《自然》报道,IIT由美国威斯康星大......

第六届国际信息研究大会举行

8月14—16日,第六届国际信息研究大会在京召开,联合国教科文组织东亚地区办事处主任ShahbazKhan、国际信息研究学会联合主席PedroMarijuan分别出席会议致辞演讲。记者在16日大会圆对......

中国量子信息,何以坚定自强不息?

二十年前,潘建伟团队在中国科学技术大学(以下简称中国科大)提出发射量子科学实验卫星的想法之初,国际上许多学者都认为不太现实——要把一个个单光子那么微弱的信号,从1000公里的外太空空送到地面,还要能够......