发布时间:2018-04-03 13:25 原文链接: 巧用“基因检测”破解网站“指纹”识别难题

  “基因检测”算法可以运用于网站“指纹”的精准识别?这看似跨度很大的想法却在电子科技大学计算机科学与工程学院2013级直博生卓中流的努力下变为了现实。

  由于受到生物医学领域的基因序列检测算法的启发,卓中流提出了一种高效的网站指纹检测算法,弥补了传统模型无法对多级页面跳转进行建模的缺陷,同时提高了单一网页的检测准确率。

  这项成果是基因序列检测算法在网络流量识别和针对僵尸网、暗网等检测方面的初次运用,为流量识别领域和网站指纹检测领域提供了新思路。相关论文已经发表在了信息安全领域顶级期刊IEEE Transactions on Information Forensics and Security上。卓中流为第一作者,明尼苏达大学双城分校教授Zhi-li Zhang为共同作者,电子科技大学计算机科学与工程学院(网络空间安全学院)教授张小松为论文通讯作者。

  突发奇想:借用“基因检测”算法

  从“比特币”到海外代购,跨境交流和贸易往来从未像今天这样方便快捷,但是随之而来的网络犯罪、境外网络诈骗等案件也如影随形。暗网和僵尸网检测成为现代社会网络安全重要议题。

  研究者们针对以上问题提出了一种新的解决思路——网站“指纹”识别。所谓网站“指纹”,指的是访问该网站时发送和接收数据包产生的特有信道特征。但是这种技术目前距离“实战”还有较大的距离,尤其是在面对网页的“多级页面跳转”等问题时依然束手无策。如何进一步提高网站指纹识别的能力,卓中流发现了一个新方法。

  2016年3月,卓中流无意间看到一篇SCI四区的论文,研究的是如何用“生物基因序列”来做应用识别。他隐约感到,既然都是用于“识别”,那么“生物基因序列”的方法很可能与网站指纹识别有一定的交集。

  卓中流抓住了这个灵光乍现的念头,此后的五个月里,他查询了大量参考文献和资料。由于在准备申请公派留学,他没有太多时间去做实验验证,直到于2016年10月到美国明尼苏达大学双城分校,他才真正地开始深入研究。

  在明尼苏达大学双城分校,卓中流师从Zhi-li Zhang开展研究工作。巧的是,在这里他再次接触到了用“生物基因序列”来做“流量识别”的文章,这更加坚定了他的想法:生物基因序列的方法一定可以用来识别网站指纹。

  克服阻碍:做一个修行的“苦行僧”

  从2016年10月到2017年2月,卓中流只专注这一件事情。在这个过程中,他遇到的第一个难题就是,把“生物基因序列”方法用到网站指纹识别上的理论依据何在?经人指点之下,卓中流把目光投向生物医学领域。

  “查找文献的过程还是很艰难的,因为我没有太多生物学的知识,只能一点一点地查找关键的理论。”他说,自己从高中毕业后就没有再摸过生物学的课本,没想到这么多年后还要“朝花夕拾”。查询了大量资料后,他将一些生物学的理论知识融入到论文当中。

  打好了理论基础只是研究的“前奏”,更加艰苦的工作其实还在后面。

  卓中流完成初稿后,立即把论文投给了IEEE Transactions on Information Forensics and Security。投稿后,他其实已经作好了“大修”的准备。到了5月中旬,初审意见回复,审稿人建议卓中流补充实验和数据以便更好地说明观点,他立即按照意见进行修改。

  补充实验和数据的过程,卓中流简直像是一个修行的“苦行僧”。他用网络“爬虫”访问了1000多个网站,每个网站至少爬取20次以上;在几万次程序运行中,还要解决“网络抖动”等问题。由于不同网站具有不同的结构,反馈的结果也大相径庭,他需要不断调整自己的程序运行规则。

  有一次,程序运行到凌晨4点突发断网,他赶紧从被窝里爬出来,去调整数据接口。这次之后,为避免再次出现这种情况,他在爬取网站时,每隔2个小时就去看看程序运行情况。后来,干脆在手机上专门装了一个远程控制软件,可以实时监控程序运行情况,“连吃饭时都要时不时查看手机”。

  终成正果:交叉学科带来的大效果

  经过了无数个日夜的“修行”,卓中流把经过大修大补之后的论文发了出去,翘首以盼。最终论文顺利发表在了IEEE Transactions on Information Forensics and Security上,它是中国计算机学会推荐的网络安全方向仅有的三个A类顶级期刊之一,这无疑让卓中流感到所有的辛苦付出都有了回报。

  卓中流将“基因检测”算法运用于网站“指纹”识别的一闪灵光,取得了意想不到的效果。在有背景噪声的情况下,采用传统的解决方案,网站的流量特征识别率会变低,无法完全反映流量特征。而卓中流在论文中给出了一个识别更加稳定的算法,能够更好地匹配网站的流量特征。

  同时,传统的解决方法都只是在某个网页的超链接构建网页指纹,而卓中流的方法能够把多个网页的超链接结合起来,构建一个更长、更详细的网站指纹,实现了从部分到整体的飞跃。这就相当于基因测序工作从“单个基因检测”一下子跃升到了“人类基因组测序”,因此,它能更加真实地显现用户的访问路径。

  据了解,这项流量特征识别技术除了能在网站指纹方面进行使用外,同样能用于对病毒的防护,因为它可以给病毒建立特征序列和“基因图谱”,从而能够很高效地撕下电脑病毒的伪装,防止病毒“蒙混过关”。未来,这种方法还可能在网络攻防中有所建树,尤其是随着互联网已经越来越深入地渗透到社会的方方面面,这项技术也会在我们的生活中起到越来越重要的作用。

  “交叉学科研究确实让人受益匪浅!”卓中流说,以开放的态度吸收借鉴其他领域的智慧,可以让我们有更加宽广的学术视野,让我们的思维变得更加“活”起来。

相关文章

国家发改委:加快疫苗研发生产,提高传染病应对能力

据国家发改委网站10日消息,国家发改委发布关于印发《“十四五”生物经济发展规划》的通知,通知提出,推动医疗健康产业发展,助力疾病早期预防,加快疫苗研发生产技术迭代升级,开发多联多价疫苗,发展新型基因工......

年度盘点|2022年IVD10大发展方向

01mNGS市场宏基因检测市场已经有30多个玩家了,整体来讲市场还属于快速发展期,尤其是在新冠疫情之后,宏基因检测的临床价值得到进一步的认可;虽然在技术上或多或少还存在一些问题,但宏基因的出现无疑是为......

BTE第6届广州国际生物技术大会暨展览会圆满落幕!

2021年9月12日,由中国蛋白药物质量联盟、广东省生物产业协会、广州医药行业协会、广州市仪器行业协会、广州市生物产业联盟和振威国际会展集团主办第6届广州国际生物技术大会暨展览会(BTE2021)圆满......

指纹识别新技术可提取皮下3毫米信息,增加识别安全

利用3D打印技术、特制胶水等仿造指纹,从而破解手机、指纹锁……类似的手法早已从银幕被搬进现实。作为目前使用最广的生物识别技术,指纹识别正面临攻击花样繁多以及识别率有待提升这两大挑战。浙江工业大学计算机......

Anal.Chem.封面|MALDITOFMS血清多肽指纹图谱高效检测新冠

英文原题:RapidDetectionofCOVID-19UsingMALDI-TOF-BasedSerumPeptidomeProfiling通讯作者:乔亮,复旦大学;孙薇,国家蛋白质科学中心(北京......

刘倩:溯源技术让环境健康研究如虎添翼

——访中国科学院生态环境研究中心刘倩研究员光谱技术已迈过百年历史长河,中国的光谱分析技术亦可追溯到上个世纪50年代,今日中国的光谱技术已从国际上“跟跑”跃升到部分领域领跑的地位。在这背后,老中青科学家......

石磊:恒温微流控基因检测技术在动物源性检测中的应用

分析测试百科网讯2020年9月22-23日,“第九届中国食品与农产品安全检测技术与质量控制国际论坛(简称CFAS2020)”在江苏南京召开。大会第二日围绕农兽药残留检测、快速检测、重金属及元素检测等食......

脑瘤基因检测靶向治疗让脑瘤不再复发

近日,来自麻省总医院的研究人员报道称他们首次成功地使用一种靶向治疗药物对一名出现脑部肿瘤复发的病人进行了治疗。相关研究结果发表在国际学术期刊JCNI上。在这项研究中研究人员利用BRAF抑制剂药物dab......

基因检测临床应用中的难题:基因型表型关联重要性

新一代测序技术的出现,使得基因组数据以及新基因突变的发现呈现爆炸式增长。基因组学研究所面临的挑战不再是单纯的数据产生,而是数据的解读。基因组学的信息如果不能和临床、表型的数据关联,就不能很好地解释复杂......

肿瘤标志物与基因检测的区别

基因检测可以理解为检测生病的原因,而肿瘤标记物可以理解为检测生病后的结果或程度。与疾病相关的基因如果发生突变,可能造成疾病产生,或增大生某种疾病的概率,但并非绝对。不论是否真的患病,都可能阳性,对未患......