基于决策树的二维码恶意检测方法

点赞:4770 浏览:14291 近期更新时间:2024-02-20 作者:网友分享原创网站原创

【摘 要】二维码技术应用已经进入大众生活,同时也逐渐成为恶意软件传播的新途径.面向二维码中URL,提出二维码恶意决策树智能检测方法.利用恶意和正规,提取特征,构建特征向量,进而构建决策树.进一步对特征提取及决策树选择进行了优化,实例测试结果表明系统在对恶意识别的响应速度和准确率方面取得了良好的效果.

【关 键 词】二维码;恶意;智能检测;决策树

【中图分类号】TP309【文献标识码】A

TheDetectionMethodforTwo-dimensionalBarcodeMaliciousURLBasedontheDecisionTree

ZhaoGangWangPengWangXinJinWen-binWuXiao-ting

(SchoolofInformationManagement,BeijingInformationScience&TechnologyUniversityBeijing100192)

【Abstract】Withtheexpandingapplicationofthethetwo-dimensionalbarcode,two-dimensionalbarcodehasgraduallybeeanewmalicioussoftwaretranission.Totwo-dimensionalbarcodemaliciousURLs,thispaperproposesanintelligentdetectionmethodwiththedecisiontreealgorithmformobileusers.ThemethodextractsURLeaturebyutilizingdataofmaliciousandbenignURLs,formeaturevectorsandgeneratesthedecisiontree.Further,theresearchtunestheURLeaturesandoptimizesthedecisiontree.TheresultsofsomepracticaltestsshowsthemethodisefficientandeffectivefordetectingthemaliciousURLsintwo-dimensionalbarcodes.

【Keywords】two-dimensionalbarcode;maliciousurl;intelligentdetection;decisiontree

1引言

二维码(Two-dimensionalbarcode)是在条码技术基础上,在二维平面上按一定规律构造黑白相间的图形用以记录信息,通过输入设备读取几何形体,并识别处理其所表示的信息.

恶意网站是指将木马、病毒等恶意程序种植在网页内,通常没有任何表露恶意性质的外部标志,通过伪装的怎么写作内容诱导用户访问该网站,攻击者经常使用网站执行网络钓鱼攻击或分发恶意软件.

手机与二维码的结合拓展了二维码的应用,随着互联网应用的发展,手机拍照二维码获取使手机用户浏览网页信息更加方便.同时,二维码逐渐成为恶意软件新的传播途径,针对手机等移动用户的恶意钓鱼网站越来越多.当用户扫描输入存有恶意的二维码时,用户的手机可能被引导访问钓鱼网页、甚至被安装恶意插件,结果会造成用户露、用户账户被盗等安全问题.这些恶意网页对用户手机构成巨大威胁.然而,二维码表面仅是图片,单凭图片用户不能得知当前二维码所存的所对应的网站是否具有恶意行为.

本文主要针对手机用户上网、面向二维码URL,结合机器学习、引入决策树算法,提出恶意智能检测系统.针对二维码所存的进行识别测试和过滤,以保证用户访问安全的网页.

2恶意网站的现有研究和分析

目前检测、防范恶意网站的方法有恶意网页分析技术、SSL证书分析技术、黑白名单技术等.网页分析技术是研究最深入、研究领域最广、准确率最高的方法,主要包括静态特征检测、动态特征检测、以及基于统计与特征分析的启发式检测技术等.静态特征检测是指从文本角度分析网页的HTML语句、网页内嵌的JaScript脚本、Active插件实例化等,主要通过特征码匹配的方法实现检测.该方法简单有效,但主要缺陷在于只能用于识别已经经过样本采集的已知恶意网页、对未知的恶意攻击则无能为力,而且即使是已知的恶意代码、通过简单的加壳或加密即可逃过该类策略的检测.同时,由于新型木马以及变形木马的产生速度越来越快,及时快速地采集木马特征也是一项具有挑战性的任务.

动态特征检测是指实时监控网页从预载入到整个运行过程中的所有行为,从而判断其是否为恶意代码网页.动态分析把恶意网页当作一个黑匣子,不再分析它的语句和执行流程,而仅测试分析其行为.由于行为分析必须让恶意脚本或者实际的恶意网页完全把行为展示出来,系统会遭受到不同的攻击,因此行为分析系统一般运行在VMware虚拟机上,以使得系统受到损害时能够迅速恢复.

基于统计与特征分析的启发式检测技术是指在已有特征值识别的基础上,根据总结的恶意代码样本经验,在没有符合的特征值比对时,根据代码所调用的API的函数情况,如频率、组合等,来判断网页是否可疑.这种方法构造的系统分为学习和检测两个阶段,在学习阶段中需要有正规网页和恶意网页训练集,学习得到一个阀值,在检测阶段根据这个阀值判断某个网页是否为恶意网页.合法的商业网站通常会对安全敏感的网页启用SSL安全连接机制,以防止信息在传输过程中被窃听、篡改.安全敏感网页的SSL相关信息,包括是否启用了SSL安全连接、颁发SSL证书的CA是否权威可信、SSL证书是否过期、证书中的识别名是否与的身份相符等,也可作为识别真伪的依据.但是,这种方法在于只有提交用户的网页才能使用这种技术,而且容易产生误判.

黑名单技术是将所有已经发现的恶意记录到一个地址列表、即所谓的黑名单中,据此判断用户所访问的是否为恶意.黑名单技术实现简单,但其问题在于及时更新黑名单十分困难,现在的浏览器厂商大多是采用这种做法,在用户端建立黑名单库,每隔几天更新一次.这种方式作为浏览器识别恶意是相对最优的方法,其缺点在于对于未知网页缺乏识别能力.

目前,手机等移动端的计算能力相对于PC机尚有差别,专门针对手机的恶意检测方法不多,基本采用专家系统规则匹配方法.如果将现有的恶意网站检测技术应用到二维码恶意网站检测中来,检测恶意网站的主要方法多数需要进入网页,目前手机上不支持沙箱技术,在检测过程中很可能使用户信息遭受各种安全风险.


3基于决策树的恶意检测方法

3.1恶意智能检测方法概述

本文提出通过对二维码存有的URL进行智能检测,避开检测过程中用户信息遭受威胁带来的安全风险问题,达到检测恶意的目的.考虑到客户端跨平台应用以及手机计算资源等实际问题,利用WebService技术将恶意智能检测算法配置成怎么写作的方式、部署到Web怎么写作器上,提供怎么写作器和客户端之间的信息交换,使系统对恶意识别的响应更加快捷、适用范围更加广泛.

基于决策树的二维码恶意检测方法参考属性评定
有关论文范文主题研究: 关于的论文例文 大学生适用: 高校大学论文、专科毕业论文
相关参考文献下载数量: 98 写作解决问题: 毕业论文怎么写
毕业论文开题报告: 文献综述、论文摘要 职称论文适用: 论文发表、职称评初级
所属大学生专业类别: 毕业论文怎么写 论文题目推荐度: 经典题目

决策树算法在机器学习和数据挖掘领域一直受到广泛重视,算法通过对训练集的学习,挖掘出实用规则,经测试集对性能测试并调整后、用于对实际数据进行预测.本研究通过收集大量正规和恶意数据、建立类库,抽取恶意URL特征、建立数据集,经过反复训练,构建决策树,经过修枝剪枝对特征进行优化,最终形成用于判别二维码恶意的决策树算法.

系统由怎么写作器和客户端两部分组成,怎么写作器端主要功能包括检测二维码恶意的决策树算法、在数据库中存取收集积累的数据及算法所利用的相关数据、数据接收、检测结果信息回传,主要使用WebService技术和决策树算法;客户端分为手机等移动端客户和PC客户,主要功能包括二维码识别、URL传输、以及识别结果提示,主要使用WebService接口、二维码识别组件等技术.

3.2数据集的构成

依据统计学思想进行分析,把URL解析成12个属性,包括的后缀(Name)、长度(Length)、前缀(Prefix)、IP地址(ip1,ip2,ip3,ip4)、点的个数(Dot)、是否有大写字母(Captial)、是否有数字(Number)、是否有特殊符号(Symbol)、是否为恶意(Oute),并将其表示为向量形式.

3.3决策树算法训练流程

决策树的总体训练过程如图1所示.

1)设S是s个数据样本的集合.检测定类标号属性具有m个不同值,定义m个不同类Ci(i等于1,2..,m).设si是类Ci中的样本数.对一个给定的样本分类、所需要的期望信息如下:

I(s1,s2..)等于-pilogpi

其中pi是任意样本属于Ci的概率,并用估计.

2)设属性A具有v个不同值{a1,a2..,}.用属性A将S划分为v个子集{S1,S2..,Sv},设Sij是子集Sj中类Ci的样本数.由A划分成子集的熵表示如下:

E(A)等于i(S,S..,S)

3)在A分枝将获得的信息增益表示为:

Gain(S,A)等于i(S,S..,S)-E(A)

4)用信息增益率进行属性选择,信息增益率定义为:

GainRatio(S,A)等于

分裂信息SplitInfo(S,A)代表了按照属性A分裂样本集S的广度和均匀性.分裂信息定义如下:

SplitInfo(S,A)等于-log

其中,S1到Sc是c个不同值的属性A分割S而形成的c个样本子集.

3.4决策树算法的种类选择

目前决策树的典型算法有ID3、.5、CART、J48等,不同的决策树会影响系统判别的准确度.

首先对建立好的训练集进行预处理,即对非数值型的属性进行离散化,并优化属性.之后对训练集进行分类回归,采取十折交叉验证的方法,将数据集分成10份,轮流将其中9份做为训练数据、1份做为测试数据进行实验.每次实验都会得出相应的正确率,将10次结果正确率的平均值做为对算法精度的估计.运用不同的决策树算法进行训练,根据设置的实例情况,共选择了10种决策树进行对比分析,实验结果如图2所示.结果表明,J48决策树算法的正确率最高,所用的属性集为最优的属性组合,其正确分类比例为94.96%.

3.5不同属性组合的选择

不同的属性组合同样对预测结果产生很大影响.为提高算法的速度和精度,避免对一些作用小的属性进行分析而增大系统负荷,选择不同属性组合进行测试,得到最优的属性组合.参考测试决策树算法时每个决策树最后形成的决策树中的属性,对12个属性进行不同的组合,测试不同组合利用J48决策树算法的正确率.表1所示的测试结果说明,第8行属性组合、即(name、length、dot、Ip1、Ip2、Ip3、Ip4、prefix)的正确率最高,且形成决策树的时间最短.

4实验结果与分析4.1实验环境

系统的应用环境分为怎么写作器、PC客户端、智能手机客户端,网络环境包括联通或移动3G网络、WiFi、校园无线局域网、校园LAN等.

利用weka工具实现智能算法,算法中的重要参数设置如下:为正规和恶意,划分为12,设为126,不同的属性值v的取值不同,训练集与测试集交叉验证重叠数为10.

4.2结果与分析

实际检测中,二维码恶意数据取自近一个月的瑞星安全日报共计66个,正规数据取自hao123大全共计60个.126个实验数据有7个返回错误的结果,测试准确率为94.5%.60个正规实验数据,有5个返回错误的结果,误报率为8.4%.66个二维码恶意测试数据,有2个返回错误的结果,有17个URL失效,49个URL有效,漏报率为4.0%.

相同的测试内容使用“快拍二维码”进行测试,126个测试数据测试准确性为71.5%,66个二维码恶意实验数据有36个返回错误结果,漏报率为54.5%.60个正规实验数据,没有返回错误结果,误报率为0%.

本系统产生误报的原因在于选取的正规大部分是小网站、游戏网站,其某些URL特征跟恶意网站的特征类似.本系统漏报率只有4.0%,说明本系统对于未知的恶意的判别率很高.由于“快拍二维码”使用的是黑名单技术,对于未知的恶意判别率非常低.实验数据表明,本系统对二维码恶意检测具有良好的效果.

5结束语

目前,手机等移动端的计算能力相对于PC机尚有差别,专门针对手机的恶意检测方法不多,基本采用专家系统规则匹配方法.本文面向二维码中URL,提出二维码恶意决策树智能检测方法.利用恶意和正规,提取URL特征,构建特征向量,经过反复训练,构建址决策树,进一步对特征提取及决策树选择进行了测试优化,最终形成用于检测二维码恶意的决策树算法.运用WebService技术实现跨平台的恶意智能检测系统.实例测试结果表明系统在对恶意识别的响应速度和准确率方面取得了较好的效果.