webshell检测方式深度剖析 ---统计学特征检测_neopi-程序员宅基地

技术标签：恶意脚本检测

概论

该篇文章讲述了NeoPI如何利用统计学特征来检测webshell，笔者认为NeoPI选择的这些统计学方法在webshell检测上有些鸡肋，没有太大的实用效果。

反而其中的各种统计学方法值得学习一下，因此文章会重点讲解这些统计学特征的原理，以求可以举一反三，并应用在其他领域。

统计学特征

NeoPi使用以下五种统计学特征检测方法，下面分别来分析各种方法的原理和代码实现（代码部分只选择了核心代码并附加了注释，方便大家阅读。）：

重合指数

重合指数法是密码分析学的一种工具，主要用于多表代换的密码破译。
以纯英文文本为例，它的基本原理可以定义如下：

设 $X=x_1x_2...x_n$ 是一个长度为 $n$ 的英文字符串， $X$ 的重合指数定义为 $X$ 中的两个随机元素相同的概率，记为 $I_c(X)$ 。假设英文字母 $A$ ， $B$ ， $C$ ，…在X中的出现次数分别为 $f_1$ ， $f_2$ ，…， $f_{25}$ 。显然，从X中任意选择两个元素共有 $C^{2}_{25}$ 种组合，选取的元素同时为第 $i$ 个英文字母的情况有 $C^{2}_{f_i}$ 种组合， $0 < = i < = 25$ 。因此，有
$I{_c}(X) =\sum_{i=0}^{25}(C_f^2/C_n^2) = \sum_{i=0}^{25}(f_i(f_i-1)/n(n-1))$

根据统计，在英文中各个字母出现的频率是特定的，如下表 :

字母	概率	字母	概率
A	0.082	N	0.067
B	0.015	O	0.075
C	0.028	P	0.019
D	0.043	Q	0.001
E	0.127	R	0.060
F	0.022	S	0.063
G	0.020	T	0.091
H	0.061	U	0.028
I	0.070	V	0.010
J	0.002	W	0.002
K	0.008	X	0.001
L	0.040	Y	0.020
M	0.024	Z	0.001

将英文字母A，B，C，…，Z的期望概率分别记为 $p_0，p_1，p_2，...，p_{25}$ ，则有一段正常英文文本的期望重合指数为 $I_c(X)\approx \sum_{i=0}^{25}(p_i^2) = 0.065$

如上所述，一个纯英文的且编码风格良好（一般在软件开发时，会采用统一的函数及有意义的变量名编写）的源代码计算出的重合指数会趋近于0.065。考虑到文件中的中文注释，虽然计算出的重合指数会偏离0,065，但同样会趋于相似，呈现正态分布。

而加密或者混淆后的webshell 与原 web 应用不相关，其字符的排列通常没有特征可言，计算出的重合指数与正常文件的重合指数相差较大（混淆后的重合指数通常较小），一定程度上，可以作为webshell判定的依据。

重合指数的计算比较简单，代码如下：

# @param data 从文件中取出的全部内容数据
 # @return ic 返回计算好的重合指数
 def index_of_coincidence(data):
       """计算文件内容的重合指数"""
       if not data:
           return 0
       char_count = 0       # 保存在data中任意选择两个字符，这两个字符相同的情形的数量
       total_char_count = 0 # 保存在data所有字符的数量

        # 遍历单字节代表的256字符
       for x in range(256):
           char = chr(x)
           charcount = data.count(char)              # 计算当前字符在data中的数量
           char_count += charcount * (charcount - 1) # 计算在data中任意选择两个字符，这两个字符都为当前字符的情形的数量，并累加
           total_char_count += charcount             # 计算当前字符在data中的数量，并累加
       
       # 按照重合指数的计算方法进行计算
       ic = float(char_count)/(total_char_count * (total_char_count - 1))
       return ic

信息熵

熵，是一个热力学的概念，用来度量封闭系统的混乱程度。但在历史的发展中，造就了它非常丰富的内涵，进入了很多学科的视野。

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？

多少信息用信息量来衡量，而我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如太阳从西边升起来了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生，没什么信息量）。
信息熵的公式定义如下：

$\sum_{i=1}^{N}p(x_i)log(p(x_i))$
其中， $p(x_i)代表随机事件$ $x_i$ 的概率，对数一般以2为底。对应到文件熵上，一般使 $p(x_i)$ 为字符 $x_i$ 在文件内容中出现的概率。

那么类似于重合指数，加密混淆后的webshell通常通篇都是没有任何意义和规律的字符，其通过计算公式得出的信息熵值会偏离平均值较大。

计算信息熵的代码如下：

# @param data 从文件中取出的全部内容数据
 # @return entropy 返回计算出的文件熵
def calculate(self,data):
       """计算文件信息熵."""

       if not data:
           return 0
           
       entropy = 0 # 保存最终熵值
       self.stripped_data =data.replace(' ', '') # 去掉文件内容中的空格
       
       # 遍历所有asci 256个字符
       for x in range(256):
           p_x = float(self.stripped_data.count(chr(x)))/len(self.stripped_data) # 计算单个字符出现的概率
           if p_x > 0:
               entropy += - p_x * math.log(p_x, 2) # 计算该字符的熵值并累加
       return entropy

最长单词

一般在软件开发时，其使用的字符串、函数名、变量名都会尽可能有规律和简短，但是，通过变形和加密往往会构造;超长的字符串，通过检测代码中的最长字符串，并把最有可能是 webshell 的文件提供给管理员判断。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return longest_word, longest 返回最长单词的内容和长度
def LongestWord(self,data):
       """查找文件内容中长度最长的单词"""
       if not data:
           return "", 0

       longest = 0 # 保存最长单词的长度
       longest_word = "" # 保存最长单词的内容
       
       words = re.split("[\s,\n,\r]", data) # 将文件内容按照空格和换行进行分词
       if words:
           for word in words:
               length = len(word)
               if length > longest: # 循环查找最长单词
                   longest = length
                   longest_word = word
       return longest_word，longest

恶意特征

在文件中搜索已知的恶意代码字符串片段，通过正则表达式，在文件内查找预定义的恶意特征。
这部分其实是静态检测，但是NeoPI也扩展添加了这部分的能力。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return len(matches) 返回匹配的数量
def signature_nasty(self, data): 
       """查找文件的恶意特征"""
       if not data:
           return "", 0
       
       # 查找文件内下面所列的恶意函数 
       valid_regex = re.compile('(eval\(|file_put_contents|base64_decode|python_eval|exec\(|passthru|popen|proc_open|pcntl|assert\(|system\(|shell)', re.I)
       matches = re.findall(valid_regex, data)
       return len(matches)

压缩比

正常的代码通常编码风格良好，并且文件内有一定的空行和空格作为分隔，进行压缩时能有较大的压缩比。但是经过混淆后的代码通常没有空格和空行，而且字符顺序混乱，进行压缩时压缩比较小。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return ratio 返回计算出的压缩比
def calculate(self, data):
       if not data:
           return "", 0
       compressed = zlib.compress(data)
       ratio =  float(len(data)) / float(len(compressed))
       self.results.append({
    "filename":filename, "value":ratio})
       return ratio

检测结果评测

NeoPI本身不给出一个文件是不是webshell的判断，它只是计算各种统计特征值，然后针对每一个特征值做出一个排名。在实际应用中，可以选择任意特征值的排名组合来判断。

为了让测试更有代表性，笔者采用如下策略：

首先进行如下形式化定义：

$W_{min}(x) = WordPress中相应特征最小的x个文件的平均值$
$W_{max}(x) = WordPress中相应特征最大的x个文件的平均值$
$B_{min}(x) = 300个黑样本中相应特征最小的x个文件的平均值$
$B_{max}(x) = 300个黑样本中相应特征最大的x个文件的平均值$

1、重合指数判断策略

2、信息熵判断策略

3、最长单词判断策略
同信息熵的判断策略

4、恶意特征
存在恶意特征则判定为webshell

5、压缩比
同信息熵的判断策略

实际测试结果如下：

统计特征	检出率	误报率
重合指数	94%	0%
信息熵	58%	0.5%
最长单词	42%	0%
恶意特征	79%	4%
压缩比	10%	0%

notes：由于NeoPI主要用来检测混淆webshell，所以笔者的阈值选择优先于黑样本和白样本中的混淆文件的特征值。

总结

NeoPi的检测重心在于识别混淆代码，它常常在识别模糊代码或者混淆编排的木马方面表现良好，但是也依赖于检测阈值的选取。同时，NeoPi的检测机制对未经模糊处理的代码检测能力较弱。

本文链接：https://blog.csdn.net/qq_31032141/article/details/107207911

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

SpringBoot日常：引入外部jar包_springboot引入外部jar包-程序员宅基地

文章浏览阅读3.5k次，点赞3次，收藏19次。我们开发中经常会遇到这样的场景，对接外部的应用接口，对方给了一个sdk，也就是一个jar包文件，此时需要引入即可调用封装好的方法。_springboot引入外部jar包

ORA-39511: Start of CRS resource for instance '215' failed with error:[CRS-2672: Attempting to star-程序员宅基地

文章浏览阅读3.6k次。2020/03/27 21:00:39 CLSRSC-184: Configuration of ASM failed2020/03/27 21:00:40 CLSRSC-258: Failed to configure and start ASMDied at /u01/app/19.0.0/grid/crs/install/crsinstall.pm line 2482.ORA-..._ora-39511: start of crs resource for instance '215' failed with error:[crs-2

W25Q64（模拟SPI）读写数据的简单应用-程序员宅基地

文章浏览阅读3.4k次，点赞45次，收藏55次。对 W25Q64 的使用可以总结如下：初始化：在开始使用 W25Q64 之前，需要通过 SPI 总线初始化芯片，并确保硬件连接正确。读操作：可以使用读取数据函数从指定地址读取数据，并将数据存储到指定的缓冲区中。写操作：可以使用页写函数向指定地址写入数据。需要考虑到写入字节数大于 256 字节和不大于 256 字节的两种情况，以及在写入数据之前需要先执行写使能操作，并在写操作完成后等待芯片忙碌状态结束。其他操作：除了读写操作外，W25Q64 还支持擦除、写使能、禁止写等其他操作，根据具体需求进_w25q64

《Android Studio开发实战从零基础到App上线(第2版)》出版后记_android studio开发实战:从零基础到app上线第二版 pdf-程序员宅基地

文章浏览阅读2.8w次，点赞16次，收藏61次。2015年11月23日，鄙人在csdn发表了第一篇技术文章，掐指一算距今已有三年。遥想当年开写博客，只是为了总结经验同时分享出来，后来机缘巧合受到出版社编辑邀请并出了书，完全是无心插柳的结果。当初写作《Android Studio开发实战：从零基础到App上线》第一版前后花了一年多的时间，经过三审三校于2017年6月正式上市，其实这本书出来之时没能赶上好时候，从2017年开始App学习热潮被人工智..._android studio开发实战:从零基础到app上线第二版 pdf

Ubuntu 22.04.2 安装notepad++_ubuntu安装notepad-程序员宅基地

文章浏览阅读2.8k次。习惯了使用notepad++，就知道它的好，尤其是当前文件过滤搜索，下文记录下ubuntu安装的心得。_ubuntu安装notepad

ACM-ICPC算法汇总【基础篇】_acm-icpc基本算法pdf-程序员宅基地

文章浏览阅读6.9k次，点赞44次，收藏326次。本篇博客包含ACM，NOIP所涉及的基础算法，涵盖七个模块：基础算法，数据结构，搜索与图论，STL，数学知识（数论），动态规划，贪心。涵盖内容范围较为全面，是面向初学者的算法汇总，第八个章节是所涉及的算法板子，可以直接使用。因为是面向算法竞赛，本文的所有设计算法都是用C++进行实现的，不提供其他语言的代码，共涉及106道算法题目，以题代讲，在题目中理解算法的内涵。_acm-icpc基本算法pdf

随便推点

读取项目Resources资源目录下文件的方式_linux addresourcelocations 读取resources下的文件-程序员宅基地

文章浏览阅读1.1k次。Spring下读取项目Resources资源目录下文件的方式尝试了很多读取resource资源文件的方式，很多读取不到或者是读取配置文件的形式。以下两种方式，方式一用于通过启动jar方式时读取，方式二是本地IDE启动时读取。import org.springframework.core.io.ClassPathResource;import org.springframework.util.ResourceUtils;/** * 读取resources文件 * @param xmlPath _linux addresourcelocations 读取resources下的文件

大数据冷热分离方案_冷热数据分离方案-程序员宅基地

文章浏览阅读1.2k次，点赞33次，收藏7次。冷热数据方案_冷热数据分离方案

Tessent scan &ATPG (4) 额外的fault model‘_atpg bridge fault-程序员宅基地

文章浏览阅读4.7k次，点赞6次，收藏54次。可测试性的几个指标test coverage检测到的fault 占所有可测fault 的百分比(DT +(PD * posedet_credit))/TEfault coverage检测到的fault 占所有test pattern设置测试的fault 的比重同等对待 untestable fault和 undetected fault(DT +(PD * posedet_credit))/FUATPG Effectiveness ATPG 的效率的衡量反应的是 ATPG tools 对于_atpg bridge fault

加载一个Driver驱动_&keyword=%e6%af%94%e4%ba%9a%e8%bf%aa%e9%92%a5%e5%8-程序员宅基地

文章浏览阅读258次。http://yingxiao.baidu.com/new/home/search/search?keyword=%E5%BB%B6%E5%BA%86%E5%8E%BF%E6%80%8E%E4%B9%88%E5%BC%80%E7%9C%9F%E7%A5%A8%E2%96%A0%E2%95%8B%E8%96%87he3315822%E2%96%A0%E5%BB%B6%E5%BA%86%E5%8E%BF%E6%80%8E%E4%B9%88%E5%BC%80%E7%9C%9F%E7%A5%A8bsjhttp:/_&keyword=%e6%af%94%e4%ba%9a%e8%bf%aa%e9%92%a5%e5%8c%99%e5%a5%97&price=30

初中计算机硬件设备说课稿,初中信息技术《计算机硬件系统》说课稿-程序员宅基地

文章浏览阅读119次。初中信息技术《计算机硬件系统》说课稿各位领导、老师们：大家好！我说课的题目是：计算机的硬件系统。本课选自初中一年级信息技术的第一章第七课。下面就我在实施本课时的教学思想和教学思路进行简单地阐述：一、教材分析及处理1．教材内容的地位和使用这节课是初中信息技术教材第一章第七课的内容，在教材中这一课叫“计算机的硬件系统”，教学对象为初中一年级学生。本课针对初中生的现有知识水平和接受能力，对计算机的硬件进..._初中信息技术计算机硬件说课稿

SpringSecurity整合JWT实现认证和授权_本文主要讲解mall通过整合springsecurity和jwt实现后台用户的登录和授权功能,同时-程序员宅基地

文章浏览阅读5.4k次，点赞10次，收藏58次。SpringSecurity整合JWT实现认证和授权文章目录SpringSecurity整合JWT实现认证和授权前言一、SpringSecurity介绍和架构分析及使用流程二、使用步骤1.引入库2.读入数据总结前言本文主要讲解l通过整合SpringSecurity和JWT实现后台用户的登录和授权功能，使用到的技术有nacos,dubbo,SpringSecurity,redis.一、SpringSecurity介绍和架构分析及使用流程SpringSecurity是一个安全框架，支持自定义需求。_本文主要讲解mall通过整合springsecurity和jwt实现后台用户的登录和授权功能,同时