博客 > 網(wǎng)安學(xué)術(shù)|基于集成學(xué)習(xí)的多特征網(wǎng)絡(luò)流量檢測
瀏覽量:3052次評論:0次
作者:銳成網(wǎng)絡(luò)整理時間:2024-08-12 16:41:03
摘 要:由于單一特征分類方法難以滿足當(dāng)前高效率、準(zhǔn)確的網(wǎng)絡(luò)安全維護(hù)要求,提出了一種基于集成學(xué)習(xí)的多特網(wǎng)絡(luò)流量分類方法,通過綜合利用流量數(shù)據(jù)中的多特征來提高分類的準(zhǔn)確性和效率。首先,分析了網(wǎng)絡(luò)流量中的多種特征,包括流量統(tǒng)計特征和原始字節(jié)流特征等。其次,結(jié)合集成學(xué)習(xí)模型進(jìn)行多特征流量分類,對 LightGBM 進(jìn)行二分類和多分類的準(zhǔn)確率分別達(dá)到 99.3%和 99.0%。與沒有進(jìn)行特征提取的模型效果相比,所提方法的效果有顯著的提升。最后,選擇效果好的特征進(jìn)行融合檢測,發(fā)現(xiàn)檢測效果有所提升。
內(nèi)容目錄:
1 網(wǎng)絡(luò)流量特征
1.1 統(tǒng)計特征選擇
1.2 包特征提取
1.3 字節(jié)流特征提取
2 數(shù)據(jù)增強和集成學(xué)習(xí)
2.1 數(shù)據(jù)增強
2.2 集成學(xué)習(xí)
3 實驗和結(jié)果分析
3.1 數(shù)據(jù)集
3.2 評價指標(biāo)
3.3 實驗環(huán)境
3.4 實驗與處理
3.5 特征融合
3.6 實驗結(jié)果和分析
4 結(jié) 語
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和網(wǎng)絡(luò)應(yīng)用的日益增多,網(wǎng)絡(luò)流量呈現(xiàn)出前所未有的復(fù)雜性。網(wǎng)絡(luò)流量分類作為網(wǎng)絡(luò)安全的監(jiān)控技術(shù),重要性日益突出,其中利用流量中多特征的信息進(jìn)行惡意流量識別成為一種有效的方法。針對這一方法,最近幾年集成學(xué)習(xí)在網(wǎng)絡(luò)流量檢測領(lǐng)域得到了廣泛關(guān)注和應(yīng)用。集成學(xué)習(xí)首先結(jié)合多個分類器的輸出,利用集成學(xué)習(xí)策略來提高分類器的泛化能力和魯棒性,其次利用多特征提升網(wǎng)絡(luò)流量分類的準(zhǔn)確度。不同特征在不同的網(wǎng)絡(luò)環(huán)境和攻擊場景下也會表現(xiàn)出不一樣的效果,因此需要考慮多種特征并進(jìn)行合理的組合和篩選。Shekhawat 等人 討論了特征分析的重要性,并提出了一種基于機器學(xué)習(xí)的特征分析方法,以獲取特征相關(guān)信息。這一方法相比于依賴人類專業(yè)知識的方法更為可靠,且能夠揭示特征之間相對不直觀的交互作用。
特征提取的目標(biāo)是從原始數(shù)據(jù)中提取出對分類或回歸任務(wù)有用的特征,以便算法能夠更好地理解和學(xué)習(xí)數(shù)據(jù)的模式。本文針對不同特征使用不同的提取方法。針對字節(jié)流特征使用基于數(shù)據(jù)包字節(jié)的卷積神經(jīng)網(wǎng)絡(luò)(Packet Bytes-based Convolutional Neural Network,PBCNN)的方法進(jìn)行提取,針對包特征使用從數(shù)據(jù)包中提取的方法。
本文提出一種結(jié)合多特征在集成學(xué)習(xí)策略下的網(wǎng)絡(luò)流量分類方法。此外,使用數(shù)據(jù)集 CICIDS2017的主要特征訓(xùn)練數(shù)據(jù)集,然后再使用 CICIDS2018數(shù)據(jù)集進(jìn)行對比來驗證所提方法。
1 網(wǎng)絡(luò)流量特征
特征提取可以將原始的網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)換為易于理解和解釋的特征表示形式,使得人們能夠更直觀地理解數(shù)據(jù)的含義和特點,進(jìn)而進(jìn)行可視化分析并解釋結(jié)果。特征提取也是網(wǎng)絡(luò)流量分類檢測必不可少的一個重要環(huán)節(jié),特征的提取是本文所提模型進(jìn)行分類任務(wù)的關(guān)鍵,決定了模型進(jìn)行訓(xùn)練的訓(xùn)練集和測試集的主要構(gòu)成結(jié)構(gòu)。
1.1 統(tǒng)計特征選擇
針對統(tǒng)計特征的選擇,首先計算每個特征與目標(biāo)變量“Label”(代表網(wǎng)絡(luò)行為是否正常)的相關(guān)系數(shù),其次基于皮爾森相關(guān)系數(shù)計算相關(guān)系數(shù),這是衡量兩個變量線性關(guān)系強度的統(tǒng)計方法。皮爾森相關(guān)系數(shù)公式為:
式中:r 為相關(guān)系數(shù),用于度量兩個變量 X 和 Y 之間線性相關(guān)程度的統(tǒng)計量;n 為觀察點的數(shù)量;為變量 X 的第 i 個觀察值;
為變量 Y 的第 i 個觀察值;
為變量 X 的平均值;
為變量 Y 的平均值,且相關(guān)系數(shù)介于 -1 和 1 之間。
通過分析,筆者篩選出了與目標(biāo)變量相關(guān)性最強的 30 個特征。這一選擇基于假設(shè):與目標(biāo)變量強相關(guān)的特征更有可能提供區(qū)分不同惡意攻擊類別的重要信息。
在可視化分析中,本文進(jìn)一步通過熱力圖展示這些特征之間的相關(guān)性,從而更加直觀地呈現(xiàn)數(shù)據(jù)之間的關(guān)系。熱力圖不僅可以展示單個特征與目標(biāo)變量的相關(guān)性,還可以展示特征之間的相互關(guān)系,這有助于識別潛在的多重共線性問題。熱力圖如圖 1所示。綜合考慮確定了選擇的特征,其中選擇的部分特征如表 1 所示,各個特征的權(quán)重如圖 2 所示。
圖 1 統(tǒng)計特征熱力圖
表 1 部分統(tǒng)計特征的選擇
圖 2 各個特征權(quán)重
1.2 包特征提取
針對字節(jié)包特征的提取,本節(jié)使用 PBCNN 的方法實現(xiàn),這是一種分層的基于字節(jié)的數(shù)據(jù)包卷積神 經(jīng) 網(wǎng) 絡(luò)(Convolutional Neural Network,CNN)。第 1 層從原始 PCAP 文件的數(shù)據(jù)包中的字節(jié)自動提取抽象特征,然后第 2 層從流量或會話中的數(shù)據(jù)包進(jìn)一步構(gòu)建表征,而不是使用特征就緒的 CSV 文件,以充分利用原始數(shù)據(jù)信息。多個卷積池模塊通過對字節(jié)大小合適的多個過濾器進(jìn)行級聯(lián),并通過一層TextCNN 獲得流量的表示,將該表示反饋給 3 層全連接網(wǎng)絡(luò)進(jìn)行入侵分類。PCAP 文件包含了網(wǎng)絡(luò)流量的原始數(shù)據(jù)包,這些數(shù)據(jù)包記錄了網(wǎng)絡(luò)上的數(shù)據(jù)流和交換信息。PACP 包形式如圖 3 所示。PBCNN的流程如圖 4 所示。
圖 3 PACP 包形式
圖 4 PBCNN 的兩級層次
此方法將 PCAP 文件中的原始十六進(jìn)制代碼映射為 0 到 255 的等長十進(jìn)制數(shù)。數(shù)據(jù)轉(zhuǎn)換的目的是處理會話數(shù)據(jù)為深度學(xué)習(xí)模型所接受的輸入格式。此步驟包括匿名化、數(shù)字編碼及統(tǒng)一會話示例中的字節(jié)數(shù)和數(shù)據(jù)包數(shù)。網(wǎng)絡(luò)流量數(shù)據(jù)中的地址包括MAC 源地址和目的地址,以及 IP 源地址和目的地址,原始流量數(shù)據(jù)中包含的 MAC 地址和 IP 地址不承載可以區(qū)分流量類型的特征,但是容易使模型產(chǎn)生偏差,故對 MAC 地址和 IP 地址進(jìn)行匿名化處理。也就是說,模型可能只根據(jù)地址來確定會話樣本類別。處理這個問題的方法是將地址匿名化,可以用相同長度的隨機數(shù)代替,也可以將所有地址設(shè)置為相同的地址。在本文中選擇了后一種處理方法。
第 1 步,將 MAC 地址替換為 0:00:00:00:00:00:00,IP 地址替換為 0.0.0.0。
第 2 步,首先進(jìn)行數(shù)據(jù)編碼,因為原始數(shù)據(jù)包中的數(shù)據(jù)是字節(jié)類型的,的數(shù)據(jù)是字節(jié)類型的,把這些數(shù)據(jù)編碼成十六進(jìn)制字符串并存儲到數(shù)據(jù)庫中,這一步驟是為了將原始字節(jié)數(shù)據(jù)轉(zhuǎn)換成一種統(tǒng)一的格式,便于后續(xù)處理。其次進(jìn)行類型轉(zhuǎn)換,由于深度學(xué)習(xí)模型只接受數(shù)值型數(shù)據(jù),因此需要將字節(jié)類型的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),在這個過程中每個字節(jié)(8 位)可以代表一個從 0 到 255 的數(shù)值范圍,這與圖像中的像素值一致,作為模型的輸入有利于之后的特征學(xué)習(xí)。最后,根據(jù)數(shù)值的最大和最小值進(jìn)行歸一化處理。此外,數(shù)據(jù)標(biāo)簽是字符類型的,需要數(shù)值編號,然后通過one-hot 編碼處理成一個 15 維的 0 或 1 向量。
第 3 步,將十六進(jìn)制數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),范圍從 0 到 255,類似于圖像中的像素值的過程,而深度學(xué)習(xí)模型只接受數(shù)值型的數(shù)據(jù),0 代表黑色,是最暗的顏色值,255 則是最亮的顏色值,兩者之間的是從黑到白的不同灰度等級,因此可以將這些數(shù)值的灰度圖用來識別和檢測,使之適用于深度學(xué)習(xí)模型的輸入格式。
1.3 字節(jié)流特征提取
原始網(wǎng)絡(luò)流量 通常以 PCAP 格式存儲且原始流量的長度不一致,不能直接輸入神經(jīng)網(wǎng)絡(luò)模型,故需要對輸入的原始數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理的主要流程有流量拆分、特征構(gòu)造及數(shù)據(jù)填充和截斷。對 PCAP 文件進(jìn)行處理以提取所需信息。PCAP 文件沒有規(guī)定區(qū)分?jǐn)?shù)據(jù)包的字符串,而是根據(jù)每個包頭的 Caplen 定義數(shù)據(jù)區(qū)的長度得到下一個數(shù)據(jù)幀的位置,因此需要對原始流量數(shù)據(jù)進(jìn)行拆分和提取,使用 Python 的 Scapy 庫拆分 PCAP 包,提取原始流量信息。原始流量數(shù)據(jù)中包含的 MAC 地址和 IP 地址不承載可以區(qū)分流量類型的特征,但是容易使模型產(chǎn)生偏差,故對 MAC 地址和 IP 地址進(jìn)行匿名化處理。將經(jīng)過上述處理得到的十六進(jìn)制數(shù)據(jù)信息每兩位一個字節(jié)且對應(yīng) 0 ~ 255 的灰度數(shù)值轉(zhuǎn)換為十進(jìn)制信息,每個字節(jié)的十進(jìn)制數(shù)表示一個流特征。然后,利用全 0 填充的方式將不同數(shù)據(jù)包之間的字節(jié)長度填充或截斷到相同長度,最終生成流的特征和類別標(biāo)簽構(gòu)成的待選特征數(shù)據(jù)集。
2 數(shù)據(jù)增強和集成學(xué)習(xí)
2.1 數(shù)據(jù)增強
為了解決數(shù)據(jù)不平衡問題,本文使用了 K-means+SMOTE 的方法平衡數(shù)據(jù)集,以增強模型的泛化能力。其中,成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)被用來合成樣本,主要參數(shù)是 k,由其確定多少個最近相鄰樣本生成新樣本。給定一個少數(shù)樣本 x 和 k 個最近相鄰樣本生成合成樣本
式中:i 為一個隨機選擇的鄰居,λ 為一個介于 0 和1 之間的隨機數(shù),控制了新樣本在x和之間的位置。
2.2 集成學(xué)習(xí)
本文選取了隨機森林、LightGBM 和 XGBoost[7]這 3 種集成模型,通過結(jié)合數(shù)據(jù)增強的方法對不同特征進(jìn)行網(wǎng)絡(luò)流量檢測,并且將這些不同特征同時進(jìn)行檢測以對比效果,確定出最適合網(wǎng)絡(luò)流量檢測的方法。其中,參數(shù)的選取極為重要,本文通過GridSearchCV 方法進(jìn)行參數(shù)的選取。首先定義一個參數(shù)網(wǎng)格 ,LightGBM 中“max_depth”是決策樹的最大深度,本次選取 4,6 和 8 作為選取對象,“leaves”是樹中葉子的最大數(shù)量,定義的嘗試值為20,30 和 40。將準(zhǔn)確率作為評分標(biāo)準(zhǔn),也就是模型正確預(yù)測的比例,在預(yù)測之前會把數(shù)據(jù)集分為 5份,模型將進(jìn)行 5 次訓(xùn)練,每次用不同的一份作為測試集,其余的作為訓(xùn)練集,以此來進(jìn)行評估。在每一組參數(shù)下通過交叉驗證評估模型性能,也就是每一組參數(shù)組合都會使用不同的訓(xùn)練集和測試集多次評估;再計算所有輪次的平均得分,從而在一定程度上減少模型性能的隨機性和偶然性,讓模型結(jié)果更加可靠和穩(wěn)定;最后確定參數(shù)用于模型的建立。在不同模型中選取的數(shù)值也不一樣,在多分類中也是跟二分類不一樣,二分類選取參數(shù)的范圍如表 2所示,多分類如表 3 所示。
表 2 二分類模型參數(shù)設(shè)置
表 3 多分類模型參數(shù)設(shè)置
3 實驗和結(jié)果分析
3.1 數(shù)據(jù)集
為了驗證本文提出方法的可靠性,使用了公共數(shù)據(jù)集 CICIDS2017 和數(shù)據(jù)集 CICIDS2018 進(jìn)行驗證。數(shù)據(jù)集中的一些樣本數(shù)量如表 4 所示。
表 4 數(shù)據(jù)集部分特征
3.2 評價指標(biāo)
本實驗采用總體準(zhǔn)確率、查準(zhǔn)率、召回率、F1值來作為評估性能的指標(biāo)。
3.3 實驗環(huán)境
硬件環(huán)境:Intel (R)Core(TM)i7-10870H CPU@ 2.20 GHz 處 理 器,32 GB 內(nèi) 存,GPU(GeForceGTX3080)計算機運行。
軟件環(huán)境:Win11 系統(tǒng)。在 Python3.7 語言中,在 PyCharm 環(huán)境下使用張量 frow1.15.0 作為后端,使用 Keras 2.3.1 中的深度學(xué)習(xí)庫實現(xiàn)分類操作,使用 tensorflow 2.8.0 和 Torch1.3.1+CPU 實現(xiàn)操作。
3.4 實驗與處理
首先在第 1 節(jié)介紹了關(guān)于從原始 PACP 包進(jìn)行特征提取的簡單說明和之后對提取出來的數(shù)據(jù)進(jìn)行預(yù)處理,其次用第 2 節(jié)中的數(shù)據(jù)增強的方法對數(shù)據(jù)進(jìn)行平衡化處理,再放到集成學(xué)習(xí)模型中進(jìn)行檢測,最后把 3 個特征進(jìn)行融合,與單個特征檢測結(jié)果進(jìn)行對比。本文實驗使用的數(shù)據(jù)集中,測試集和訓(xùn)練集分別占比 20% 和 80%。實驗流程如圖 5 所示。
圖 5 實驗流程
3.5 特征融合
首先是統(tǒng)計特征和包特征的融合,經(jīng)過特征篩選和維度統(tǒng)一,將包特征和統(tǒng)計特征在輸入模型之前就合并為一個統(tǒng)一的特征向量。例如,將所有特征標(biāo)準(zhǔn)化或歸一化,然后將它們并排放置在同一個特征向量中。例如包特征表示為數(shù)組 [2 3 4],統(tǒng)計特征表示為數(shù)組 [0.6 0.8],合并之后就是 [0.6 0.8 2 3 4],再把這些數(shù)組轉(zhuǎn)換為一維的,因為選取的每個會話數(shù)為 20 個數(shù)據(jù)包,每個包 256 字節(jié),所以也就是每 256 字節(jié)數(shù)據(jù)與統(tǒng)計特征的 30 維 240 個特征信息直接拼接在一起。如果超過了 256 字節(jié),則丟棄多余的部分,不足 256 字節(jié)的則補 0,最后組合為一維數(shù)組放到模型中進(jìn)行分類。
拼接字節(jié)向量及其隱藏狀態(tài),經(jīng)由線性變換可得相應(yīng)位置的特征,即:
式中:為字節(jié)特征表示,
為字段特征,采用一種全局混合池化方法,該方法結(jié)合了全局平均池化和全局最大池化,能夠提取數(shù)據(jù)包負(fù)載長度的特征和負(fù)載內(nèi)容的特征,具體過程為:
式中:α 的元素介于 0 到 1之間;向量表明位置ij 的字節(jié)分布情況和字段的存在情況;向量
表示提取的數(shù)據(jù)包特征。
在統(tǒng)計特征和字節(jié)流特征中,為了確保特征融合之后模型檢測的效果不出現(xiàn)過擬合,在進(jìn)行多特征融合之前需要對特征進(jìn)行統(tǒng)一的轉(zhuǎn)換,以確保接下來特征融合時的檢測。采用零填充的方法和特征標(biāo)準(zhǔn)化的方法進(jìn)行特征形式統(tǒng)一,在第 3 節(jié)中介紹過相關(guān)方法,此處使用相同的方法。
數(shù)據(jù)首先通過一個編碼器函數(shù)轉(zhuǎn)換到一個隱藏層,其次通過一個解碼器函數(shù)轉(zhuǎn)換回輸出層,目標(biāo)是使輸出盡可能接近輸入。在去噪自動編碼器(Denoising Autoencoder,DAE) 中, 輸 入 數(shù) 據(jù) 在進(jìn)入編碼器之前會被故意加入噪聲。讓自編碼器學(xué)習(xí)去除輸入數(shù)據(jù)中的噪聲并恢復(fù)原始的信號,可以讓模型檢測的準(zhǔn)確率有所提升,也可以幫助模型學(xué)習(xí)到數(shù)據(jù)中更有用的特征。堆疊去噪自動編碼器(Stacked Denoising Autoencoder,SDAE)是通過堆疊多個 DAE 構(gòu)成的,每一層都學(xué)習(xí)輸入數(shù)據(jù)的更深層次特征。在訓(xùn)練過程中,首先單獨訓(xùn)練每一個DAE,其次將它們按順序堆疊起來。在 SDAE 中,每一層的隱藏輸出都作為下一層的輸入。
輸入層表示為向量 x,隱藏層的輸出表示為向量 h,從輸入層到隱藏層的權(quán)值表示為矩陣 W 和向量 b。向量 b 表示偏差項,定義 f 為激活函數(shù)。
同樣,將輸出層的輸出定義為向量 y,從隱藏層到輸出層的權(quán)值表示為矩陣 W' 和向量 b'。向量 b'由偏差項組成。本文還定義 f ' 為激活函數(shù)。使用式(6)計算從隱藏層到輸出層的數(shù)據(jù)傳播。
自動編碼器確定均衡輸入 x 和輸出 y 的權(quán)重 W和 W'。權(quán)重使用式(7)計算,它使輸入數(shù)據(jù)和輸出 y 之間的差異最小化。
使用自動編碼器可以減少數(shù)據(jù)向量的維數(shù)。h的維數(shù)小于x 或 y,利用機器學(xué)習(xí)的輸出向量 h 作為隱藏的特征向量,然后通過重疊 1 個隱藏層作為第 2 個自動編碼器的輸入來合并多個自動編碼器,如圖 6 所示。
圖 6 一個堆疊自編碼器結(jié)構(gòu)
先經(jīng)過 SDAE 的高級特征表示,再把字節(jié)流特征和統(tǒng)計特征進(jìn)行拼接,放到集成學(xué)習(xí)的基分類器中進(jìn)行訓(xùn)練,最后用隨機森林、XGBoost 和LightGBM 模型進(jìn)行分類。
因為本節(jié)提取的統(tǒng)計特征是每個特征占據(jù) 8 個字節(jié),每一行的數(shù)據(jù)總字節(jié)數(shù)是 240 個,統(tǒng)計特征一共篩選出 30 維,所以將相對應(yīng)的特征輸出,將輸出的高維特征與選取統(tǒng)計特征進(jìn)行拼接。
在字節(jié)流特征中,因為確定了每個流中的長度為 20 個數(shù)據(jù)包的大小,使用 SDAE 的方法,對隱藏層的大小進(jìn)行最終的確定。在消融實驗中,首先在第 1 層 DAE 中選定 250、500、750 和 1 000 的隱藏單元數(shù)(nhid)值,在第 2 層中選定同樣的特征,但是第 2 層的特征數(shù)量不可能超過第 1 層的數(shù)量。實驗結(jié)果如表 5 所示。
表 5 選取不同 nhid 長度時的實驗結(jié)果
從實驗結(jié)果來看,第 1 層選取 1 000、第 2 層選取 500 與第一層選取 500、第二層選取 125 相比,基本沒有太大的差別,但是考慮到運算時間的問題,所以本節(jié)選取第 1 層 500 和第 2 層 125 的數(shù)值進(jìn)行實驗。
3.6 實驗結(jié)果和分析
為了驗證本文方法的有效性,將本文方法與沒有進(jìn)行特征提取的方法進(jìn)行二分類對比實驗。首先與直接使用 k-means+SMOTE 和集成學(xué)習(xí)的模型進(jìn)行對比。分類結(jié)果如表 6 所示。
表 6 各個模型中二分類結(jié)果
由表 6 可知,對于隨機森林、XGBoost 和 LightGBM這 3 種模型,進(jìn)行特征提取后無論是在準(zhǔn)確率、F1值還是召回率上都有更好的性能表現(xiàn),證明了本文所提特征提取工作的有效性。但是,不同類型的特征對模型性能有不同的影響。在大多數(shù)情況下,使用統(tǒng)計特征時,所有模型都呈現(xiàn)了較好的結(jié)果,這可能是因為統(tǒng)計特征能更全面地捕捉數(shù)據(jù)的特性。相比之下,使用包特征和字節(jié)流特征時,模型的性能表現(xiàn)一般。然而,在所有模型中,LightGBM 在處理經(jīng)過良好特征工程的數(shù)據(jù)時,顯示出最佳的性能。
因為確定了 LightGBM 的有效性并且為了展示本文所提方法的時效性,接下來將在 LightGBM 模型下對數(shù)據(jù)集 CICIDS2018 進(jìn)行多種攻擊類型的檢測,檢測結(jié)果如表 7 所示。
表 7 CICIDS2018 數(shù)據(jù)集多分類多特征檢測結(jié)果
使用包特征進(jìn)行攻擊檢測的結(jié)果表明,在某些情況下表現(xiàn)較差,尤其是對于較為復(fù)雜的攻擊類型,如 Web 攻擊和 Infiltration 攻擊,這可能是因為包特征相對較簡單,可能不足以捕獲復(fù)雜攻擊的全部特征。使用字節(jié)流特征的檢測結(jié)果普遍比使用包特征的好,表明字節(jié)流特征提供了更豐富的信息,有助于改進(jìn)對網(wǎng)絡(luò)攻擊的識別。統(tǒng)計特征在多數(shù)攻擊類型的檢測上表現(xiàn)更好,尤其是對于 DoS、PortScan和 FTP-Patator 等攻擊,這表明統(tǒng)計特征能夠更好地概括數(shù)據(jù)集的統(tǒng)計屬性,為模型提供了更有效的信息。因此,本文設(shè)計實驗對兩種特征進(jìn)行融合檢測,以驗證是否擁有更好的檢測效果。實驗結(jié)果字節(jié)流和統(tǒng)計特征的融合值如圖 7 所示。
圖 7 字節(jié)流和統(tǒng)計特征融合特征多分類檢測結(jié)果
從圖 7 的實驗結(jié)果可以看到,在幾乎所有攻擊類型中,融合特征的性能普遍高于單獨使用任一類型的特征。這表明,當(dāng)不同類型的特征結(jié)合起來時,它們能夠提供比單獨特征更全面的信息,從而提高模型的預(yù)測能力。這是因為不同類型的特征可能從不同的角度描繪數(shù)據(jù),它們的結(jié)合能夠提供更完整的數(shù)據(jù)視圖,通過結(jié)合不同來源的特征,可以顯著提高網(wǎng)絡(luò)流量分類和攻擊檢測的準(zhǔn)確性。特征融合有助于捕捉更豐富的上下文信息和隱藏模式,從而提高模型的泛化能力和魯棒性,說明了本文所提方法的有效性與可行性。
4 結(jié) 語
本文針對網(wǎng)絡(luò)流量分類中惡意流量識別的問題,提出了一種基于集成學(xué)習(xí)和多特征檢測的方法。隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜化,單一特征已經(jīng)難以滿足對網(wǎng)絡(luò)安全的監(jiān)控需求,因此,利用多種特征進(jìn)行融合處理成為提升惡意流量檢測準(zhǔn)確性的關(guān)鍵途徑。首先,本文指出了統(tǒng)計特征、字節(jié)流特征和包特征在網(wǎng)絡(luò)流量分類中的重要性。其次,通過計算特征與目標(biāo)變量的相關(guān)性,篩選出有助于區(qū)分正常與異常流量的關(guān)鍵特征。本文的主要貢獻(xiàn)如下:
(1)通過進(jìn)行特征提取,成功地提升了模型的檢測性能;
(2)通過實驗對比與參數(shù)的調(diào)優(yōu),確定了最佳分類模型,為網(wǎng)絡(luò)流量檢測提供了可行的解決方案。未來將進(jìn)一步探索數(shù)據(jù)的其他類型特征,結(jié)合集成學(xué)習(xí)中不同基分類器對特征的影響,進(jìn)一步提高模型的性能和魯棒性。
引用格式:吳蘇亞 , 丁要軍 . 基于集成學(xué)習(xí)的多特征網(wǎng)絡(luò)流量檢測 [J]. 通信技術(shù) ,2024,57(7):731-738.
作者簡介 >>>
吳蘇亞,男,碩士研究生,主要研究方向為網(wǎng)絡(luò)安全、機器學(xué)習(xí)、網(wǎng)絡(luò)流量分類;
丁要軍,男,博士,教授,主要研究方向為網(wǎng)絡(luò)安全、機器學(xué)習(xí)、網(wǎng)絡(luò)協(xié)議識別
選自《通信技術(shù)》2024年第7期(為便于排版,已省去原文參考文獻(xiàn))
重要聲明:本文來自信息安全與通信保密雜志社,經(jīng)授權(quán)轉(zhuǎn)載,版權(quán)歸原作者所有,不代表銳成觀點,轉(zhuǎn)載的目的在于傳遞更多知識和信息。
相關(guān)文章推薦
2025-04-22 15:15:30
2025-04-21 15:20:03
2025-04-02 16:28:39
2025-03-27 15:01:53
2025-03-26 15:37:04
熱門工具
標(biāo)簽選擇
閱讀排行
我的評論
還未登錄?點擊登錄