λ¨Έμ λ¬λμ νμ©ν μ μ±μ½λ λΆμ λ°©μ
https://www.youtube.com/watch?v=5qNbZKkkDX4
μ£Όμ λΆμΌ 2κ°μ§
1) λ¨Έμ λ¬λ νμ΅ ν, μ μ±μ½λ νμ§
2) λ¨Έμ λ¬λ νμ©νμ¬ μ μ±μ½λ λΆλ₯
λ¨Έμ λ¬λ + μ μ±μ½λ #1 (R.F)
λ¨Έμ λ¬λ νμ΅ λ° νκ° νλ‘μΈμ€ : 1) λ°μ΄ν° μμ§(μ μ, λμ¬μ¨μ΄, κ·ΈμΈ μ μ±μ½λ) -> 2) νΉμ§ μΆμΆ(PE λ©ν μ 보) -> 3) νλ μμν¬ μ ν(Scikit-Learn) -> 4) μκ³ λ¦¬μ¦ μ ν λ° νμ΅(Random Forest) -> 5) νκ°(Cross Validation)
2) Feature μΆμΆ : DOS header, PE header μ 보 μΆμΆνκ±°λ, NT header μ€ Machine, Debug Directory Size, Debug Directory λ± μ¬λ¬ μ 보 μΆμΆ
-> CSV νμΌμ λ£μ΄ μμ±
3) νλ μμν¬ μ ν : Scikit-Learn(νμ΄λ 벨(μ¬μ), κ°λ¨ν λ¨Έμ λ¬λ μκ³ λ¦¬μ¦μ νΉν - TensorFlow(λ‘μ°λ 벨(μ΄λ €μ), λ₯λ¬λμ νΉν)
4) μκ³ λ¦¬μ¦ μ ν λ° νμ΅ : μν λ°μ΄ν° μμ λ°λΌ λ¬λΌμ§
- μκ³ λ¦¬μ¦ μ ν(Decision Tree)
- μκ³ λ¦¬μ¦ μ ν(Random Forest)
- λͺ¨λΈ νμ΅(Train Set / Test Set)
λ¨Έμ λ¬λ + μ μ±μ½λ #2 (CNN)
CNNμ νμ©ν μ μ±μ½λ λΆλ₯ λͺ¨λΈ
: μ μ±μ½λ λ°μ΄λ리 -> μ΄λ―Έμ§ν -> λ¨Έμ λ¬λ μ μ²λ¦¬ -> ν μνλ‘μ° μ»¨λ³Όλ£¨μ μ κ²½λ§ μμ€ν
νμ΅μ μν Feature μΆμΆνμ¬ hex κ°μ μ΄λ―Έμ§ν
μ€λ¬΄ μ μ© μ¬λ‘
μΉ¨ν΄μ¬κ³ μμμ Feature λΆλ₯
- νΉμ§μ 보 λΆλ₯(μ μ±μ½λ & μ μ±λ¬Έμ) : PE μ 보, File μ 보, HASH, νμ μ 보, Code μ 보 & λ¬Έμ μ 보, νμ μ 보
- νΉμ§μ 보 λΆλ₯(νΈμ€νΈ) : 곡격μ μ 보, 곡격 λꡬ, 곡격 μ 보
Feature μΆμΆ : μλλ°μ€ μ°λ λͺ¨λ -> λ°μ΄λ리 νΉμ§μ 보 μΆμΆ λͺ¨λ -> μ μ±λ¬Έμ νΉμ§μ 보 μΆμΆ λͺ¨λ -> νΈμ€νΈ νΉμ§μ 보 μΆμΆ λͺ¨λ
Feature μ κ·ν : μ κ·ν μμ΄μ νΈ(νν°λ§, ν΄λ¦°μ§, λ³ν)
λ¨Έμ λ¬λ νμ΅ λ° λΆμ : DBμ λ°μ΄ν° μ½μ (μ μ²λ¦¬ λ¨κ³ -> νμ΅ λ¨κ³ -> λΆμ λ¨κ³)
[μ¬μ΄λ²λ³΄μ κ°μβ‘] - μ μ±μ± λΆμμ μν κΈ°μ΄ νμ΅ μλ£
https://www.youtube.com/watch?v=ZgDY3kAdQxc&t=469s
[μ¬μ΄λ²λ³΄μ κ°μβ’] - νΌμ±μ ν΅ν 곡격 μ¬λ‘
https://www.youtube.com/watch?v=O3Yv66Cx2Tg&t=1s