λ³΄μ•ˆ/μ•…μ„±μ½”λ“œ

λ¨Έμ‹ λŸ¬λ‹μ„ ν™œμš©ν•œ μ•…μ„±μ½”λ“œ 뢄석 λ°©μ•ˆ

- 였트 - 2021. 7. 26. 17:06

https://www.youtube.com/watch?v=5qNbZKkkDX4 

μ£Όμš” λΆ„μ•Ό 2가지

1) λ¨Έμ‹ λŸ¬λ‹ ν•™μŠ΅ ν›„, μ•…μ„±μ½”λ“œ 탐지

2) λ¨Έμ‹ λŸ¬λ‹ ν™œμš©ν•˜μ—¬ μ•…μ„±μ½”λ“œ λΆ„λ₯˜

 

λ¨Έμ‹ λŸ¬λ‹ + μ•…μ„±μ½”λ“œ #1 (R.F)

λ¨Έμ‹ λŸ¬λ‹ ν•™μŠ΅ 및 평가 ν”„λ‘œμ„ΈμŠ€ : 1) 데이터 μˆ˜μ§‘(정상, λžœμ„¬μ›¨μ–΄, κ·Έμ™Έ μ•…μ„±μ½”λ“œ) -> 2) νŠΉμ§• μΆ”μΆœ(PE 메타 정보) -> 3) ν”„λ ˆμž„μ›Œν¬ 선택(Scikit-Learn) -> 4) μ•Œκ³ λ¦¬μ¦˜ 선택 및 ν•™μŠ΅(Random Forest) -> 5) 평가(Cross Validation)

 

2) Feature μΆ”μΆœ : DOS header, PE header 정보 μΆ”μΆœν•˜κ±°λ‚˜, NT header 쀑 Machine, Debug Directory Size, Debug Directory λ“± μ—¬λŸ¬ 정보 μΆ”μΆœ

-> CSV νŒŒμΌμ— λ„£μ–΄ 생성

3) ν”„λ ˆμž„μ›Œν¬ 선택 : Scikit-Learn(ν•˜μ΄λ ˆλ²¨(쉬움), κ°„λ‹¨ν•œ λ¨Έμ‹ λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ— νŠΉν™” - TensorFlow(둜우레벨(어렀움), λ”₯λŸ¬λ‹μ— νŠΉν™”)

4) μ•Œκ³ λ¦¬μ¦˜ 선택 및 ν•™μŠ΅ : μƒ˜ν”Œ 데이터 양에 따라 달라짐

- μ•Œκ³ λ¦¬μ¦˜ 선택(Decision Tree)

- μ•Œκ³ λ¦¬μ¦˜ 선택(Random Forest)

- λͺ¨λΈ ν•™μŠ΅(Train Set / Test Set)

 

λ¨Έμ‹ λŸ¬λ‹ + μ•…μ„±μ½”λ“œ #2 (CNN)

CNN을 ν™œμš©ν•œ μ•…μ„±μ½”λ“œ λΆ„λ₯˜ λͺ¨λΈ

: μ•…μ„±μ½”λ“œ λ°”μ΄λ„ˆλ¦¬ -> 이미지화 -> λ¨Έμ‹ λŸ¬λ‹ μ „μ²˜λ¦¬ -> ν…μ„œν”Œλ‘œμš° μ»¨λ³Όλ£¨μ…˜ 신경망 μ‹œμŠ€ν…œ

ν•™μŠ΅μ„ μœ„ν•œ Feature μΆ”μΆœν•˜μ—¬ hex 값을 이미지화

 

싀무 적용 사둀

μΉ¨ν•΄μ‚¬κ³ μ—μ„œμ˜ Feature λΆ„λ₯˜

- νŠΉμ§•μ •λ³΄ λΆ„λ₯˜(μ•…μ„±μ½”λ“œ & μ•…μ„±λ¬Έμ„œ) : PE 정보, File 정보, HASH, ν–‰μœ„ 정보, Code 정보 & λ¬Έμ„œ 정보, ν–‰μœ„ 정보

- νŠΉμ§•μ •λ³΄ λΆ„λ₯˜(호슀트) : 곡격자 정보, 곡격 도ꡬ, 곡격 정보

Feature μΆ”μΆœ : μƒŒλ“œλ°•μŠ€ 연동 λͺ¨λ“ˆ -> λ°”μ΄λ„ˆλ¦¬ νŠΉμ§•μ •λ³΄ μΆ”μΆœ λͺ¨λ“ˆ -> μ•…μ„±λ¬Έμ„œ νŠΉμ§•μ •λ³΄ μΆ”μΆœ λͺ¨λ“ˆ -> 호슀트 νŠΉμ§•μ •λ³΄ μΆ”μΆœ λͺ¨λ“ˆ

Feature μ •κ·œν™” : μ •κ·œν™” μ—μ΄μ „νŠΈ(필터링, 클린징, λ³€ν™˜)

λ¨Έμ‹ λŸ¬λ‹ ν•™μŠ΅ 및 뢄석 : DB에 데이터 μ‚½μž…(μ „μ²˜λ¦¬ 단계 -> ν•™μŠ΅ 단계 -> 뢄석 단계)


[μ‚¬μ΄λ²„λ³΄μ•ˆ κ°•μ˜β‘‘] - μ•…μ„±μ•± 뢄석을 μœ„ν•œ 기초 ν•™μŠ΅ 자료

https://www.youtube.com/watch?v=ZgDY3kAdQxc&t=469s 

[μ‚¬μ΄λ²„λ³΄μ•ˆ κ°•μ˜β‘’] - 피싱을 ν†΅ν•œ 곡격 사둀

https://www.youtube.com/watch?v=O3Yv66Cx2Tg&t=1s 


pixabay