AI & Data Science
2023. 1. 29.
Isolation Forest
현재 연구실 프로젝트로 cilium hubble을 이용해서 네트워크 플로우 데이터를 수집하고 해당 데이터를 사용해서 Anomaly Detection을 수행하는 모델을 만들고 있다. Anomaly detection은 대다수의 정상 데이터들과 다른 양상을 보이는 희귀한 케이스를 탐지하는 걸 목표로 하는 Machine Learning의 연구분야 중 하나이다. Anomaly Detection은 데이터 자체가 굉장히 imbalanced 하다. 이상 신호가 빈번하게 발생하면 그것은 이상 신호가 아니다. 또한 데이터의 양이 굉장히 많기 때문에 지도학습이 아닌 비지도 학습으로 접근하는 경우가 많다. Isolation Forest 모델은 computational cost가 linear 하다고 한다. 즉 데이터의 양에 비..