⚠️ Note: 본 리포지토리는 프로젝트 수행 과정에서 개발된 초기 모델의 아카이브입니다. 최종 프로젝트 결과에서는 유지보수 효율성과 일반화 성능을 고려하여 RAG 기반의 Serverless 파이프라인으로 대체되었습니다.
Deep Learning 모델(MLP + LSTM)을 활용하여 EDR 보안 이벤트를 벡터화하고, 유사도 기반으로 자동 그룹핑(Clustering)하는 배치 프로그램입니다.
과거 AWS Step Functions 파이프라인의 일부로 EC2 인스턴스에서 실행되었으며, Malicious로 탐지된 이벤트들을 하나의 티켓으로 묶는 역할을 수행했습니다.
- Data Ingestion: Elasticsearch에서 특정 시간대의 악성 로그 수집
- Feature Engineering:
- Text:
CmdLineTF-IDF 변환 - Sequence:
ProcPathLSTM 임베딩 - Context: MITRE ATT&CK 태그 및 프로세스 트리 분석
- Text:
- Inference: PyTorch 기반의 자체 학습 모델을 통해 64차원 벡터 생성
- Clustering: Agglomerative Clustering 알고리즘을 사용하여 유사 이벤트 그룹핑
main.py: 배치 작업 진입점 (Data Fetch -> Inference -> Save)src/models.py: PyTorch 모델 정의 (MLP, PathEmbedder)src/feature_engineering.py: 데이터 전처리 및 텐서 변환 로직src/es_client.py: Elasticsearch 연동 모듈
- MLOps 복잡도: 새로운 공격 패턴이 나올 때마다 모델 재학습 및 배포가 필요함
- 성능 한계: 학습 데이터에 없는 신종 위협에 대한 그룹핑 정확도 저하
👉 최종 결과물(RAG 기반 파이프라인)은 genians_cloud_infrastructure 리포지토리를 참고해주세요.