Skip to content

GeniansPlanIT/genians_AI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

[Archived] Deep Learning-Based EDR Event Grouping

⚠️ Note: 본 리포지토리는 프로젝트 수행 과정에서 개발된 초기 모델의 아카이브입니다. 최종 프로젝트 결과에서는 유지보수 효율성과 일반화 성능을 고려하여 RAG 기반의 Serverless 파이프라인으로 대체되었습니다.

📄 코드 개요

Deep Learning 모델(MLP + LSTM)을 활용하여 EDR 보안 이벤트를 벡터화하고, 유사도 기반으로 자동 그룹핑(Clustering)하는 배치 프로그램입니다.

과거 AWS Step Functions 파이프라인의 일부로 EC2 인스턴스에서 실행되었으며, Malicious로 탐지된 이벤트들을 하나의 티켓으로 묶는 역할을 수행했습니다.

🛠️ 주요 기능 및 로직

  1. Data Ingestion: Elasticsearch에서 특정 시간대의 악성 로그 수집
  2. Feature Engineering:
    • Text: CmdLine TF-IDF 변환
    • Sequence: ProcPath LSTM 임베딩
    • Context: MITRE ATT&CK 태그 및 프로세스 트리 분석
  3. Inference: PyTorch 기반의 자체 학습 모델을 통해 64차원 벡터 생성
  4. Clustering: Agglomerative Clustering 알고리즘을 사용하여 유사 이벤트 그룹핑

📂 디렉토리 구조

  • main.py: 배치 작업 진입점 (Data Fetch -> Inference -> Save)
  • src/models.py: PyTorch 모델 정의 (MLP, PathEmbedder)
  • src/feature_engineering.py: 데이터 전처리 및 텐서 변환 로직
  • src/es_client.py: Elasticsearch 연동 모듈

🔄 대체 사유 (Transition to RAG)

  • MLOps 복잡도: 새로운 공격 패턴이 나올 때마다 모델 재학습 및 배포가 필요함
  • 성능 한계: 학습 데이터에 없는 신종 위협에 대한 그룹핑 정확도 저하

👉 최종 결과물(RAG 기반 파이프라인)은 genians_cloud_infrastructure 리포지토리를 참고해주세요.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages