본 연구에서는 다크패턴 탐지 모델 학습을 위해 두 개의 공개 데이터셋을 결합하여 최종 학습 데이터셋을 제작하였다.
이를 통해 데이터의 품질을 정제하고, 유형 간 불균형을 해소하였다.
| 출처 | 파일명 | 설명 |
|---|---|---|
| Mathur et al., 2019 (Princeton, “Dark Patterns at Scale”) | dark-patterns.csv |
웹 상 다크패턴 문구 데이터 |
| Yada et al., 2022 (IEEE BigData, “Dark Patterns in E-commerce”) | dataset.tsv |
이커머스 환경의 다크패턴 문구 데이터 |
- 병합(Merging): 두 데이터셋(
csv+tsv)을 통합 - 중복 제거(Deduplication): 문장 중복 및 의미 중복 제거
- 데이터 정제(Cleaning): 노이즈, 불필요한 HTML 태그, 특수문자 제거
- 데이터 증강(Augmentation):
- Contextual Augmentation (문맥 기반 증강)
- Scarcity 유형은 언더샘플링하여 클래스 균형 조정
| Type | Count |
|---|---|
| Not Dark Pattern | 1,600 |
| Scarcity | 400 |
| Social Proof | 400 |
| Urgency | 400 |
| Misdirection | 400 |
| Total | 3,200 |
Type Distribution
──────────────────────────────
Not Dark Pattern ██████████████████████████████████████████████ (50%)
Scarcity ████████▌ (12.5%)
Social Proof ████████▌ (12.5%)
Urgency ████████▌ (12.5%)
Misdirection ████████▌ (12.5%)
──────────────────────────────
Total Samples: 3,200