Skip to content
NaYeon Kim edited this page Apr 18, 2022 · 5 revisions

1. 논문

1-1) 논문

1-2) 사전학습 데이터

사용한 모델 데이터 이름 크기 정보 상세 설명
Zhuang Liu 2021 CommonCrawlNews 밑의 FINWEB과 합쳐서 2013.07~2019.12
Zhuang Liu 2021 FINWEB 24GB, 6.38 words 페이지에 날짜 없음
Zhuang Liu 2021 Yahoo Finance 19GB, 4.71B words (논문발행년도) 최근 4년간
Zhuang Liu 2021 Reddit Finance QA 5GB, 1.62B words
Dogu Tan Araci 2019 TRC2-financial 46143 docs, 29M words 금융 키워드 필터링 함
Yi Yang 2020 Corporate Reports 10-K & 10-Q - 상장기업 연간보고서
Yi Yang 2020 Earnings Call Transcripts - 회사 경영진 및 투자자들의 분기별 컨퍼런스 내용
Yi Yang 2020 Analyst Reports - 정량적 정보 및 분석 제공

2. 데이터

2-1) 크롤링 데이터

데이터 이름 크기 정보 상세 설명 논문 데이터 여부
FINWEB 18.6MB 8012 articles Zhuang Liu 2021

2-2) 데이터 형식

[
    {
        "title" : "제목",
        "contents" : "내용",
        "date" : "날짜",
        "platform" : "플랫폼 : cnn, finweb 등",
        "category" : "카테고리 : 뉴스, 논문 등",
        "url" : "크롤링한 url"
    },
    {
        ...
    }
]

3. 랩미팅