Ferramenta para extrair informações de documentos DOCX de periódicos científicos e gerar planilhas XLSX estruturadas.
- ✅ Extração de seções de documentos DOCX multilíngues (português, inglês, espanhol)
- ✅ Normalização automática de nomes de seções para inglês
- ✅ Extração estruturada do corpo editorial
- ✅ Geração de dois relatórios XLSX:
sections.xlsx- Todas as seções dos documentoseditorial_board.xlsx- Dados do corpo editorial
# Clone o repositório
git clone https://github.com/scieloorg/data_extractor.git
cd data_extractor
# Instale as dependências
pip install -r requirements.txtOs arquivos DOCX devem seguir o padrão:
YYYYMMDD_ACRONIMO_Descricao_IDIOMA_ok.docx
Exemplo: 20251010_RBEF_Total_Página_Informativa_inglês_ok.docx
# Uso básico
python journal_info_extractor.py /caminho/para/documentos
# Especificar diretório de saída
python journal_info_extractor.py /caminho/para/documentos --output /caminho/saida
# Com log detalhado
python journal_info_extractor.py /caminho/para/documentos --loglevel DEBUG# Processar documentos na pasta ./docs
python journal_info_extractor.py ./docs
# Resultado:
# 20251203T143022-sections.xlsx
# 20251203T143022-editorial_board.xlsxPlanilha com todas as seções extraídas:
| Coluna | Descrição |
|---|---|
| Section | Nome da seção normalizado em inglês |
| Filename | Nome do arquivo de origem |
| Date | Data (YYYY-MM-DD) |
| Acronym | Acrônimo do periódico |
| Language | Código do idioma (pt/en/es) |
| Title Journal | Título do periódico |
| ISSN SciELO | ISSN do periódico |
| Content | Conteúdo da seção |
Planilha com dados do corpo editorial:
| Coluna | Descrição |
|---|---|
| Date | Data (YYYY-MM-DD) |
| Acronym | Acrônimo do periódico |
| Title Journal | Título do periódico |
| ISSN SciELO | ISSN do periódico |
| Role | Função (Editor-in-Chief, etc) |
| Name | Nome do membro |
| Institution | Instituição |
| Country | País |
| ORCID | ORCID (quando disponível) |
| Email (quando disponível) |
O extrator reconhece e normaliza automaticamente mais de 70 seções diferentes em português, inglês e espanhol, incluindo:
- About the Journal: Brief History, Open Access, Focus and Scope, etc.
- Editorial Policy: Peer Review Process, Open Data, Article Fees, etc.
- Editorial Board: Editor-in-Chief, Associate Editors, Honorary Editors, etc.
- Instructions for Authors: Submission Format, Citations and References, etc.
- Python 3.7+
- python-docx >= 1.1.0
- openpyxl >= 3.1.0
BSD-2-Clause
SciELO - Scientific Electronic Library Online
Para reportar problemas ou solicitar funcionalidades, abra uma issue.