Skip to content

scieloorg/data_extractor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

Data Extractor

Ferramenta para extrair informações de documentos DOCX de periódicos científicos e gerar planilhas XLSX estruturadas.

Funcionalidades

  • ✅ Extração de seções de documentos DOCX multilíngues (português, inglês, espanhol)
  • ✅ Normalização automática de nomes de seções para inglês
  • ✅ Extração estruturada do corpo editorial
  • ✅ Geração de dois relatórios XLSX:
    • sections.xlsx - Todas as seções dos documentos
    • editorial_board.xlsx - Dados do corpo editorial

Instalação

# Clone o repositório
git clone https://github.com/scieloorg/data_extractor.git
cd data_extractor

# Instale as dependências
pip install -r requirements.txt

Uso

Padrão de Nomenclatura dos Arquivos

Os arquivos DOCX devem seguir o padrão:

YYYYMMDD_ACRONIMO_Descricao_IDIOMA_ok.docx

Exemplo: 20251010_RBEF_Total_Página_Informativa_inglês_ok.docx

Executar o Extrator

# Uso básico
python journal_info_extractor.py /caminho/para/documentos

# Especificar diretório de saída
python journal_info_extractor.py /caminho/para/documentos --output /caminho/saida

# Com log detalhado
python journal_info_extractor.py /caminho/para/documentos --loglevel DEBUG

Exemplo Completo

# Processar documentos na pasta ./docs
python journal_info_extractor.py ./docs

# Resultado:
# 20251203T143022-sections.xlsx
# 20251203T143022-editorial_board.xlsx

Estrutura dos Relatórios

sections.xlsx

Planilha com todas as seções extraídas:

Coluna Descrição
Section Nome da seção normalizado em inglês
Filename Nome do arquivo de origem
Date Data (YYYY-MM-DD)
Acronym Acrônimo do periódico
Language Código do idioma (pt/en/es)
Title Journal Título do periódico
ISSN SciELO ISSN do periódico
Content Conteúdo da seção

editorial_board.xlsx

Planilha com dados do corpo editorial:

Coluna Descrição
Date Data (YYYY-MM-DD)
Acronym Acrônimo do periódico
Title Journal Título do periódico
ISSN SciELO ISSN do periódico
Role Função (Editor-in-Chief, etc)
Name Nome do membro
Institution Instituição
Country País
ORCID ORCID (quando disponível)
Email Email (quando disponível)

Seções Reconhecidas

O extrator reconhece e normaliza automaticamente mais de 70 seções diferentes em português, inglês e espanhol, incluindo:

  • About the Journal: Brief History, Open Access, Focus and Scope, etc.
  • Editorial Policy: Peer Review Process, Open Data, Article Fees, etc.
  • Editorial Board: Editor-in-Chief, Associate Editors, Honorary Editors, etc.
  • Instructions for Authors: Submission Format, Citations and References, etc.

Requisitos

  • Python 3.7+
  • python-docx >= 1.1.0
  • openpyxl >= 3.1.0

Licença

BSD-2-Clause

Autores

SciELO - Scientific Electronic Library Online

Suporte

Para reportar problemas ou solicitar funcionalidades, abra uma issue.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages