Fine-Tuning Pipeline For Your Substack Articles

A modular tool that processes articles from any Substack to create high-quality training data for OpenAI fine-tuning. Simply provide your Substack RSS URL and OpenAI API key to generate instruction-response pairs optimized for fine-tuning.

This repo was created for The Pipe & The Line.

🚀 Quick Start

Environment Variables

Copy .env.example and rename it to .env file with your configuration:

# Required: Your OpenAI API key
OPENAI_API_KEY=your_openai_api_key_here
SUBSTACK_RSS_URL=https://yoursubstack.substack.com/feed

Requirements:

OpenAI API key with GPT-5 mini access
Valid Substack RSS feed URL

Run with Docker

# Build the image
docker build -t substack-finetuner .

# Run the container
docker run --env-file .env -v $(pwd)/output:/app/output substack-finetuner

📋 What It Does

Parses RSS Feed → Fetches articles from any Substack
Cleans Content → Removes HTML, extracts clean text
Generates Instructions → Uses GPT-5 mini to create diverse instruction prompts for each article
Creates Training Data → Builds instruction-response pairs in OpenAI format
Saves Data → Outputs training_data.jsonl in proper JSONL format
Fine-tunes Model → Automatically uploads to OpenAI and creates fine-tuning job

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
output		output
src		src
.dockerignore		.dockerignore
.env.example		.env.example
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Fine-Tuning Pipeline For Your Substack Articles

This repo was created for The Pipe & The Line.

🚀 Quick Start

Environment Variables

Run with Docker

📋 What It Does

About

Uh oh!

Releases

Packages

Languages

aboyalejandro/fine-tuning-data-engineers

Folders and files

Latest commit

History

Repository files navigation

Fine-Tuning Pipeline For Your Substack Articles

This repo was created for The Pipe & The Line.

🚀 Quick Start

Environment Variables

Run with Docker

📋 What It Does

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages