Короткие примеры запуска (рекомендации) Быстро протестировать на 10k, профилируя:
python test_embeddings_with_safe_backups.py --target 10000 --fetch-batch-size 1000 --encode-batch-size 512 --global-chunk-batch 4096 --backup-chunk-size 10000 --insert-batch-size 1000 --use-fp16 --profile --normalize
Если хочется безопасно пробовать большой encode:
python test_embeddings_with_safe_backups.py --target 200000 --fetch-batch-size 1000 --encode-batch-size 1024 --global-chunk-batch 8192 --use-fp16 --backup-chunk-size 10000 --insert-batch-size 1000 --normalize
(скрипт уменьшит encode_batch_size или global_chunk_batch при OOM автоматически).
Что ожидать и мониторить при global_chunk_batch=4096 и encode_batch_size=512 ожидаемый рост throughput — модель будет грузиться эффективнее; VRAM usage заметно вырастет (проверь nvidia-smi).
если видишь CUDA OOM — скрипт автоматически уменьшит параметры; также можно вручную уменьшить global_chunk_batch на 2×.
следи за docker logs library-manticore и за free -h / df -h — вставки в Manticore и сегментирование могут использовать RAM/disk.