Skip to content

Conversation

arkohut
Copy link

@arkohut arkohut commented Mar 9, 2025

主要功能

实现了一个基于 FastAPI 的文本转语音服务,提供音色管理、语音合成和声音克隆功能。核心功能包括三个主要接口:

1. 音色管理接口

  • GET /voices: 获取已注册音色列表
  • POST /register_voice: 注册新音色到系统(需提供参考音频和文本)

2. 文本转语音接口

  • POST /tts: 使用已注册音色进行语音合成
    • 参数:speaker(指定音色名称),tts_text(合成文本)

3. 即时克隆接口

  • POST /clone: 单次语音克隆合成
    • 参数:prompt_wav(参考音频),prompt_text(参考文本),tts_text(目标文本)

使用示例

# 获取可用音色列表
curl -X GET http://localhost:8000/voices

# 注册新音色
curl -X POST -F "speaker_name=my_voice" -F "prompt_text=Hello world" -F "[email protected]" http://localhost:8000/register_voice

# 使用注册音色合成
curl -X POST -F "tts_text=欢迎使用语音合成服务" -F "speaker=my_voice" http://localhost:8000/tts --output output.wav

# 即时克隆合成
curl -X POST -F "tts_text=这是即时克隆的语音" -F "prompt_text=我是参考文本" -F "[email protected]" -F "speaker_name=temporary" http://localhost:8000/clone --output clone.wav

@arkohut
Copy link
Author

arkohut commented Apr 25, 2025

这个 PR 我已经在实际项目中使用了,效果非常出色。我使用这个 API 生成了一个中文配音视频,可以在这里查看效果:
https://www.bilibili.com/video/BV1vkdnYcEPh

希望能合并这个 PR,让更多开发者能够使用这个功能。如果有任何问题或建议,我很乐意进行讨论和改进。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant