Skip to content

Latest commit

 

History

History
90 lines (83 loc) · 3.27 KB

AI语音-01-概述.md

File metadata and controls

90 lines (83 loc) · 3.27 KB

AI语音-01-概述

最佳实践:whisper + bark + Retrieval-based-Voice-Conversion-WebUI

一. 汇总

二. ASR:语音识别

两个方案:首选wishper,次选sherpa-ncnn

  1. whisper: https://github.com/openai/whisper.git
  2. Kaldi新一代
  3. wenet:https://github.com/wenet-e2e/wenet.git
  4. Retalker
  5. paddlespeech
  6. kaldi
  7. funasr
  8. speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
  9. SummerAsr基于Deepspeech2

三. TTS:语音克隆+合成

三选一:edge-tts,libvits-ncnn/summperTTS,bark.cpp

  1. AudioCraft
  2. bark
  3. StyleTTS
  4. vits
  5. coqui-tts
  6. voicebox
  7. 微软Azure:付费使用
  8. edge-tts:https://github.com/rany2/edge-tts
  9. Mega-TTS 2
    • 浙江大学联手字节跳动推出的 Mega-TTS 2,目前最强中文语音AI,在音色、韵律方便处理得非常出色
  10. fastspeech2+hifigan
  11. Tacotron 2
  12. https://github.com/Plachtaa/VALL-E-X

四. 声音克隆与变声器RVC

  1. so-vits-svc
  2. 声音克隆:Real-Time-Voice-Cloning
  3. MockingBird
  4. bark也可以做
  5. Retrieval-based-Voice-Conversion-WebUI
  6. FreeVC

五. 人声和背景音分离,如歌曲

  1. spleeter
  2. demusic
  3. UVR