PaddleSpeech FAQ Document #1989

iftaken · 2022-05-30T04:33:19Z

iftaken
May 30, 2022
Collaborator

FAQ

PaddleSpeech 收集整理开源以来在 issue和用户群里的常见问题，并给出了简要解答，为后续开发者提供一些参考。本文档的回答主要依赖于项目实践，难免会有遗漏之处，也希望有识之士帮忙补充与修正，万分感谢。

对相关技术原理感兴趣的同学也可以观看我们在 aistudio 上的课程飞桨PaddleSpeech语音技术课程

FAQ
- 1. 通用问题
- 2. PaddleSpeech实战问题
  - 2.1 PaddleSpeech repo
  - 2.2 数据

1. 通用问题

1.1 安装

Q：PaddleSpeech windows,Mac 安装问题

A：PaddleSpeech 在windows，Mac安装问题可见#1195

Q: 关于windows电脑的运行example

A: 【补充中】

Q: libsndfile install

A: please see http://www.mega-nerd.com/libsndfile/#Download

1.2 模型

Q: conformer_wenetspeech 对部分专业词汇识别效果不佳，模型如何优化？

A: 这部分需要后续paddlespeech 支持WFST 的on the fly 功能，从解码器方面进行解决。目前 wenetspeech 部分的example 还没有建立完整，可以参考 example/aishell/asr1 的训练过程，对识别出错的音频进行 fine tune。#1807

Q: paddlespeech asr 识别音频超出60s 后返回结果为空

A: 【补充中】#1780

Q: deepspeech2online_aishell的识别效果很差，实时识别的效果无法达到conformer_wenetspeech的效果，请问有什么方法可以优化？

A: 流式的 conformer_wenetspeech 模型正在训练中，如果效果好的话，会公布出来。 conformer_online_multicn 和 deepspeech2online_aishell 使用的训练数据集没有 conformer_wenetspeech 大，所以鲁棒性弱一些，建议在安静环境下使用。#1753

Q: 需要进行语音流的实时识别，应该怎么调用？

A: 可使用PP-ASR进行语音流式识别

Q：怎么换语音合成那个基于标贝训练出来的声纹模型

A：参看 https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/examples/aishell3/vc0/README.md#pretrained-ge2e-model ，把 ge2e 生成 emb 的过程替换成 ecapa-tdnn 的。

1.3 训练

Q: 使用 example/aishell/asr0/ 训练出来的模型，对于识别不准确的内容，可以通过哪些方法进行优化以提升准确率？

A: 【补充中】#1458

1.4 CLI/Server

Q: 问什么 ASR CLI 需要显示 -y 下？

paddlespeech asr --lang zh --input 754d7ec5fd104e2b9613932add02a90f.job -d -y

A：ASR 的模型是固定采样率的，而用户输入的wav和模型的采样率不一致是需要resample。这个操作默认是不会触发的，需要用户保证采样率和模型的一致。加上-y后，CLI会做自动做resample处理。

1.5 补充资料

Q: 语音技术如何入门？

A: 推荐 PaddleSpeech 在aistudio上的课程，飞桨PaddleSpeech语音技术课程

Q: PaddleSpeech 直播课回放：

A: 直播会放在飞桨PaddleSpeech语音技术课程，2022年5月直播课程回访整理中，整理完毕后更新

往期直播课程：

声音分类 & 语音识别
 语音翻译
 语音合成

PaddleSpeech实战问题

2.1 PaddleSpeech repo

Q: PaddleSpeech repo 各分支作用

A: 【补充中】

Q: PaddleSpeech框架图

A: 【补充中】

2.2 数据

Q: .interval 文件 .TextGrid 是需要自己写脚本生成还是通过 Praat 手工生成的？

A: 如果是用MFA或者其它的一些自动对齐工具，都是得到音素和对应的时间戳之后，通过脚本转成的这种格式，本质上也只是一个文本文件，按照指定的格式生成（MFA内部已经写好了，直接输出.TextGrid）；人工标注音素对齐信息，一般是用 Praat做标注工具，Praat可以直接将标注结果导出成 .interval 或者 TextGrid的格式。#1636

Issue 内容汇总

❣️❣️【🔝长期置顶】常见使用问题合集（总入口）❣️❣️
aishell model convert to onnx model error
流式asr服务启动报错AttributeError: num_decoding_left_chunks
[TTS]特殊的句子及标点导致报错
 语音识别报错
 [TTS]当文本中包含全角数字的时候会报错
 ❗❗[Server]run() got an unexpected keyword argument 'debug'
[S2T] U2模型训练暂停问题
 [S2T]离线ASR识别支持输出时间戳吗？
[TTS]静态模型转 PaddleLite 失败问题汇总
 [OpenCL] pwg_baker_static_0.4 fail
安装paddlespeech报错
 [S2T]基于aishell数据训练的U2模型（transformer）的CER达到23.9%
❗❗[Server]declarative() got an unexpected keyword argument 'property'
[TTS]空白文本、文本中连续多个符号合成语音报错，无法正常合成
 [TTS]PaddleLite&MNN离线推理转换问题
 语音识别时能否保留数字
 标点预测 _clean_text() 函数第二个 sub 多余了
 💫 安装 develop 版本的 paddlespeech
DeepSpeech2 使用导出模型pdmodel和pdiparams测试时预测时间比使用cfg和ckpt预测的还要慢很多
 💡 TTS 小样本 finetune / 声音克隆问题汇总
 请问是否有同时支持中英文的ASR模型
 [TTS]英文数据 MFA 之前过滤标点，防止标点和单词黏连导致 OOV 变成 spn
with s-norm or without s-norm ???
❣️ [TTS] MFA 报错 No such file or directory: "xx/xx/xx/train/mfcc/raw_mfcc.0.scp"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PaddleSpeech FAQ Document #1989

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

PaddleSpeech FAQ Document #1989

iftaken May 30, 2022 Collaborator

FAQ

1. 通用问题

1.1 安装

Q：PaddleSpeech windows,Mac 安装问题

Q: 关于windows电脑的运行example

Q: libsndfile install

1.2 模型

Q: conformer_wenetspeech 对部分专业词汇识别效果不佳，模型如何优化？

Q: paddlespeech asr 识别音频超出60s 后返回结果为空

Q: deepspeech2online_aishell的识别效果很差，实时识别的效果无法达到conformer_wenetspeech的效果，请问有什么方法可以优化？

Q: 需要进行语音流的实时识别，应该怎么调用？

Q：怎么换语音合成那个基于标贝训练出来的声纹模型

1.3 训练

Q: 使用 example/aishell/asr0/ 训练出来的模型，对于识别不准确的内容，可以通过哪些方法进行优化以提升准确率？

1.4 CLI/Server

Q: 问什么 ASR CLI 需要显示 -y 下？

1.5 补充资料

Q: 语音技术如何入门 ？

Q: PaddleSpeech 直播课回放：

PaddleSpeech实战问题

2.1 PaddleSpeech repo

Q: PaddleSpeech repo 各分支作用

Q: PaddleSpeech框架图

2.2 数据

Q: .interval 文件 .TextGrid 是需要自己写脚本生成还是通过 Praat 手工生成的？

Issue 内容汇总

Replies: 0 comments

iftaken
May 30, 2022
Collaborator

Q: 语音技术如何入门？