You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
FAQ
PaddleSpeech 收集整理开源以来在 issue和用户群里的常见问题,并给出了简要解答,为后续开发者提供一些参考。本文档的回答主要依赖于项目实践,难免会有遗漏之处,也希望有识之士帮忙补充与修正,万分感谢。
对相关技术原理感兴趣的同学也可以观看我们在 aistudio 上的课程飞桨PaddleSpeech语音技术课程
FAQ
1. 通用问题
2. PaddleSpeech实战问题
1. 通用问题
1.1 安装
Q:PaddleSpeech windows,Mac 安装问题
A:PaddleSpeech 在windows,Mac安装问题可见#1195
Q: 关于windows电脑的运行example
A: 【补充中】
Q: libsndfile install
A: please see http://www.mega-nerd.com/libsndfile/#Download
1.2 模型
Q: conformer_wenetspeech 对部分专业词汇识别效果不佳,模型如何优化?
A: 这部分需要后续paddlespeech 支持WFST 的on the fly 功能,从解码器方面进行解决。目前 wenetspeech 部分的example 还没有建立完整, 可以参考 example/aishell/asr1 的训练过程,对识别出错的音频进行 fine tune。#1807
Q: paddlespeech asr 识别音频超出60s 后返回结果为空
A: 【补充中】#1780
Q: deepspeech2online_aishell的识别效果很差,实时识别的效果无法达到conformer_wenetspeech的效果,请问有什么方法可以优化?
A: 流式的 conformer_wenetspeech 模型正在训练中,如果效果好的话,会公布出来。 conformer_online_multicn 和 deepspeech2online_aishell 使用的训练数据集没有 conformer_wenetspeech 大, 所以鲁棒性弱一些,建议在安静环境下使用。#1753
Q: 需要进行语音流的实时识别,应该怎么调用?
A: 可使用PP-ASR进行语音流式识别
Q:怎么换语音合成那个基于标贝训练出来的声纹模型
A:参看 https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/examples/aishell3/vc0/README.md#pretrained-ge2e-model ,把 ge2e 生成 emb 的过程替换成 ecapa-tdnn 的。
1.3 训练
Q: 使用 example/aishell/asr0/ 训练出来的模型,对于识别不准确的内容,可以通过哪些方法进行优化以提升准确率?
A: 【补充中】#1458
1.4 CLI/Server
Q: 问什么 ASR CLI 需要显示 -y 下?
A:ASR 的模型是固定采样率的,而用户输入的wav和模型的采样率不一致是需要resample。这个操作默认是不会触发的,需要用户保证采样率和模型的一致。加上-y后,CLI会做自动做resample处理。
1.5 补充资料
Q: 语音技术如何入门 ?
A: 推荐 PaddleSpeech 在aistudio上的课程,飞桨PaddleSpeech语音技术课程
Q: PaddleSpeech 直播课回放:
A: 直播会放在飞桨PaddleSpeech语音技术课程,2022年5月直播课程回访整理中,整理完毕后更新
往期直播课程:
声音分类 & 语音识别
语音翻译
语音合成
PaddleSpeech实战问题
2.1 PaddleSpeech repo
Q: PaddleSpeech repo 各分支作用
A: 【补充中】
Q: PaddleSpeech框架图
A: 【补充中】
2.2 数据
Q: .interval 文件 .TextGrid 是需要自己写脚本生成还是通过 Praat 手工生成的?
A: 如果是用MFA或者其它的一些自动对齐工具,都是得到音素和对应的时间戳之后,通过脚本转成的这种格式,本质上也只是一个文本文件,按照指定的格式生成(MFA内部已经写好了,直接输出.TextGrid);人工标注音素对齐信息,一般是用 Praat做标注工具,Praat可以直接将标注结果导出成 .interval 或者 TextGrid的格式。#1636
Issue 内容汇总
❣️❣️【🔝长期置顶】常见使用问题合集(总入口)❣️❣️
aishell model convert to onnx model error
流式asr服务启动报错AttributeError: num_decoding_left_chunks
[TTS]特殊的句子及标点导致报错
语音识别报错
[TTS]当文本中包含全角数字的时候会报错
❗❗[Server]run() got an unexpected keyword argument 'debug'
[S2T] U2模型训练暂停问题
[S2T]离线ASR识别支持输出时间戳吗?
[TTS]静态模型转 PaddleLite 失败问题汇总
[OpenCL] pwg_baker_static_0.4 fail
安装paddlespeech报错
[S2T]基于aishell数据训练的U2模型(transformer)的CER达到23.9%
❗❗[Server]declarative() got an unexpected keyword argument 'property'
[TTS]空白文本、文本中连续多个符号合成语音报错,无法正常合成
[TTS]PaddleLite&MNN离线推理转换问题
语音识别时能否保留数字
标点预测 _clean_text() 函数第二个 sub 多余了
💫 安装 develop 版本的 paddlespeech
DeepSpeech2 使用导出模型pdmodel和pdiparams测试时预测时间比使用cfg和ckpt预测的还要慢很多
💡 TTS 小样本 finetune / 声音克隆问题汇总
请问是否有同时支持中英文的ASR模型
[TTS]英文数据 MFA 之前过滤标点,防止标点和单词黏连导致 OOV 变成 spn
with s-norm or without s-norm ???
❣️ [TTS] MFA 报错 No such file or directory: "xx/xx/xx/train/mfcc/raw_mfcc.0.scp"
Beta Was this translation helpful? Give feedback.
All reactions