(简体中文|English)
您可以在本协议的条件下自由使用、复制、修改和分享FunASR模型。在使用、复制、修改和分享FunASR模型时,您应当标明模型来源和作者信息。您应当在[FunASR软件]中保留相关模型的名称。完整的模型许可证请参见 模型许可协议
模型用法参考文档
这里我们提供了在不同数据集上预训练的模型。模型和数据集的详细信息可在 ModelScope中找到.
模型名字 | 语言 | 训练数据 | 词典大小 | 参数量 | 非实时/实时 | 备注 |
---|---|---|---|---|---|---|
Paraformer-large | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 输入wav文件持续时间不超过20秒 |
Paraformer-large长音频版本 | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 能够处理任意长度的输入wav文件 |
Paraformer-large-en长音频版本 | 英文 | 阿里巴巴语音数据(50000小时) | 10020 | 220M | 非实时 | 能够处理任意长度的输入wav文件 |
Paraformer-large-Spk | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 在长音频功能的基础上添加说话人识别功能 |
Paraformer-large热词 | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 基于激励增强的热词定制支持,可以提高热词的召回率和准确率,输入wav文件持续时间不超过20秒 |
Paraformer | 中文和英文 | 阿里巴巴语音数据(50000小时) | 8358 | 68M | 离线 | 输入wav文件持续时间不超过20秒 |
Paraformer实时 | 中文和英文 | 阿里巴巴语音数据 (50000hours) | 8404 | 68M | 实时 | 能够处理流式输入 |
Paraformer-large实时 | 中文和英文 | 阿里巴巴语音数据 (60000hours) | 8404 | 220M | 实时 | 能够处理流式输入 |
Paraformer-tiny | 中文 | 阿里巴巴语音数据 (200hours) | 544 | 5.2M | 非实时 | 轻量级Paraformer模型,支持普通话命令词识别 |
Paraformer-aishell | 中文 | AISHELL (178hours) | 4234 | 43M | 非实时 | 学术模型 |
ParaformerBert-aishell | 中文 | AISHELL (178hours) | 4234 | 43M | 非实时 | 学术模型 |
Paraformer-aishell2 | 中文 | AISHELL-2 (1000hours) | 5212 | 64M | 非实时 | 学术模型 |
ParaformerBert-aishell2 | 中文 | AISHELL-2 (1000hours) | 5212 | 64M | 非实时 | 学术模型 |
模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
---|---|---|---|---|---|---|
UniASR | 中文和英文 | 阿里巴巴语音数据 (60000 小时) | 8358 | 100M | 实时 | 流式离线一体化模型 |
UniASR-large | 中文和英文 | 阿里巴巴语音数据 (60000 小时) | 8358 | 220M | 非实时 | 流式离线一体化模型 |
UniASR English | 英文 | 阿里巴巴语音数据 (10000 小时) | 1080 | 95M | 实时 | 流式离线一体化模型 |
UniASR Russian | 俄语 | 阿里巴巴语音数据 (5000 小时) | 1664 | 95M | 实时 | 流式离线一体化模型 |
UniASR Japanese | 日语 | 阿里巴巴语音数据 (5000 小时) | 5977 | 95M | 实时 | 流式离线一体化模型 |
UniASR Korean | 韩语 | 阿里巴巴语音数据 (2000 小时) | 6400 | 95M | 实时 | 流式离线一体化模型 |
UniASR Cantonese (CHS) | 粤语(简体中文) | 阿里巴巴语音数据 (5000 小时) | 1468 | 95M | 实时 | 流式离线一体化模型 |
UniASR Indonesian | 印尼语 | 阿里巴巴语音数据 (1000 小时) | 1067 | 95M | 实时 | 流式离线一体化模型 |
UniASR Vietnamese | 越南语 | 阿里巴巴语音数据 (1000 小时) | 1001 | 95M | 实时 | 流式离线一体化模型 |
UniASR Spanish | 西班牙语 | 阿里巴巴语音数据 (1000 小时) | 3445 | 95M | 实时 | 流式离线一体化模型 |
UniASR Portuguese | 葡萄牙语 | 阿里巴巴语音数据 (1000 小时) | 1617 | 95M | 实时 | 流式离线一体化模型 |
UniASR French | 法语 | 阿里巴巴语音数据 (1000 小时) | 3472 | 95M | 实时 | 流式离线一体化模型 |
UniASR German | 德语 | 阿里巴巴语音数据 (1000 小时) | 3690 | 95M | 实时 | 流式离线一体化模型 |
UniASR Persian | 波斯语 | 阿里巴巴语音数据 (1000 小时) | 1257 | 95M | 实时 | 流式离线一体化模型 |
UniASR Burmese | 缅甸语 | 阿里巴巴语音数据 (1000 小时) | 696 | 95M | 实时 | 流式离线一体化模型 |
UniASR Hebrew | 希伯来语 | 阿里巴巴语音数据 (1000 小时) | 1085 | 95M | 实时 | 流式离线一体化模型 |
UniASR Urdu | 乌尔都语 | 阿里巴巴语音数据 (1000 小时) | 877 | 95M | 实时 | 流式离线一体化模型 |
UniASR Turkish | 土耳其语 | 阿里巴巴语音数据 (1000 小时) | 1582 | 95M | 实时 | 流式离线一体化模型 |
模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
---|---|---|---|---|---|---|
Conformer | 中文 | AISHELL (178hours) | 4234 | 44M | 非实时 | 输入wav文件持续时间不超过20秒 |
Conformer | 中文 | AISHELL-2 (1000hours) | 5212 | 44M | 非实时 | 输入wav文件持续时间不超过20秒 |
Conformer | 英文 | 阿里巴巴语音数据 (10000hours) | 4199 | 220M | 非实时 | 输入wav文件持续时间不超过20秒 |
模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
---|---|---|---|---|---|---|
MFCCA | 中文 | AliMeeting、AISHELL-4、Simudata (917hours) | 4950 | 45M | 非实时 | 输入音频的持续时间不超过20秒,输入音频的通道数不超过8通道。 |
模型名字 | 训练数据 | 模型参数 | Sampling Rate | 备注 |
---|---|---|---|---|
FSMN-VAD | 阿里巴巴语音数据 (5000hours) | 0.4M | 16000 | |
FSMN-VAD | 阿里巴巴语音数据 (5000hours) | 0.4M | 8000 |
模型名字 | 语言 | 训练数据 | 模型参数 | Vocab Size | 非实时/实时 | 备注 |
---|---|---|---|---|---|---|
CT-Transformer-Large | 中文和英文 | Alibaba Text Data(100M) | 1.1G | 471067 | 非实时 | 支持中英文标点大模型 |
CT-Transformer | 中文和英文 | Alibaba Text Data(70M) | 291M | 272727 | 非实时 | 支持中英文标点 |
CT-Transformer-Realtime | 中文和英文 | Alibaba Text Data(70M) | 288M | 272727 | 实时 | VAD点实时标点 |
模型名字 | 训练数据 | 模型参数 | 词典大小 | 备注 |
---|---|---|---|---|
Transformer | 阿里巴巴语音数据 | 57M | 8404 |
模型名字 | 训练数据 | 模型参数 | Number Speaker | 备注 |
---|---|---|---|---|
Xvector | CNCeleb (1,200 小时) | 17.5M | 3465 | Xvector, 中文 |
Xvector | CallHome (60 小时) | 61M | 6135 | Xvector,英文 |
模型名字 | 训练数据 | 模型参数 | 备注 |
---|---|---|---|
SOND | AliMeeting (120 小时) | 40.5M | 中文 |
SOND | CallHome (60 小时) | 12M | 英文 |
模型名字 | 语言 | 训练数据 | 模型参数 | 备注 |
---|---|---|---|---|
TP-Aligner | 中文 | 阿里巴巴语音数据 (50000hours) | 37.8M | 时间戳模型,中文 |
模型名字 | 语言 | 模型参数 | 备注 |
---|---|---|---|
English | EN | 1.54M | ITN,语音识别文本后处理 |
Russian | RU | 17.79M | ITN,语音识别文本后处理 |
Japanese | JA | 6.8M | ITN,语音识别文本后处理 |
Korean | KO | 1.28M | ITN,语音识别文本后处理 |
Indonesian | ID | 2.06M | ITN,语音识别文本后处理 |
Vietnamese | VI | 0.92M | ITN,语音识别文本后处理 |
Tagalog | TL | 0.65M | ITN,语音识别文本后处理 |
Spanish | ES | 1.32M | ITN,语音识别文本后处理 |
Portuguese | PT | 1.28M | ITN,语音识别文本后处理 |
French | FR | 4.39M | ITN,语音识别文本后处理 |
German | GE | 3.95M | ITN,语音识别文本后处理 |