python调用中如果发现时间戳普遍不准确如何调整 #1394

Jackiexiao · 2024-01-08T16:01:32Z

Jackiexiao
Jan 8, 2024

时间戳结束时间大部分停在语音片段上，而不是静音处，如图：

使用模型： damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
调用方式： modelscope pipeline
测试音频：test-funasr.wav.zip

update: 是时间戳不准，不是 vad 不准

试图修改 ~/.cache/modelscope/hub/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/vad.yaml 中的两个参数

speech_noise_thres: 改到 -1
max end silence ：增加到 6s
但问题没有改善，大部分句子结尾时间戳依然停在语音上，而不是在静音处

VAD常用参数调整说明(参考:/vad.yaml文件)
尾部连续检测到多长时间静音进行尾点判停，参数范围500ms~6000ms，默认值800ms(该值过低容易出现语音提前max end silence time:
截断的情况)。
speech_noise_thres:speech的得分减去noise的得分大于此值则判断为speech，参数范围:(-1,1)取值越趋于-1，噪音被误判定为语音的概率越大，FA越高
。取值越趋于+1，语音被误判定为噪音的概率越大，Pmiss越高
。通常情况下，该值会根据当前模型在长语音测试集上的效果取balance

Answered by R1ckShi

Jan 17, 2024

@ericg108 @Jackiexiao @fclearner
sentence信息中输出的不是vad的子句时间戳，是根据标点切分出的子句中的字级别时间戳的首字开始和尾字结束，所以调整vad的参数是无效的，这里推荐两种方式 1）如果你需要的是子句的时间戳，可以输出一下vad的结果，funasr/auto/auto_model.py:269；2）如果你反馈的是字级别时间戳不准确，可以尝试调整funasr/utils/timestamp_tools.py ts_prediction_lfr6_standard这个函数中的MAX_TOKEN_DURATION，例如本case中往往是尾点早结束，可以调大。这里使用没有暴露接口的hardcode是因为cif时间戳预测往往有这样的badcase，调整难度比较大。

View full answer

lyblsgo · 2024-01-09T01:45:18Z

lyblsgo
Jan 9, 2024
Maintainer

It appears that 'start' and 'end' are timestamp predictions from a model, not the results of a VAD (Voice Activity Detection) model.

0 replies

fclearner · 2024-01-09T03:11:20Z

fclearner
Jan 9, 2024

It appears that 'start' and 'end' are timestamp predictions from a model, not the results of a VAD (Voice Activity Detection) model.

大佬，有参数可以调吗，我试了下cif_predictor的参数，感觉调了没啥效果，主要是调小noise_threshold2、tail_threshold，没变化

0 replies

Jackiexiao · 2024-01-09T03:14:39Z

Jackiexiao
Jan 9, 2024
Author

thx for reply, I had changed issue title. time stamp predictor params:

~/.cache/modelscope/hub/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/config.yaml

predictor: cif_predictor_v3
predictor_conf:
    idim: 512
    threshold: 1.0
    l_order: 1
    r_order: 1
    tail_threshold: 0.45
    smooth_factor2: 0.25
    noise_threshold2: 0.01
    upsample_times: 3
    use_cif1_cnn: false
    upsample_type: cnn_blstm

0 replies

ericg108 · 2024-01-10T07:18:22Z

ericg108
Jan 10, 2024

我也发现了同样的问题，请问大佬解决了吗 @Jackiexiao

0 replies

Jackiexiao · 2024-01-10T07:30:00Z

Jackiexiao
Jan 10, 2024
Author

没有，现在不使用这个时间戳~

0 replies

ericg108 · 2024-01-11T03:25:40Z

ericg108
Jan 11, 2024

It appears that 'start' and 'end' are timestamp predictions from a model, not the results of a VAD (Voice Activity Detection) model.

@lyblsgo 请问这个可以通过其他config来调整优化吗，谢谢

0 replies

ericg108 · 2024-01-16T06:19:37Z

ericg108
Jan 16, 2024

@lyblsgo 是否可以调节vad的参数，可以把长视频切得更碎，这样时间戳的对齐问题就会好很多呢

0 replies

ericg108 · 2024-01-16T07:33:19Z

ericg108
Jan 16, 2024

@lyblsgo 我看短的（比如2分钟内）音视频的时间戳相对准的，而vad的配置里也设置max_single_segment_time为60s了，也就是说vad分段的片段最大只有60s，那是不是说明vad切分的每个片段的起始时间、结束时间的时间戳和paraformer预测的时间戳在叠加的时候计算出现了偏差？请大佬指点下迷津啊⊙(・◇・)？

0 replies

R1ckShi · 2024-01-17T09:29:47Z

R1ckShi
Jan 17, 2024
Maintainer

@ericg108 @Jackiexiao @fclearner
sentence信息中输出的不是vad的子句时间戳，是根据标点切分出的子句中的字级别时间戳的首字开始和尾字结束，所以调整vad的参数是无效的，这里推荐两种方式 1）如果你需要的是子句的时间戳，可以输出一下vad的结果，funasr/auto/auto_model.py:269；2）如果你反馈的是字级别时间戳不准确，可以尝试调整funasr/utils/timestamp_tools.py ts_prediction_lfr6_standard这个函数中的MAX_TOKEN_DURATION，例如本case中往往是尾点早结束，可以调大。这里使用没有暴露接口的hardcode是因为cif时间戳预测往往有这样的badcase，调整难度比较大。

0 replies

R1ckShi · 2024-01-17T09:37:56Z

R1ckShi
Jan 17, 2024
Maintainer

MAX_TOKEN_DURATION=12时的前两句：
{'text': '嗨你好，', 'start': 2910, 'end': 4130, 'timestamp': [[2910, 3150], [3630, 3870], [3890, 4130]], 'spk': 0}, {'text': '我是瑞西花蕊的蕊，', 'start': 4130, 'end': 7330, 'timestamp': [[4630, 4830], [4830, 5010], [5010, 5230], [5230, 5615], [6570, 6810], [6810, 6970], [6970, 7090], [7090, 7330]], 'spk': 0}
MAX_TOKEN_DURATION=16时的前两句：
{'text': '嗨你好，', 'start': 2910, 'end': 4210, 'timestamp': [[2910, 3230], [3630, 3890], [3890, 4210]], 'spk': 0}, {'text': '我是瑞西花蕊的蕊，', 'start': 4210, 'end': 7410, 'timestamp': [[4630, 4830], [4830, 5010], [5010, 5230], [5230, 5615], [6570, 6810], [6810, 6970], [6970, 7090], [7090, 7410]], 'spk': 0}

CIF时间戳在理论上无法精准的预测字尾尤其是尾字的尾点，只能调整最大token时长的经验值。

其他与时间戳有关的问题也欢迎反馈。

2 replies

huahaoya7737 Jul 12, 2024

你好我想问一下为什么{'text': '茶的现在很多顾客的话都是韧塞的，', 'start': 2670, 'end': 2770, 'timestamp': [[70, 270], [270, 510], [1050, 1230], [1230, 1350], [1350, 1510], [1510, 1630], [1630, 1810], [1810, 1970], [1970, 2050], [2050, 2150], [2150, 2270], [2270, 2350], [2350, 2490], [2490, 2670], [2670, 2770]], 'spk': 0} 我在运行的过程中 start的值是最后一个时间戳的第一维而不是第一个时间戳的第一维

R1ckShi Jul 15, 2024
Maintainer

这是哪个模型

ericg108 · 2024-01-18T01:47:34Z

ericg108
Jan 18, 2024

@R1ckShi 感谢回复！
我这边关心的是句子的时间戳。您推荐的第一种方式，是说输出vad结果作为实际的时间戳吗，那如果vad切出来的片段里包含了多个句子，多个句子的时间戳是不是可能还是有偏移的？
另外，我是基于offline的funasr-runtime-sdk-cpu-0.4.1部署的，这里面有办法输出vad的信息吗，谢谢！

0 replies

R1ckShi · 2024-01-18T08:14:39Z

R1ckShi
Jan 18, 2024
Maintainer

@R1ckShi 感谢回复！我这边关心的是句子的时间戳。您推荐的第一种方式，是说输出vad结果作为实际的时间戳吗，那如果vad切出来的片段里包含了多个句子，多个句子的时间戳是不是可能还是有偏移的？另外，我是基于offline的funasr-runtime-sdk-cpu-0.4.1部署的，这里面有办法输出vad的信息吗，谢谢！

vad时间戳不会有这样的偏移，上面说的偏移是时间戳预测模型在vad切出来的有效时长内预测字级别时间戳时的问题。
在sdk中获取vad结果应该需要修改服务端代码找到vad模型的推理结果并输出。

0 replies

ericg108 · 2024-01-22T07:13:19Z

ericg108
Jan 22, 2024

@R1ckShi 谢谢！这里是不是做一个后处理呢？比如vad切出来的时长是3分钟，但预测的时间戳结果时长是3分20秒，那是不是可以把这多的20秒均匀地在字或句的预测结果里均匀地减掉，就能保证时长是对齐的，也不会让后面的片段的时间戳也因此后移了呢。
这样vad切出来的子句都是对齐的，整个视频也能做到对齐了

0 replies

R1ckShi · 2024-01-22T08:38:27Z

R1ckShi
Jan 22, 2024
Maintainer

字级别的时间戳是基于vad切出来的一个个子句进行的，肯定在vad时间戳以内，上面提到的cif时间戳的偏移不会跨子句积累，所以不会有你说的这个问题，如果有就是相关代码的bug，可以反馈。

0 replies

lfgogogo · 2024-02-01T07:49:21Z

lfgogogo
Feb 1, 2024

借楼问个问题，请问这个时间戳如何转换为时间(s)或者音频向量的index呢

0 replies

R1ckShi · 2024-02-02T08:37:25Z

R1ckShi
Feb 2, 2024
Maintainer

借楼问个问题，请问这个时间戳如何转换为时间(s)或者音频向量的index呢

单位是毫秒，/1000为秒，*16为16k音频的采样点。

0 replies

lfgogogo · 2024-02-02T08:41:49Z

lfgogogo
Feb 2, 2024

了解，比较奇怪的是，我用librosa读音频出来的长度和用soundfile读出来的音频时长不一样，用soundfile读出来的音频才能和时间戳时间对上，总之，问题解决了。感谢～

…

---原始邮件--- 发件人: "Shi ***@***.***> 发送时间: 2024年2月2日(周五) 下午4:37 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [alibaba-damo-academy/FunASR] paraformer-large-vad-punc_asr_nat-zh 模型时间戳不准确 (Issue #1226) 借楼问个问题，请问这个时间戳如何转换为时间(s)或者音频向量的index呢单位是毫秒，/1000为秒，*16为16k音频的采样点。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

2 replies

alephpi Jun 15, 2024

也许是因为librosa默认sr=22050hz，采样率不匹配导致的

luzhenting Jul 18, 2024

你好，请问下是怎么解决的？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

python调用中如果发现时间戳普遍不准确如何调整 #1394

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 17 comments 4 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

python调用中如果发现时间戳普遍不准确如何调整 #1394

Replies: 17 comments · 4 replies

lyblsgo Jan 9, 2024 Maintainer

Jackiexiao Jan 9, 2024 Author

Jackiexiao Jan 10, 2024 Author

R1ckShi Jan 17, 2024 Maintainer

R1ckShi Jan 17, 2024 Maintainer

R1ckShi Jul 15, 2024 Maintainer

R1ckShi Jan 18, 2024 Maintainer

R1ckShi Jan 22, 2024 Maintainer

R1ckShi Feb 2, 2024 Maintainer

Replies: 17 comments 4 replies

lyblsgo
Jan 9, 2024
Maintainer

Jackiexiao
Jan 9, 2024
Author

Jackiexiao
Jan 10, 2024
Author

R1ckShi
Jan 17, 2024
Maintainer

R1ckShi
Jan 17, 2024
Maintainer

R1ckShi Jul 15, 2024
Maintainer

R1ckShi
Jan 18, 2024
Maintainer

R1ckShi
Jan 22, 2024
Maintainer

R1ckShi
Feb 2, 2024
Maintainer