ASR问题

#4
by BarryPan12138 - opened

1.pretrain_base这个预训练模型是基于什么模型训练的,完全没有写清楚。
2.能下载的动只有pt文件,没有告诉基于什么模型微调的,pt文件就只是一个摆设
3.完全没有案例

Tele-AI org

1.pretrain_base这个预训练模型是基于什么模型训练的,完全没有写清楚。
2.能下载的动只有pt文件,没有告诉基于什么模型微调的,pt文件就只是一个摆设
3.完全没有案例

模型是data2vec2结构,在代码里有体现。另外就算不知道模型结构,按照说明也可以正常使用的。建议看眼ModelCard或者GitHub,里面都写了推理和finetune的方法

ModelCard只展示了如何训练的步骤,并没有展示如何将一段音频输出为普通话文本,是因为这个模型并不完全开源可用吗?

Tele-AI org

ModelCard只展示了如何训练的步骤,并没有展示如何将一段音频输出为普通话文本,是因为这个模型并不完全开源可用吗?

  1. 模型是完全开源可用的
  2. ModelCard中【预训练模型微调】下的【解码】就是ASR使用方式。另外,GitHub上把使用微调好的模型做ASR任务,单独抽出来了一个介绍 https://github.com/Tele-AI/TeleSpeech-ASR?tab=readme-ov-file#%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E6%B5%81%E7%A8%8B%E7%A4%BA%E4%BE%8B
  3. pretrain版模型使用无标注语音训的,所以没法直接执行ASR任务,只有开源的finetune版模型,或者自己finetune的模型可以。

好的好的,感谢回答

Sign up or log in to comment