openvoice api asr结果是英文


(baiban) #1

wav是由微信的amr转换的

wav已经转换到16k

wav文件地址:百度盘

参数确实设置的zh

我说的话是: 白先生

返回的结果是 :five senses


(yitang) #2

应该是声音太轻了,用大声点的语音试下。
可以参照github的语音样例
中文的asr也会识别出一些简单的英文词句。


(baiban) #3

提高音量后还是不行 是因为不够清晰吗?

提高音量后

识别到: by shane

在上边的基础上再次提高了一倍

识别到:what sense


(gaopeng) #4

提高音量之前和之后,这句识别都应该是对的,“白先生”。我们昨天升级了识别引擎,我再确认一下是否升级完毕。


(gaopeng) #5

另外,我看到了你提交的两个wav文件,声音在4.5k左右以上的频率信息都没有了,这有可能是微信录音的问题。正常的16k录音能够保存0-8k的频率信息。


(baiban) #6

请问查看频率信息的软件是什么,这块我不太懂,应该如何转换到4.5k以上的?

我这里使用的是 java的 jave 是基于 ffmpeg 的


(gaopeng) #7

用Adobe的Audition软件可以看频率信息。4.5k以上频率信息丢失,我估计是微信本身的问题,因为微信的语音是用来给人听的,不是针对语音识别的。目前Rokid的语音识别引擎是针对0-8k完整的语音信息优化的,所以这里可能会有一些性能问题。


(baiban) #8

如果直接转换到 0-8k 的话 应该在 ffmpeg 里设置什么参数?

目前是这样的

ffmpeg -i D:\333.amr -vn -acodec pcm_s16le -ac 1 -ar 16000 -f wav -y D:\333.wav

(gaopeng) #9

你上面转换的两条wav都是正确的格式。高频的信息丢失是在录音的时候就发生了,后续是无法恢复的。


(baiban) #10

微信amr转换的 wav文件

百度盘

说的是 抹茶星冰乐 识别到 我擦身兵了


(gaopeng) #11

let me see see …