这个音接入对语音格式作何要求?


(68377958) #1

这个音接入对语音格式作何要求? 是单声道,立体声音频还是多轨音频。声音采样率要求多高?多少位音频数据(16bit还是24bit)。


(medea) #2

目前我们系统有对接过48k/32bit 4mic, 6mic, 8mic的接入方式。


(qijiasi001) #3

如果直接对接云端不通过我们的前端降噪模块的话,使用16K采样率,16bit,1路的PCM/OPUS编码的音频文件。

如果使用前端降噪,则需要按照mic阵列的参数完成一个配置文件,前端降噪支持4,6,8路,48K,32bit的PCM语音流。


(68377958) #4

请问,mic阵列的参数配置文件如何配置?另外,如果是4MIC信号,请问摆放位置和MICphone参数是否有要求?


(qijiasi001) #5

我们这个月会提供一个详细的文档来描述mic阵列的配置,除此之外下周会有一系列文章从硬件到软件介绍我们前端语音降噪模块的集成和使用。

现在可以先参考github上面BlackSiren的api文档中的一部分描述,这部分描述目前还比较简单,后续会详细介绍。

摆放位置和参数非常有关系,并且影响降噪,寻向,激活等一系列效果。

大致上在决定mic数目后,最重要的是根据声道编号给出每个mic的坐标位置,单位为m,这里比较麻烦的是必须确定坐标系原点位置,一般是具体产品或开发板的中心。

另外比较重要的是AEC参考音源,一般2个通道,可以采用软件回环或者硬件外部接入的方式。

配置文件里面通常通过X+Y来描述mic阵列的mic数目,其中X的意思是物理mic数目,Y是AEC参考通道数目。


(68377958) #6

mic阵列的硬件方案会是统一标准设计吗?还是只需要遵循接口定义即可? 降噪,寻向算法是跑在android上的还是 Linux?


(medea) #7

硬件会提供多种方案选择。软件都是通过标准ALSA接入。目前是包装在android的native层。我们提供了HAL层的实现。Linux版本还在开发中。


(flint.wb) #8

语音识别率有测试数据吗?


(garl) #9

通用领域的整体识别率在90%以上,在环境良好的情况下可以达到95%以上,具体数据,因为环境不同会产生差异。


(daniel.wu) #10

单位mm


(flint.wb) #11

你这个是指在远场环境下的吧?我想了解抛开远场,假设采用近场模式,环境比较安静,普通话也基本标准的情况下,语音的识别率会是多少?


(gaopeng) #12

近场识别的难度要比远场环境小。如果环境比较安静,普通话还标准,识别率会比远场高。另外,识别率是和具体的应用领域有关,针对领域的优化也能显著提升识别率。