乐鑫语音唤醒方案客户定制流程

[English]

唤醒词定制服务

乐鑫提供 语音唤醒词定制 服务，详情如下：

“HI乐鑫”，“你好小鑫” 等官方开放的唤醒词，客户可直接商用
- 同时，乐鑫会逐渐开放更多可免费商用的唤醒词
除官方开放的唤醒词，乐鑫还可为客户提供 唤醒词定制服务，主要分如下两种情况：
- 客户提供唤醒词语料
  需要提供大于 2 万条合格的语料，具体语料需求见训练语料要求
  
  语料提供给乐鑫后，需要 2～3 周进行模型训练及调优
  
  根据量级收取少量模型定制费用
- 如果客户不提供唤醒词语料
  所有训练语料由乐鑫采集提供
  
  乐鑫需要一定时间收集语料，具体需要分别讨论；语料准备好后，需要 2～3 周进行模型训练及调优
  
  根据量级收取少量模型定制费用，语料采集费用另算
- 定制的具体时间和费用取决于 唤醒词定制的数量 以及 产品量产数量，详情请联系乐鑫销售人员。
对于乐鑫唤醒词模型：
- 目前单个模型最多支持 5 个及以内的唤醒词识别
- 每个唤醒词通常由 3-6 音节组成，比如 “hi乐鑫”，“Alexa”，“小爱同学”，“你好天猫”等
- 可多个唤醒模型一起使用，具体需根据客户应用的资源消耗确定
- 更多详情，请见 WakeNet 唤醒词模型

训练语料要求

客户可自备训练语料或向第三方采购，对于语料有以下要求：

语料音频格式要求
- 采样率（sample rate）：16 KHz
- 编码（encoding）：16-bit signed int
- 通道数（channel）：mono
- 格式：wav
语料采集要求
- 采样人数：最好样本可以大于 500 人，其中男女，年龄分布均衡，儿童不小于 100 人
- 采样环境：环境噪声低（< 40 dB），建议在语音室等专业环境下录制
- 录制设备：高保真麦克风
- 录制场景：
  
  距离麦克风 1 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速；
  
  距离麦克风 3 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速
- 样本命名需体现样本信息：如 female_age_fast_id.wav 或有单独表格记录每个样本的年龄，性别等信息

硬件设计与测试服务

语音唤醒效果与硬件设计以及腔体结构有很大关系。因此，请认真阅读以下内容：

硬件设计要求
- 各类语音音箱类设计：乐鑫可提供 原理图／PCB 等设计参考，客户可以根据自身具体需求设计修改，设计完毕后，乐鑫还可提供审阅服务，避免常见设计问题。
- 腔体结构：建议有专门的声学人员参与设计，乐鑫不提供 ID 设计类参考，客户可参考市面上的主流音箱腔体设计，例如天猫精灵、小度音箱、谷歌音箱等。
硬件设计好后，客户可通过以下简单测试，验证硬件设计效果（下列测试都是基于语音室环境，客户可以根据自身测试环境做调整）
- 录音测试，验证 mic、codec 录音增益以及失真情况
  音源 90 dB，距离 0.1 m 播放样本，调节增益，保证录音样本不饱和
  
  使用扫频文件 (0~20 KHz)，使用 16 KHz 采样率录音，音频不会出现明显频率混叠
  
  录制 100 个语音样本，使用公开的云端语音识别端口识别，识别率达到指定标准
- 播音测试，验证功率放大器 (PA)、喇叭的失真情况
  测试 PA 功率 @1% 总谐波失真 (THD)
- 语音算法测试，验证 AEC、BFM、NS 效果
  首先需要注意下参考信号延时，不同的 AEC 算法有不同的要求
  
  以实际产品场景为测试指标，例如 mic 播放 85DB-90DB 大梦想家.wav，设备回采
  
  保存回声参考信号、回声消除后的信号分析，对比查看 AEC、BFM、NS 等效果
- DSP 性能测试，验证 DSP 参数是否合适，同时尽可能减少 DSP 算法中的非线性失真
  降噪 (Noise Suppression) 算法性能测试
  
  回声消除 (Acoustic Echo Cancellation) 算法性能测试
  
  语音增强 (Speech Enhancement) 算法性能测试
硬件设计完毕后， 可寄送 1-2 台硬件至乐鑫，乐鑫会基于客户整机做唤醒词性能调优。

提供有关此文档的反馈