GMF-AI-Audio 组件

[English]

概述

GMF-AI-Audio 是基于 GMF 框架开发的语音交互组件,通过封装 ESP-SR,提供从语音唤醒到指令识别的完整交互逻辑。组件集成了唤醒词检测(Wake Word)、语音活动检测(VAD)、语音指令识别以及回声消除(AEC)等功能,能够在智能音箱、智能家居等设备中实现高效、自然的语音交互体验。

支持场景

方式

对应场景

唤醒后立即上传语音数据,在 Wakeup End 阶段停止上传

在云端实现 VAD 功能、RTC 场景

唤醒后等待 VAD 触发后开始上传,VAD 结束后停止上传

以往智能硬件的交互方式

无唤醒,等待 VAD 触发后开始上传,VAD 结束后停止上传

新式云端处理逻辑

按键后立即上传语音数据,松手后停止

算力有限的设备通过与云端交互实现语音功能

按键后等待 VAD 触发后开始上传,VAD 结束后停止上传

解决仅依赖 VAD 造成的数据量过大的问题

唤醒后检测命令词

默认使用逻辑

无唤醒,等待 VAD 触发后检测命令词

可应用于部分车辆系统

按键后检测命令词

玩具

连续命令词识别

家居控制

相关链接