AI Agent 方案
概述
AI Agents 基于 ESP32 平台实现了音视频交互的应用代码。该应用基于 ESP-GMF 架构实现,集成了 AI Agent 设备端开发,为开发者提供了完整的音视频交互解决方案。
应用架构
AI Agents 应用基于 ESP-GMF 架构实现,主要包含以下两个核心模块:
Audio-processor 模块
主要负责音频数据处理,包括:
Playback(播放)
支持本地音频文件播放
支持网络音频播放
支持多种音频格式解码
可作为背景音乐或提示音来源
Feeder(流式播放)
播放实时流式音频数据(如 WebSocket、HTTP 流、内存缓冲区)
常用于 TTS、实时语音下发、在线音频播放等场景
可与 Mixer 结合做混音输出
Recorder(录音)
音频采集功能
支持 3A 算法处理(AEC、ANS、AGC)
支持编码输出(PCM、AMR、OPUS、WAV 等)
可用于智能语音交互、语音上传等场景
Mixer(混音)
将 Playback 和 Feeder 进行混音输出
可扩展多个输入通道
适用于背景音乐 + 实时语音、提示音叠加等场景
Video-processor 模块
主要负责视频数据处理,包括:
视频采集
视频编解码
视频渲染
功能特性
下表列出了 AI Agents 应用支持的主流 AI 平台以及在各 AI 平台中的功能支持情况:
平台 |
语音通话 |
语音交互 |
视觉处理 |
音视频对话 |
示例链接 |
|---|---|---|---|---|---|
火山 RTC |
✓ |
✓ |
✓ |
✓ |
|
COZE |
✓ |
||||
BRTC |
✓ |
✓ |
✓ |
✓ |
|
腾讯云 RTC |
✓ |
||||
通义 |
✓ |
✓ |
✓ |
✓ |
待发布 |