AI Agent 方案

概述

AI Agents 基于 ESP32 平台实现了音视频交互的应用代码。该应用基于 ESP-GMF 架构实现，集成了 AI Agent 设备端开发，为开发者提供了完整的音视频交互解决方案。

AI Agents 应用基于 ESP-GMF 架构实现，主要包含以下两个核心模块：

主要负责音频数据处理，包括：

Playback（播放）
- 支持本地音频文件播放
- 支持网络音频播放
- 支持多种音频格式解码
- 可作为背景音乐或提示音来源
Feeder（流式播放）
- 播放实时流式音频数据（如 WebSocket、HTTP 流、内存缓冲区）
- 常用于 TTS、实时语音下发、在线音频播放等场景
- 可与 Mixer 结合做混音输出
Recorder（录音）
- 音频采集功能
- 支持 3A 算法处理（AEC、ANS、AGC）
- 支持编码输出（PCM、AMR、OPUS、WAV 等）
- 可用于智能语音交互、语音上传等场景
Mixer（混音）
- 将 Playback 和 Feeder 进行混音输出
- 可扩展多个输入通道
- 适用于背景音乐 + 实时语音、提示音叠加等场景

主要负责视频数据处理，包括：

下表列出了 AI Agents 应用支持的主流 AI 平台以及在各 AI 平台中的功能支持情况：

平台功能对比
平台	语音通话	语音交互	视觉处理	音视频对话	示例链接
火山 RTC	✓	✓	✓	✓	火山 RTC 示例
COZE		✓			COZE 示例
BRTC	✓	✓	✓	✓	BRTC 示例
腾讯云 RTC		✓			腾讯云 RTC 示例
通义	✓	✓	✓	✓	待发布