AI Agent 方案

[English]

概述

AI Agents 基于 ESP32 平台实现了音视频交互的应用代码。该应用基于 ESP-GMF 架构实现,集成了 AI Agent 设备端开发,为开发者提供了完整的音视频交互解决方案。

应用架构

AI Agents 应用基于 ESP-GMF 架构实现,主要包含以下两个核心模块:

Audio-processor 模块

主要负责音频数据处理,包括:

  • Playback(播放)

    • 支持本地音频文件播放

    • 支持网络音频播放

    • 支持多种音频格式解码

    • 可作为背景音乐或提示音来源

  • Feeder(流式播放)

    • 播放实时流式音频数据(如 WebSocket、HTTP 流、内存缓冲区)

    • 常用于 TTS、实时语音下发、在线音频播放等场景

    • 可与 Mixer 结合做混音输出

  • Recorder(录音)

    • 音频采集功能

    • 支持 3A 算法处理(AEC、ANS、AGC)

    • 支持编码输出(PCM、AMR、OPUS、WAV 等)

    • 可用于智能语音交互、语音上传等场景

  • Mixer(混音)

    • 将 Playback 和 Feeder 进行混音输出

    • 可扩展多个输入通道

    • 适用于背景音乐 + 实时语音、提示音叠加等场景

Video-processor 模块

主要负责视频数据处理,包括:

  • 视频采集

  • 视频编解码

  • 视频渲染

AI Agent 架构图

功能特性

下表列出了 AI Agents 应用支持的主流 AI 平台以及在各 AI 平台中的功能支持情况:

平台功能对比

平台

语音通话

语音交互

视觉处理

音视频对话

示例链接

火山 RTC

火山 RTC 示例

COZE

COZE 示例

BRTC

BRTC 示例

腾讯云 RTC

腾讯云 RTC 示例

通义

待发布