LLM 方案介绍

[English]

LLM 方案综述

方案特点:
  • ChatGPT 等大模型的崛起带动了全球 AI 热潮,云平台智能化升级,AI 技术不断渗透各行各业。乐鑫科技凭借开放、共享和生态化的智能硬件平台,构建了坚实的技术基础。

  • 乐鑫提供语音、视觉大模型的方案参考,从低成本 C3,旗舰 S3、高性能 P4 和双频 C5 都有相应的方案展示。

  • 乐鑫还正在进行大语言模型私有化部署,为后续客户产品的加速落地提供有力支持。

方案总览图:

LLM 方案总览图

语音方案详情

语音方案产品矩阵

定位

C 系列 (ESP32-C3/C5)

S 系列 (ESP32-S3)

入门级

ESP-Hi - 0.96” 160 * 80 LCD - 无需 Codec

性价比

ESP-Spot - 无屏幕 - 5G Band

ESP-Gogo & ESP-Eyemoji

  • 1.85” 360*360 & 0.71” 160 * 160 LCD

  • 双高清屏

高性能

ESP-Cat - 1.85” 360*360 LCD - 双麦阵列

图像方案详情

图像方案产品矩阵

定位

S 系列 (ESP32-S3)

P 系列 (ESP32-P4)

性价比

ESP-Sparkbot - DVP VGA/720p 摄像头 - 1.54” 240*240 LCD

ESP-Brookesia - USB 摄像头 - 720P 触屏

芯片特性对比

ESP32-S3 vs ESP32-C3 vs ESP32-C5 LLM 应用选型对比

特性

ESP32-S3

ESP32-C3

ESP32-C5

推荐场景

多模态交互,带显示语音视觉终端

高性价比轻量化边缘应用

5G 优势场景:抗干扰、配网兼容性

语音

多麦克风,支持 AEC 回声消除

单麦克风方案,基础采集

单麦克风方案,基础采集

显示

多种显示方案 & 复杂界面交互

IO 资源较少,显示方案受限

IO 资源略多于 C3,显示方案受限

摄像头

支持 SPI / DVP / USB 摄像头

仅支持 SPI 摄像头

仅支持 SPI 摄像头

触摸

内置 Touch 传感器

无 Touch,需外接触摸芯片

无 Touch,需外接触摸芯片

内存

最大 512KB SRAM + PSRAM 支持

400KB SRAM

最大 384KB SRAM + PSRAM 支持

本地 AI 能力

向量计算指令 + 神经网络加速器

支持轻量级模型

支持轻量级模型

LLM 方案产品矩阵总览

类别

方案详情

云平台对接

RainMaker & Matter:
- 提供云平台快速接入能力

云服务器

MCP & 多平台接入 & 离线部署:
- 支持多种云服务和私有化部署方案

软件框架

ESP-Brookesia:
- 提供完整的软件开发框架支持

应用方案

音频 & 图像方案:
- 提供多种芯片与细化场景选择

AI 赋能:
- ESP-PDD:MIC/SPK/LCD 小型模块便于现有产品快速升级、评估
- AT 指令:简单快速集成
流程架构介绍:

ESP 芯片作为端侧,主要实现数据采集、初步处理和传输,由于处理性能限制,LLM 相关的处理还是依赖云端服务器。以下是系统的整体架构:

端侧与云端任务分工

端侧任务

云端任务

- 数据采集与初步处理:通过乐鑫芯片实现语音、图像数据的实时采集和初步处理;
- 本地 AI 模型推理:部署轻量级模型,实现离线或低延迟处理;
- 实时传输:利用全双工 RTC 协议,确保数据及时传输至云端。
- 大模型训练与深度分析:对采集数据进行复杂运算,提供智能决策支持;
- 算法更新与优化:云端计算资源用于模型迭代,实时反馈给端侧;
- 远程升级与维护:通过 OTA 等方式,实现系统的持续更新与维护。
私有化部署价值:
  • 可加速测试,提高稳定性

  • 结合嵌入式设备,可实现低延迟、高隐私的智能家居体验

  • 下游企业可通过购买全套部署方案,快速集成智能交互能力,降低技术门槛并缩短产品落地周期

私有化部署架构:

私有化部署架构图

LLM 常见应用场景

LLM 常见应用场景分类

应用场景

产品形态

推荐方案

毛绒/桌宠玩具

- 有屏:支持表情/互动显示
- 无屏:纯语音、动作交互
- ESP-Eyemoji:萌趣表情,语音互动
- ESP-Spot:轻巧无屏,支持手势

智能音箱

- 单麦:近场交互
- 双麦:音源定位
- ESP-Hi:超低成本单麦方案
- ESP-Cat:双麦阵列,远场唤醒

车载应用

- 单屏:驾驶信息、萌眼表情显示
- 双屏:驾驶信息、双眼表情显示
- ESP-Cat:单屏语音交互
- ESP-Gogo & ESP-Eyemoji:双屏语音交互

现有产品赋能 AI

SPK/MIC/LCD 小型模块

- ESP-PDD:快速 AI 产品成型/评估
- AT 指令:简单快速集成

ESP-Spot

  • ESP-Spot:ESP-Spot 是一款基于 ESP32-S3 / ESP32-C5 的 AI 动作语音交互核心模块,专注于语音交互、AI 感知与智能控制。它不仅有离线语音唤醒、AI 对话等功能,而且可以通过 ESP32-S3 自带的触摸/接近感应外设实现玩偶触摸感知,同时设备内置加速度传感器,可以识别姿态与动作,从而实现更丰富的交互。

相关链接:

特性:

  • 无屏方案,主打语音和动作交互

  • 成本低,无显示屏

  • 可扩展面板为双屏 ESP-Gogo 与 ESP-Eyemoji

  • S3/C5 双适配,可推 C5 5GHz

ESP-SparkBot

  • ESP-SparkBot:ESP-SparkBot 基于 ESP32-S3,融合语音交互、图像识别与多媒体娱乐,可变身遥控小车、玩转本地 AI,支持大模型对话、实时视频传输和高清视频投屏,性能强大,乐趣无限!

相关链接:

ESP-Hi

  • ESP-Hi:ESP-Hi 是基于 ESP32-C3 的高集成度 AI 语音方案,使用 ESP32-C3 自带的 ADC 作为麦克风采集设备,使用 I2S PDM 直接作为音频输出,实现低板级物料成本。

描述:

  • 高集成度:使用 ESP32-C3 自带的 ADC 作为麦克风采集设备。使用 I2S PDM 直接作为音频输出,从而实现不需要外接 CODEC 芯片。实现低板级物料成本。

  • 低资源占用:音频收发仅占用了 4 个 IO 口,仅使用很少的 CPU 和内存,预留了充足的资源供应用开发。

  • 多种交互方式:带有屏幕和 LED 指示灯,支持按键、摇晃、语音唤醒。

相关链接:

特性:

  • 目前板级物料成本最低的 AI 语音方案

  • C3 唤醒词轻量模型,支持离线唤醒

ESP-P4 Phone

  • ESP-P4 Phone:基于 ESP32-P4 的手持带屏设备方案,结合 ESP-Brookesia 提供的 Phone UI 功能,实现类似安卓系统的效果。

硬件:

  • 主控:ESP32-P4

  • Wi-Fi:ESP32-C6

  • LCD & Touch:720P MIPI-DSI ILI9881 & GT911

  • Audio:8311

  • Type-C:USB2.0

相关链接:

特性:

  • 720P 高分辨率触摸屏

  • “ESP32-C6 + ESP-Hosted” Wi-Fi 方案

  • 类安卓系统效果,提供通用功能(如配网)App

ESP-Cat

  • ESP-Cat:豆包定制版 AI 音响,支持双麦声源定位的可充电圆屏设备,搭配转台可以转动方向,具有 touch 和电池功能。

硬件:

  • ESP32-S3

相关链接:

  • 相关视频:正在更新

LLM 硬件方案汇总

拾音方案对比表

方案编号

方案类型

占用资源

成本

效果与推荐应用场景

1

数字麦克风(MSM261S4030H0R 等)

1 路 I2S(3 引脚)

  • 接线简单

  • 不能实现回声消除

  • 适合 DIY / 板面积受限场景

2

专用音频 ADC + 模拟麦克风(ES7210)

1 路 I2S + 1 路 I2C(5 引脚)

中高

  • 多麦克风场景推荐使用

3

CODEC + 模拟麦克风(ES8311 等)

1 路 I2S + 1 路 I2C(5 引脚)

  • 成本低

  • 效果好

  • 推荐使用

4

内部 ADC + 运放 + 模拟麦克风

1 路内部 ADC(1 引脚)

最低

  • 最低成本的拾音方案

  • 满足基本的拾音需求

发声方案对比表

方案编号

方案类型

占用资源

成本

效果与推荐应用场景

1

I2S 数字功放(MAX98357A 等)

1 路 I2S + 1 个 PA 控制(4 引脚)

  • 效果好但无音量调节

  • 适合仅需发声的产品

2

CODEC + 模拟功放(ES8311 + NS4150)

1 路 I2S + 1 路 I2C + 1 个 PA 控制(6 引脚)

  • 成本与效果最优

  • 推荐在 AI 音频中使用

3

I2S PDM + 模拟功放(NS4150)

2 个 I2S 引脚 + 1 个 PA 控制(3 引脚)

最低

  • 成本最低但占用 CPU 资源

  • 适合成本敏感场景

上述几种音频方案可自由搭配使用,但是如果客户处于设计阶段,考虑到成本与性能仅推荐以下方案:

语音方案推荐对比表

分类

类型描述

方案特点

推荐硬件

参考开发板

最优成本

模拟麦 + OPA 内置 ADC 采集音频 + I2S PDM 输出

  • 单麦克风拾音,单声道播放

  • 实现基础的声音采集与播放

  • 最少 IO 占用

  • 适合近距离对话,低成本应用

ESP32-C3 / ESP32-C5

ESP-HI

平衡之选

单麦克风 + 外置编解码一体芯片(如 ES8311)

  • 支持回声消除

  • 不错的单麦克风拾音效果

  • 性能与成本平衡

ESP32-S3 / ESP32-P4 / ESP32-C5

ESP32-P4-Function-EV-Board

最佳性能

多麦克风 + 外置解码器 + 外置音频 ADC 芯片(如 ES8311 + ES7210)

  • 支持远场语音唤醒

  • 支持回声消除、噪声抑制

  • 适合高性能语音应用

ESP32-S3 / ESP32-P4

ESP32-S3-Korvo-2

AI 视觉硬件方案对比表

接口类型

摄像头性能

支持芯片

参考开发板

特点

SPI

低分辨率图像(最大 320×240)

ESP32-S3 / ESP32-C5 / ESP32-C3

ESP32-S3-EYE

  • 接口简单,适合初学者

  • 成本最低

  • 帧率和分辨率受限

  • 多用于图像识别、简单检测

DVP(并口)

低至中等分辨率(如 VGA、720p)

ESP32-S3 / ESP32-P4

ESP32-S3-EYE

  • 接口较老但成熟

  • 可支持基本视频流

  • 资源占用较高(需大量 GPIO)

  • 成像质量中等,适合中等视觉任务

USB

低到高分辨率(取决于 USB 摄像头)

ESP32-S3 / ESP32-P4

ESP32-S3-USB-OTG

  • 使用 UVC 摄像头即插即用

  • 支持高分辨率、高帧率

  • 软件支持复杂(需要 USB Host 能力)

  • 适合对图像质量要求较高的应用

MIPI CSI

高分辨率图像(如 1080p、4K)

ESP32-S3 / ESP32-P4

ESP32-P4-Function-EV-Board

  • 高带宽、低功耗

  • 硬件要求高(需 MIPI PHY)

  • 支持高清、低延迟图像采集

  • 适合边缘 AI、视觉分析、识别场景

综上:ESP32-C3 / ESP32-C5 仅支持 SPI 接口的摄像头,目前适配了 BD3901 摄像头。ESP32-S3 如有清晰度要求,首先推荐 DVP 摄像头,ESP32-P4 首先推荐 MIPI 摄像头。

边缘 AI 信息分享

  1. 语音能力增强

    • 唤醒词支持相关仓库参考: - HIESP - nihaoxiaozhi

    • TTS 支持低成本定制唤醒词(预计五月底发布)

  2. 视觉能力提升

    • 支持本地运行 YOLO 模型

    • 可实现基础目标检测功能

  3. 接入大模型示例