LLM 方案介绍
LLM 方案综述
- 方案特点:
ChatGPT 等大模型的崛起带动了全球 AI 热潮,云平台智能化升级,AI 技术不断渗透各行各业。乐鑫科技凭借开放、共享和生态化的智能硬件平台,构建了坚实的技术基础。
乐鑫提供语音、视觉大模型的方案参考,从低成本 C3,旗舰 S3、高性能 P4 和双频 C5 都有相应的方案展示。
乐鑫还正在进行大语言模型私有化部署,为后续客户产品的加速落地提供有力支持。
方案总览图:

语音方案详情
定位 |
C 系列 (ESP32-C3/C5) |
S 系列 (ESP32-S3) |
---|---|---|
入门级 |
ESP-Hi - 0.96” 160 * 80 LCD - 无需 Codec |
|
性价比 |
ESP-Spot - 无屏幕 - 5G Band |
ESP-Gogo & ESP-Eyemoji
|
高性能 |
ESP-Cat - 1.85” 360*360 LCD - 双麦阵列 |
图像方案详情
定位 |
S 系列 (ESP32-S3) |
P 系列 (ESP32-P4) |
---|---|---|
性价比 |
ESP-Sparkbot - DVP VGA/720p 摄像头 - 1.54” 240*240 LCD |
ESP-Brookesia - USB 摄像头 - 720P 触屏 |
芯片特性对比
特性 |
ESP32-S3 |
ESP32-C3 |
ESP32-C5 |
---|---|---|---|
推荐场景 |
多模态交互,带显示语音视觉终端 |
高性价比轻量化边缘应用 |
5G 优势场景:抗干扰、配网兼容性 |
语音 |
多麦克风,支持 AEC 回声消除 |
单麦克风方案,基础采集 |
单麦克风方案,基础采集 |
显示 |
多种显示方案 & 复杂界面交互 |
IO 资源较少,显示方案受限 |
IO 资源略多于 C3,显示方案受限 |
摄像头 |
支持 SPI / DVP / USB 摄像头 |
仅支持 SPI 摄像头 |
仅支持 SPI 摄像头 |
触摸 |
内置 Touch 传感器 |
无 Touch,需外接触摸芯片 |
无 Touch,需外接触摸芯片 |
内存 |
最大 512KB SRAM + PSRAM 支持 |
400KB SRAM |
最大 384KB SRAM + PSRAM 支持 |
本地 AI 能力 |
向量计算指令 + 神经网络加速器 |
支持轻量级模型 |
支持轻量级模型 |
类别 |
方案详情 |
---|---|
云平台对接 |
RainMaker & Matter:
- 提供云平台快速接入能力
|
云服务器 |
MCP & 多平台接入 & 离线部署:
- 支持多种云服务和私有化部署方案
|
软件框架 |
ESP-Brookesia:
- 提供完整的软件开发框架支持
|
应用方案 |
音频 & 图像方案:
- 提供多种芯片与细化场景选择
AI 赋能:
- ESP-PDD:MIC/SPK/LCD 小型模块便于现有产品快速升级、评估
- AT 指令:简单快速集成
|
- 流程架构介绍:
ESP 芯片作为端侧,主要实现数据采集、初步处理和传输,由于处理性能限制,LLM 相关的处理还是依赖云端服务器。以下是系统的整体架构:
端侧任务 |
云端任务 |
---|---|
- 数据采集与初步处理:通过乐鑫芯片实现语音、图像数据的实时采集和初步处理;
- 本地 AI 模型推理:部署轻量级模型,实现离线或低延迟处理;
- 实时传输:利用全双工 RTC 协议,确保数据及时传输至云端。
|
- 大模型训练与深度分析:对采集数据进行复杂运算,提供智能决策支持;
- 算法更新与优化:云端计算资源用于模型迭代,实时反馈给端侧;
- 远程升级与维护:通过 OTA 等方式,实现系统的持续更新与维护。
|
- 私有化部署价值:
可加速测试,提高稳定性
结合嵌入式设备,可实现低延迟、高隐私的智能家居体验
下游企业可通过购买全套部署方案,快速集成智能交互能力,降低技术门槛并缩短产品落地周期
私有化部署架构:

LLM 常见应用场景
应用场景 |
产品形态 |
推荐方案 |
---|---|---|
毛绒/桌宠玩具 |
- 有屏:支持表情/互动显示
- 无屏:纯语音、动作交互
|
- ESP-Eyemoji:萌趣表情,语音互动
- ESP-Spot:轻巧无屏,支持手势
|
智能音箱 |
- 单麦:近场交互
- 双麦:音源定位
|
- ESP-Hi:超低成本单麦方案
- ESP-Cat:双麦阵列,远场唤醒
|
车载应用 |
- 单屏:驾驶信息、萌眼表情显示
- 双屏:驾驶信息、双眼表情显示
|
- ESP-Cat:单屏语音交互
- ESP-Gogo & ESP-Eyemoji:双屏语音交互
|
现有产品赋能 AI |
SPK/MIC/LCD 小型模块 |
- ESP-PDD:快速 AI 产品成型/评估
- AT 指令:简单快速集成
|
ESP-Spot
ESP-Spot:ESP-Spot 是一款基于 ESP32-S3 / ESP32-C5 的 AI 动作语音交互核心模块,专注于语音交互、AI 感知与智能控制。它不仅有离线语音唤醒、AI 对话等功能,而且可以通过 ESP32-S3 自带的触摸/接近感应外设实现玩偶触摸感知,同时设备内置加速度传感器,可以识别姿态与动作,从而实现更丰富的交互。
相关链接:
特性:
无屏方案,主打语音和动作交互
成本低,无显示屏
可扩展面板为双屏 ESP-Gogo 与 ESP-Eyemoji
S3/C5 双适配,可推 C5 5GHz
ESP-SparkBot
ESP-SparkBot:ESP-SparkBot 基于 ESP32-S3,融合语音交互、图像识别与多媒体娱乐,可变身遥控小车、玩转本地 AI,支持大模型对话、实时视频传输和高清视频投屏,性能强大,乐趣无限!
相关链接:
ESP-Hi
ESP-Hi:ESP-Hi 是基于 ESP32-C3 的高集成度 AI 语音方案,使用 ESP32-C3 自带的 ADC 作为麦克风采集设备,使用 I2S PDM 直接作为音频输出,实现低板级物料成本。
描述:
高集成度:使用 ESP32-C3 自带的 ADC 作为麦克风采集设备。使用 I2S PDM 直接作为音频输出,从而实现不需要外接 CODEC 芯片。实现低板级物料成本。
低资源占用:音频收发仅占用了 4 个 IO 口,仅使用很少的 CPU 和内存,预留了充足的资源供应用开发。
多种交互方式:带有屏幕和 LED 指示灯,支持按键、摇晃、语音唤醒。
相关链接:
代码仓库:正在更新
特性:
目前板级物料成本最低的 AI 语音方案
C3 唤醒词轻量模型,支持离线唤醒
ESP-P4 Phone
ESP-P4 Phone:基于 ESP32-P4 的手持带屏设备方案,结合 ESP-Brookesia 提供的 Phone UI 功能,实现类似安卓系统的效果。
硬件:
主控:ESP32-P4
Wi-Fi:ESP32-C6
LCD & Touch:720P MIPI-DSI ILI9881 & GT911
Audio:8311
Type-C:USB2.0
相关链接:
相关视频:待补充
特性:
720P 高分辨率触摸屏
“ESP32-C6 + ESP-Hosted” Wi-Fi 方案
类安卓系统效果,提供通用功能(如配网)App
ESP-Cat
ESP-Cat:豆包定制版 AI 音响,支持双麦声源定位的可充电圆屏设备,搭配转台可以转动方向,具有 touch 和电池功能。
硬件:
ESP32-S3
相关链接:
相关视频:正在更新
LLM 硬件方案汇总
拾音方案对比表
方案编号 |
方案类型 |
占用资源 |
成本 |
效果与推荐应用场景 |
---|---|---|---|---|
1 |
数字麦克风(MSM261S4030H0R 等) |
1 路 I2S(3 引脚) |
高 |
|
2 |
专用音频 ADC + 模拟麦克风(ES7210) |
1 路 I2S + 1 路 I2C(5 引脚) |
中高 |
|
3 |
CODEC + 模拟麦克风(ES8311 等) |
1 路 I2S + 1 路 I2C(5 引脚) |
中 |
|
4 |
内部 ADC + 运放 + 模拟麦克风 |
1 路内部 ADC(1 引脚) |
最低 |
|
发声方案对比表
方案编号 |
方案类型 |
占用资源 |
成本 |
效果与推荐应用场景 |
---|---|---|---|---|
1 |
I2S 数字功放(MAX98357A 等) |
1 路 I2S + 1 个 PA 控制(4 引脚) |
中 |
|
2 |
CODEC + 模拟功放(ES8311 + NS4150) |
1 路 I2S + 1 路 I2C + 1 个 PA 控制(6 引脚) |
低 |
|
3 |
I2S PDM + 模拟功放(NS4150) |
2 个 I2S 引脚 + 1 个 PA 控制(3 引脚) |
最低 |
|
上述几种音频方案可自由搭配使用,但是如果客户处于设计阶段,考虑到成本与性能仅推荐以下方案:
语音方案推荐对比表
分类 |
类型描述 |
方案特点 |
推荐硬件 |
参考开发板 |
---|---|---|---|---|
最优成本 |
模拟麦 + OPA 内置 ADC 采集音频 + I2S PDM 输出 |
|
ESP32-C3 / ESP32-C5 |
ESP-HI |
平衡之选 |
单麦克风 + 外置编解码一体芯片(如 ES8311) |
|
ESP32-S3 / ESP32-P4 / ESP32-C5 |
|
最佳性能 |
多麦克风 + 外置解码器 + 外置音频 ADC 芯片(如 ES8311 + ES7210) |
|
ESP32-S3 / ESP32-P4 |
AI 视觉硬件方案对比表
接口类型 |
摄像头性能 |
支持芯片 |
参考开发板 |
特点 |
---|---|---|---|---|
SPI |
低分辨率图像(最大 320×240) |
ESP32-S3 / ESP32-C5 / ESP32-C3 |
ESP32-S3-EYE |
|
DVP(并口) |
低至中等分辨率(如 VGA、720p) |
ESP32-S3 / ESP32-P4 |
ESP32-S3-EYE |
|
USB |
低到高分辨率(取决于 USB 摄像头) |
ESP32-S3 / ESP32-P4 |
ESP32-S3-USB-OTG |
|
MIPI CSI |
高分辨率图像(如 1080p、4K) |
ESP32-S3 / ESP32-P4 |
ESP32-P4-Function-EV-Board |
|
综上:ESP32-C3 / ESP32-C5 仅支持 SPI 接口的摄像头,目前适配了 BD3901 摄像头。ESP32-S3 如有清晰度要求,首先推荐 DVP 摄像头,ESP32-P4 首先推荐 MIPI 摄像头。
边缘 AI 信息分享
语音能力增强
唤醒词支持相关仓库参考: - HIESP - nihaoxiaozhi
TTS 支持低成本定制唤醒词(预计五月底发布)
视觉能力提升
支持本地运行 YOLO 模型
可实现基础目标检测功能
接入大模型示例