![图片[1]-MNN TaoAvatar:阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的手机本地运行3D数字人技术,可做虚拟客服、虚拟主播](https://www.mohe-sc.com/wp-content/uploads/2025/06/MNN-TaoAvatar:阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的手机本地运行3D数字人技术,可做虚拟客服、虚拟主播-1024x576.jpg)
MNN TaoAvatar 是阿里巴巴基于 MNN 框架打造的一款本地运行、完全离线的手机端 3D 数字人应用。它将大语言模型(LLM)、语音识别(ASR)、语音合成(TTS)、声音驱动表情动作(A2BS)、神经渲染(NNR)等模块融合到 Android 手机上,无需联网即可实现多模态互动 。
在阿里巴巴内部,MNN 作为 Walle System 中计算容器的基础模块,Walle System 是第一个端到端、通用、大规模的端云协同机器学习生产系统,已在顶级系统会议 OSDI’22 上发布。MNN 的关键设计原则和广泛的基准测试结果(与 TensorFlow、TensorFlow Lite、PyTorch、PyTorch Mobile、TVM 相比)可以在 OSDI 论文中找到。基准测试的脚本和说明放在路径 “/benchmark” 中。如果 MNN 或 Walle 的设计有助于您的研究或生产使用,请引用我们的 OSDI 论文,如下所示:
@inproceedings {proc:osdi22:walle,
author = {Chengfei Lv and Chaoyue Niu and Renjie Gu and Xiaotang Jiang and Zhaode Wang and Bin Liu and Ziqi Wu and Qiulin Yao and Congyu Huang and Panos Huang and Tao Huang and Hui Shu and Jinde Song and Bin Zou and Peng Lan and Guohuan Xu and Fei Wu and Shaojie Tang and Fan Wu and Guihai Chen},
title = {Walle: An {End-to-End}, {General-Purpose}, and {Large-Scale} Production System for {Device-Cloud} Collaborative Machine Learning},
booktitle = {16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)},
year = {2022},
isbn = {978-1-939133-28-1},
address = {Carlsbad, CA},
pages = {249--265},
url = {https://www.usenix.org/conference/osdi22/presentation/lv},
publisher = {USENIX Association},
month = jul,
主要特点
轻
- 针对设备进行了优化,无依赖性,可以轻松部署到移动设备和各种嵌入式设备。
- iOS 平台:armv7+arm64 平台的静态库全选项大小约为 12MB,链接可执行文件的大小增加约为 2M。
- Android 平台:核心,因此大小约为 800KB (armv7a – c++_shared)。
- 使用 MNN_BUILD_MINI 可以将包大小减少约 25%,并限制固定模型输入大小
- 支持 FP16 / Int8 量化,可将模型尺寸减小 50%-70%
多面性
- 支持
Tensorflow、Caffe、ONNX、Torchscripts,并支持CNN、RNN、GAN、Transformer等常见神经网络。 - 支持多输入或多输出的 AI 模型、各种维度格式、动态输入、控制流。
- MNN 支持用于 AI 模型的近似完整 OP。该转换器支持 178 个
TensorflowOP、52 个CaffeOP、163 个TorchscriptsOP、158 个ONNXOP。 - 支持 iOS 8.0+、Android 4.3+ 和具有 POSIX 接口的嵌入式设备。
- 支持多种设备上的混合计算。目前支持 CPU 和 GPU。
高性能
- 通过大量优化的汇编代码实现核心计算,以充分利用 ARM / x64 CPU。
- 使用 Metal / OpenCL / Vulkan 在移动设备上支持 GPU 推理。
- 使用 CUDA 和 tensorcore 支持 NVIDIA GPU 以获得更好的性能
- 卷积和转置卷积算法高效且稳定。Winograd 卷积算法广泛用于更好的对称卷积,例如 3×3,4×4,5×5,6×6,7×7。
- 新架构 ARM v8.2 的速度提高了一倍,支持 FP16 半精度计算。将 SDOT 用于 ARM v8.2 和 VNNI 的速度提高了 2.5 倍。
易用性
- 支持使用 MNN 的 OP 像 numpy 一样进行数值计算。
- 支持像 OpenCV 这样的轻量级图像处理模块,只有 100k。
- 支持构建模型并在 PC / 移动设备上进行训练。
- MNN Python API 可帮助 ML 工程师轻松使用 MNN 来推断、训练和处理图像,而无需涉足 C++ 代码。
支持的架构/Precision MNN 如下所示:
- S :支持和运行良好,深度优化,推荐使用
- A :支持和工作良好,可以使用
- B :支持但有 bug 或未优化,不推荐使用
- C :不支持
| 架构 / 精度 | 正常 | FP16 | BF16 | Int8 | |
|---|---|---|---|---|---|
| CPU | 本地 | B | C | B | B |
| x86/x64-SSE4.1 | A | C | C | A | |
| x86/x64-AVX2 | S | C | C | A | |
| x86/x64-AVX512 | S | C | C | S | |
| ARMv7a | S | 小号 (ARMv8.2) | S | S | |
| ARMv8 | S | 小号 (ARMv8.2) | S(ARMv8.6) | S | |
| GPU | OpenCL | A | S | C | S |
| 火山 | A | A | C | A | |
| 金属 | A | S | C | S | |
| CUDA | A | S | C | A | |
| NPU | CoreML | A | C | C | C |
| HIAI | A | C | C | C | |
| NNAPI | B | B | C | B | |
| QNN | C | B | C | C |
技术背景与研究前沿
“TaoAvatar” 技术论文介绍了其在 AR 环境下,通过 3D 高斯渲染(3D Gaussian Splatting)生成逼真全身数字人,并针对移动设备做了轻量化优化。采用教师–学生(teacher‑student)蒸馏策略,将高质量、复杂的 StyleUnet 非刚性变形信息“烘焙”进轻量 MLP 网络,并结合 blend‑shape 补偿细节,从而实现移动端实时渲染(可达 90 FPS)。该方案在 Apple Vision Pro 等高级 AR 设备上的表现也十分出色 。
应用场景与价值
- 电商直播主播:提供沉浸式三维虚拟主持人。
- 全息通信:远程交流时呈现全身自然交流姿态。
- 教育、娱乐互动:AI 虚拟教师或虚拟角色陪聊、授课。
- AR 虚拟助理:融入增强现实应用,实现自然对话与交互 。
系统需求与安装指南
运行流畅需满足以下硬件要求:
- 旗舰级芯片:如高通 Snapdragon 8 Gen 3 或联发科 Dimensity 9200 及以上
- 内存8 GB 及以上;
- 至少5 GB 空闲存储 用于模型;
- ARM64 架构。
低配置设备可能出现卡顿、断音或部分功能受限 。
安装流程简单:
- 克隆项目:
git clone https://github.com/alibaba/MNN.git并进入apps/Android/Mnn3dAvatar - 在 Android Studio 中运行,或使用命令
./gradlew installDebug将应用部署到手机上 。
总结
MNN TaoAvatar 是一款兼顾隐私、高交互和轻量部署的本地离线 3D 数字人,不仅技术前沿亟具亮点,也适合移动端实际应用。无论是社交互动、AR 体验,还是虚拟主播/教育等领域,都有极大的潜在价值。





![百度网盘直链解析彻底解除百度云限速限制[利用IDM工具在线解析网页版]-MOHE素材库-设计行业的乐园,各类素材的矿山!](http://mohe-sc.com/wp-content/uploads/2021/07/baiduwangpan-400x273.png)











请登录后查看评论内容