使用 AidGen 部署 VLM

介绍

端侧部署视觉多模态大模型 (Vision Language Model, VLM) 指将原本在云端运行的大模型压缩、量化并部署到本地设备上，实现离线、低时延的自然语言理解与生成。本章节以 AidGen 推理引擎为基础，演示如何在边缘设备上完成多模态大模型的部署、加载与对话流程。

在本案例中，多模态大模型推理运行在设备端，通过 C++ 代码调用相关接口接收用户输入并实时返回对话结果。

设备：IQ9075
系统：Ubuntu 24.04
模型：Qwen2.5-VL-3B (392x392)

支持平台

平台	运行方式
IQ9075	Ubuntu 24.04

准备工作

IQ9075 硬件
Ubuntu 24.04 系统

系统依赖配置

配置 AidLux 依赖源

bash

# 下载正确的公钥
sudo wget -O- https://archive.aidlux.com/ubuntu24/public.key | gpg --dearmor | sudo tee /etc/apt/trusted.gpg.d/private-aidlux.gpg > /dev/null

# 编辑源文件
sudo vim /etc/apt/sources.list.d/private-aidlux.list

#在源文件中填入AidLux 提供的私钥
deb [arch=arm64 signed-by=/etc/apt/trusted.gpg.d/private-aidlux.gpg] https://archive.aidlux.com/ubuntu24 noble main

#  更新缓存
sudo apt update

更新完成后，可以通过如下命令获取到AidLux 官方的SDK 依赖

bash

sudo apt list | grep aid | grep unknown

bash

# 安装软件
# 必须先安装的，系统不自带
sudo apt install python3 python3-pip libopencv-dev python3-opencv  net-tools
# 安装 aidlite 之前必须安装的
sudo apt install aidlux-aistack-base aidrtcm

# 安装 aidlite 及依赖 
sudo apt install aid-lms aidlms-sdk aidlite-sdk cmake
sudo apt-get install libfmt-dev nlohmann-json3-dev
sudo apt install aidlite-*

# 支持DSP
sudo apt-get install qcom-fastrpc1
sudo apt-get install qcom-fastrpc-dev

# 安装 aidgen-sdk
sudo apt install aidgen-qnn240-sdk

# 安装 mms 服务
sudo apt install aid-mms

# 支持 GPU
sudo apt-add-repository -s ppa:ubuntu-qcom-iot/qcom-ppa
sudo apt install qcom-adreno-cl1
sudo ln -s /usr/lib/aarch64-linux-gnu/libOpenCL.so.1 /usr/lib/aarch64-linux-gnu/libOpenCL.so

安装完成后检查系统 /usr/local/share 新增 aidlite 和 aidgen 目录

设备授权

获取设备 SN 码

bash

cat  /sys/devices/soc0/serial_number

获取授权文件

提供SN号给阿加犀技术人员，生成设备指定 License 文件，放入路径 /etc/opt/aidlux/license/AidLuxLics 下

激活授权

bash

sudo /opt/aidlux/cpf/aid-lms/manager.sh restart

案例部署

步骤一：AidGen SDK 代码例子拷贝

bash

# 拷贝测试代码
cd /home/ubuntu
cp -r /usr/local/share/aidgen/examples/cpp/aidmlm ./

步骤二：模型获取

由于 Qwen2.5-VL-3B (392x392) 目前位于 Model Farm 预览板块中，需要通过 mms 命令获取

使用 mms 需要 Model Farm 账号登录，请访问 Model Farm 账号注册

bash

# 登录
mms login

# 查找模型
mms list Qwen2.5-VL-3B

# 下载模型
mms get -m Qwen2.5-VL-3B-Instruct_392x392_ -p w4a16 -c qcs8550 -b qnn2.36 -d /home/ubuntu/aidmlm/qwen2.5-vl-3b-392

cd /home/ubuntu/aidmlm/qwen2.5-vl-3b-392
unzip qnn236_qcs8550_cl2048
mv qnn236_qcs8550_cl2048/* /home/ubuntu/aidmlm/

步骤三：配置文件创建

bash

cd /home/ubuntu/aidmlm
vim config3b_392.json

创建如下 json 配置文件

json

{
    "vision_model_path":"veg.serialized.bin.aidem",
    "pos_embed_cos_path":"position_ids_cos.raw",
    "pos_embed_sin_path":"position_ids_sin.raw",
    "vocab_embed_path":"embedding_weights_151936x2048.raw",
    "window_attention_mask_path":"window_attention_mask.raw",
    "full_attention_mask_path":"full_attention_mask.raw",
    "llm_path_list":[
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_1_of_6.serialized.bin.aidem",
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_2_of_6.serialized.bin.aidem",
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_3_of_6.serialized.bin.aidem",
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_4_of_6.serialized.bin.aidem",
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_5_of_6.serialized.bin.aidem",
        "qwen2p5-vl-3b-qnn231-qcs8550-cl2048_6_of_6.serialized.bin.aidem"
    ]
}

文件分布如下：

bash

/home/ubuntu/aidmlm
├── CMakeLists.txt
├── test_qwen25vl_abort.cpp
├── test_qwen25vl.cpp
├── demo.jpg
├── embedding_weights_151936x2048.raw
├── full_attention_mask.raw
├── position_ids_cos.raw
├── position_ids_sin.raw
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_1_of_6.serialized.bin.aidem
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_2_of_6.serialized.bin.aidem
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_3_of_6.serialized.bin.aidem
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_4_of_6.serialized.bin.aidem
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_5_of_6.serialized.bin.aidem
├── qwen2p5-vl-3b-qnn231-qcs8550-cl2048_6_of_6.serialized.bin.aidem
├── veg.serialized.bin.aidem
├── window_attention_mask.raw

步骤四：编译运行

bash

sudo apt update
sudo apt-get install libfmt-dev nlohmann-json3-dev

mkdir build && cd build
cmake .. && make

mv test_qwen25vl /home/ubuntu/aidmlm/

# 编译成功后运行
cd /home/ubuntu/aidmlm/
./test_qwen25vl "qwen25vl3b392" "config3b_392.json" "demo.jpg" "请描述一下图中场景"

test_qwen25vl.cpp 测试代码中针对不同类型模型定义了 model_type 用于执行文件的第一个参数。目前支持以下类型模型：

Model	Type
Qwen2.5-VL-3B (392X392)	qwen25vl3b392
Qwen2.5-VL-3B (672X672)	qwen25vl3b672
Qwen2.5-VL-7B (392X392)	qwen25vl7b392
Qwen2.5-VL-7B (672X672)	qwen25vl7b672

💡注意

下载不同的模型需要设置对应的 model_type，例如：通过命令 aidllm pull api aplux/Qwen2.5-VL-7B-672x672-8550 下载 Qwen2.5-VL-7B (672X672) 模型则要使用 model_type = "qwen25vl7b672"

运行结果如下

视频编解码开发

AI 开发

生成式 AI 开发

模型广场

使用 AidGen 部署 VLM

介绍

支持平台

准备工作

系统依赖配置

配置 AidLux 依赖源

设备授权

案例部署

步骤一：AidGen SDK 代码例子拷贝

步骤二：模型获取

步骤三：配置文件创建

步骤四：编译运行

使用 AidGen 部署 VLM ​

介绍 ​

支持平台 ​

准备工作 ​

系统依赖配置 ​

配置 AidLux 依赖源 ​

设备授权 ​

案例部署 ​

步骤一：AidGen SDK 代码例子拷贝 ​

步骤二：模型获取 ​

步骤三：配置文件创建 ​

步骤四：编译运行 ​

使用 AidGen 部署 VLM

介绍

支持平台

准备工作

系统依赖配置

配置 AidLux 依赖源

设备授权

案例部署

步骤一：AidGen SDK 代码例子拷贝

步骤二：模型获取

步骤三：配置文件创建

步骤四：编译运行