Mar 11

离线即自由:在26年开年搭建一座能跑全模态模型的家庭AI末日堡垒 - Part.1 基础AI搭建

Lrdcq , 2026/03/11 02:37 , 程序 , 閱讀(196) , Via 本站原創
为什么要这么做

2026年的开年,生龙活虎的AI生态依然泾渭分明。一边是云端算力持续通胀,API调用需要排队、限流,热门模型动不动显示“繁忙”;另一边,开源社区的进展悄然越过了某个临界点——那些一年前还需要大型工作站才能运行的实用型模型,如今已经可以完整地运行在家庭级别的硬件上。这种变化带来一个朴素的问题:当你的每一次对话、每一张生成图片、每一段视频创作,都必须经过云端服务器时,我们到底在使用AI,还是在被AI背后的服务商定义?

正巧qwen3.5模型在春节推出,qwen3.5 35B模型的混合专家模型的知识广度已经不输deepseek在线服务,而qwen3.5 27B稠密模型的IQ已经超过deepseek3.2满血版。以数十B的家庭部署容量挑战百B级别在线服务,离线部署的意义正在于此。

- 首先是隐私。 所有对话历史、上传的图片、生成的视频,都停留在你控制的硬盘里,不必担心哪一天它们成为某个大公司微调模型的数据养料。你的家庭相册、工作文档、个人创作,不需要为了一次智能分析而被扫描上传。
- 其次是资源的可控性。 不再需要盯着“当前请求过多”的提示,不需要为了某个功能反复切换网络环境,更不需要等待大公司的审核队列。本地部署意味着无论外部网络环境如何变化,你的AI中枢始终在线,响应速度只取决于硬件性能。
- 然后是技术的可控性。 云端模型是一个黑箱——你不知道它训练过什么,不知道它为什么这样回答,更无法让它按照你的特定需求进行调整。而本地部署的模型,你可以微调、剪枝、量化,让它真正适应你的数据、你的术语、你的偏好。它不是某个大公司喂出来的通用品,而是你可以亲手调教的专属助手。
- 最后是长期的成本考量。 云端API按次收费的模式,在重度使用下很快就会超过一台高性能硬件的购置成本。而开源模型的迭代速度,正在让“买硬件而非买算力”变得越来越划算——你投入的是一次性设备,换回的是无限次、无限制的调用权。

更重要的是,我们正处在这样一个技术节点:一年前还需要仰望的闭源模型能力,今天已经被开源模型中复现、优化,并压缩到了可以家庭部署的尺寸。这意味着,离线不再是妥协,而是一种能力对等的选择。

基于这样的判断,我在春节购置了新的家庭mini AI设备,搭建了这座“末日堡垒”——一个完全离线、能跑文本、图像、音频、视频全模态模型的家庭AI中枢。本文便是对着这个过程进行的分享。

部署模型与选择

AI全模态生态下,AI主要有两大核心:大语言模型和扩散模型,它们各司其职。

- 大语言模型(LLM):负责处理“符号的世界”,即文本内容,比如对话、代码、推理等。它采用自回归方式,逐个预测并生成词语。目前可本地部署的主流模型参数多在100B以内,像Qwen3.5的35B版本很合适,122B在主流mini AI主机上也能运行。
- 扩散模型:负责处理“感知的世界”,生成图像、视频、音频等内容。它从随机噪点开始,逐步去噪直至形成清晰图像。这个过程涉及大量矩阵运算,生成高分辨率内容时计算量会指数级增长。

一般来说LLM参数更大(如100B+常见),因为语言需要巨量神经元存储知识;扩散模型参数虽小,但更依赖“强算力”来渲染世界。因此,相同参数量下,扩散模型对算力的要求远高于LLM。它需要在高维空间反复迭代去噪,每一步都涉及复杂变换;而LLM只是逐个生成token,计算密度相对可控。这也是为什么跑扩散模型图像生成比文本对话更“烧显卡”。

點擊在新視窗中瀏覽此圖片

硬件选择

以上特点自然会关系到我们的私有硬件选择:

- 对于扩散模型,我原本的家用PC实际上已经在运行目前主流的轻量级扩散模型,但是由于显存只有12G,LLM运行起来相当吃力。同时由于扩散模型对算力的需求与对于量化的保守,绝大部分开源扩散模型的高速运行强以来cuda生态,因此一张N卡对于扩散模型的运行是刚需。
- 对于LLM,主流模型进行极端的gguf量化或者FP4对运行结果影响并不大,因此无论是N卡还是mac的M芯片还是A卡,LLM的运行均还不错。
同时我们要注意的是显存的强需求:同时运行多个数十B参数量的模型,24G 32G这样的显存自然够呛,如果是专业工作站,自然是多卡串联或者超大杯RTX 5000 PRO这样的高成本玩法,而作为家用AI硬件,除开传统PC,统一内存的设备自然是最佳选择

目前业界统一内存设备有如下3个性能相近的家用AI mini主机的选择:
- Apple M芯片Mac Mini/Studio,128G内存轻而易举,最大512G统一内存。
- NVIDIA DGX Spark平台,GB10平台的N卡芯片,默认128G统一内存原生支持2设备串接。
- AMD AI Max 395平台,同样大部分都是128G统一内存,同时还是x86设备可以windows。

从性价比的角度,AMD ~= Apple >>  NVIDIA,老黄是非常坑人的。
从兼容性的角度,NVIDIA >> Apple > AMD,老黄的坑人建立在垄断式的技术碾压,不过这个判断仅仅在目前26年2月。(更新,2月末DGX Spark涨价了,性价比更低了)

因此推荐的决策树是:
- if 强需求扩散模型:  return GB10平台设备 like NVIDIA DGX Spark
- else: return Apple M芯片Mac Mini/Studio

此处,从个人角度考虑,因为个人玩AIGC扩散模型,因此强需求N卡cuda生态,同时希望完全本地部署全套的话需要极大显存,因此昂贵的NVIDIA DGX Spark基本上是唯一解(性价比极低,但是是最廉价的大显存N卡方案)。如果不追求AIGC或者不追求同时在显存中加载LLM和扩散模型,更推荐M芯片Mac,并且现在这个时间推荐等等高端M5芯片。

LLM(大语言模型)

模型选择

当然,从前文大家可以知道整个事儿就是为了qwen3.5这盘醋包的饺子。可以从rank中看到qwen3.5我们可能采用的系列的对比。
點擊在新視窗中瀏覽此圖片]
可以注意到在以IQ为主的榜单上甚至27B模型是最优秀的。我在本地也对可能在本地部署的3款模型进行了对比:

- qwen3.5 27B:以长思考链为亮点的稠密模型,27B参数量即27B激活参数量,因此智商非常高,适合逻辑推演等IQ优先的场景。本地输出速率在10-15t/s左右,确实很慢了。
- qwen3.5 35BA3B,看起来参数量大但是由于是专家模型,因此本质上是知识范围相对更大但是激活参数量极少,因此响应速度快50-60t/s左右的速度已经和上一代普通非flash模型的线上速度无异,但是开启思考可以明显感知到思考思路不够精炼,偶尔存在重复输出。总的来说是性价比极高的模型。并且非常适合在Mac上部署。
- qwen3.5 122BA10B,它明确是一个更大的专家模型,虽然智商排名仍然在27B之下,但是其知识面广仍然抬高了整体可用性,也显然比35B强不少。可惜即使加载mxfp4模型,运行起来也是80G显存,再运行一些其他东西128G显存就开始吃不消了,同时20-30t/s的输出速度也不太可用。

网络上的测评已经看得够多了,因此实际上用1月时火热的“50米洗车”问题考验了一下3个模型在thinking和非thinking模式下的结果:

- Thinking:

點擊在新視窗中瀏覽此圖片
OK

點擊在新視窗中瀏覽此圖片
OK

點擊在新視窗中瀏覽此圖片
OK


- No Thinking:

點擊在新視窗中瀏覽此圖片
Not OK

點擊在新視窗中瀏覽此圖片
Not OK

點擊在新視窗中瀏覽此圖片
OK


结论上,Thinking模式下全对没问题,而非Thinking模式下只有122B是正确的,符合预期。

- 当然,最终考虑到122B的部署内存与本地追求“快”的输出速度,实际部署还是选择了35B的unsloth版Q8量化模型(实际运行内存在40G+,部署Q4/FP4模型内存还能减半,适合在工作mac上运行) https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/tree/main 国内下载推荐镜像站https://hf-mirror.com/

至于35B的模型可用性到底怎么样,最近有一个龙虾任务测评工具:https://pinchbench.com
點擊在新視窗中瀏覽此圖片

- 虽然都是轻量级/flash模型在对比,qwen3.5 35B的75%结果在一众闭源/百B级模型之间已经足够可用了。

部署方案

在个人本地电脑上部署和运行大模型时,目前主流的几大方案各有侧重,适合不同硬件条件、使用场景和用户偏好。

- Ollama 是最容易上手的选择,几乎一键安装、一行命令就能拉取并运行模型(支持 GGUF 格式),内置模型管理、本地优先、注重隐私,对 CPU 和 GPU 都有良好兼容性,尤其适合 Mac 或配置一般的 Windows PC,用于快速测试、个人聊天或小项目。它的缺点是并发能力较弱,高负载下响应明显变慢,扩展性有限,不太适合生产级或多人使用场景。

- llama.cpp 则强调极致兼容性和资源效率,几乎能在任何硬件上跑起来(包括纯 CPU、老旧笔记本或边缘设备),支持多种量化级别、启动极快、依赖很少、跨平台性最强,是资源受限环境或需要最大便携性的首选。它在单用户推理性能上表现优秀,但并发请求处理较弱,GPU 加速虽有支持却不如 NVIDIA 专用工具极致。

- vLLM 针对高吞吐量和低延迟做了深度优化,凭借连续批处理(continuous batching)和 PagedAttention 机制,在中高端 NVIDIA GPU 上能高效处理并发请求,提供 OpenAI 兼容 API,便于集成各种前端工具。它设置相对简单、模型兼容性好,适合开发者本地跑 API 服务、多任务负载或模拟生产环境,但在极低配置硬件或纯 CPU 场景下优势不明显,单次提示响应有时不如 llama.cpp 快。

- TensorRT-LLM 是 NVIDIA GPU 上追求极致性能的方案,通过自定义内核融合、FP8/INT4 等高级量化、in-flight batching 等技术,能在 RTX 40/50 系列或更高端卡上实现显著更低的延迟和更高的 token 生成速度(相比 llama.cpp 可能快 30-70%)。

总的来说各有千秋各有优劣。同时对于mac场景,LM Studio 在macOS上也有很好的原生支持,提供完整图形界面、模型下载/管理、聊天UI、OpenAI API endpoint一键开启,对新手极其友好。它底层也大量使用Metal加速,启动模型和响应速度在M系列上普遍优于Windows版本,是“不想写代码但想要好体验”的Mac用户常用选择。

- 最终,针对我这台ubuntu系统的NVIDIA DGX Spark,我选择了 llama.cpp 作为个人本地大模型部署方案,主要因为它在 GGUF 兼容性、资源效率和 server 搭建友好度上最均衡。GGUF 格式生态最成熟,几乎所有热门模型都有现成高质量版本,切换模型非常方便。最实用的是它的 llama-server:一行命令就能启动一个兼容 OpenAI API 与 Claude 风格 的本地服务器,直接对接 Open WebUI、Claude Code、VS Code 等各种前端,几乎零配置就能用起来。相比其他工具:Ollama 更简单但并发弱;vLLM 和 TensorRT-LLM 性能强但设置复杂、模型兼容性不如 GGUF 丰富;llama.cpp 则在“广兼容、跑得稳、开 server 简单”这几点上最适合个人日常使用。

整体follow unsloth团队的指南即可: https://unsloth.ai/docs/models/qwen3.5#qwen3.5-35b-a3b
// 安装llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

// 运行模型
llama-server \
    --model models/qwen35_35BA3B/Qwen3.5-35B-A3B-Q8_0.gguf \
    --mmproj models/qwen35_35BA3B/mmproj-F16.gguf \
    --chat-template-kwargs "{\"enable_thinking\": false}" \
    --ctx-size 262144 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias qwen35-35b \
    --port 8001

扩散模型

模型选择

扩散模型我们来到了AIGC领域,这里就不是一个大模型通吃的时代,而是一堆中小规模的模型百花齐放。同时有一个需要关注的点,这个领域目前的开源生态远打不过闭源(比如最强的开源视频模型和seedance2.0比,完全不是一个时代的技术),可能的原因是AIGC更贴近生产力和商业模型。
在这个基础上,作为老AIGC玩家的我选择了几个关键领域业界比较认可的几个模型:

1. 文生图(text to image)领域:Z-Image-Turbo
  - 阿里通义多模态团队(不是qwen团队,而是和qwen打架的那个团队)开源的 Z-Image-Turbo 是6B参数的超高速文生图模型,通过解耦蒸馏技术仅需8步推理即可实现亚秒级出图,画质逼近闭源SOTA,支持中英文双语文本渲染,16GB消费级显卡友好,前一阵子是开源图像模型Elo榜首,同时兼顾速度快和够优秀确实没话说。目前的rank如下,虽然看起来比qwen与flux低,但是他们的水平已经和上一代图片生成闭源模型(gpt一代,接近banana一代)等同,完全可用。(另外这里阿里的qwen团队的qwen图像模型和和通义多模态团队z-image图像模型在国内用起来都是顶流,可以认为不分伯仲,至于为什么通义实验室下两个团队在干这个,又是一个故事)
點擊在新視窗中瀏覽此圖片
    - 地址:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

2. 图片编辑(image edit)领域,常见的是为一张图片添加一个人,把两张图片的人合在一起,修改姿势,修改画风,超分等:Qwen Image Edit 2511
  - Qwen-Image-Edit-2511是通义千问团队于2025年12月发布的图像编辑模型(基于前版2509大升级),专攻指令驱动的精准改图,最大亮点是人物一致性大幅提升、多人合照更稳、内置热门LoRA(打光/镜头/风格无需外挂)、工业设计质感与几何推理能力显著增强,目前开源社区公认最强开源图像编辑模型,目前基本上是明确的top1(除了腾讯开源了一个70B的大型模型)。
點擊在新視窗中瀏覽此圖片
- 地址:https://huggingface.co/Qwen/Qwen-Image-Edit-2511

3. 视频生成:Wan2.2
  - 仍然是阿里开源的模型,多模态团队的阿里通义万相Wan2.2是2025年7月开源的视频生成模型系列,全球首个采用MoE混合专家架构的开源视频扩散大模型(总参27B,推理激活14B),包含文生视频T2V-14B、图生视频I2V-14B和轻量混合TI2V-5B三种主力版本,支持电影级光影/构图/微表情控制,复杂动作与人物交互显著领先,能在消费级显卡高效运行。要注意的是由于视频长度与分辨率,视频模型显存占用极高,推理5s720p视频加上模型加载占用也是40G开外了,因此此模型相对于中等规模LLM意外的是一个性能大户。
  - 由于开源视频模型在总榜上已经老后面了,因此就不再贴rank了,模型地址:https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B

有意思的是,加上LLM,我们一共选择了4款模型,均是阿里开源的。两款qwen团队的两款多模态团队的。阿里不愧是开源大户。

部署方案

多模态模型部署的方案几乎没有讨论的余地,AIGC玩家唯一选择——即ComfyUI:ComfyUI是一个开源的节点式AI绘画界面。它将图像生成流程拆解为一个个功能模块,通过拖拽和连线的方式,让用户像搭建乐高一样自由定制工作流。这种方式不仅显存占用更小、运行效率更高,还能将工作流保存为文件精准复现,非常适合追求细节控制和复杂流程的专业用户。

在ubuntu并且N卡上,ComfyUI的部署如丝般顺滑,完全没有阻碍:
#安装
pip install comfy-cli 
comfy --install-completion

#根据显卡相关指引安装cuda生态或其他
...

#然后就可用了
comfy --skip-prompt launch --background -- --listen 0.0.0.0 --port 8080 --preview-method auto

实际运行一次文生图(Z-Image-Turbo)的界面如下。它的GUI的截图想必大家多少都见过的:
點擊在新視窗中瀏覽此圖片

友好的前端访问

上文我们为LLM和扩散模型部署了server,当然ComfyUI带工作流界面。但是对于日常使用,我们习惯于在类似于千问豆包这类的聊天窗口完成任务,因此部署一个好用的前端界面便是接下来的一环。

离线豆包一样的OpenWebUI

在linux服务器上部署的开源的Chat类方案,目前最优解自然是OpenWebUI(https://github.com/open-webui/open-webui)。可以把 OpenWebUI 想象成一个 “完全私有的、你自己服务器上的ChatGPT”,同时它不仅是一个统一的聊天界面,也是一个私人的知识库:你可以上传自己的文档构建一个完全本地、不上传云端的安全知识库,然后向AI提问文档里的内容,并且用RAG检索;当然也支持自定义Agent,Skill等。
- 它部署它非常简单,运行起来后,只需要简单的将openAI server指向本地的llama-server,我们的qwen就可以运行起来了。向qwen提问题或者多模态理解都轻而易举。


點擊在新視窗中瀏覽此圖片
配置

點擊在新視窗中瀏覽此圖片
qwen普通问答

點擊在新視窗中瀏覽此圖片]
qwen多模态输入


- ComfyUI也可以使用标准的工作流进行桥接,我们的Chat也能利用扩散模型生成图片与编辑图片。


點擊在新視窗中瀏覽此圖片
配置

點擊在新視窗中瀏覽此圖片
Text to Image

點擊在新視窗中瀏覽此圖片
Image Edit


现在,我们得到了一个完全在本地部署离线运行的小豆包,或者说是小千问(毕竟部署的模型全是阿里家的)。

内网穿透

我们的OpenWebUI可以在我们的局域网里访问了,但是作为生产力,自然希望自己人在外也能访问家庭的模型与数据,自然就涉及内网穿透了。真巧我本地可以实践以下3个常见家用内网穿透方案:

1. NAS自带穿透服务
家里正好有一台功能完善的NAS自带了内网穿透服务。用NAS优势在于真正的零配置与傻瓜式操作,无需任何网络知识,注册账号即可在任何网络环境下访问;劣势则是速度受限于厂商的免费中转服务器,带宽极窄,仅能勉强用于浏览文档或照片,同时访问的Web容器和权限受NAS的应用管理,并不太自由。
點擊在新視窗中瀏覽此圖片

2. 花生壳这样的商业穿透服务
花生壳我也用过,优势在于它结合了低门槛与高性能,只需安装客户端并付费,即可获得稳定且有保障的商用带宽;当然问题注意还是在穿透暴露http服务需要ICP备案,我们还是暴露的AI类服务,确实大可不必直接放弃。

3. 自建FRP服务
还是正好,我在大陆和境外都有闲置云服务器和闲置域名。直接在新加坡阿里云上部署FRP服务听起来很不错,优势在于极高的自由度与可控性,深度定制转发规则,数据掌握在自己手中,长期成本可能低于商业服务,当然,也不需要备案。

#client(内网机器)
serverAddr = "161.117.83...."
serverPort = 7777

[[proxies]]
name = "web"
type = "http"
localPort = 8989
customDomains = ["ai.lrd.tw"]
#server(阿里云)
bindPort = 7777
vhostHTTPPort = 8989

最终,NAS方案与FRP服务方案我都用起来了。利用NAS建设了简单的服务器管理API,穿透访问安全。而OpenWebUI本身也frp挂在了阿里云上,便于在浏览器直接访问。
點擊在新視窗中瀏覽此圖片

目前家庭网络看起来如下:

點擊在新視窗中瀏覽此圖片
现状(安全性差)

點擊在新視窗中瀏覽此圖片
理想态(安全,web服务docker化,堡垒机)


接下来 / Todo

OpenWebUI只能说是用户友好的离线豆包,但是豆包不是生产力工具,OpenWebUI的功能甚至还无法覆盖我部署的全部模型。
作为程序员,Claude Code、龙虾、大量的Skill打通我们本地部署的模型与能力,才能构成真正的本地离线AI生产力堡垒。So,这些内容正在编写分享文档Part 2。
关键词:openclaw , ai , aigc , llm , dgx , spark , qwen35
logo