AI教程2026年5月3日在 RTX 3090 上优化 Qwen3.6-27B 本地推理:原生 vLLM 与 Ollama 备选方案指南深入探讨如何在消费级硬件上运行最先进的 Qwen3.6-27B 模型,利用原生 Windows vLLM 实现 72 tokens/s 的速度,并实施混合云端-本地策略。阅读全文 →
AI教程2026年5月2日PFlash 加速 llama.cpp 预填充与 Ollama 性能飞跃:Llama 3.2 安卓部署指南深入了解 PFlash 如何实现 llama.cpp 预填充 10 倍提速,Ollama v0.22.1 对 Qwen 模型的性能优化,以及在安卓端部署微调 Llama 3.2 的实战教程。阅读全文 →
AI教程2026年4月26日打造具有持久记忆的本地 AI 助手:LM Studio 与 Big RAG 完整指南本教程将指导你如何利用 Google 的 Gemma 4 模型和 LM Studio 部署一个完全离线的 AI 助手,并通过自定义 Big RAG 插件实现跨会话的持久记忆功能。阅读全文 →
模型评测2026年4月17日本地 LLM 的突破:Qwen3.6-35B-A3B 在视觉推理上超越 Claude Opus 4.7深入分析本地模型(如 Qwen3.6-35B)如何在 SVG 生成等复杂空间推理任务中挑战 Claude 4.7 等云端巨头。阅读全文 →
AI教程2026年4月12日本地大模型推理加速指南:DFlash MLX、vLLM Qwen 与 Ollama 优化实践本文深度解析本地 AI 推理的最新突破,涵盖 Apple Silicon 上的 DFlash 投机采样技术、vLLM 在多显卡环境下的 Qwen 397B 部署方案,以及针对消费级显卡的 Ollama 性能优化实战指南。阅读全文 →
AI教程2026年4月5日Gemma 4 本地推理优化指南:llama.cpp KV 缓存修复与 NPU 部署评测深入分析 Google Gemma 4 模型的最新本地推理突破,涵盖 llama.cpp 的显存优化修复、Ollama 在 RTX 3090 上的量化性能基准测试,以及在 Rockchip NPU 上的超低功耗部署实践。阅读全文 →
AI教程2026年4月4日Anthropic 限制第三方 Claude 访问:为什么本地运行 AI 是您的保险政策针对 Anthropic 突然限制第三方 Claude 集成的政策调整,本文深入探讨开发者如何通过本地 LLM 部署以及使用 n1n.ai 的混合 API 策略来降低平台风险。阅读全文 →
AI教程2026年4月3日使用 Gemma 4 和 Cathedral 构建具有持久身份的本地 AI 智能体了解如何通过结合 Google 的 Gemma 4 与 Cathedral 内存框架来弥补本地大语言模型的记忆缺陷,实现零云依赖的持久化智能体身份。阅读全文 →
AI教程2026年3月31日玩转本地大模型:Ollama 全方位实战指南本教程详细介绍了如何安装 Ollama,在本地部署 Llama 3、DeepSeek-V3 等大模型,并将其集成到 Python 开发和 RAG 工作流中,实现零成本、高隐私的 AI 应用。阅读全文 →
AI教程2026年3月23日使用本地 LLM 运行 Karpathy 的 autoresearch 实现零成本自主 AI 研究本教程将教你如何通过本地运行的 Qwen 3.5 9B 和 Ollama 复现 Andrej Karpathy 的自主 AI 研究实验,在无需支付 API 费用的情况下实现自动化的模型优化循环。阅读全文 →
AI教程2026年3月14日通过 MCP 协议为本地大语言模型赋予浏览器自动化超级能力了解如何将 Ollama 和 LM Studio 等本地大模型与 PageBolt MCP 集成,在不牺牲隐私的情况下执行复杂的浏览器自动化任务、截图和网页抓取。阅读全文 →
AI教程2026年2月16日Ollama 全方位指南:在本地高效运行大语言模型本教程将详细介绍如何安装、配置和优化 Ollama,帮助您在本地机器上运行 Llama 3.2、DeepSeek-V3 等顶级开源模型,实现极致的隐私保护与零成本调用。阅读全文 →