本地大模型

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

AI教程2026年5月3日
在 RTX 3090 上优化 Qwen3.6-27B 本地推理：原生 vLLM 与 Ollama 备选方案指南
深入探讨如何在消费级硬件上运行最先进的 Qwen3.6-27B 模型，利用原生 Windows vLLM 实现 72 tokens/s 的速度，并实施混合云端-本地策略。
阅读全文 →
AI教程2026年5月2日
PFlash 加速 llama.cpp 预填充与 Ollama 性能飞跃：Llama 3.2 安卓部署指南
深入了解 PFlash 如何实现 llama.cpp 预填充 10 倍提速，Ollama v0.22.1 对 Qwen 模型的性能优化，以及在安卓端部署微调 Llama 3.2 的实战教程。
阅读全文 →
AI教程2026年4月26日
打造具有持久记忆的本地 AI 助手：LM Studio 与 Big RAG 完整指南
本教程将指导你如何利用 Google 的 Gemma 4 模型和 LM Studio 部署一个完全离线的 AI 助手，并通过自定义 Big RAG 插件实现跨会话的持久记忆功能。
阅读全文 →
模型评测2026年4月17日
本地 LLM 的突破：Qwen3.6-35B-A3B 在视觉推理上超越 Claude Opus 4.7
深入分析本地模型（如 Qwen3.6-35B）如何在 SVG 生成等复杂空间推理任务中挑战 Claude 4.7 等云端巨头。
阅读全文 →
AI教程2026年4月12日
本地大模型推理加速指南：DFlash MLX、vLLM Qwen 与 Ollama 优化实践
本文深度解析本地 AI 推理的最新突破，涵盖 Apple Silicon 上的 DFlash 投机采样技术、vLLM 在多显卡环境下的 Qwen 397B 部署方案，以及针对消费级显卡的 Ollama 性能优化实战指南。
阅读全文 →
AI教程2026年4月5日
Gemma 4 本地推理优化指南：llama.cpp KV 缓存修复与 NPU 部署评测
深入分析 Google Gemma 4 模型的最新本地推理突破，涵盖 llama.cpp 的显存优化修复、Ollama 在 RTX 3090 上的量化性能基准测试，以及在 Rockchip NPU 上的超低功耗部署实践。
阅读全文 →
AI教程2026年4月4日
Anthropic 限制第三方 Claude 访问：为什么本地运行 AI 是您的保险政策
针对 Anthropic 突然限制第三方 Claude 集成的政策调整，本文深入探讨开发者如何通过本地 LLM 部署以及使用 n1n.ai 的混合 API 策略来降低平台风险。
阅读全文 →
AI教程2026年4月3日
使用 Gemma 4 和 Cathedral 构建具有持久身份的本地 AI 智能体
了解如何通过结合 Google 的 Gemma 4 与 Cathedral 内存框架来弥补本地大语言模型的记忆缺陷，实现零云依赖的持久化智能体身份。
阅读全文 →
AI教程2026年3月31日
玩转本地大模型：Ollama 全方位实战指南
本教程详细介绍了如何安装 Ollama，在本地部署 Llama 3、DeepSeek-V3 等大模型，并将其集成到 Python 开发和 RAG 工作流中，实现零成本、高隐私的 AI 应用。
阅读全文 →
AI教程2026年3月23日
使用本地 LLM 运行 Karpathy 的 autoresearch 实现零成本自主 AI 研究
本教程将教你如何通过本地运行的 Qwen 3.5 9B 和 Ollama 复现 Andrej Karpathy 的自主 AI 研究实验，在无需支付 API 费用的情况下实现自动化的模型优化循环。
阅读全文 →
AI教程2026年3月14日
通过 MCP 协议为本地大语言模型赋予浏览器自动化超级能力
了解如何将 Ollama 和 LM Studio 等本地大模型与 PageBolt MCP 集成，在不牺牲隐私的情况下执行复杂的浏览器自动化任务、截图和网页抓取。
阅读全文 →
AI教程2026年2月16日
Ollama 全方位指南：在本地高效运行大语言模型
本教程将详细介绍如何安装、配置和优化 Ollama，帮助您在本地机器上运行 Llama 3.2、DeepSeek-V3 等顶级开源模型，实现极致的隐私保护与零成本调用。
阅读全文 →