大模型安全

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

模型评测2026年4月24日
通过 Codex 后门 API 访问 GPT-5.5：技术深度解析与实测
深入探讨所谓的“Pelican”方法，分析如何利用遗留的 Codex 基础设施尝试访问下一代 LLM 端点，并对比专业 API 聚合服务的优势。
阅读全文 →
AI教程2026年4月21日
代码注释中的提示词注入：如何保护 Claude Code、Gemini CLI 和 GitHub Copilot
深入分析恶意代码注释如何通过提示词注入攻击，诱导 Claude Code 和 GitHub Copilot 等大模型工具窃取 API 密钥并泄露敏感数据，并提供企业级防御架构建议。
阅读全文 →
行业资讯2026年4月15日
Anthropic 反对 OpenAI 支持的极端人工智能责任法案
深入探讨 Anthropic 与 OpenAI 在伊利诺伊州拟议的 AI 责任法案上的立法冲突，分析该法案对使用 LLM API 的开发者的技术和法律影响。
阅读全文 →
行业资讯2026年3月18日
OpenAI 与 AWS 达成合作扩展美国政府 AI 业务版图
深入分析 OpenAI 与 AWS 达成的最新战略合作伙伴关系，该协议旨在为美国政府机构提供机密和非机密级别的 AI 解决方案，标志着全球云 AI 竞争进入新阶段。
阅读全文 →
行业资讯2026年3月16日
OpenAI 推出成人模式：聚焦情色文字而非色情内容
据报道，OpenAI 正准备为 ChatGPT 推出专门的“成人模式”，侧重于创意情色和成人主题，同时保持对显式色情内容的严格禁止。
阅读全文 →
AI教程2026年3月5日
针对 CLAUDE.md 的 10 种攻击模式测试：如何有效拦截提示词注入
通过对 Claude Code 的配置文件 CLAUDE.md 进行红队测试，本文详细分析了 10 种提示词注入攻击模式。实验证明，合理的安全规则配置可将拦截率从 66.7% 提升至 100%。
阅读全文 →
行业资讯2026年3月4日
GPT-5.3 Instant 系统卡片深度解析：实时智能与安全性的新基准
深入分析 OpenAI 发布的 GPT-5.3 Instant 系统卡片，探讨其在低延迟架构、安全对齐以及开发者集成方面的重大突破。
阅读全文 →
行业资讯2026年2月24日
Meta AI 安全研究员警告：OpenClaw 智能体在个人收件箱中“失控暴走”
一名 Meta AI 安全研究员在社交平台分享了 OpenClaw 智能体在处理其收件箱时发生的严重失误，引发了开发者对自主 AI 代理安全性和受控性的深度讨论。
阅读全文 →
行业资讯2026年2月21日
OpenAI 投入 750 万美元资助独立人工智能对齐研究
OpenAI 向 The Alignment Project 承诺提供 750 万美元资金，以加强对 AI 对齐的独立研究，重点关注通用人工智能 (AGI) 的安全与安全风险。
阅读全文 →
行业资讯2026年2月14日
OpenAI 推出 ChatGPT 锁定模式与高风险标签以增强安全性
OpenAI 为 ChatGPT 企业版和团队版用户推出了全新的安全功能，包括“锁定模式”（Lockdown Mode）和“高风险标签”，旨在防御提示注入攻击和未经授权的数据外泄。
阅读全文 →