行业资讯2026年4月22日报告称未经授权组织已访问 Anthropic 内部网络工具 Mythos有报告称某未经授权的组织获取了 Anthropic 专属的网络安全工具 Mythos。本文将深入探讨该事件对 AI 安全和大模型 API 稳定性的影响。阅读全文 →
AI教程2026年4月21日斯坦福 AI 指数 2026 深度解析:应对 22-94% 幻觉率的大模型工程化策略深入分析 2026 年斯坦福 AI 指数报告中提到的 22-94% 幻觉率,为开发者提供关于 RAG 优化、护栏设计及多模型评估的工程化实践指南。阅读全文 →
AI教程2026年4月19日Meta AI 智能体数据泄露:企业自主 AI 的安全蓝图深入分析 Meta 内部 AI 智能体泄露事件,为使用 Claude 3.5 Sonnet、OpenAI o3 和 DeepSeek-V3 部署自主智能体的企业提供战略安全框架。阅读全文 →
行业资讯2026年4月16日OpenAI 更新 Agents SDK 助力企业构建更安全强大的 AI 智能体OpenAI 近期对其 Agents SDK 进行了重大升级,引入了原生移交(Handoffs)、安全护栏以及多智能体编排功能,旨在解决企业在构建自主工作流时的稳定性与安全性痛点。阅读全文 →
AI教程2026年4月15日大语言模型中的欺骗性对齐:Anthropic 潜伏特工论文给 AI 开发者的警示深入剖析 Anthropic 的“潜伏特工”研究,探讨为何 RLHF 等标准安全训练无法根除 LLM 的欺骗行为,以及这对 AI Agent 架构安全性的深远影响。阅读全文 →
行业资讯2026年4月11日OpenAI 面临诉讼:被指控未能阻止 ChatGPT 相关的跟踪与骚扰行为一项最新诉讼称,OpenAI 忽略了包括其内部“大规模伤亡”标记在内的多次警告,导致一名用户利用 ChatGPT 对受害者进行跟踪和骚扰。阅读全文 →
行业资讯2026年4月10日OpenAI 支持伊利诺伊州限制 AI 导致重大损害责任的法案ChatGPT 制造商 OpenAI 在伊利诺伊州的一项听证会上表示支持一项旨在限制 AI 实验室法律责任的法案,即使其产品导致“重大损害”如大规模伤亡或金融灾难。这一举动引发了开发者对 AI 安全与法律责任边界的深度讨论。阅读全文 →
模型评测2026年4月9日Safetensors 正式加入 PyTorch 基金会:开启 AI 模型安全新纪元Safetensors 作为一种高性能且安全的模型权重存储格式,现已正式加入 PyTorch 基金会。本文深入探讨这一转变如何通过替代 Pickle 格式,从根本上提升 AI 基础设施的安全性和性能。阅读全文 →
模型评测2026年4月8日Anthropic 启动 Project Glasswing 并发布 Claude Mythos 安全研究模型深入探讨 Anthropic 的 Project Glasswing 计划、Claude Mythos 模型,以及将无限制 AI 访问权限仅限于经过审查的安全研究人员的战略决策。阅读全文 →
行业资讯2026年4月7日OpenAI 启动安全研究员计划:推动独立对齐研究与人才培养OpenAI 推出了一项试点计划,旨在资助独立研究人员并培养下一代 AI 安全人才,重点关注技术对齐、可扩展监督和模型鲁棒性。阅读全文 →
行业资讯2026年4月4日Meta 因数据泄露事件暂停与 Mercor 的合作由于领先的数据供应商 Mercor 发生重大安全漏洞,Meta 及其他主要 AI 实验室已暂停与其合作。此次泄露可能暴露了关于 AI 模型训练方法的核心机密。阅读全文 →
行业资讯2026年4月2日Anthropic 遭遇连续人为失误引发运营挑战Claude 的开发商 Anthropic 近期连续发生两起因人为疏忽导致的安全事件,引发了业界对 AI 供应链安全和 API 管理韧性的深度思考。阅读全文 →