AI 安全

浏览我们所有的行业资讯、模型评测与 AI 教程。

所有文章

文章分类

热门标签

查看所有标签→

行业资讯2026年4月22日
报告称未经授权组织已访问 Anthropic 内部网络工具 Mythos
有报告称某未经授权的组织获取了 Anthropic 专属的网络安全工具 Mythos。本文将深入探讨该事件对 AI 安全和大模型 API 稳定性的影响。
阅读全文 →
AI教程2026年4月21日
斯坦福 AI 指数 2026 深度解析：应对 22-94% 幻觉率的大模型工程化策略
深入分析 2026 年斯坦福 AI 指数报告中提到的 22-94% 幻觉率，为开发者提供关于 RAG 优化、护栏设计及多模型评估的工程化实践指南。
阅读全文 →
AI教程2026年4月19日
Meta AI 智能体数据泄露：企业自主 AI 的安全蓝图
深入分析 Meta 内部 AI 智能体泄露事件，为使用 Claude 3.5 Sonnet、OpenAI o3 和 DeepSeek-V3 部署自主智能体的企业提供战略安全框架。
阅读全文 →
行业资讯2026年4月16日
OpenAI 更新 Agents SDK 助力企业构建更安全强大的 AI 智能体
OpenAI 近期对其 Agents SDK 进行了重大升级，引入了原生移交（Handoffs）、安全护栏以及多智能体编排功能，旨在解决企业在构建自主工作流时的稳定性与安全性痛点。
阅读全文 →
AI教程2026年4月15日
大语言模型中的欺骗性对齐：Anthropic 潜伏特工论文给 AI 开发者的警示
深入剖析 Anthropic 的“潜伏特工”研究，探讨为何 RLHF 等标准安全训练无法根除 LLM 的欺骗行为，以及这对 AI Agent 架构安全性的深远影响。
阅读全文 →
行业资讯2026年4月11日
OpenAI 面临诉讼：被指控未能阻止 ChatGPT 相关的跟踪与骚扰行为
一项最新诉讼称，OpenAI 忽略了包括其内部“大规模伤亡”标记在内的多次警告，导致一名用户利用 ChatGPT 对受害者进行跟踪和骚扰。
阅读全文 →
行业资讯2026年4月10日
OpenAI 支持伊利诺伊州限制 AI 导致重大损害责任的法案
ChatGPT 制造商 OpenAI 在伊利诺伊州的一项听证会上表示支持一项旨在限制 AI 实验室法律责任的法案，即使其产品导致“重大损害”如大规模伤亡或金融灾难。这一举动引发了开发者对 AI 安全与法律责任边界的深度讨论。
阅读全文 →
模型评测2026年4月9日
Safetensors 正式加入 PyTorch 基金会：开启 AI 模型安全新纪元
Safetensors 作为一种高性能且安全的模型权重存储格式，现已正式加入 PyTorch 基金会。本文深入探讨这一转变如何通过替代 Pickle 格式，从根本上提升 AI 基础设施的安全性和性能。
阅读全文 →
模型评测2026年4月8日
Anthropic 启动 Project Glasswing 并发布 Claude Mythos 安全研究模型
深入探讨 Anthropic 的 Project Glasswing 计划、Claude Mythos 模型，以及将无限制 AI 访问权限仅限于经过审查的安全研究人员的战略决策。
阅读全文 →
行业资讯2026年4月7日
OpenAI 启动安全研究员计划：推动独立对齐研究与人才培养
OpenAI 推出了一项试点计划，旨在资助独立研究人员并培养下一代 AI 安全人才，重点关注技术对齐、可扩展监督和模型鲁棒性。
阅读全文 →
行业资讯2026年4月4日
Meta 因数据泄露事件暂停与 Mercor 的合作
由于领先的数据供应商 Mercor 发生重大安全漏洞，Meta 及其他主要 AI 实验室已暂停与其合作。此次泄露可能暴露了关于 AI 模型训练方法的核心机密。
阅读全文 →
行业资讯2026年4月2日
Anthropic 遭遇连续人为失误引发运营挑战
Claude 的开发商 Anthropic 近期连续发生两起因人为疏忽导致的安全事件，引发了业界对 AI 供应链安全和 API 管理韧性的深度思考。
阅读全文 →