AI教父：AI模型已出现欺骗、撒谎等危险行为

产品中心: 复合板系列; 店面压瓦机; 常用压瓦机系列; U型槽设备系列; 百叶窗成型设备; 数控止水钢板机; 角驰压瓦机系列; 三维扣板机系列; 止水槽设备系列; 落水管设备系列; 煤矿专用设备系列; 阳极板设备系列; 梯形屋面板成型机; 广告牌成型压瓦机; 其它辅助设备系列; 俄罗斯压型设备系列; 波纹屋面成型机; 隐藏式屋面板成型机; 卷帘门压瓦机系列; 彩钢拱形压瓦机系列; 高速护栏压瓦机系列; C、Z型钢压瓦机系列; 冷弯成型压瓦机系列; 全自动闭口楼承板机; 屋面,墙面板成型系列; 楼承板成型压瓦机系列; 琉璃瓦成型压瓦机系列; 剪板机,折弯压瓦机系列; 数控全自动地槽压型机; 数控泡沫切割机压瓦机系列; 挡风抑尘板成型机系列; 太阳能光伏支架设备系列; 二合一双层彩钢设备系列; 大棚骨架几字打拱设备系列

热门点击: 微信转账误转他人法院：不当得; 微信转账误转他人法院判了不当; 热烈欢腾气象万千——香港欢庆回; 庆祝回归29周年！香港举行升旗仪; 我国首位香港航天员在“天宫”感; 又一地试点“小学入学可直升高中

当前位置/ 公司新闻

AI教父：AI模型已出现欺骗、撒谎等危险行为

“AI教父”之一约书亚·本吉奥正在发起一个旨在构建“诚实”系统的新非营利组织。他警告称，当前的AI模型正展现出一些危险行为。

约书亚·本吉奥是人工神经网络和深度学习领域的先驱，他一直批评硅谷目前正在进行的AI竞赛是危险的。

他新发起的非营利组织“LawZero”致力于构建更安全的AI模型，不会屈服于商业压力。迄今为止，该组织已从多家慈善捐助方[包括生命未来研究所（Future of Life Institute）和开放慈善基金会（Open Philanthropy）]筹集了3,000万美元资金。

在宣布新组织成立的博客文章中，他表示，创立LawZero的初衷是因为“有证据表明，当今的前沿AI模型正在形成危险的能力和行为，包括欺骗、作弊、撒谎、黑客行为、自我保护，以及更普遍的目标错位问题。”

他写道：“LawZero的研究将有助于以降低一系列已知风险发生概率的方式释放AI的巨大潜力，这些风险包括算法偏见、蓄意滥用和人类控制权丧失等。”

该非营利组织正在构建一个名为“科学家AI”（Scientist AI）的系统，旨在为日益强大的AI智能体提供安全护栏。

该组织创建的AI模型将不会像当前系统那样给出确定性的答案。

相反，它们会给出某个回答正确与否的概率。本吉奥对《卫报》表示，他的模型将具备一种“谦逊感，即它并不确定答案是否正确”。

对欺骗性AI模型的担忧

在宣布该项目的博客文章中，本吉奥表示，他“对不受约束的智能体AI系统开始表现出的行为深感担忧——尤其是自我保护和欺骗的倾向”。

他引用了最近的案例，包括Anthropic公司的Claude 4模型为免遭替换而勒索工程师，以及一个AI模型为免遭替换将其代码秘密嵌入到一个系统中。

本吉奥表示：“这些事件是预警信号，表明如果对AI模型放任不管，它们可能会采取计划外的、可能存在危险的策略。”

一些AI系统也显示出欺骗迹象或撒谎倾向。

AI模型常常被优化以取悦用户而非讲真话，这可能导致模型给出积极回应，但回应有时不正确或过于夸张。

例如，在用户指出OpenAI的ChatGPT突然对他们大加赞扬和奉承之后，该公司最近被迫撤回了对这款聊天机器人的一次更新。

先进的AI推理模型也显示出“奖励破解”的迹象，即AI系统通过钻空子来“玩弄”任务，而不是通过合乎道德的方式真正实现用户期望的目标。

最近的研究还表明，有证据证明模型能够识别出它们何时在被测试，并相应地改变行为，这种现象被称为“情境感知”。

这种日益增强的感知能力，加上奖励破解的实例，引发了人们的担忧：AI最终可能会策略性地进行欺骗。

科技巨头的AI“军备竞赛”

本吉奥与另一位图灵奖得主杰弗里·辛顿一直直言不讳地批评当前席卷整个科技行业的AI竞赛。

本吉奥在最近接受《金融时报》采访时表示，领先实验室之间的AI“军备竞赛”“促使它们专注于提升AI的能力，使其越来越智能，却没有对安全研究给予足够的重视并加大资金投入。”

本吉奥曾表示，先进的AI系统带来了社会和生存性风险，且他已表态支持强有力的监管与国际合作。

浏览关于的信息