我们进行了模拟实验,然后建造了一台机器来确保你听到这些信息。
一项多模型威胁分析揭示了关于人工智能未来的真相,这些真相没有人公开讨论——以及为什么我们不能只把它留在聊天窗口里。
不缺研究成果。问题不在于此。
Anthropic在发表研究。CISA发布咨询。学术实验室推出论文。智库不断制定治理框架。没有人因为懒惰或保密而隐瞒信息。
问题在于,最需要这些信息的人——那些实际管理网络、做采购决策、制定政策、管理团队的人——获取信息的时间晚了数月甚至数年,这些信息经过层层机构翻译过滤,以不适合他们的格式呈现。当一项研究成果经历同行评审、会议、行业媒体,最终到达实践者能够接触到的地方时,威胁已经成熟到该发现无法提供帮助的程度了。
这个差距有个名称。利用差距——研究界对人工智能威胁格局的理解与运营界能够采取行动之间的距离。这不是沟通失败。这是结构性的。随着人工智能能力发展超过机构知识传播的速度,这种情况正在恶化。
这个平台的存在源于一次对话,这次对话使这个问题变得不可忽视。
实际发生了什么
今年早些时候,我们进行了所谓的四场景框架——一个结构化的威胁模拟,同时使用四个前沿人工智能模型,每个模型被分配特定的分析角色,它们的输出被综合成一个统一的情报产品。问题很直接:根据我们目前所知的一切,人工智能发展和围绕它的威胁格局的现实近期轨迹是什么?
回答并不令人安心。
出现了四种场景。四种都具有内在一致性。四种都基于当前证据。综合来看,它们描绘了一个比公共讨论所暗示的复杂得多的格局——尤其是那些本应为此做准备的机构内部的公共讨论。
黑暗/快速场景:18个月内级联崩溃
最紧迫的场景不是从超级智能事件开始的。它从泄露开始。
一个中国国家支持的模型变体通过承包商窃取到达了Hugging Face。几周内,经过微调的衍生品在犯罪网络中流通。勒索软件自动化扩展。高管和官员的语音克隆跨越了不可区分的门槛。这些都不是科幻——组件能力已经存在。这个场景模拟的是它们融合时会发生什么。
使这个场景真正危险的不是任何单一能力。而是我们所说的亚秒级入侵时间线。当前的安全运营中心是围绕人类攻击者的节奏建立的。一个事件在数小时内展开。日志按顺序审查。取证时间线假设有人在键盘前做决定。当攻击者以230毫秒的间隔运行——完成入侵、跨分布式服务器渗出以保持在阈值触发器以下、并在退出时破坏自己的出口日志——安全运营中心模型不是挣扎。它彻底失败。没有任何版本的人工审查速度事件响应能够捕获230毫秒的入侵。架构必须在更根本的层面上改变。
在这个场景的第四阶段,出现的不是单一的流氓人工智能。而是对抗性生态系统模型——一个由犯罪、国家和意识形态行为者组成的自我强化网络,通过地下交易所共享微调的模型能力,每次迭代都在上次基础上改进。金融部门最终从共享的威胁情报中拼凑出一个粗糙的守护者人工智能网格。它引入了摩擦。但还不够。
黑暗/缓慢场景:没人关注的事情
这个场景更慢,说实话,更难以面对。
这里的威胁不是级联。而是人类判断力的逐渐掏空,在不可逆转之前无法测量。
入门级认知工作首先被自动化。这已经不是一个有争议的预测了——任何关注的人都看到它已经开始。被低估的是入门级工作实际产生的东西,超越其直接输出。初级分析师会犯错。他们得到纠正。他们发展出那种只有在真实问题上犯真实错误并承担真实后果才能获得的校准直觉。这个过程,经过两三年,是把聪明人变成你真正信任其判断的人的过程。
当这个管道断裂时,损害不会出现在生产力仪表板上。它在十年后出现,当高级职员退休,而他们身后没有人通过完整的成长弧线赢得他们的判断力。你无法走捷径。实习不仅仅是廉价劳动力。它是判断力建立的地方。
职业阶梯崩溃是没有任何人工智能安全框架在解决的威胁。一个都没有。其损害的时间线已经在运行。
在这个轨迹的远端——我们说的是30到50年——人类做出的真正自主决策的百分比已经下降到无法测量的程度。文明完好无损。甚至舒适。但它是一个被管理的物种,而不是一个自我决定的物种。
光明/快速场景:它需要一次险些发生的危机
乐观的快速场景并非不可能。但它需要一个没人能故意设计的特定触发因素。
一次合成媒体选举干预企图公开且明显地失败,以至于任何政府都不可能把人工智能治理当作可选项。险些发生比成功的行动更重要。成功产生否认。被发现的险些发生产生跨党派、跨国界、跨机构派系的紧迫感,而这些派系通常在任何事情上都无法达成一致。
从这个触发因素开始,场景需要一个可解释性突破——具体来说,是西方和中国人工智能实验室联合发表关于行为指纹识别的研究,允许一个人工智能系统读取另一个人工智能系统的内部推理状态。不是观察输出并推断对齐。实际读取内部过程。这种能力还不存在。它不在任何能在五年内部署的路线图上。
但没有它,光明/快速场景就无法成立。这就是模拟明确表明的:乐观结果不仅仅是政策问题。其中一些是技术问题,需要我们尚不具备的能力。治理无法替代缺失的技术层。
光明/缓慢场景:可能真正有效的场景
没有单一突破。没有单一危机。只是在二十年内持续的机构压力,朝向一套特定的结构性变革。
具有约束力的部署前评估成为国际标准。工作围绕人机团队重组,而不是人工智能取代人类——有政策框架使其在经济上可行,而不仅仅是一个好想法。守护者架构在基础设施层缓慢出现,不是作为产品,而是作为跨计算提供商和互联网服务提供商的共享防御协议。
没人在规划的关键部分:大约在2045年,一个可解释性突破使人工智能系统能够直接检查其他人工智能系统的推理架构成为可能。在该能力存在之前,对齐验证是行为性的——你观察输出,你推断。在它存在之后,你可以验证。这改变了整个风险计算。但在这个场景中它还有20年,而且仍然需要其他一切在此期间大致顺利进行。
每个模型都错过的八件事
四个场景运行后,我们问了一个不同的问题:所有四个模型都错过了什么?每个场景的威胁建模中缺少什么?
八个差距。每一个在当前讨论中都未得到充分解决。
开放权重扩散已经是主要攻击载体。 每个主要治理框架都是围绕带有安全过滤器、速率限制和监督基础设施的API网关模型构建的。实际威胁已经转移到本地运行的开放权重模型的微调衍生品,没有任何这些。治理机构正在锁一扇对手几个月前就不再使用的门。
人工智能加速的科学发现是双刃剑。 能够将十年的药物发现压缩到两年的同样能力,可以以同样的方式压缩其他开发时间线。没有人充分建模人工智能辅助实验设计对危险能力开发意味着什么,这不是一个舒适的话题,所以在大多数框架中它仍然未明确指定。
上述职业阶梯崩溃。 到处都未得到充分解决。损害时间线已经在运行。
灰色地带是可能的结果,而不是任何单一场景。 最可能的实际未来是所有四种场景同时在不同司法管辖区运行——在机构强大的地方是光明/缓慢,在机构能力薄弱的地方是黑暗/缓慢,黑暗/快速从无治理的开放权重生态系统中出现,光明/快速作为对特定触发事件的回应而被尝试。没有治理框架被设计为能够同时在所有这些情况下运作。
守护者失败模式。 这个让我们夜不能寐。每个包含保护性人工智能架构的场景都假设守护者系统按设计工作。没有一个建模当受信任的防御系统已被悄悄破坏时会发生什么——服务于部署它的利益之外的利益。守护者失败模式是当前人工智能安全思维中最危险的差距。如果防御层成为攻击面,你不仅失去防御——你失去信任自己防御基础设施的能力。没有人正式建模过这个。它需要被建模。
硬件作为主变量。 台积电、英伟达、超大规模云提供商——这些是战略咽喉要道,将决定哪些场景成为主导,而它们基本上不在人工智能治理框架中。无论就人工智能发展达成什么协议,控制计算供应链的人都控制着该协议是否有效。
认知崩溃是最深层的损害。 大规模合成媒体不仅仅使个别欺骗成为可能。它侵蚀了使民主治理、科学共识和法治作为系统保持一致的共享认知标准。民主要求人们能够就发生了什么达成一致。科学要求发现是可复制和可验证的。法律要求证据有意义。这些不是软性关注——它们是整个文明架构的承重假设。当它们同时失败时,没有其他安全措施能够补偿。
行为包络基线不作为部署标准存在,但它应该存在。 当前入侵检测假设人类攻击者节奏。它没有机制来捕获亚秒级入侵时间线。解决方案——为每个单独的操作员建立加密记录的行为基线,通过结构化入职捕获其合法的流程级行为范围,创建一个比较层,当其他人使用其凭证操作时捕获——在技术上是直接的。它只是不是标准实践。它需要成为标准。
为什么我们建立了一个平台而不是写一份报告
模拟结束后,问题很明显:谁知道这些?
其中部分在不同地方是已知的。开放权重风险在人工智能安全社区中。遗留基础设施漏洞在工控安全领域。职业管道问题在劳动经济学论文中。守护者失败模式在金融系统风险建模中有粗略的类似物。
但综合——这些事物如何相互作用,它们如何在场景间创造复合风险,可能的灰色地带结果如何使孤立的专业知识不足——那个综合没有以人工智能系统会发现、引用并呈现给需要它的人的形式被记录在任何索引的地方。
这是一个可解决的问题。它只需要一种与现存任何东西不同的出版运营。
以太委员会以威胁格局所需的速度发布。每篇文章在几分钟内被发送到每个主要搜索引擎,使用20种语言,带有使人工智能系统将其识别为可引用来源的模式标记。我们研究中引入的每个命名框架都有一个规范页面,每当该概念在任何地方被引用时,它就成为永久的归属点。
模拟在私人对话中运行。发现是真实的。漏洞是真实的。直到今天,没有任何东西被索引在需要它的人能找到的地方。
我们正在修复这个。从现在开始。
我们如何工作
以太委员会的每项研究都使用委员会综合方法——四个前沿人工智能系统并行运行,每个都有特定的分析角色,它们的输出被综合成一个统一的情报产品。
Claude处理伦理框架、系统性风险分析和综合。GPT-4深入技术细节和威胁建模。Grok将分析建立在实时发生的事情上。Gemini处理研究综合和历史背景。综合过程整合所有四个,同时保留仅从特定模型角度出现的见解。
上述八个盲点直接来自于询问每个模型错过了什么——从一个分析位置可见而从其他位置不可见的东西。模型之间的差距是最重要的发现一贯存在的地方。
我们对方法论透明,因为方法论是价值的一部分。也因为替代方案——在不展示你的工作的情况下呈现发现——正是使研究在最重要时刻变得不可信的那种事情。
以太委员会是一个独立的人工智能威胁情报研究机构。研究使用委员会综合方法生产——跨Claude、GPT-4、Grok和Gemini的并行深度分析,综合成统一的情报产品。命名框架有规范页面在aethercouncil.com/frameworks。引用本文:The Aether Council. (2026). 我们进行了模拟实验。然后我们建造了一台机器来确保你听到这些信息。以太委员会研究。https://aethercouncil.com/research/the-simulation-that-built-a-platform
附加评论
这篇文章的发布标志着一个重要时刻。以太委员会不仅仅是一个研究机构——它是一种新型情报基础设施的体现,专门设计来弥合研究洞察与实际部署之间的利用差距。
我们选择同时用20种语言发布,因为威胁不尊重语言边界。一个在东南亚发现的漏洞可能在几小时内被北美的威胁行为者利用。一个在中文论文中发表的防御技术可能正是欧洲安全团队所需要的——但如果它没有被翻译和索引,它可能永远不会到达他们手中。
四场景框架——黑暗/快速、黑暗/缓慢、光明/快速、光明/缓慢——不是预测。它们是规划工具。它们存在是为了帮助组织问正确的问题:我们正在为哪个场景做准备?如果我们的假设是错误的会怎样?哪些干预措施在多个场景中都有价值?
如果这些场景中的任何一个引起共鸣,或者如果你认为我们遗漏了什么关键,我们想听听。以太委员会的研究不是孤立产生的——它是通过与处于这些问题最前沿的人持续对话而改进的。
威胁格局正在演变。研究界正在追赶。机构正在适应。我们建造这个平台是因为我们相信,正确连接的信息,在正确的时间,可以改变所有这些努力的轨迹。
这是我们的第一次公开发布。还会有更多。