
这项研究来自Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队,论文于2026年4月发布,编号为arXiv:2604.06425v1,有兴趣深入了解的读者可通过该编号查询完整论文。
**研究概要:当AI不再只是工具,而是变成电脑本身**
平时我们用电脑,是因为电脑里装着操作系统、运行着程序、管理着内存。AI模型呢?它通常只是电脑上跑的一个应用,就像你手机里的微信一样,它依赖手机的硬件和系统才能运行。
这个研究团队问了一个脑洞极大的问题:能不能反过来,让AI模型本身就变成那台"电脑"?让它自己管理运算、自己充当内存、自己处理输入输出,不再需要底层的操作系统来撑腰?
这就是"神经计算机"(Neural Computer,简称NC)的核心想法。更大胆的终极目标叫做"完全神经计算机"(Completely Neural Computer,简称CNC)——一台完全由神经网络构成的、通用的、可编程的计算机。
为了验证这个想法是否可行,研究团队没有停留在纸面推理,而是真的动手做了两个原型系统:一个模拟命令行界面(也就是那种黑色背景上滚动白色文字的终端窗口),另一个模拟桌面图形界面(就是你平时点击图标、拖拽窗口的那种桌面)。他们用视频生成模型来实现这两个原型,让AI通过"生成下一帧屏幕画面"的方式,模拟一台真实运行中的电脑。
---
**一、为什么要造一台"神经计算机"?现有的电脑不够用吗?**
现代电脑的工作方式已经沿用了几十年:处理器负责运算,内存负责存储,显示器负责输出,键盘鼠标负责输入,这些部件各司其职,由操作系统统一调度。程序是人类用代码写好的,电脑按部就班地执行。
AI模型的出现改变了一部分格局。现在有"AI智能体",它们可以操控电脑帮你完成任务,比如自动填表、自动搜索、自动写代码——但这些AI智能体本质上还是"操控"电脑,而不是"成为"电脑。真正的运算和状态管理依然在操作系统和硬件层面进行。
还有一类叫做"世界模型"的AI,它能学习环境的变化规律,预测接下来会发生什么,就像一个人脑中对物理世界的模拟。这类模型已经被用于游戏、机器人控制等场景,表现相当出色。
神经计算机的想法,正是从这两条线索中生长出来的:既然AI能理解环境动态,能响应用户操作,为什么不让它直接"充当"那个环境本身?把运算、记忆和输入输出全都塞进一个学习出来的系统里,而不是分散在不同的硬件模块中。
研究团队用一个优雅的公式来描述这个系统的核心逻辑:给定当前屏幕画面和用户操作,神经计算机更新自己的内部状态,然后生成下一帧画面。这个"内部状态"既是运算的载体,也是记忆的容器,还是连接输入输出的桥梁——三合一,全在一个神经网络里。
与传统电脑、AI智能体和世界模型相比,神经计算机的定位是全新的。传统电脑围绕着明确的程序运转,AI智能体依托外部执行环境完成任务,世界模型预测环境如何演变——而神经计算机的目标是让学习出来的模型本身成为那台运行的机器,从根本上重新定义"计算机"这个概念。
---
**二、两个原型:一个模拟终端,一个模拟桌面**
研究团队基于阿里巴巴开源的Wan2.1视频生成模型构建了两个神经计算机原型,并在这个基础上加入了专门的条件控制模块和动作处理模块。
第一个原型叫NCCLIGen,专门模拟命令行界面。你可以把命令行界面理解为一个纯文字的世界:你输入一行命令,电脑执行后在屏幕上打印结果,就像和电脑发短信。NCCLIGen的任务是:给它一段文字描述(告诉它接下来要做什么),再给它第一帧屏幕截图,它就能生成后续的屏幕变化视频,就好像一台真实的终端在运行一样。
为了训练这个系统,团队准备了两种不同的数据。第一种叫CLIGen(General),来自公开的asciinema录屏数据——这是一个专门记录终端操作的网站,用户可以录制自己的命令行操作并上传。团队从中收集了约82万段视频,总时长约1100小时,涵盖安装软件、过滤日志、使用Python等各种真实场景。第二种叫CLIGen(Clean),是团队自己用vhs脚本工具在隔离的Docker容器里生成的确定性录屏,约有12.8万段,内容更规整,计时更精确,特别包含了大约5万段专门用于测试数学运算的Python REPL操作。
第二个原型叫NCGUIWorld,专门模拟图形桌面界面。与纯文字的终端不同,桌面界面需要追踪鼠标轨迹、响应点击和键盘输入,还要实时更新窗口状态。这个原型的数据来源分三类:约1000小时的"慢速随机操作"(鼠标移动缓慢、操作间有停顿)、约400小时的"快速随机操作"(密集的光标移动和打字)、以及约110小时由Claude AI助手实际执行任务的目标导向操作录屏。所有数据都在运行XFCE4桌面系统的Ubuntu容器里采集,分辨率固定为1024×768,以15帧每秒录制,并同步记录鼠标和键盘事件。
---
**三、命令行实验:神经计算机学会了什么?又还差什么?**
NCCLIGen经过训练后,研究团队从六个维度评估了它的能力,结果揭示了一幅既令人振奋又充满挑战的图景。
首先是视觉保真度的问题。终端界面的特殊之处在于,屏幕上的文字必须清晰可读,稍有模糊就会失去使用价值。研究团队测试了不同字体大小下的重建质量。在13像素字体(普通终端常见大小)下,图像重建质量的PSNR(峰值信噪比)达到40.77分贝,SSIM(结构相似度)高达0.989——这意味着生成的画面和真实终端几乎难以区分。在6像素这种极小字体下才会出现明显模糊,但实际使用中很少有人用这么小的字体。这表明,神经计算机的视觉引擎对正常终端内容是完全够用的。
其次是训练进程的特点。在CLIGen(Clean)数据上训练时,PSNR和SSIM这两个指标在训练约2.5万步时就达到了相对稳定的水平,之后继续训练收益极小,甚至可能略有下降。这个现象说明,结构化界面的视觉规律可以被模型快速学会,后期的瓶颈更多在于数据质量和节奏,而不是模型容量本身。
第三是文字描述的精细程度对生成质量影响很大。团队测试了三种详细程度不同的文字提示:语义层面的高度概括、包含关键命令和输出的普通描述、以及逐字逐色逐格记录的详细描述。三种方式对应的PSNR分别是21.90、23.63和26.89分贝。也就是说,你描述得越具体,神经计算机生成的画面越准确。道理并不难理解:终端界面是由文字位置决定的,提示词越精确,模型越知道该在哪里放哪个字符。
第四是字符级别的准确率。研究团队用OCR(光学字符识别)工具来评估生成的终端画面里的文字是否正确。从0步训练时的字符准确率0.03,到训练6万步后达到0.54,整行完全匹配率也从0.01提升到0.31。这意味着,神经计算机生成的屏幕上,超过一半的字符和真实终端一致,约三分之一的行完全正确。这不仅仅是视觉上"看起来像",而是真正能对上字符内容。
第五是符号运算的局限。这是测试中最让人惊醒的环节。团队准备了1000道基础数学题,随机抽取100道作为评估集,测试各种模型能否正确在Python终端里算出结果。Wan2.1基础模型正确率为0%,NCCLIGen为4%,Google的Veo3.1为2%,只有OpenAI的Sora2达到了71%。对于人类来说轻松秒解的加减乘除,视频模型几乎全军覆没。Sora2的71%是一个有趣的例外,但研究团队分析认为,这可能源于更强的基础模型、额外的强化学习训练,或者系统层面的重新提示策略,而非模型真的"学会了算数"。
第六是重新提示的神奇效果。既然模型本身算不了数,能否通过更好的提示来弥补?答案是肯定的,而且效果出人意料地显著:在不改动模型权重、不引入强化学习的情况下,仅仅在提示词里加入正确答案(比如"28减23,答案是5"),NCCLIGen的数学题正确率从4%直接跳到83%。这个结果说明,当前的神经计算机更像一个"高保真渲染器"——你告诉它结果是什么,它就能把结果画出来——而不是一个真正在内部做运算的计算引擎。重新提示的本质,是把真正的运算外包给了提示者,神经计算机负责的是"把答案表现出来"这个视觉渲染任务。
---
**四、桌面界面实验:鼠标、点击与深度融合的学问**
NCGUIWorld的研究重点是如何让神经计算机准确响应用户的鼠标和键盘操作,在生成的画面里体现出正确的界面变化。
团队发现的第一个关键规律是:数据质量远比数据数量重要。他们比较了三种数据来源在同一套评估指标下的表现。随机快速操作数据(约400小时)在FVD(视频生成质量指标,越低越好)上得分48.17,随机慢速操作数据(约1000小时)降到20.37,而仅有约110小时的Claude AI目标导向操作数据,FVD却进一步降到14.72,SSIM(结构相似度,越高越好)高达0.885。更大的随机数据集反而不如更小的高质量数据集,核心原因在于目标导向的操作有清晰的动作语义,状态转换更有规律,模型更容易从中学习稳定的"操作-反应"映射关系。
第二个关键发现是关于鼠标控制的精度问题。最直觉的做法是把鼠标坐标输进去,告诉模型"现在鼠标在(300, 400)这个位置"。然而仅靠坐标信号,模型的鼠标定位准确率只有8.7%;加上傅里叶特征编码后提升到13.5%,依然远远不够。真正的突破来自"可视化光标监督":研究团队把每帧画面里的鼠标箭头用SVG格式精确渲染出来,形成一个参考图像流,并在训练时专门对鼠标所在区域施加像素级监督——只要求这个小区域画对,其余画面由模型自由发挥。这个改动把鼠标定位准确率推到了98.7%。道理类似于考试时划重点:你不需要全书背下来,但考点那几页必须精通。
第三个发现是动作信号注入位置的影响。研究团队设计了四种把用户操作信息送入神经网络的方式,从浅到深依次是:在输入层调整图像编码(外部融合)、把动作和图像拼成一个序列一起处理(上下文融合)、在网络每一层外面挂一个修正模块(残差融合)、在网络每一层内部增加专门的注意力机制(内部融合)。四种方式在"动作发生后15帧内的SSIM"上的表现分别是0.746、0.813、0.857和0.863。越深的融合,动作之后的画面越准确。原因并不复杂:用户点一下鼠标,画面上的变化往往是局部的、精细的——弹出菜单、高亮按钮、更新数字——这种精细的响应需要动作信息渗透到网络的核心,而不是停留在外围稍作调整。
第四个发现是动作表示方式的影响相对次要。团队比较了两种编码方式:一种是原始事件流,把键盘按哪个键、鼠标移到哪里全都逐帧记录为多热编码;另一种是类API的语义编码,把"输入ls -l"压缩成一个带有文本参数的"键盘输入"动作类型,把"按Ctrl+V"记为一个快捷键动作。在相同的内部融合方式下,语义编码只比原始编码在SSIM上高出0.016、在FVD上低了2.1。差距存在但并不显著,说明在当前阶段,"把动作信号注入哪一层"比"如何表示动作"更关键。团队最终采用语义编码作为默认选项,主要因为它更简洁,也更自然地对应了系统层面的操作语义。
---
**五、神经计算机的终极形态:完全神经计算机需要跨过哪些门槛?**
从当前的原型到真正通用的神经计算机,还有相当长的路要走。研究团队明确提出了"完全神经计算机"需要满足的四个条件,并逐一分析了目前的差距。
第一个条件是图灵完备性。简单来说,一台真正的计算机应该能在原则上表达任意计算——只要内存足够大,它就能运行任何算法。理论上,循环神经网络、神经图灵机等架构在极限情况下是图灵完备的,但一个具体的、精度有限的模型实例无法达到真正的图灵完备,因为它的"记忆"是有限的。现有的应对思路是不断扩大模型的上下文窗口或参数量。对于神经计算机而言,关键的工程证据是:随着有效记忆和上下文增长,模型是否能承载更长、更复杂的执行流程,而不是每次都走捷径或遗忘之前的状态。
第二个条件是通用可编程性。一台真正的电脑应该是可编程的——你能往它里面"安装"新能力,之后随时调用,而不是每次都重新学习。对于神经计算机,这意味着用户的一系列输入不只是触发一次性行为,而是在模型内部留下持久的"例程",下次遇到类似情况可以直接复用。研究团队认为,通过组合式神经程序的思路或许可以实现这一点,但目前仍是研究前沿,没有成熟方案。
第三个条件是行为一致性。这是一个容易被忽视但极为关键的属性。一台可靠的电脑,普通使用不会悄悄改变它的程序;只有显式的更新操作才会改变系统行为,而且这种改变是可追踪、可回滚的。对于神经计算机,这意味着需要在架构和训练机制上区分"执行"和"更新":执行已有能力不应该修改那个能力本身,而修改行为的操作必须通过明确的编程接口进行,并留下可审查的痕迹。这类似于LSTM中的门控机制思路——通过结构性设计控制哪些状态持久保留、哪些状态随输入更新。
第四个条件是发挥神经计算机固有的架构和编程语言优势。传统电脑用明确设计的编程语言(Fortran、Python等)来表达意图,语法语义由人类专家定义。神经计算机的"编程语言"是从数据中学来的——用户的自然语言指令、操作示范、交互痕迹,都可以成为"程序"。这种方式更灵活、更贴近人类表达,也更容易积累,因为每一次人与数字系统的交互都在自然地产生训练素材,而高质量代码数据库的规模远小于人类的操作日志。此外,神经计算机的内部表示是连续的数值张量,可以直接支持概率推理、表示学习、密集记忆检索等传统符号系统难以处理的任务,无需在不同子系统之间频繁转换数据格式。
从这四个条件出发,研究团队给出了一个更实用的"近期可观测指标"框架:与其急着讨论是否达到了理论上的图灵完备,不如先检验三件更具体的事——安装一个新能力之后是否能在后续场景中复用;相同版本的模型对同样的输入是否给出一致的输出;行为发生变化时是否能追溯到明确的更新操作。这三个指标把抽象的理论要求转化成了可以在实验室里测量的工程目标。
---
**六、神经计算机不是智能体,也不是世界模型——它想成为"那台机器本身"**
研究团队在论文的第四章专门花了大量篇幅厘清神经计算机与相邻概念之间的区别,这些区别并非学术上的文字游戏,而是关乎这项研究的根本立场。
与AI智能体的区别在于:AI智能体是站在电脑"外面"操控电脑的。它通过截图来"看"屏幕,通过模拟鼠标键盘来"操作"电脑,真正执行代码、管理进程、维护状态的依然是底层的操作系统。神经计算机的目标是消除这层分离,让学习出来的模型直接承担那些原本属于操作系统的角色。
与世界模型的区别在于:世界模型是对环境动态的预测器,它预测"如果你这样做,接下来会发生什么",主要服务于规划和想象。互动式计算机界面确实是世界模型可以模拟的一种环境,所以神经计算机的实现借用了世界模型的技术。但神经计算机的目标不止于预测——它要成为那个被预测的执行基底本身,要能承载可重用的能力、支持显式的编程更新,这是纯粹的预测模型所没有的诉求。
这张对比图可以这样理解:传统电脑是直接被人类使用的工具;在智能体时代,AI夹在人和电脑之间,帮人操控电脑;世界模型在旁边扮演平行的预测层;而神经计算机的愿景是把这些分散的角色统一进一个持久的、学习出来的运行时(Runtime),让那个运行时本身成为新型计算基础设施。
研究团队还提到了Jürgen Schmidhuber在2018年提出的"ONE"概念——一个单一的神经基底能逐渐吸收和复用各种学到的技能,作为一个可持续累积能力的通用平台。完全神经计算机可以被看作ONE在系统工程层面的具体实现路径:不是一个又一个孤立的专用模型,而是一台能安装、执行、管理各种能力的持久神经机器。
---
**七、视频模型只是权宜之计,未来需要新架构**
研究团队非常坦诚地指出,目前用视频生成模型来实现神经计算机原型,是一种实用主义的选择,而非最终答案。
视频模型的优势在于:它天然就是一个把"当前输入"映射到"下一帧输出"的系统,与神经计算机的"更新状态-渲染输出"循环在形式上完全吻合。现有的高质量视频模型(如Wan2.1)已经有强大的视觉理解和生成能力,可以作为原型的骨干直接复用。
但视频模型的局限也很明显。最突出的是符号计算能力薄弱:对于加减乘除这种对人类来说瞬间完成的事,大多数视频模型几乎完全失败。这不是缩放就能解决的问题,而是架构层面的根本挑战——视频模型的核心归纳偏置是空间-时间连续性,而精确符号运算需要的是离散、组合、可验证的计算逻辑。
研究团队提出了一个大胆的假设:未来的完全神经计算机,可能需要一种"机器原生"的神经架构,专门为离散操作、组合结构和可验证计算而设计,而不是在为生物感知优化的架构上强行添加符号能力。卷积网络是为视觉感知优化的,Transformer是受注意力机制启发的——这些设计都来自对生物认知的借鉴。但传统电脑的可靠性来自明确定义的计算原语(primitive operations)的组合,神经计算机或许需要在神经系统中构造出类似的基础运算单元,而不是让符号能力作为高维连续表示的"涌现"副产品出现。
这个假设目前还是猜想,但它指向了一个具体的研究方向:与其让视频模型越来越大地努力"学会算数",不如从架构设计出发,给神经计算机造一套真正适合精确计算的"器官"。
---
**说到底,这项研究在做什么,又意味着什么?**
归根结底,Meta AI和KAUST这支团队做的事,是把一个听起来像科幻的想法变成了可以测量、可以评估的工程问题。他们没有声称造出了完全神经计算机,而是诚实地展示了它现在能做什么、还差什么。
现在能做的是:在受控条件下生成高保真的终端画面,学会基本的命令行操作规律,通过精确的光标监督实现98.7%的鼠标定位准确率,以及在提示充分时渲染出正确的数学计算结果。
还差的是:真正的符号运算能力、跨任务的能力复用、行为的长期一致性、以及可审查可回滚的更新机制。这些不是微小的技术细节,而是通向"可用的神经计算机"必须跨越的本质性障碍。
对普通人而言,短期内这项研究的直接影响可能微乎其微——毕竟我们还在用传统电脑和手机,AI助手的角色也还是"帮手"而非"基础设施"。但它提出并初步回答的问题,正在重塑我们对"什么是电脑"的理解。如果未来某一天,你和电脑的交互不再需要点菜单、选按钮、记命令,而是自然地说出你要做什么,一个神经运行时就能理解、记住、执行、反馈——那一天所依赖的基础研究,可能就从这类工作开始积累。
如果想看完整的技术细节,包括数学公式、消融实验结果和所有可视化样例,可以通过arXiv编号2604.06425查阅原论文,或者访问研究博客 metauto.ai/neuralcomputer 获取更多介绍材料。
---
Q&A
Q1:神经计算机和普通AI智能体有什么本质区别?
A:普通AI智能体站在电脑"外面"操控电脑,通过截图看屏幕、模拟鼠标键盘行动,底层的系统依然是传统操作系统。神经计算机的目标是消除这层分离,让神经网络本身承担运算、记忆和输入输出的角色,不再依赖外部操作系统来维持可执行状态。两者的根本差别在于:智能体是工具,神经计算机是那台机器本身。
Q2:神经计算机为什么连简单的加减法都算不准?
A:因为视频模型的核心设计目标是生成视觉连续的画面,其归纳偏置是空间-时间连续性,而精确的符号计算需要离散、组合、可验证的逻辑,这是两种完全不同的计算属性。有趣的是,当提示词里直接给出正确答案时,准确率能从4%跳到83%,说明模型更擅长"把答案画出来"而不是"自己算出答案"。
Q3:完全神经计算机实现之后会取代现在的操作系统吗?
A:研究团队认为这是一种不同的计算基础设施,而不是简单的替代关系。传统电脑在可靠执行、精确程序和成熟治理上依然有不可替代的优势。神经计算机更可能在自然语言交互、模糊任务理解、多模态处理等传统系统不擅长的领域形成互补,短期内两者并存的可能性远大于一方完全取代另一方。
明利配资提示:文章来自网络,不代表本站观点。