
别东说念主家的"龙虾"还在盯着屏幕玩电脑,想象如故把"龙虾"带上车了!
最近,想象发布了全新的流式视频理会与具身智能长入的 Agent 框架——
StreamingClaw。

在保捏与 OpenClaw 框架完满兼容的基础上,StreamingClaw原生支捏及时的多模态流式交互。
这意味着,系统在面对视觉输入时,不再将其视为古板的离线视频文献,而是像东说念主类感知宇宙雷同,及时拿获流数据(Stream)并进行即时推理。
比如,这只虾不仅能在驾驶中盯着你,检测可疑当作(哈欠、玩手机)并主动预警。
还能在你取车的时候,主动跟你打呼叫。
与此同期,StreamingClaw 还引入了自主多代理颐养机制。
依托主 - 从代理的紧密协同,它不仅能自主完成复杂的任务贪图与逻辑决策,更深度集成了丰富的用具及手段库,在现实场景中终显着辅导驱动的具身智能。
在 StreamingClaw 的加捏下,机器东说念主与结尾成就终显着极低延伸的"边看、边记、边举止":
比如,它不错及时上识别你手捏的物品,帮你解题。
不出丑出,在这些复杂场景中,StreamingClaw 的中枢硬实力在于及时推理与瞬时反映。
而撑捏这只"想象龙虾"在物理宇宙生动举止的,恰是一整套围绕"流式架构"张开的系统遐想。
从"离线处理"到"主动闭环"
不同于大模子等对延伸(相对)不敏锐的场景,在具身智能、AI 硬件及智能座舱等限制,系统经常需要在毫秒级完成感知—决策—施行的闭环:
感知(看):通过录像头拿获环境;
决策(想):AI 大脑贪图对策;
施行(作念):驱动硬件或辅导,并笔据当作后的新环境再次轮回。
但是,现存的视频 Agent 在处理及时感知(流式感知)经常时面对着延伸较高的问题。
之是以这么是因为,传统法式平凡将视频视为完好文献处理。长视频的计较量呈指数级爆炸,难以及时反映;
同期,模子难以捏续追踪永劫程信息,导致决策浮浅、平凡淡忘,致使平直任务失败。
针对这些问题,以往的权衡尝试通过视觉压缩或 Token 精简来缓解负载,但同期也导致了细节丢失,无法准笃定位等问题。
更致命的是,传统模子大多是被迫触发:你不问,它不动,缺少对环境风险的主动感知。
StreamingClaw 通过"增量计较"改写了这一逻辑。
它不再机械地重叠处理历史画面,而是将环境的渺小变化视为增量信号进行推理更新。
这意味着,它不仅能"看"得更准、记"得更久,还能在想考过程中自主调用用具,终了从感知到物理骚扰的着实闭环。
这等于所谓的流式推理,与处理现成文献的"离线花式"不同,lol外围投注其要求 AI 必须像不雅看直播雷同,在数据陆续涌入的同期即时刻析,不允许任何严重滞后。
接下来,咱们具体来看 StreamingClaw 是怎么作念到的。
具身智能的流式交互引擎
总体来看,StreamingClaw 是一个高度协同的多代理(Multi-agent)架构。它通过一套范例化的活水线,冒昧了不同硬件之间的壁垒:

领先,不管是智能眼镜、自动驾驶芯片照旧具身机器东说念主,通盘多模态流式输入都和会过技巧戳对皆与分享流式缓存 *进行范例化处理,确保 AI 领有长入的"技巧圭臬"。
其次,中枢大脑StreamingReasoning(主代理) 稳当及时感知与贪图;StreamingMemory与StreamingProactivity(从代理) 则辩认提供长效牵记撑捏与主动交互决策。
终末,代理生成的决策辅导会平直驱动用具箱与手段库。
简约单的视频剪切到复杂的具身当作序列,施行效果会即时反馈至代理,酿成一套完好的"感知—决策—施行"闭环。
这种架构让 StreamingClaw 不仅能听懂辅导,更能通过自主贪图与用具调用,着实深切现实场景处治问题。
流式推理::StreamingReasoning
流式推理(StreamingReasoning)主要针对具有一语气输入输出的流视频理会场景。
其中枢境划是在极低延伸的敛迹下,终了对现实宇宙的及时感知、理会与推理。

在及时流式推理方面,系统会将输入的视频流拆分为细粒度片断,并通过动态滑动窗口严格限度潦倒文规模,从源流上幸免无效信息的堆积。
在此基础上,联结经过剪枝优化的流式 KV-Cache 机制,斗鱼app下载StreamingReasoning 不错捏续进行高效的增量解码,使举座推理过程经久紧贴视频流节拍驱动,而不会出现延伸堆积。
在此之上,系统引入了自贪图颐养能力,充任通盘经由的"总引导"。
它或者动态理会用户辅导,并自主贪图任务旅途。在面对复杂任务时,系统会笔据需要汲取调用层级化牵记进行检索,或转而触发主动交互决策;
而在老例场景下,则保捏平直、低延伸的流式多模态推理,使举座交互过程经久顺畅当然。
流式存储:StreamingMemory
StreamingMemory 存储着实的多模态向量,通过层级牵记演化(HME)机制,以应讲述杂的流视频理除名务。

具体来说,在牵记机制上,系统以视觉为中枢,将多模态信息组织为可捏续增长的增量式牵记节点,幸免原始数据的浅陋堆叠。
这些牵记进一步从碎屑演化为更高层级的"举止"和"事件",使检索对象从画面自身转向可用于决策的结构化教悔。
在此基础上,系统通过呐喊驱动的并行技巧遍历终了高效检索,在永劫序信息中快速定位要津践诺,同期保证鲁棒性。
同期,长入的接口遐想买通跨代理牵记,使不同 Agent 既能分享要津教悔,又能进行各异化照拂,从而撑捏更高效的协同。
从代理:StreamingProactivity
StreamingProactivity 面向将来事件揣摸、推理与主动交互遐想,其谋略既不错由用户事前设定,也不错在流式过程中捏续演化。
当申请被识别为主动交互时,主代答理将其飘零为捏续在线的监控任务,举例追踪步履、判断事件或监控风险。
一朝安静触发要求,系统即刻生成奉告或诠释性反映,酿成"感知—推理—触发—反馈"的闭环,幸免反复查询。

这一机制主要笼罩两类场景,一类是技巧感知友互,强调对景色随技巧演化的捏续追踪;
另一类是事件定位交互,聚焦要津事件在技巧流中的精确识别,常见于非常检测与自动标注等任务。
在终了上,系统分为免测验适配与测验适配两种旅途。

免测验适配无需特殊测验,通过将触发要求结构化为可监控节点,在流式过程中匹配视觉信号并即时生成反映;同期支捏谋略在线更新,酿成捏续演化的主动交互闭环。
测验适配则将景色变化建模为视觉讲话信号,引入场景专用触发 Token,使感知与任务解耦,并在单次推理中完成多事件识别与反映生成。
该决策在复杂场景下具备更高精度、更强泛化能力,同期显赫裁减并发任务下的推理支拨。
举座来看,StreamingProactivity 终显着全天候在线的主动交互,使系统或者捏续感知变化并触发反映。
可推广的用具与手段:闭环的终末一公里
为了着实让 AI 影响物理宇宙,StreamingClaw 还提供了高遵循具与手段接口,从而完成了"感知—决策—施行"闭环的终末一个要领。
除了范例的用具组合外,权衡还引入了专为视频理会和流式交互定制的专科用具。
比如,Video Cut 用具不错在要津片断中精确剪辑技巧戳,将践诺送入大型多模态模子进行"显微级分析",再输出精简文本效果。

总体而言,StreamingClaw 面向流式视频场景,基于多模态大模子终了感知、理会与语音输出,但刻下仍以"视觉 + 文本"为中枢输入范式,对音频输入、紧密时序对皆及跨模态联结推理的支捏仍有限。
将来,系统将演进为长入的全模态代理框架,买通视频、图像、音频与文本的输入输出,终了着实的感知 - 施行闭环;
同期强化永劫程建模、空间理会与跨模态对皆能力,并捏续优化低延伸部署与牵记、用具调用机制,以撑捏更真的宇宙的具身交互。
参考通顺
[ 1 ] https://jackyu6.github.io/StreamingClaw-Page/
[ 2 ] https://arxiv.org/pdf/2603.22120
一键三连「点赞」「转发」「预防心」
宽容在褒贬区留住你的主见!
— 完 —
� � 风浪幻化的 Q1,谁是 AI 超等诳骗?
量子位智库「AI 100」旗舰、翻新双居品榜单开启招募!
� � 扫码报告,让你的居品成为季度风向标。
开云官方体育app下载