搞无人机飞控的单日,苦于现实里“禁飞区多、渲染炸机成本高”,成本算法还没跑通,仅元机器先摔了几十台。影石
搞具身智能和空间计算的发布仿,苦于“三维数据太贵”,全球全景真实世界里带高精度深度标注的平台全景数据,光采集和标注成本就能让人破产。单日
大家都知道空间智能(Spatial Intelligence)是渲染下一个时代的风口,但在风口起飞前,成本数据贵、仅元验证慢、影石场景受限就像一堵墙,发布仿把无数开发者挡在了门外。全球全景
怎么破局?总得有人出来“打地基”。
最近,我们在国际顶级学术会议上,捕捉到了一个熟悉又有些意外的身影——影石Insta360。在成立不到半年的时间里,影石AI研究院悄悄干了一件大事:他们不仅在CVPR、ICLR等顶会连中4篇论文,还一口气甩出了三个“全球第一”的开源成果。
他们正试图用十年的全景数据积累,把一个原本门槛极高的赛道,彻底变成广大开发者的游乐场。
全景视野+飞行平台,这是一个极具想象力的组合,但缺的是趁手的工具。影石这次开源的三项核心成果,刀刀都砍在了行业的痛点上:
第一张牌,是全球首个面向全景与无人机的高保真物理仿真平台——AirSim360。
搞无人机算法和具身智能的团队都知道,“造数据”和“跑测试”有多痛苦。现实里试飞,不仅受限于日益严格的禁飞区政策,稍有不慎就是“炸机”报废;而人工采集和标注多视角的三维数据,成本更是天价。
影石给出的解法是:既然现实里难飞,那就在高保真物理仿真世界里“造一个宇宙”。
AirSim360不仅仅是个好看的模拟器,它的核心在于 “真实闭环”与“数据飞轮”。在测试端,它可以直接接入真实的硬件飞控板,进行链路仿真。这意味着开发者能在电脑里走完“能飞、能看、能闭环”的全流程,省下高达90%的户外试飞时间。
在数据端,它展现出了恐怖的合成效率——优化后单日可合成100万帧高质量数据,重点是,成本只要区区20块钱。对于受制于研发成本的团队来说,这简直是天上掉下来的“算力外挂”。
相关论文,CVPR 2026:
第二张牌,是全球首个全景度量深度基础模型——DAP(Depth Any Panoramas)。
想让AI真正理解三维空间,首先得给它“一双能测距的眼睛”。但在全景图像里测算每个像素点的距离(景深),是一项地狱级任务。因为全景图有着独特的几何特性(比如极区畸变),加上室内外场景差异极大,导致边缘细节极易变形,测算结果往往“发飘”。
学术界以往怎么做?受限于高精度标注成本,大家只能拿几万张规模的小数据集凑合,或者依赖激光雷达等多传感器融合方案。
而影石这回选择“大力出奇迹”与“算法创新”并举。背靠十年的全景数据积累,影石直接将训练数据量级暴力推向了200万级别(2M),覆盖了室内外、真实与仿真的全场景。同时,为了解决真实世界标注贵的难题,团队创新性地提出了“三阶段伪标签生成流水线”,通过精炼伪标签,让模型在真实场景下表现发生质变。
最终,DAP跑通了类似特斯拉的“单帧纯视觉”路线,在零样本情况下一举刷新多项benchmark纪录,拿下全景尺度深度预测的全球第一。它就像是给真实与虚拟世界打造了“一把通用的尺子”,无论是无人机、AR/VR还是自动驾驶,都可以直接调用它,一步到位解决2D向3D的空间重建。
相关论文,CVPR 2026:
第三张牌,是全球首个全景文生图世界模型——DiT360。
生成式AI火了这么久,但“全景生成”一直是个冷门硬骨头。因为高质量的全景数据太稀缺了,AI很难学会理解全景图像中首尾相连的“几何一致性”。
为了让AI真正“看见”并重构整个三维世界,影石提出了DiT360:一个基于Diffusion Transformer架构的全景图像生成模型。它的解题思路非常巧妙:既然全景数据少,那就拿海量的高质量“透视图像(普通2D图)”来做混合训练。在图像层面,用透视图像引导生成,提升画面的真实感;在特征层面,加入旋转一致性和畸变感知的几何约束,强迫AI理解空间的三维结构。
这不仅是一个简单的文生图模型,某种程度上,它是一个初具雏形的“全景世界模型”。在与目前业内知名的MVDiffusion、LayerPano3D等代表性方法的直接PK中,DiT360无论是在传统的图像质量指标(FID等),还是衡量视觉一致性的几何指标上,全部断崖式领先,拿下第一。
相关论文,CVPR 2026:
半年时间,累计向国际顶会顶刊投稿7篇,中稿4篇。这种学术爆发力的背后,是影石悄悄组建的一支极具战斗力的“AI天团”。
在外界看来,影石是一家智能硬件公司;但在AI圈子里,影石AI研究院正在成为“创造者的乐土”。
这里高手如云:研究院AI算法总监Gavin,是全球席位极度稀缺的TPAMI编委,长期担任NeurIPS、CVPR等顶会领域主席。
在这里,实习生也能带队打下顶会江山。DAP模型的第一作者,是从大二起就跟着Gavin做科研、本科手握四篇顶会一作的UCSD一年级博士生;而Fly360(全景全向避障算法)的一作,则是来自中科院乔红院士(人形机器人方向)团队的博士生。
数百人的团队,海内外顶尖高校与大厂背景的交融,与清华、北大、新加坡南洋理工等顶级学府的产学研协同……影石研究院的定位非常清晰:绝不闭门造车做纯学术,而是要将前沿技术转化为能落地的产品,构建下一代空间智能的绝对壁垒。
影石还设立了"黄金键帽"开发者奖励,鼓励开发者基于开源成果继续构建。
如今的影石产品中,AI剪辑、AI防抖、自主跟拍等极度丝滑的体验,正是这支团队将顶尖算法“降维打击”到用户体验上的成果。
全景这个赛道,用影石的话说,一直是个"小众"领域:数据稀缺、应用场景分散、学术研究相对薄弱。
但这些"小众"场景的背后,其实连着一些很大的赛道:无人机自主飞行需要理解三维空间,具身智能机器人需要感知全向环境,AR/VR需要生成沉浸式场景,自动驾驶的环视感知也依赖类似的技术路线。
影石在全景领域积累了十年数据,现在用这些数据和研究成果,开始往这些方向打地基。AirSim360、DAP、DiT360,这三个工具并不是产品,是基础设施。
有人来打地基,才有人能在上面盖楼。
全景AI这个领域,多了一个愿意干这件事的人。
--end--
最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论
/...@作者:你说的完全正确(YAR师)