只需2张图片,无需测量任何额外数据——
当当,一个完整的3D小熊就有了:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。
有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟!
(除了3D图,深度图、置信度图和点云图它都能一并给出)
惊得这位朋友直呼:
大伙先忘掉sora吧,这才是我们真正看得见摸得着的东西。
实验显示,DUSt3R在单目/多视图深度估计以及相对位姿估计三个任务上,均取得SOTA。
作者团队(来自芬兰阿尔托大学+NAVER LABS人工智能研究所欧洲分所)的“宣语”也是气势满满:
我们就是要让天下没有难搞的3D视觉任务。
所以,它是如何做到?
对于多视图立体重建(MVS)任务来说,第一步就是估计相机参数,包括内外参。
这个操作很枯燥也很麻烦,但对于后续在三维空间中进行三角测量的像素不可或缺,而这又是几乎所有性能比较好的MVS算法都离不开的一环。
在本文研究中,作者团队引入的DUSt3R则完全采用了截然不同的方法。
它不需要任何相机校准或视点姿势的先验信息,就可完成任意图像的密集或无约束3D重建。
在此,团队将成对重建问题表述为点图回归,统一单目和双目重建情况。
在提供超过两张输入图像的情况下,通过一种简单而有效的全局对准策略,将所有成对的点图表示为一个共同的参考框架。
如下图所示,给定一组具有未知相机姿态和内在特征的照片,DUSt3R输出对应的一组点图,从中我们就可以直接恢复各种通常难以同时估计的几何量,如相机参数、像素对应关系、深度图,以及完全一致的3D重建效果。
(作者提示,DUSt3R也适用于单张输入图像)
具体网络架构方面,DUSt3R基于的是标准Transformer编码器和解码器,受到了CroCo(通过跨视图完成3D视觉任务的自我监督预训练的一个研究)的启发,并采用简单的回归损失训练完成。
如下图所示,场景的两个视图(I1,I2)首先用共享的ViT编码器以连体(Siamese)方式进行编码。
所得到的token表示(F1和F2)随后被传递到两个Transformer解码器,后者通过交叉注意力不断地交换信息。
最后,两个回归头输出两个对应的点图和相关的置信图。
重点是,这两个点图都要在第一张图像的同一坐标系中进行表示。
实验首先在7Scenes(7个室内场景)和Cambridge Landmarks(8个室外场景)数据集上评估DUSt3R在绝对姿态估计任务上性能,指标是平移误差和旋转误差(值越小越好)。
作者表示,与现有其他特征匹配和端到端方法相比,DUSt3R表现算可圈可点了。
因为它一从未接受过任何视觉定位训练,二是在训练过程中,也没有遇到过查询图像和数据库图像。
其次,是在10个随机帧上进行的多视图姿态回归任务。结果DUSt3R在两个数据集上都取得了最佳效果。
而单目深度估计任务上,DUSt3R也能很好地hold室内和室外场景,性能优于自监督基线,并与最先进的监督基线不相上下。
在多视图深度估计上,DUSt3R的表现也可谓亮眼。
以下是两组官方给出的3D重建效果,再给大伙感受一下,都是仅输入两张图像:
(一)
(二)
有网友给了DUSt3R两张没有任何重叠内容的图像,结果它也在几秒内输出了准确的3D视图:
(图片是他的办公室,所以肯定没在训练中见过)
对此,有网友表示,这意味着该方法不是在那进行“客观测量”,而是表现得更像一个AI。
除此之外,还有人好奇当输入图像是两个不同的相机拍的时,方法是否仍然有效?
有网友还真试了,答案是yes!
传送门:
[1]论文https://arxiv.org/abs/2312.14132
[2]代码https://github.com/naver/dust3r
相关文章:
人工智能领域全球十大顶尖模型揭晓,科技巨头引领发展新篇章,ai上标怎么
AI道德模型的构建,与成效并现,惠威 ai
AI摄影,揭秘最逼真的照片级AI模型软件,高级ai程序
AI赋能,智能时代软件创新,鞠躬ai
文心一言深度解析,差异揭秘与独特之处,ai全屏水印
AI赋能,重塑数字艺术创作的小人模型新时代,ai9827951
解锁AI艺术与数据分析,五大深度解析,ai 文文
AI模型案例解析,跨领域应用创新路径与探析,ai爱运动
打造专属虚拟萌友,AI可爱女孩模型下载与安装全攻略,ai海纹理
洗文章AI:让内容创作变得更智能、更高效
从零开始,个人电脑AI模型搭建实战手册,AI假视频
AI赋能自然,探索逼真风景模型的智能构建奥秘,ai花朵字体设计
在线AI文章生成:内容创作新革命
人AI判断模型构建方法与实践深度解析,制作手机壁纸ai
高效AI模型文件库构建指南,步骤与最佳实践解析,微软ai设计
揭开普通人AI小模型之谜,还是性创新?,云界ai和无界ai
AI量化交易模型软件精选指南,助投资者金融市场扬帆远航,王者ai挑战20关
AI大模型,成就下的隐忧与解析,下载ai智能写作软件
AI动图生成器在线生成,让创作变得简单又有趣
黑帽SEO程序:为何很多人对其趋之若鹜,却又深感担忧?
好用的AI智能工具,让生活与工作更高效!
荣耀AI大模型首次曝光,引领下一代智能交互,小助手ai
AI赋能立体建模,高精度立体模型构建全方位攻略,ai绘图视频写作app好用吗
AI声音模型文件轻松解压攻略,实用技巧大揭秘,ai韵尾 成语
AI数据处理模型解析与应用展望,ai 厂
豆包AI小程序携手薛之谦,演绎科技音乐跨界新篇章,开通ai头像
AI数据处理模型深度揭秘,ai x在数学钟表
文心一言4.0对决豆包,人工智能创作巅峰之战,小玲ai
AI模型训练揭秘,数据驱动智能蜕变之旅,ai110718
谷歌无法访问?如何应对这一困扰并打破网络限制
免费好用的AI写作工具,让创作更轻松!
吉利星睿AI大模型震撼发布,开启智能汽车新时代之旅,外网ai人物
苹果CMS追剧:让你追剧不再错过每一集的精彩
画科比寺庙拜佛,文心一言中的之旅,圆球ai
全I大模型技术新格局,领跑,排名再刷新,ai科幻画主题
AI大模型开启行业合作新时代,共绘未来蓝图,朋友圈ai写作助手文案
AI算力竞赛背后的核心参数揭秘,全I模型算力大揭秘,茶ai
AI赋能三维设计,智能化导入引领设计,零基础AI写作神器正版
数字化时代,文心一言与记忆管理的数字化,AI写作重复率有多高
AI赋能制造业升级,大模型研究引领新引擎,ai智能跟拍手机支架
AI工具,让工作效率翻倍:AI工具教程全面解析
AI大模型上市公司领航科技前沿,共创智能未来新篇章,ai红桃心
构建个人AI知识库,引领智能时代自我学习与成长新篇章,ai奶油蛋糕
AI驱动设计,探索高效AI渲染模型创作之道,ai修复照片有哪些ai
AI矢量生成模型入门宝典,创意无限,轻松掌握,ai摄影成都
AI模型统,智能应用稳定运行的守护者之路,ai选择笔触
AI原创文章生成系统:助力内容创作的新革命
AI赋能视觉跟踪云台,引领智能监控技术革新,ai修复鸟
人工智能助手文心一言,开启下一代交互体验革新之旅,特种纸的制作ai
AI构建数学模型的高效策略解析,ai制作线团