麻生希迅雷种子

你的位置:一本大道香蕉大在线 > 麻生希迅雷种子 > 探花 极品 北大团队引颈3D生成与对皆窜改:OctGPT突破扩散模子把持


探花 极品 北大团队引颈3D生成与对皆窜改:OctGPT突破扩散模子把持

发布日期:2025-04-25 09:15    点击次数:200

探花 极品 北大团队引颈3D生成与对皆窜改:OctGPT突破扩散模子把持

连年来探花 极品,智能三维局势生成(3D AIGC)本事飞快崛起,正成为股东数字内容创作窜改的枢纽力量,迥殊是在游戏、影视、诬捏现实和工业遐想等鸿沟发达出雄伟的应用后劲。

跟着本事的持续逾越,三维内容的生成质地与效能握续擢升,成为业界与学界无为存眷的焦点。

最近,北京大学陈宝权西席辅导团队在三维局势生成和三维数据对皆方面取得新的突破。

在三维数据生成方面,团队建议了 3D 自回顾模子新范式,有望突破 3D 扩散模子在三维生成方面的把持地位。

该论文已被 SIGGRAPH 2025 给与,调和者为王鹏帅助理西席,以及博士生魏斯桐和本科生王瑞环、周传智。

在三维数据对皆方面,团队遐想了一种仅需单个先验即可杀青同类物体对皆的框架,并构建了现时类别障翳最广的表率化 3D 数据集,为三维局势生成提供了数据基础。

该论文已被 CVPR 2025 给与,调和者为陈文拯助理西席、王玉洁博士、高庆哲博士和秦学英西席,以及博士生金立、戴启宇。

SIGGRAPH 2025:OctGPT:3D 自回顾模子新范式

一、AIGC:从图像生成到 3D 生成

连年来,基于自回顾范式的 GPT 模子在讲话、图像和视频生成鸿沟取得了一系列突破。

举例,最新的 GPT-4o 凭借其原生多模态架构,在图像生成方面掀翻了触动:它不仅延续了前代不凡的讲话融会能力,还通过跨模态协同,圣洁产出高质地、多作风的视觉内容。

然而,现存的自回顾模子尚不成很好地完成高质地的三维生成任务,这一本事缺口赶巧对应着诬捏现实、电影工业及游戏开发等场景中快速增长的 3D 内容需求。

跟着生成式 AI 本事的握续演进,何如将多模态融会能力蔓延至三维空间,已成为股东下一代 AI 生成系统发展的枢纽命题。

△OctGPT 粗略杀青无条目、类别、文本和图片条目的高质地三维局势生成和场景级别生成二、3D 自回顾生成模子的挑战

现时主流的三维生成本事虽已取得权臣突破,但高度依赖扩散模子的生成范式仍存在权臣局限。

尽管扩散模子在一语气空间建模方面发达优异,其与 GPT 类毁坏序列生成模子在架构遐想上的骨子互异,导致二者难以杀青本事会通。

连年来,学术界虽已深切出多项基于 GPT 的三维生见效果,但这一鸿沟仍靠近诸多挑战。

最初,GPT 的预测机制依赖于序列建模,而现存的三维数据序列化决议常常忽略物体的脉络结构与局部关联性,导致模子不竭拖沓、生成质地受限。

针对这一问题,咱们建议了一种全新的序列化格式,权臣擢升了生见效果。

此外,以往格式的序列长度频繁唯有约 1K,难以捕捉复杂的局部细节。

咱们将序列长度扩展近 50 倍,使模子粗略精确地建模大轨范、高折柳率的三维局势。

△现存的 3D 自回顾生成模子受限于有限的序列长度,细节质地不及三、新处罚决议:OctGPT

OctGPT 探索了基于八叉树 Octree 和 GPT 架构的三维生成旅途。

用户不错通过多种条目进行收尾,比如文本、图像、草图等等,驱动模子进行高质地的三维场景和物体的生成。

这一效果不仅有望突破扩散模子在三维生成鸿沟的本事把持,更开辟了多模态原生模子向三维空间拓展的新范式。

OctGPT 使用一种基于八叉树的多轨范三维序列化局势抒发。

八叉树的递归分裂机制当然地抒发了多轨范脉络特征,其 Z 型弧线排序计谋灵验保留空间局部性,为 GPT 的自回顾预测提供设想的序列化基础。

△OctGPT 的模子框架四、OctGPT 的中枢本事架构

OctGPT 的举座框架包括一个基于八叉树的多轨范序列化抒发和基于窗口留意力机制的高效自回顾模子。

1)八叉树多轨范序列化抒发

△八叉树结构和 Z 字形序列

最初,凭证输入的三维局势构建八叉树。八叉树的节点情状被编码为 0/1 信号:0 代表空节点,1 代表细分节点,如上图(a)的淡色和深色节点所示。

然后按照 Z 字形进行多轨范序列化,如上图(b)和(c)Z 字形序列所示。咱们将不同脉络的序列结构由浅到深拼接成多轨范的 0/1 序列。

随后,使用了基于八叉树的 VQVAE,用于将八叉树抒发转为好意思满、光滑的三维模子。

临了,GPT 则是拖沓生成多轨范的 0/1 序列。这一访佛于二分查找的表情逐层的推理空间结构,极地面简化了建模诡计,加快了不竭。

2)多轨范自回顾模子

△多轨范自回顾模子

为了抒发复杂的三维局势,OctGPT 将序列长度拓展至 50k 的量级。为了加快锤真金不怕火,模子给与了基于八叉树的 Transformer(OctFormer,SIGGRAPH 2023),并通过轮流使用蔓延留意力(如上图 b)与移位窗口留意力模块(如上图 c),杀青跨窗口的 Token 交互,并将锤真金不怕火速率加快 13 倍。

OctGPT 遐想了轨范敏锐的 Teacher Forcing Mask(如上图 a),在序列生成过程中,按深度层级从浅至深律例预测,吞并八叉树层内允许 Token 按照速即律例并行生成,同期确保深层 Token 的预测粗略得到已生成的浅层 Token 信息。

在推理时,OctGPT 给与了多个 token 并行预测的计谋,将推理速率加快 69 倍。基于上述更动,OctGPT 粗略使用 4 个 4090 GPU 在三天内完成锤真金不怕火。

五、收尾展示

此处展示了 OctGPT 在 ShapeNet 和 Objverse 上的生成收尾。OctGPT 粗略生成高质地的三维模子,展现出刚劲的生成能力。

△Objaverse 上文本条目生成收尾

△ShapeNet 上无条目生成收尾

△Objaverse 上无条目生成收尾

△在 ShapeNet 上与现存 SOTA 格式的定性对比

△在 ShapeNet 上与现存 SOTA 格式的定量对比六、总结与瞻望

OctGPT 探索了基于八叉树结构的 GPT 模子在三维数据生成任务中的应用后劲。

具体更动体当今以下三个方面:其一,通过八叉树结构对寥落三维数据进行编码,灵验擢升了诡计效能;其二,基于八叉树构建了具有脉络性和局部性的多轨范 0/1 序列,确保序列化过程中空间特征的好意思满保留;其三,给与 Transformer 架构径直进行序列化预测,杀青了对三维空间特质的端到端建模。

尽管三维数据的寥落性、脉络性与序列性看似互相零丁以致存在矛盾,但本估量告捷讲明在八叉树神经相聚框架下,三者粗略有机结伙。

这一突破性效果不仅有望突破扩散模子在三维生成任务中的把持地位,更为原生多模态三维建摹本事开辟了更动旅途。

论文地址:

https://arxiv.org/abs/2504.09975

技俩主页:

https://github.com/octree-nn/octgpt

CVPR 2025 Highlight:大限度三维数据对皆

CVPR 2025 Highlight 论文 : 基于几何和语义一致性的 One-shot 3D 物体表率化,为三维生成本事和具身智能的快速发展提供了坚实基础。

该责任由北京大学陈宝权估量团队主导,山东大学调和完成。

一、3D 物体对皆过火进军性

在三维天下里,"对皆"一个物体,意味着将它摆放到一个轨范的姿态——不歪、不倒、朝向结伙。

就像咱们看到一个歪着的杯子,脑海中会自动将它"扶正"来融会它此时的朝向、把手、底部位置。

在线观看三级片

这么的对皆操作看似陋劣,却是让 AI 真是"看懂" 3D 物体的枢纽一步。

跟着具身智能和 3D 生成本事的快速发展,AI 不仅要"看见"物体,还要"融会"它们的位置、朝向和语义。

比如,下图中的机械臂之是以能告捷倒出一杯咖啡,恰是因为它准确融会了杯子的朝向和语义功能部位。

另一方面,在 3D 内容生成鸿沟,估量也标明:要是锤真金不怕火时使用了表率化的 3D 数据,不错权臣提高生成物体的一致性和质地。

从机器东说念主操作到三维生成,物体对皆都在背后阐扬着基础而枢纽的作用。

然而,何如杀青随性类别、随性运行位姿 3D 物体的高效对皆,仍然很是具有挑战性。

△3D 对皆数据在具身智能和 3D 生成的作用,素材来自 Youtube 二、3D 物体对皆的挑战

在现实天下中,要让智能体真是融会和操作三维物体,一个带有朝向、位置和尺寸标注的表率 3D 数据集至关进军。

它不仅让模子能结伙学习轨范姿态,还能支握类别识别、语义分析等卑鄙任务。

然而,得到这么的数据极具挑战:

1)东说念主工标注严重依赖教养,过程繁琐且易出错。在使用诡计机赞成 3D 标注时,频繁需通过 2D 界面对 3D 物体手动调节,交互效能照旧不高;

2)基于学习的自动化对皆格式本人也依赖饱胀的先验样本才能锤真金不怕火,而现实中的物体散布呈严重长尾——举例在 Objaverse-LVIS 中,超 93%的类别样本不及 100个,远远称心不了现存格式所需的饱胀先验样本。

因此,无论是东说念主工过程,如故基于学习的自动化格式,目下都难以撑握对大限度、随性类别 3D 物体进行高效高质地表率化。这也让何如高效对皆三维物体成为现时估量的中枢挑战之一。

△长尾散布问题:对 Objaverse-LVIS 类别物体数目统计三、建议的处罚格式

为突破上述 3D 物体表率化中"标注难、样本少"的双重窘境,咱们建议了一种全新的 One-shot 物体对皆格式:只需一个表率化物体行动先验,联结 2D 基础模子的语义能力,即可自动对随性姿态下的同类 3D 物体进行高质地表率化。

比拟以往依赖多数锤真金不怕火数据或手工操作的决议,咱们的格式无需繁琐过程,也不怕长尾类别,在样本稀缺的场景下发达尤为出色。

同期,咱们会握续扩大表率数据集的限度。

△现存格式依赖于多数的先验条目(如多个已表率化模子),咱们建议的 one-shot 格式仅需一个先验模子即可杀青存效的类别级表率化(左图)。咱们构建了表率化的 Objaverse 数据集(右图),该数据集在现存的表率化三维数据迫临涵盖了最多的类别。

△表率化的 3D 物体数据,来自 COD 数据集。

四、 格式简介

如图所示,咱们但愿以一个同类的物体行动先验模子,其他物体行动测试物体和先验模子进行对皆。

算法的中枢念念想是,联结 2D 基础模子提供的语义信息和 3D 物体的几何信息进行表率化。

统共框架由三个主要阶段构成:zero-shot 物体语义对应关联开辟(左图)、表率化位姿假定生成(中图)以及最终轨范位姿采用(右图)。

△算法框架

在算法框架遐想时,咱们靠近两个主要难点:

1)2D 基础模子在处理随性姿态下的物体时易出现检测弊端,导致 3D 语义信息得到不矫捷;

2)同类物体间存在权臣几何互异,仅依赖语义或几何信息进行对皆均存在局限,因此亟需遐想一种粗略灵验皆集欺诈寥落语义与几何信息的对皆机制。

为此,咱们建议:

1)基于撑握面的运行化计谋:欺诈算法自动检测物体的多个撑握面,并以其在水平面上矫捷静止的情状行动运行化位姿,权臣提高了语义分割模块的的矫捷性与准确性。

2)语义 - 几何皆集能量函数:咱们遐想了联结语义置信度与几何一致性的能量函数,在对皆过程中杀青了语义主导毛糙朝向、几何教授细节对皆的协同优化机制,从而更灵验地完成物体表率化。

最终,在 Objaverse 和 ShapeNet 等数据集上的实验考据了咱们格式在对皆精度与鲁棒性方面的权臣上风,较现存主流格式发达更优,并展现出细密的泛化能力。

△3D 物体表率化过程,来自 COD 数据集。五、总结及瞻望

咱们建议了一种新颖的 one-shot 三维物体表率化框架,只需一个先验模子,即可完成对同类别中其他物体的表率化对皆。

通过引入大型讲话模子(LLMs)与视觉 - 讲话模子(VLMs),联结建议的撑握面的位姿采样计谋,咱们杀青了对物体的 zero-shot 语义感知,并通过将语义教授的粗对皆与几何驱动的淡雅对皆相联结,杀青了 3D 物体的自动化高效对皆。

在多个模拟与真是数据集上的实验标明,该格式不仅精度优于现存格式,还能灵验处理长尾类别,具备刚劲的泛化能力。

基于这一格式,咱们进一步构建了 COD 数据集(Canonical Objaverse Dataset),涵盖 1054 个类别、卓越 3 万个表率化物体,展现了咱们框架在大限度 3D 数据集构建中的可扩展性。

为称心不同任务对 3D 数据的千般化需求,无论是 3D 生成任务对高质地网格和材质的要求,如故艺术创作类应用对平整面片和可拆解部件的偏好,咱们将握续扩展标注数据限度,丰富标注维度,并接待更多估量者加入,共同打造更丰富、更高质地、更贴近社区现实需求的三维物体数据集。

技俩主页:

https://jinli998.github.io/One-shot_3D_Object_Canonicalization/

表率数据集相连:

https://github.com/JinLi998/CanonObjaverseDataset

一键三连「点赞」「转发」「小心心」

接待在批驳区留住你的主义!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 技俩主页相连,以及关联表情哦

咱们会(尽量)实时修起你

� � 点亮星标 � �

科技前沿进展逐日见探花 极品



上一篇:赵小贝 外卖圈商战笑喷,网友:外卖圈TFBOYS!
下一篇:赵小贝 萨基:尤文并不成稳赢帕尔马 当今的罗马不错给任何球队制造困难

Powered by 一本大道香蕉大在线 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024