当前位置:CRM > 3D 第3页

GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应

2023-12-16 00:00:15
GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应
一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。...

QTNet:最新时序融合新方案!点云、图像、多模态检测器全适用(NeurIPS 2023)

2023-12-15 12:00:54
QTNet:最新时序融合新方案!点云、图像、多模态检测器全适用(NeurIPS 2023)
来自华中科技大学和百度的研究者们在本文中提出了QTNet:基于Query和显式运动的3D目标检测时序融合方法。...

LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界

2023-12-14 18:01:23
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
近日,斯坦福的华人研究人员提出全新视频生成框架——WonderJourney,一句话或者一张图,即可自动生成一系列3D场景的连续画面。...

仅使用卷积!BEVENet:面向自动驾驶BEV空间的高效3D目标检测

2023-12-12 12:02:38
仅使用卷积!BEVENet:面向自动驾驶BEV空间的高效3D目标检测
BEVENet提出了一种高效的基于BEV的3D检测框架,它利用仅卷积的架构设计来规避ViT模型的限制,同时保持基于BEV方法的有效性。...

HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架

2023-12-10 18:00:34
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
为了引入人体结构先验,最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说,一个常见的做法是将人体先验集成到网格(mesh)和神经辐射场(NeRF)等表示中,或者通过将身体形状作为网格 / 神经辐射场密度初始化,或者通过学习基于线性混合蒙皮(Linear Blend...

扩散一切?3DifFusionDet:扩散模型杀进LV融合3D目标检测!(什么是扩散模型)

2023-12-07 18:01:07
扩散一切?3DifFusionDet:扩散模型杀进LV融合3D目标检测!(什么是扩散模型)
3DifFusionDet框架将3D目标检测表示为从有噪声的3D框到目标框的去噪扩散过程。在这个框架中,真值框以随机分布扩散进行训练,模型学习反向噪声过程。...

RangePerception:Range View3D检测新思路!

2023-12-07 18:00:44
RangePerception:Range View3D检测新思路!
本文介绍了 RangePerception,这是一种基于 RV 的 3D 检测框架,可有效解决空间错位(Spatial Misalignment)和视觉损坏(Vision Corruption)的挑战。...

弥合2D和3D生成领域之间的次元壁,X-Dreamer实现高质量的文本到3D生成

2023-12-07 12:01:21
弥合2D和3D生成领域之间的次元壁,X-Dreamer实现高质量的文本到3D生成
本文介绍了一个名为 X-Dreamer 的框架,它主要由 CG-LoRA 和 AMA 损失两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领域差距,实现了高质量的 3D 生成。...

为端到端铺平道路!OccWorld:面向自动驾驶未来的3D占用世界模型新方案

2023-12-01 12:01:41
为端到端铺平道路!OccWorld:面向自动驾驶未来的3D占用世界模型新方案
这里探索了一种在3D占用空间中学习世界模型OccWorld的新框架,同时预测自车的运动和周围scene的演变。...

FlashOcc:占用预测新思路,精度、效率和内存占用新SOTA!

2023-11-28 12:00:44
FlashOcc:占用预测新思路,精度、效率和内存占用新SOTA!
本文介绍了一种称为 FlashOCC 的即插即用方法,旨在实现快速且内存高效的占用预测。它直接用 2D 卷积替换基于体素的占用方法中的 3D 卷积,并结合通道到高度变换(channel-to-height transformation) 将扁平化的 BEV 特征重塑为占用 logits。...