当前位置:CRM > 视觉

聊聊视觉惯性里程计的IMU预积分模型

2024-02-22 12:01:43
聊聊视觉惯性里程计的IMU预积分模型
在VIO开源框架(如VINS-MONO)中,IMU预积分部分属于前端部分,是在采集了IMU数据之后就立刻进行的运算。...

让视觉语言模型搞空间推理,谷歌又整新活了

2024-02-19 12:01:48
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。...

后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式

2024-02-19 12:01:16
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?MBZUAI和Meta的研究者给出了答案。...

挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!

2024-02-06 12:00:51
挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!
论文提出了一种名为DA-BEV的新框架,这是第一个针对纯视觉BEV感知的领域自适应框架。DA-BEV通过利用图像视图特征和BEV特征之间的互补性来解决BEV领Domain Adaptation的挑战。...

GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

2024-01-22 12:02:56
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。...

SelfOcc:首篇纯视觉环视自监督三维占有预测(清华大学)(纯视觉slam)

2024-01-09 12:01:07
SelfOcc:首篇纯视觉环视自监督三维占有预测(清华大学)(纯视觉slam)
今天自动驾驶之心为大家分享清华大学自动化系的最新工作SelfOcc,首篇纯视觉环视自监督三维占有预测新方案。文章作者也是自动驾驶之心的老朋友黄原辉和郑文钊博士!...

Gemini vs GPT-4V到底哪家强?视觉-语言模型的全面比较和结合使用

2023-12-29 12:01:28
Gemini vs GPT-4V到底哪家强?视觉-语言模型的全面比较和结合使用
这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision)两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与人类的互动、时间理解以及智力和情感智商等关键维度上的多方面评估。...

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

2023-12-24 00:01:27
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。...

RV融合!自动驾驶中基于毫米波雷达视觉融合的3D检测综述(自动驾驶毫米波雷达波段)

2023-12-12 12:01:08
RV融合!自动驾驶中基于毫米波雷达视觉融合的3D检测综述(自动驾驶毫米波雷达波段)
本论文详细介绍了基于毫米波雷达和视觉融合的障碍物检测方法,从任务介绍、评估标准和数据集三方面展开。...

更深层的理解视觉Transformer, 对视觉Transformer的剖析

2023-12-06 12:00:32
更深层的理解视觉Transformer, 对视觉Transformer的剖析
目前基于Transformer结构的算法模型已经在计算机视觉(CV)领域展现出了巨大的影响力。他们在很多基础的计算机视觉任务上都超过了之前的卷积神经网络(CNN)算法模型。...