- 博客(764)
- 资源 (1)
- 收藏
- 关注
转载 LightLoc:快速高效的户外激光雷达定位新方法
论文标题:LightLoc: Learning Outdoor LiDAR Localization at Light Speed代码:https://github.com/liw95/LightLoc论文:https://arxiv.org/abs/2503.17814是一种新型户外激光雷达(LiDAR)定位方法,旨在解决现有场景坐标回归方法训练时间过长的问题。LightLoc 通过冻结场景无关的特征主干网络并仅训练场景特定的预测头来加速学习过程。
2025-04-09 13:56:44
24
转载 双目深度估计大模型 FoundationStereo
本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。
2025-04-09 13:43:45
19
原创 文字识别 (OCR) 工具
夸克是一款新型的浏览器,因为它界面简洁,不会有很多广告的优点。再加之它自带网盘的功能,现在使用的人也是特殊多。在它的【扫一扫】功能中,有一个【提取文字】的功能可以帮助我将图片上的文字进行提取。
2025-04-09 13:22:12
426
原创 Ubuntu 安装 Beyond-Compare 4
本文介绍了在Ubuntu系统上安装Beyond Compare 4的完整过程。Beyond Compare 是一款强大的文件和文件夹比较工具,广泛应用于源代码管理、版本控制以及文件同步等场景。本文首先介绍了Beyond Compare 4的主要功能和特点,然后详细阐述了在Ubuntu上安装该软件的步骤,包括下载安装包、配置软件源、安装依赖包以及执行安装命令等。此外,文章还提供了安装过程中可能遇到的问题及解决方案,帮助读者顺利安装并享受Beyond Compare 4带来的便捷与高效。
2025-04-09 13:18:27
7667
4
转载 跨数据集配准SOTA,解锁LiDAR点云配准中的泛化能力
本文揭示了LiDAR场景中不一致的几何表示导致交叉注意力模块限制了网络的泛化能力。基于这一发现,我们提出了UGP,一种剪枝框架,旨在增强LiDAR点云配准的泛化能力。UGP消除了交叉注意力,引入了渐进式自注意力模块和BEV特征提取模块,使网络能够优先考虑局部空间关联并捕捉场景元素的语义信息。这减少了点云中的歧义,并提升了泛化性能。大量实验表明,我们的方法有效应对了不同数据分布带来的挑战,包括跨距离和跨数据集场景。p_ip_j。
2025-04-08 23:17:01
48
转载 D-LI-Init: LiDAR-惯性系统动态初始化方法
D-LI-Init是一种LiDAR-惯性系统的动态初始化方法。实验证明,该方法适用于多种平台,能够在不依赖特定运动模式的情况下提供准确的初始值。局限性:该方法的性能高度依赖于LiDAR里程计的精度未来工作:将进一步研究如何提升LiDAR里程计的准确性。
2025-04-08 22:21:49
17
转载 MINIMA:通用图像匹配
本文提出了一个名为MINIMA的统一匹配框架,适用于任何跨模态情况。这是通过使用有效的数据引擎填补数据鸿沟来实现的,该引擎可以自由地将廉价的RGB数据扩展到大型多模态数据。构建的MD-syn数据集包含了丰富的场景和精确的匹配标签,并支持任何先进匹配模型的训练,显著提高了在未见跨模态情况下的跨模态性能和零样本能力。
2025-03-28 10:19:20
38
转载 KISS-SLAM:极简设计、极少参数调整、快于传感器帧率
KISS-SLAM是一种简单但高效的 LiDAR SLAM 方法。该方法完全基于 LiDAR 扫描数据,无需额外传感器即可计算机器人轨迹和环境地图。我们的方法采用极简设计,能够适用于各种复杂环境,如高速公路行驶、手持设备和电动平衡车。此外,该系统不依赖特定的测距技术或扫描模式,仅假设点云数据是机器人在环境中移动时连续生成的。我们实现并评估了该方法,并与现有技术进行了比较,以支持本文提出的所有核心论点,同时公开了代码。
2025-03-28 10:12:38
50
转载 旷视科技和东北大学联合提出:多LiDAR与相机系统的无靶标内外参联合标定方法
精确的时空标定是多传感器融合的前提,然而由于传感器通常不同步,并且相机与LiDAR的视场范围不重叠,这为内外参标定带来了挑战。为了解决这一问题,本文提出了一种基于连续时间和捆集调整的标定流程,能够同时完成内参和外参(包括6自由度的变换和时间偏移)的标定。此方法不依赖视场重叠或标定板,首先通过运动结构(SfM)建立相机间的数据关联,完成相机内参的自标定。接着通过自适应体素地图构建LiDAR间的数据关联,在地图内优化外参标定。最后将LiDAR地图的强度投影与相机图像进行特征匹配,实现内参与外参的联合优化,此流程
2025-03-27 23:19:53
53
转载 DualQuat-LOAM:基于双四元数参数化的高精度激光雷达里程计与建图方法
我们提出了DualQuat-LOAM激光雷达里程计方法,该方法基于边缘、表面和稳定三角形描述符(STD)的双四元数参数化。这种方法能够以紧凑的形式表示系统的旋转和平移。为实现这一目标,我们对优化器也进行了双四元数参数化,从而确保了姿态估计过程中的完全一致性。实验结果表明,该方法仅使用激光雷达传感器的点云即可完成姿态估计,无需额外传感器的集成。
2025-03-27 23:09:16
246
原创 模型训练技巧
模型太简单(欠拟合):增加层数、神经元数量,或使用更复杂的架构(如ResNet、Transformer)。使用自动化工具(如Grid Search、Random Search、贝叶斯优化)搜索最佳超参数。模型太复杂(过拟合):减少层数、神经元数量,或添加正则化(L1/L2正则化、Dropout)。增加正则化(L1/L2、Dropout、Early Stopping)。使用预训练模型(如BERT、ResNet、GPT)进行迁移学习。集成学习(如Bagging、Boosting、模型融合)。
2025-03-27 16:54:48
388
原创 学习率调度器 (Learning Rate Scheduler)
学习率调度器(Learning Rate Scheduler)是一种在训练过程中动态调整学习率的工具。学习率是优化器中的一个超参数,它决定了模型参数在每次更新时的调整步幅。合适的学习率可以加速模型收敛,而不合适的学习率可能导致训练过程不稳定或收敛速度慢。常见的学习率调度器StepLR:每隔一定的步数将学习率乘以一个衰减因子。ExponentialLR:每个epoch将学习率乘以一个固定的衰减因子。CosineAnnealingLR:学习率按照余弦函数曲线变化,适用于周期性训练。
2025-03-27 16:34:24
441
转载 神经网络训练:模型参数初始化方法详解
在训练过程中,梯度下降算法试图最小化损失函数,但由于对称性,很难确定哪个参数配置是最优的,即梯度下降算法可能会陷入局部最小值或平坦区域,使网络无法得到更好的优化结果,因为在这些区域中,梯度几乎为零,导致优化过程停滞不前。当我们训练深度神经网络时,梯度的传播是非常关键的。He初始化是一种常用的参数初始化方法,它针对使用Rectified Linear Units (ReLU)激活函数的神经网络进行了优化,其核心思想是,根据每一层的激活函数的特性来设置权重的初始范围,以更好地平衡信号和梯度的传播。
2025-03-27 15:56:08
44
原创 分布式训练
分布式训练的动机很简答:单节点算力和内存不足,因此不得不做分布式训练。训练机器学习模型需要大量内存。假设一个大型神经网络模型具有 1000 亿的参数(LLM 时代有不少比这个参数量更大的模型),每个参数都由一个 32 位浮点数(4 个字节)表达,存储模型参数就需要 400GB 的内存。在实际中,我们需要更多内存来存储激活值和梯度。假设激活值和梯度也用 32 位浮点数表达,那么其各自至少需要 400GB 内存,总的内存需求就会超过 1200GB(即 1.2TB)。
2025-03-27 11:29:22
798
转载 ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking论文阅读
该研究介绍了一种稳健的跟踪框架,通过概率整合将光流整合与长期对应关系相结合,以实现动态视频序列中准确且平滑的点跟踪。通过引入目标级过滤、双向概率整合以及几何感知特征提取,该研究的方法有效减轻了漂移问题,处理了遮挡情况,并重新定位了暂时消失的点。该研究的方法在处理复杂运动和长时间间隔方面优于传统方法,展示了整合短期和长期信息以实现可靠跟踪的优势。尽管该研究的方法提供了稳健的跟踪,但其对关键点提取的测试时训练的依赖相比监督方法降低了效率——这是自监督跟踪方法的常见局限。
2025-03-23 16:16:56
52
1
转载 Building Rome with Convex Optimization论文阅读
我们提出了XM,一个可扩展且无需初始化的全局捆绑调整求解器,利用学习的深度和凸优化。通过将缩放捆绑调整放松为凸SDP,并使用Burer-Monteiro分解和基于CUDA的信任区域黎曼优化器高效地解决它XM在极端规模上实现了可证明的全局最优性。集成到XM-SfM管道中后,它保持了现有SfM方法的准确性,同时显著提高了速度和可扩展性。限制和未来工作。首先,虽然我们的XM求解器在速度上优于基线,但它可能对噪声和异常值敏感。未来的工作包括改进过滤过程和开发更好的方法来处理异常值。
2025-03-23 15:54:13
37
1
原创 结构化思维
那么到底是什么是结构化思维呢?我给结构化思维的定义就是逻辑+套路。绝大多数人在撰写工作总结时,都会将总结分为两个部分:一是这一年的工作情况,二是下一年的工作设想。这看似是有结构的,但很可能写成流水账,把自己一年的工作一条条罗列上去,没有任何逻辑关系,也没有任何分类归纳,让人看不到结论,抓不住重点。比如,你担任公司的招聘专员,这一年你一共赶往了16个城市,在40所高效开办了40余场校园宣讲活动,与26所高校达成战略合作,招聘应届毕业生共计256名。
2025-02-06 15:16:09
1921
原创 NumPy矩阵逐元素相乘与矩阵乘法
NumPy中的广播机制是一种非常强大的功能,可以允许不同形状的数组进行运算。广播机制使得数组的运算更加灵活、简洁,避免了手动调整数组形状的需求。但是,广播机制尤其使用的条件,什么时候两个不同形状的数组可以直接进行运算,什么时候又不能,有些老手有时候也需要稍微停顿、思考。 numpy.array的运算*表示矩阵逐元素相乘上式中把最后一维相加两个打印结果是相同的把最后一维相加两个打印结果是相同的
2025-01-21 15:29:08
278
原创 NumPy广播机制
NumPy中的广播机制是一种非常强大的功能,可以允许不同形状的数组进行运算。广播机制使得数组的运算更加灵活、简洁,避免了手动调整数组形状的需求。但是,广播机制尤其使用的条件,什么时候两个不同形状的数组可以直接进行运算,什么时候又不能,有些老手有时候也需要稍微停顿、思考。
2025-01-21 14:18:29
620
原创 相机模型Omnidirectional Camera(全方位摄像机)
它是由Geyer和Daniilidis(后来由Barreto和Araujo[8]改进)在2000年开发的,他们的优点是提出了一个包括所有三种类型的中央折反射相机的模型,即使用双曲镜、抛物面镜或椭圆镜的相机。本节的目标是找到场景点的观看方向和其对应图像点的像素坐标之间的关系。Geyer和Daniilidis在2000年发表的具有里程碑意义的论文中指出,每一种折反射(抛物线、双曲线、椭圆线)和标准透视投影都等价于从一个以单一视点为中心的球体到一个以垂直于平面且距离较远的平面为投影中心的平面的投影映射。
2025-01-17 20:52:17
2055
1
原创 BEVFusion论文阅读
融合激光雷达和相机的信息已经变成了3D目标检测的一个标准,当前的方法依赖于激光雷达传感器的点云作为查询,以利用图像空间的特征。然而,人们发现,这种基本假设使得当前的融合框架无法在发生LiDAR故障时做出任何预测,无论是轻微还是严重。这从根本上限制了实际场景下的部署能力。相比之下,在BEVFusion框架中,其相机流不依赖于LiDAR数据的输入,从而解决了以前方法的缺点。
2025-01-17 20:49:20
1732
1
原创 DETR论文阅读
传统的目标检测任务需要大量的人工先验知识,例如预定义的先验anchor,NMS后处理策略等。这些人工先验知识引入了很多人为因素,且较难处理。如果能够端到端到直接生成目标检测结果,将会使问题变得很优雅。
2025-01-17 20:48:03
1518
1
原创 Python装饰器
装饰器是Python中一个非常强大和常用的特性,它可以用于许多不同的情况,例如缓存、日志记录、权限控制等。通过在项目中使用的我们介绍的这些Python装饰器,可以简化我们的开发流程或者让我们的代码更加健壮。
2025-01-17 20:44:13
1084
原创 机器学习算法
在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线。例如:y=B0+B1*x我们将在给定输入值x的条件下预测y,线性回归学习算法的目的是找到系数B0和B1的值。
2025-01-14 17:50:16
1320
原创 图像相似度评价指标
PSNR是一种常用的评价图像质量的指标,它通过比较失真图像和原始图像来衡量图像恢复质量的好坏。PSNR是基于MSE(均方误差)计算得出的,用于衡量图像重建的误差。常用图像评价指标以及代码 :PSNR、SSIM、 LPIPS_psnr ssim lpips-CSDN博客3DGS中图像质量评估三板斧——PSNR/SSIM/LPIPS_psnr ssim lpips-CSDN博客。
2025-01-13 20:06:15
962
原创 汽车品牌从属关系
在本文中,我们将深入探讨汽车品牌之间的从属关系,为您揭示各大汽车集团旗下的品牌版图。我们将梳理全球知名的汽车集团,如大众集团、丰田集团、宝马集团等,并详细介绍它们旗下的各个汽车品牌。通过本文,您将了解到不同品牌之间的归属关系,以及这些品牌在汽车市场上的定位和发展状况。此外,我们还将分析汽车集团通过多元化品牌策略实现市场竞争优势的方式,以及这种策略对消费者选择和汽车市场格局的影响。无论您是汽车爱好者还是行业从业者,相信本文都能为您提供有益的参考和启示。
2025-01-13 19:47:54
631
转载 Senna(桥接大型视觉语言模型和端到端自动驾驶)
值得注意的是,通过利用DriveX数据集的预训练权重并在nuScenes数据集上进行微调,Senna实现了显著的性能提升,展现出强大的跨场景泛化能力和迁移能力。理解驾驶场景中的关键因素对于安全和准确的规划至关重要。Senna采用了一种结构化的规划方法:Senna-VLM利用预训练的常识和驾驶知识进行自然语言中的高层次决策,随后Senna-E2E利用这些决策生成最终的轨迹。所提出的以规划为导向的问答(QAs)和三阶段训练策略使Senna-VLM能够在保持常识的同时做出更准确的规划决策,防止模型崩溃。
2025-01-13 19:32:32
69
原创 ViewFusion运行笔记
文章标题:ViewFusion: Towards Multi-View Consistency via Interpolated Denoising。
2025-01-09 18:01:18
454
1
原创 EscherNet运行笔记
文章标题:EscherNet: A Generative Model for Scalable View Synthesis。
2025-01-09 18:00:18
241
原创 Python的pickle库使用笔记
模块实现了对一个 Python 对象结构的二进制序列化和反序列化。"pickling"是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程,而是相反的操作,会将(来自一个或者的)字节流转化回一个对象层次结构。pickling(和 unpickling)也被称为“序列化”, “编组”或者 “平面化”。而为了避免混乱,此处采用术语 “封存 (pickling)” 和 “解封 (unpickling)”。
2025-01-07 13:42:46
660
1
转载 做行业研究时如何获取相关数据?
(一)官方渠道:国家统计局、工信部、中经网、1.国家统计局http://data.stats.gov.cn/index;jsessionid=C4CB169B4F3C939947A5CDAA658810FD2.中国政府网http://www.gov.cn/(二)第三方数据公司:咨询公司/艾瑞/研究所/IDC数据公司iResearch艾瑞咨询深入互联网及电信相关领域研究成果,融合更多行业资源http://www.iresearch.cn/(三)数据库: wind/Choice/付费数据库/
2024-12-31 15:50:48
1803
转载 自动驾驶中的世界模型最新综述
世界模型和视频生成是自动驾驶领域的关键技术,每项技术在提高自动驾驶系统的鲁棒性和可靠性方面都发挥着至关重要的作用。模拟真实世界环境动态的世界模型和产生逼真视频序列的视频生成模型正越来越多地被整合,以提高自动驾驶汽车的态势感知和决策能力。本文研究了这两种技术之间的关系,重点研究了它们的结构相似性,特别是在基于扩散的模型中,如何有助于更准确、更连贯地模拟驾驶场景。我们研究了JEPA、Genie和Sora等领先工作,这些工作展示了世界模型设计的不同方法,从而突显了世界模型缺乏普遍接受的定义。
2024-12-27 18:43:13
407
转载 Kimera: an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping论文阅读
我们为实时度量-语义视觉-惯性同步定位和建图(SLAM) 提供了一个开源C++库。该库超越了现有的视觉和视觉惯性 SLAM 库(例如ORB-SLAM、VINS-Mono、OKVIS、ROVIO),实现了 3D网格重建和语义标记。Kimera在设计时考虑了模块化,并有四个关键组件: 用于快速准确状态估计的视觉惯性里程计(VIO)模块, 用于全局轨迹估计的强大姿态图优化器, 用于快速网格重建的轻量级3D网格划分器模块, 以及用于快速网格重建的密集3D度量语义重建模块。
2024-12-27 18:33:49
615
1
原创 四川高考学霸张非
张非从小性格内向、孤僻,但始终被视为“别人家的孩子”。这个标签的形成,主要来源于父母对她成绩的评价。从小学到初中,张非得的成绩一直名列前茅,老师和父母对他寄予厚望,周围的人都在告诉他,未来一定要考上名校。无形的压力常常让张非感到窒息,他并不喜欢被他人安排的人生。因此,在进入青春期后,他萌生了一个“大胆”的念头。在那一年中,他的成绩不断恶化,名次一再下滑,令父母感到焦虑。他们开始限制张非的活动自由,强迫他去学习。限制越大,反抗的欲望越强。尽管张非在中考后完全有机会进入重点高中,但他却选择了邮电学校。
2024-12-21 21:35:08
884
1
原创 最悲惨状元——陈安
陈安(?~1397)字安仲,号叔恭,福建闽县人。明洪武三十年(1397年)“春榜”(在春季举行的会试的榜单)状元。陈安在中状元之前就是闽中地区有名的才子,与林鸿、陈仲完、唐泰、高棅、唐震、王恭、郑定、王偁、王褒等九人并称为“闽中十大才子”。
2024-12-21 21:05:06
667
原创 lpips使用笔记
LPIPS指的是 Learned Perceptual Image Patch Similarity(学习感知图像块相似度),它是一种用于衡量两张图像之间感知相似度的指标。
2024-12-21 19:36:41
1228
1
原创 Diffusers使用笔记
Diffusers 是用于生成图像、音频等最先进预训练的库。它既支持推理解决方案,也支持训练自己的扩散模型,Diffusers 是一个支持这两者的模块化工具箱。区别与ComfyUI与webUI这类UI类的应用,Diffusers实际上是更底层的库,可以支持更好的建立自己的工作流而不仅仅是应用。这一点使它更为开放人员所接受。
2024-12-21 17:44:32
888
原创 HR/TA/HRBP的关系
本文旨在探讨HR(人力资源)与HRBP(人力资源业务伙伴)之间的区别。文章首先分别介绍了HR和HRBP的定义、角色和职责,帮助读者理解两者的基本概念。接着,通过对比分析,详细阐述了HR与HRBP在工作内容、工作重心、沟通协作、战略参与等方面的差异。HR更侧重于日常的人力资源管理工作,如招聘、培训、员工关系等,而HRBP则更深入地参与业务部门的运营,与业务部门紧密合作,以推动业务目标实现和人力资源优化。此外,文章还强调了HRBP在提升组织效能、促进人力资源与业务战略融合等方面的重要作用。通过本文的阐述,读者将
2024-12-21 16:42:20
1981
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人