自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(305)
  • 收藏
  • 关注

原创 Talk|新加坡国立大学赵轩磊:Pyramid Attention Broadcast - 通向视频模型的实时生成

本期为TechBeat人工智能社区第612期线上Talk!北京时间7月25日(周四)20:00,新加坡国立大学博士生—赵轩磊的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“Pyramid Attention Broadcast - 通向视频模型的实时生成”,他向大家介绍了能够实现实时视频生成的算法PAB,它可以在几乎不损失质量的前提下大幅提升效率,且无需额外训练。这一突破性进展为视频生成技术的实际应用开辟了新的可能性。

2024-07-26 12:00:00 796

原创 Talk|上海交通大学庞祥鹤:大模型社会模拟器MATRIX,价值对齐胜过GPT4

本期为TechBeat人工智能社区第611期线上Talk!北京时间7月24日(周三)20:00,上海交通大学博士生—庞祥鹤的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“大模型社会模拟器MATRIX,价值对齐胜过GPT4”,他向大家介绍了一种能够模拟语言模型答案的社会影响,并允许语言模型在模拟社会中自我评估并修正行为的社会模拟器MATRIX。该工作已入选ICML 2024Spotlight。

2024-07-25 12:00:00 1156

原创 Talk|UW-Madison蔡沐:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型

​本期为TechBeat人工智能社区第535期线上Talk!北京时间9月28日(周四)20:00北京大学图灵班大四本科生—耿浩然的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“基于视觉的通用灵巧手抓取”,介绍了他们提出的一种旨在解决灵巧抓取的强泛化问题通用的灵巧手抓取算法。

2024-07-19 12:00:00 1163

原创 Talk|OSU汪博石:Transformer模型能否进行隐式的推理?关于Grokking和泛化的深入探索

本期为TechBeat人工智能社区第609期线上Talk。北京时间7月17日(周三)20:00,俄亥俄州立大学博士生—汪博石的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是: “Transformer模型能否进行隐式的推理?关于Grokking和泛化的深入探索”,在本次Talk中,他系统性地研究Transformer是否可以获得隐式推理的能力。并通过一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性,其背后的过程和原因,以及Transforme

2024-07-18 12:00:00 1137

原创 Talk|清华大学袁天远:PreSight - 利用NeRF先验帮助自动驾驶场景在线感知

本期为TechBeat人工智能社区第605期线上Talk。北京时间7月3日(周三)20:00,清华大学博士生—袁天远的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是:“PreSight - 利用NeRF先验帮助自动驾驶场景在线感知”,他向大家介绍了新的感知框架PreSight,其通过构建城市级NeRF有效地从历史观测数据中提取先验知识,以帮助下游感知任务。该工作已入选ECCV 2024。

2024-07-14 16:00:00 1186

原创 Talk|CityU 助理教授马佳葳: CVPR 2024, 基于多模态理解的混合数据专家模型

本期为TechBeat人工智能社区第604期线上Talk。北京时间6月27日(周四)20:00,香港城市大学助理教授—马佳葳的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是:“基于多模态理解的混合数据专家模型”,他向大家介绍了混合数据专家模型MoDE,在理解数据的基础上,通过分治法来指导多个小模型的训练,提升下游任务表现并降低训练成本。该工作已入选CVPR 2024 Oral & ICLR 2024 Spotlight。

2024-06-28 12:00:00 1085

原创 Talk|北京大学PKU-DAIR余昭辰:从多模态理解到生成 - 从LLM到Diffusion Model

本期为TechBeat人工智能社区第603期线上Talk。北京时间6月26日(周三)20:00,北京大学PKU-DAIR实习生—余昭辰的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是: “从多模态理解到生成 - 从LLM到Diffusion Model”,在本次Talk中,他向大家介绍了PKU-DAIR课题组在大语言模型和扩散模型两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

2024-06-27 12:00:00 1166

原创 Talk|北京大学张嘉曌:NaVid - 视觉语言导航大模型

本期为TechBeat人工智能社区第602期线上Talk。北京时间6月20日(周四)20:00,北京大学博士生—张嘉曌的Talk已经准时在TechBeat人工智能社区开播!

2024-06-21 12:00:00 1779

原创 Talk|香港科技大学冯宸:高效自主的大尺度场景空中覆盖与重建

本期为TechBeat人工智能社区第601期线上Talk。北京时间6月19日(周三)20:00,香港科技大学冯宸博士生—冯宸的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是: “高效自主的大尺度场景空中覆盖与重建”,他围绕团队在利用无人机进行大尺度场景下的快速自主覆盖与重建方面取得的进展和思考展开。该工作已入选ICRA 2024 Finalist for Best Paper Award on UAV。

2024-06-20 12:00:00 1819

原创 Talk|新加坡国立大学贾鑫宇:适用于高自由度机器人的运动控制器

本期为TechBeat人工智能社区第600期线上Talk。北京时间6月13日(周四)20:00,新加坡国立大学博士生—贾鑫宇的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是: “适用于高自由度机器人的运动控制器”,向大家系统地介绍了如何通过三维表征的设计来帮助三维网格的重建与生成。

2024-06-14 12:00:00 953

原创 Talk|CVPR‘24 Oral:超越3D - Point Transformer V3中的多模态特征提取新构想

在本次Talk中,我们将超越3D感知与表征的范畴,从多模态数据特征提取的角度介绍我们被接收为CVPR 2024 Oral的工作Point Transformer V3 (PTv3) 的思想与设计。点云作为3D表征与感知的基础模态,其本身也是高维度稀疏非结构化数据的代表。将图像的每一个像素视为点,图像本身也可被视为点云,这佐证了这类数据结构的普适性。本次Talk将通过PTv3的两个核心思想——骨干网络设计的规模准则与非结构化数据的序列化技术,探究3D点云骨干网络作为一种多模态泛用特征提取器的构想与挑战。

2024-06-13 12:01:43 1125

原创 CVPR 2024 | 长时舞蹈生成:数秒钟可生成极长的3D舞蹈

本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。

2024-03-22 12:55:35 1240

原创 Talk|Mila研究所&蒙特利尔大学刘圳:三维表征和三维网格的重建与生成

本期为TechBeat人工智能社区第580期线上Talk。北京时间3月21日(周四)20:00,Mila研究所&蒙特利尔大学博士生—刘圳的Talk已经准时在TechBeat人工智能社区开播!他与大家分享的主题是:“三维表征和三维网格的重建与生成”,向大家系统地介绍了如何通过三维表征的设计来帮助三维网格的重建与生成。

2024-03-22 12:00:00 738

原创 ICCV 2023 Oral | 人类语言演化中学习最优图像颜色编码

人类的语言是一种对复杂世界的高度简洁的编码,特别是语言中颜色的概念,成功地将原本极大的色彩空间(如256三次方真色彩空间)压缩至5到10种颜色。受此启发,来自上海交大,日本理化学研究所,东京大学 的研究人员,提出全新的基于视觉任务的色彩量化(colour quantisation)技术,利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究,更是为网络量化(neural network quantisation)以及多模态大语言模型提供坚实的研究基础。

2024-03-22 11:37:08 1209

原创 北航&悉尼大学联合研发突破性高效AI技术:双重二值化方法重塑大型语言模型效率

文中介绍的DB-LLM模型通过结合柔性双重二值化(FDB)方法和偏差感知蒸馏(DAD)方法,有效提升了大型语言模型(LLM)在超低位量化情况下的性能和效率。FDB方法有效地结合了二值化的运算效率和2位量化的准确性,通过将2位量化的权重分割成两组1位二进制数,不仅保持了超低位量化的高稀疏性,还提高了权重的灵活表示能力。而DAD方法则针对超低位量化后模型的预测偏差问题,通过利用教师-学生模型的熵作为样本难度的指标,优先处理不确定性高的样本,实现了从全精度教师模型到量化模型的更平衡的知识转移。

2024-03-21 17:47:17 891 1

原创 Talk|卡内基梅隆大学李博文:适用于机器人的可泛化的目标感知

本期为TechBeat人工智能社区第579期线上Talk。北京时间3月20日(周三)20:00,卡内基梅隆大学博士生—李博文的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“适用于机器人的可泛化的目标感知”,向大家系统地介绍了如何在有限的数据上学习到可泛化的,适用于机器人的目标感知模型。

2024-03-21 11:55:25 872

原创 Talk|加州大学洛杉矶分校鲁盼:基于大型语言模型的多模态数学推理

本期为TechBeat人工智能社区第579期线上Talk。北京时间3月14日(周四)20:00,加州大学洛杉矶分校博士生—鲁盼的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“基于大型语言模型的多模态数学推理”,向大家系统地介绍了多模态的数学推理的进展和挑战。

2024-03-15 12:00:00 1013

原创 Talk|麻省理工学院李晨昊:发展式腿足智能-从模仿到生成

本期为TechBeat人工智能社区第578期线上Talk。北京时间3月13日(周三)20:00,麻省理工学院博士生—李晨昊的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“发展式腿足智能-从模仿到生成”,向大家系统地介绍了专家示范(expert demonstrations)在机器人学中的作用,以及从受限演示中学习的三种创新方法,并展示它们在腿部机器人学中的成功应用。

2024-03-14 12:00:00 754

原创 CVPR 2024 | 从第一人称视角理解世界,多模态模型离我们还有多远?

该工作为考察多模态模型作为智能体或机器人大脑的潜力,提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解,并对每个能力维度进行了详尽的评测。评测结果显示,当前阶段的视觉语言大模型,包括GPT-4V,从第一人称视角进行思考的整体能力上还远未达到人类水平。

2024-03-13 12:00:00 1269

原创 ICLR 2024 | Meta AI提出ViT寄存器结构,巧妙消除大型ViT中的伪影以提高性能

在这项工作中,作者对 DINOv2 模型特征图中的伪影进行了详尽的研究,并发现这种现象存在于多个现有的流行ViT模型中。作者提供了一种简单的检测伪影的方法,即通过测量token的特征范数来实现。通过研究这些token的局部位置和全局特征信息,作者发现,这些token对于模型性能损失存在一定的影响,并提出了一种简单的寄存器方案(Registers)来将这些token附加到输入序列中。通过实验表明,这种方法完全消除了ViT特征图中的伪影,并且提高了模型在下游密集预测等任务上的性能。

2024-03-10 23:58:44 2591 1

原创 Talk|上海交通大学&上海AI Lab:复杂图表推理多模态评测基准与基座模型

本期为TechBeat人工智能社区第577期线上Talk。北京时间3月7日(周四)20:00,上海交通大学博士生—夏纫秋以及上海人工智能实验室科研助理—叶涵诚的Talk已准时在TechBeat人工智能社区开播!他们与大家分享的主题是:“复杂图表推理多模态评测基准与基座模型”,向大家介绍了其团队在复杂图表推理方面所做的研究。

2024-03-08 13:15:43 674

原创 Talk|加州大学圣地亚哥分校程旭欣:视觉反馈下足式机器人的全身操作与运动

程旭欣是UCSD的一年级博士生,导师是Xiaolong Wang,他的主要研究兴趣是足式机器人的全身控制。在 CMU 读机器人硕士期间,他的主要研究方向是利用强化学习实现四足机器人的全身控制,操作和运动, Deep Whole-Body Control 曾入围 CoRL 最佳系统论文, 导师为 Deepak Pathak。附加的机械臂完成自动抓取,视觉反馈下的极限运动能力都是很有价值的探索方向。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

2024-03-07 12:31:41 1119

原创 Cute idea!LeCun点赞,扩散模型跨界神经网络参数生成

本文提出了一种使用扩散模型生成神经网络参数的框架p-diff,p-diff可以从传统的SGD优化器得到的参数出发,生成具有较大差异的高性能网络参数,这一点与先前训练模型的过程有很大的差别,因而其能够始终相比原始训练数据实现相似甚至更强的性能。此外,本文作者也提到,由于网络参数是与图像视频性质不同的信号,因此必须谨慎考虑处理这种区别,虽然p-diff现在仍然无法生成现代规模的大模型参数,但是在训练算力焦虑笼罩的今天,这种想法非常振奋人心。我们期望更加优秀的扩散模型参数生成框架的出现。

2024-03-04 09:45:00 1077

原创 Talk|卡内基梅隆大学熊浩宇:Open-world Mobile Manipulation-开放世界机器人学习系统

本期为TechBeat人工智能社区第575期线上Talk。北京时间2月29日(周四)20:00,卡内基梅隆大学研究生—熊浩宇的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“Open-world Mobile Manipulation-开放世界机器人学习系统”,将向大家介绍了开放世界机器人系统硬件,数据收集到模型部署的全栈方法等相关研究。

2024-03-01 12:00:00 400

原创 Mamba与MoE架构强强联合,Mamba-MoE高效提升LLM计算效率和可扩展性

本文提出了一种将专家混合MoE技术与Mamba架构进行集成的模块,即MoE-Mamba。基于并行计算的天然优势,Mamba减轻了大模型中复杂循环顺序性质的影响,并且对硬件进行感知来实现参数扩展。Mamba相比普通注意力机制Transformer解决了序列模型中效率和有效性之间的基本权衡,强调了状态压缩的重要性。将Mamba与高度稀疏的MoE前馈层交错设置可以实现更高推理效率的LLM,但目前的组合方式仍然非常简单,作者也探索了一种局部并行的Mamba+MoE架构以实现更高的预测准确率和更稀疏的推理效果。

2024-03-01 11:01:31 1765

原创 ICLR 2024|ReLU激活函数的反击,稀疏性仍然是提升LLM效率的利器

本文对LLM中使用的激活函数进行了大规模的研究,作者发现,在LLM预训练和微调期间激活函数的选择不会对性能产生显着影响,而使用经典的 ReLU 可以为LLM提供稀疏性和更高效的推理效率。考虑到现有流行的LLM(例如Llama和Falcon)均已使用非ReLU激活函数进行预训练,从头对它们进行训练耗费的代价太大,

2024-03-01 10:57:57 2060

原创 Talk|上海交通大学晋嘉睿:序列建模技术在推荐系统中的应用

本期为TechBeat人工智能社区第574期线上Talk。北京时间2月28日(周三)20:00,上海交通大学博士生—晋嘉睿的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“序列建模技术在推荐系统中的应用”,系统地介绍了他们在序列数据的建模等相关工作所做的研究。

2024-02-29 13:58:47 983

原创 利用LLMs进行时间序列预测:理解和增强模型时间序列能力

近年来,大型语言模型在许多领域得到了快速发展和广泛应用。作为一个经典的机器学习任务,时间序列预测最近通过LLMs得到了提升。然而,在这一领域中,关于LLMs的偏好还存在研究空缺。本文通过将LLMs与传统模型进行比较,发现了LLMs在时间序列预测中的许多特性。例如,我们的研究显示LLMs擅长预测具有明确模式和趋势的时间序列,但面对缺乏周期性的数据集时则遇到挑战。我们通过设计提示要求LLMs告知数据集的周期来解释我们的发现。

2024-02-26 10:43:27 1408

原创 上海AI Lab联合上交推出复杂图表推理多模态评测基准ChartX与基座模型ChartVLM

近期,众多多模态大语言模型(MLLM)相继问世。然而,这些模型对于视觉图表中所包含的信息的感知能力以及推理能力尚未得到充分的挖掘与探索。本研究中,为了对现有的 MLLM 在图表领域的性能进行全方位、严格的评估,我们构建了ChartX评测基准,该基准由涵盖了18种图表类型、7个图表任务、22个学科主题的高质量图表数据构成,以及针对不同的图表任务采用了定制化的评估方式,例如用SCRM评价方式来更全面地评价视觉图表结构化信息提取任务。

2024-02-26 10:24:52 1566

原创 NeurIPS 2023 Spotlight | VoxDet:基于3D体素表征学习的新颖实例检测器

本文提出基于3D体素表征学习的新颖实例检测器VoxDet。给定目标实例的多视图,VoxDet建立该实例的三维体素表征。在更加杂乱的测试图片上,VoxDet使用体素匹配算法检测目标实例。实验表明,VoxDet中的三维体素表征与匹配比多种二维特征与匹配要更鲁棒、准确与高效。本文已收录于NeurIPS 2023并被选为SpotLight。

2024-02-26 10:12:31 1011

原创 港中文联合MIT提出超长上下文LongLoRA大模型微调算法

本文针对LLM微调训练提出了一种名为LongLoRA的方法,它可以有效地将LLM的上下文窗口长度扩展到更长的范围。LongLoRA与标准完全微调方法相比,所使用的GPU显存成本和训练时间更少,并且精度损失也很小。在架构层面,作者将原始笨重的自注意力计算转换为更加轻量的shift short attention(S2-Attn),S2-Attn以独特的注意力头划分模式实现了局部的信息交互,从而带来更高效的性能,更关键的是,S2-Attn只需要两行代码就可以实现。

2024-02-26 10:03:47 1192

原创 Talk|北京理工大学陈焕然:损失函数景观与泛化性的关系

本期为TechBeat人工智能社区第573期线上Talk。北京时间2月22日(周四)20:00,北京理工大学本科生—陈焕然的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“损失函数景观与泛化性的关系”,系统地介绍了他们在发现loss landscape closeness也和泛化性强相关等相关工作所做的研究。

2024-02-23 11:47:47 1089

原创 Talk|北京大学杨灵:扩散模型的算法创新与领域应用

本期为TechBeat人工智能社区第572期线上Talk。北京时间2月21日(周三)20:00,北京大学博士生—杨灵的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“扩散模型的算法创新与领域应用”,系统地介绍了他的团队基于扩散模型的算法创新与领域应用等相关工作所做的研究。

2024-02-22 12:03:07 783

原创 Talk|香港科技大学苟耘豪:MoCLE - 指令聚类MoE+通用专家解决多模态大模型任务冲突

本期为TechBeat人工智能社区第571期线上Talk。北京时间2月8日(周四)20:00,香港科技大学博士生—苟耘豪的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“MoCLE - 指令聚类MoE+通用专家解决多模态大模型任务冲突”,系统地介绍了他的团队基于指令聚类和通用专家的MoE多模态大模型微调方法等相关工作所做的研究。

2024-02-09 12:00:00 1008

原创 AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL,高效提升下游性能

本文作者首先对现有基于提示的图像分类方法的缺陷进行了分析,即这些方法无法很好的关注到图像的局部关键信息。本文提出另一种全新的多模态提示学习方法CoPL,CoPL通过动态学习提示权重并将生成的提示向量与局部图像进行特征对齐来解决上述问题。作者通过在包含11个不同的数据集和场景中进行了完整的视觉分类实验,包括zero-shot、few-shot等不同的实验设置。实验结果表明,经过CoPL方法处理后的多模态对齐特征,具有良好的下游任务适应能力。

2024-02-09 11:45:00 1241 1

原创 ICLR 2024 | Harvard FairSeg:第一个研究分割算法公平性的大型医疗分割数据集

在本次工作中, 我们提出了第一个研究医疗分割算法的公平性的大型数据集 并且提出了方法尝试提升不同组别的公平性。尽管如此, 通过实验我们仍然发现不同组别直接的分割准确性差异仍然存在。未来希望通过我们和整个机器学习社区的共同努力, 能够提升弱势组别的准确性,而达到真正的分割公平性, 使得医疗分割模型能更好的部署在真实的医疗场景中。

2024-02-08 14:35:34 1012

原创 Talk|香港中文大学(深圳)张雪遥:音频生成开源工具包Amphion的歌声转换指南

本期为TechBeat人工智能社区第570期线上Talk。北京时间2月7日(周三)20:00,香港中文大学(深圳)博士生—张雪遥的Talk已准时在TechBeat人工智能社区开播!他与大家分享的主题是:“音频生成开源工具包Amphion的歌声转换指南”,系统地介绍他的团队提出的针对歌声转换的音频生成开源工具包Amphion,包括该任务的定义、研究发展脉络、最前沿的技术框架范式,以及Amphion对该任务的集成思路与架构设计等相关工作所做的研究。

2024-02-08 12:00:00 892

原创 不到1s生成mesh! 高效文生3D框架AToM

本文提出了一种新颖的Amortized文本到3D模型生成框架AToM,AToM可以在没有3D 监督的情况下跨多个文本提示进行网络优化。AToM的训练过程基于三平面的网格生成器,这有助于更稳定的优化和提高对大规模数据集的通用性。此外,作者针对文本到3D网格生成过程,设计了一种两阶段Amortized优化策略,与普通的per-prompt方法相比,AToM 显着减少了训练时间,更重要的是,AToM 表现出很强的通用性,无需进一步优化即可为下游环境中的unseen提示生成高质量的 3D 内容。

2024-02-07 16:26:18 1945

原创 Google DeepMind最新研究,将视觉语言大模型作为强化学习的全新奖励来源

本文介绍了一种将现成的视觉语言模型(VLMs)作为强化学习奖励函数的框架,例如将多模态对齐CLIP模型的文本编码器和视觉编码器部署在强化学习模型中,而无需再特定领域的数据集上进行微调。通过对此类VLM在RL过程中的性能分析,作者发现,VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。这些结果表明,如果社区进一步发展出更大规模,更佳性能的视觉语言大模型,那我们训练更加通用的强化学习智能体的难度也会大大降低。

2024-02-07 16:12:21 1217

原创 大模型最新理论研究,根据模型输出反转LLM输入提示,让恶意攻击无处可藏

本文针对大型语言模型提出了一种全新的概念,即对LLM的输出进行提示反转(或者称为恢复提示),并从模型攻击和防御的角度分析和设计了一套专用的模型反转框架。作者首先对模型的输出分布进行分析,证明了LLM的当前输出logits中包含有大量的提示先验,随后设计了一种基于Transformer的Inversion Model。Inversion Model在大规模的指令数据集instructions-2M上进行了训练,可以在具有完整输出概率的情况下进行提示恢复。

2024-02-05 10:28:35 1311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除