AI_Papers周刊:第六期

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

2023.03.13—2023.03.19

文摘词云

Top Papers

Subjects: cs.CL  

1.UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation

标题:UPRISE:改进零样本评估的通用提示检索

作者:Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu

文章链接:https://arxiv.org/abs/2303.08518

        大型语言模型 (LLM) 因其令人印象深刻的能力而广受欢迎,但对特定于模型的微调或特定于任务的提示工程的需求可能会阻碍它们的泛化。我们提出了 UPRISE(用于改进零样本评估的通用提示检索),它调整了一个轻量级且多功能的检索器,该检索器可以自动检索给定零样本任务输入的提示。具体来说,我们展示了跨任务和跨模型场景中的普遍性:检索器针对不同的任务集进行了调整,但在未见过的任务类型上进行了测试;我们使用小型冻结 LLM GPT-Neo-2.7B 来调整检索器,但在规模大得多的不同 LLM 上测试检索器,例如 BLOOM-7.1B、OPT-66B 和 GPT3-175B。此外,我们表明 UPRISE 减轻了我们使用 ChatGPT 进行的实验中的幻觉问题,表明它有可能改善最强大的 LLM。

2.Efficiently Scaling Transformer Inference

标题:有效缩放 Transformer 推理

作者:Reiner Pope, Sholto Douglas, Aakanksha Chowdhery, Jacob Devlin, James Bradbury

文章链接:https://arxiv.org/abs/2211.05102

        我们研究了 Transformer 模型的高效生成推理问题,在其最具挑战性的设置之一:大型深度模型,具有严格的延迟目标和长序列长度。更好地理解基于 Transformer 的大型模型推理的工程权衡非常重要,因为这些模型的用例在整个应用领域都在迅速增长。我们开发了一个简单的推理效率分析模型,以根据应用要求选择针对 TPU v4 切片优化的最佳多维分区技术。我们将这些与一套低级优化相结合,以在超过 FasterTransformer 基准测试套件的 500B+ 参数模型上实现延迟和模型 FLOPS 利用率 (MFU) 权衡的新帕累托边界。我们进一步表明,通过适当的分区,多查询注意的较低内存需求(即多个查询头共享单个键/值头)可以将上下文长度扩展到 32 倍。最后,我们在生成期间实现了每个令牌 29 毫秒的低批量延迟(使用 int8 权重量化),在输入令牌的大批量处理期间实现了 76% 的 MFU,同时支持长 2048 令牌上下文长度PaLM 540B参数型号。

3.Steering Prototype with Prompt-tuning for Rehearsal-free Continual Learning

标题:具有快速调整功能的转向原型,可实现免排练的持续学习

作者:Zhuowei Li, Long Zhao, Zizhao Zhang, Han Zhang, Di Liu, Ting Liu, Dimitris N. Metaxas

文章链接:https://palm-e.github.io/assets/palm-e.pdf

        原型作为类嵌入的表示,已被探索用于减少内存占用或减轻持续学习场景的遗忘。然而,基于原型的方法仍然会因语义漂移和原型干扰而导致性能突然下降。在这项研究中,我们提出了对比原型提示 (CPP),并表明特定于任务的提示调整在针对对比学习目标进行优化时,可以有效地解决这两个障碍并显着提高原型的效力。我们的实验表明,CPP 在四个具有挑战性的类增量学习基准测试中表现出色,与最先进的方法相比,绝对改进了 4% 到 6%。此外,CPP 不需要排练缓冲区,它在很大程度上弥合了持续学习和离线联合学习之间的性能差距,展示了在 Transformer 架构下持续学习系统的有前途的设计方案。

Subjects: cs.CV

1.Erasing Concepts from Diffusion Models

标题:从扩散模型中删除概念

作者:Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau

文章链接:https://arxiv.org/abs/2303.07345

项目代码:https://erasing.baulab.info/

        受文本到图像扩散的最新进展的推动,我们研究了模型权重中特定概念的擦除。尽管 Stable Diffusion 在制作明确或逼真的艺术作品方面显示出希望,但它引起了人们对其滥用可能性的担忧。我们提出了一种微调方法,可以从预训练的扩散模型中删除视觉概念,只给出风格的名称并使用负指导作为老师。我们将我们的方法与以前的方法进行了基准测试,这些方法删除了露骨的色情内容并证明了其有效性,其性能与安全潜在扩散和审查培训相当。为了评估艺术风格的移除,我们进行了从网络中删除五位现代艺术家的实验,并进行了一项用户研究以评估人类对删除风格的感知。与以前的方法不同,我们的方法可以从扩散模型中永久删除概念,而不是在推理时修改输出,因此即使用户可以访问模型权重也无法规避

2.ViperGPT: Visual Inference via Python Execution for Reasoning

标题:ViperGPT:通过 Python 执行进行推理的视觉推理

作者:Dídac Surís, Sachit Menon, Carl Vondrick

文章链接:https://arxiv.org/abs/2303.08128

项目代码:https://github.com/cvlab-columbia/viper

        回答视觉查询是一项复杂的任务,需要视觉处理和推理。端到端模型是这项任务的主要方法,没有明确区分这两者,限制了可解释性和泛化性。学习模块化程序是一种很有前途的选择,但由于难以同时学习程序和模块,因此已被证明具有挑战性。我们介绍了 ViperGPT,这是一个利用代码生成模型将视觉和语言模型组合成子例程以生成任何查询结果的框架。ViperGPT 利用提供的 API 访问可用模块,并通过生成稍后执行的 Python 代码来组合它们。这种简单的方法不需要进一步的培训,并在各种复杂的视觉任务中取得了最先进的结果。

3.FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization(CVPR 2023)

标题:FreeNeRF:使用自由频率正则化改进小样本神经渲染

作者:Jiawei Yang, Marco Pavone, Yue Wang

文章链接:https://arxiv.org/abs/2303.07418

项目代码:https://github.com/Jiawei-Yang/FreeNeRF

        具有稀疏输入的新型视图合成是神经辐射场 (NeRF) 的一个具有挑战性的问题。最近的努力通过引入外部监督(例如预训练模型和额外深度信号)以及基于非平凡补丁的渲染来缓解这一挑战。在本文中,我们介绍了频率正则化 NeRF (FreeNeRF),这是一个非常简单的基线,它优于以前的方法,对普通 NeRF 的修改最少。我们分析了少样本神经渲染中的关键挑战,发现频率在 NeRF 的训练中起着重要作用。基于分析,我们提出了两个正则化项。一种是规范 NeRF 输入的频率范围,另一种是惩罚近相机密度场。这两种技术都是“免费午餐”,无需额外的计算成本。我们证明即使更改一行代码,原始 NeRF 也可以在少样本设置中实现与其他复杂方法相似的性能。FreeNeRF 在包括 Blender、DTU 和 LLFF 在内的各种数据集上实现了最先进的性能。我们希望这个简单的基线能够激发人们重新思考频率在低数据制度及以后的 NeRF 训练中的基本作用。

4.LERF: Language Embedded Radiance Fields

标题:LERF:语言嵌入辐射场

作者:Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik

文章链接:https://arxiv.org/abs/2303.09553

项目代码:https://www.lerf.io/

      人类使用自然语言来描述物理世界,以指代基于大量属性的特定 3D 位置:视觉外观、语义、抽象关联或可操作的可供性。在这项工作中,我们提出了语言嵌入辐射场 (LERF),这是一种将语言嵌入从现成模型(如 CLIP)嵌入到 NeRF 中的方法,它可以在 3D 中实现这些类型的开放式语言查询。LERF 通过沿训练射线的体积渲染 CLIP 嵌入来学习 NeRF 内部的密集、多尺度语言场,跨训练视图监督这些嵌入以提供多视图一致性并平滑底层语言场。优化后,LERF 可以实时交互地为广泛的语言提示提取 3D 相关图,这在机器人技术、理解视觉语言模型以及与 3D 场景交互方面具有潜在的用例。LERF 在不依赖区域提议或掩码的情况下,支持对提取的 3D CLIP 嵌入进行像素对齐、零样本查询,支持跨卷分层的长尾开放词汇查询。

5.Unified Visual Relationship Detection with Vision and Language Models

标题:视觉和语言模型的统一视觉关系检测

作者:Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu

文章链接:https://arxiv.org/abs/2303.08998

        这项工作的重点是训练一个单一的视觉关系检测器来预测来自多个数据集的标签空间的联合。由于分类不一致,合并跨越不同数据集的标签可能具有挑战性。当在对象对之间引入二阶视觉语义时,视觉关系检测中的问题会加剧。为了应对这一挑战,我们提出了 UniVRD,这是一种利用视觉和语言模型 (VLM) 进行统一视觉关系检测的新型自下而上方法。VLM 提供对齐良好的图像和文本嵌入,其中相似的关系被优化为彼此接近以实现语义统一。我们自下而上的设计使模型能够享受到对象检测和视觉关系数据集训练的好处。人机交互检测和场景图生成的实证结果证明了我们模型的竞争性能。UniVRD 在 HICO-DET 上实现了 38.07 mAP,比目前最好的自底向上 HOI 检测器相对高出 60%。更重要的是,我们展示了我们的统一检测器在 mAP 中的性能与特定于数据集的模型一样好,并且在我们扩展模型时实现了进一步的改进。

6.FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

标题:FateZero:融合注意力以进行基于文本的零镜头视频编辑

作者:Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei

文章链接:https://arxiv.org/abs/2303.08998

项目代码:https://github.com/chenyangqiqi/fatezero

        基于扩散的生成模型在基于文本的图像生成中取得了显着的成功。然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑仍然具有挑战性,尤其是在视频中。在本文中,我们提出了 FateZero,这是一种针对真实世界视频的基于文本的零镜头编辑方法,无需按提示训练或使用特定掩码。为了一致地编辑视频,我们提出了几种基于预训练模型的技术。首先,与直接的 DDIM 反演技术相比,我们的方法在反演期间捕获中间注意力图,从而有效地保留结构和运动信息。这些地图在编辑过程中直接融合,而不是在去噪过程中生成。为了进一步减少源视频的语义泄漏,我们随后将自注意力与通过源提示中的交叉注意力特征获得的混合掩码融合在一起。此外,我们通过引入时空注意力来确保帧的一致性,从而对 UNet 降噪中的自注意力机制进行了改革。简而言之,我们的方法是第一个展示零镜头文本驱动视频风格和来自训练有素的文本到图像模型的局部属性编辑能力的方法。我们还有更好的基于文本到视频模型的零样本形状感知编辑能力。广泛的实验证明了我们比以前的作品更优越的时间一致性和编辑能力。

Notable Papers

1.Unifined Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generatio

标题:用于联合主题和文本条件图像生成的统一多模态潜在扩散

文章链接:https://arxiv.org/abs/2303.09319

摘要:

        如今,通过使用扩散模型,语言引导的图像生成取得了巨大的成功。然而,文本可能不够详细以描述高度具体的主题,例如特定的狗或特定的汽车,这使得纯文本到图像的生成不够准确,无法满足用户需求。在这项工作中,我们提出了一种新颖的统一多模态潜在扩散(UMM-Diffusion),它将包含指定主题的联合文本和图像作为输入序列,并生成带有主题的自定义图像。更具体地说,输入文本和图像都被编码到一个统一的多模态潜在空间中,其中输入图像被学习投影到伪词嵌入,并可以进一步与文本结合以指导图像生成。此外,为了消除输入图像的不相关部分,如背景或光照,我们提出了一种新的图像生成器使用的扩散模型采样技术,该技术融合了多模态输入和纯文本输入引导的结果。通过利用大规模预训练的文本到图像生成器和设计的图像编码器,我们的方法能够从输入文本和图像的两个方面生成具有复杂语义的高质量图像。

2.MeshDiffusion: Score-based Generative 3D Mesh Modeling(ICLR 2023)

标题:MeshDiffusion:基于分数的生成 3D 网格建模

文章链接:https://arxiv.org/abs/2303.08133

摘要:

        我们考虑生成逼真的 3D 形状的任务,这对于自动场景生成和物理模拟等各种应用非常有用。与体素和点云等其他 3D 表示相比,网格在实践中更受欢迎,因为 (1) 它们可以轻松随意地操纵形状以进行重新照明和模拟,以及 (2) 它们可以充分利用现代图形管道的强大功能主要针对网格进行了优化。以前用于生成网格的可扩展方法通常依赖于次优的后处理,并且它们往往会产生过于光滑或嘈杂的表面,而没有细粒度的几何细节。为了克服这些缺点,我们利用网格的图形结构,使用一种简单但非常有效的生成建模方法来生成 3D 网格。具体来说,我们用可变形四面体网格表示网格,然后在这种直接参数化上训练扩散模型。我们展示了我们的模型在多个生成任务上的有效性。3.Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos

标题:Mesh Strikes Back:从 RGB 视频快速高效地重建人体

文章链接:https://arxiv.org/abs/2303.0880

摘要:

        由于服装、遮挡、纹理不连续性和锐度以及特定于帧的姿势变化,单眼 RGB 视频的人体重建和合成是一个具有挑战性的问题。许多方法采用延迟渲染、NeRF 和隐式方法来表示穿着衣服的人,前提是基于网格的表示不能单独从 RGB、轮廓和关键点捕获复杂的衣服和纹理。我们通过优化 SMPL+D 网格和仅使用 RGB 图像、二进制轮廓和稀疏 2D 关键点的高效多分辨率纹理表示,为这一基本前提提供了一个反观点。实验结果表明,与视觉船体、基于网格的方法相比,我们的方法更能够捕获几何细节。与基于 NeRF 的方法相比,我们展示了具有竞争力的新视图合成和新姿势合成的改进,后者引入了明显的、不需要的伪影。通过将解决方案空间限制为结合可微分渲染的 SMPL+D 模型,我们在计算、训练时间(高达 24 倍)和推理时间(高达 192 倍)方面获得了显着的加速。因此,我们的方法可以按原样使用,也可以作为对基于 NeRF 的方法的快速初始化。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/1449.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java面向对象:接口的学习

本文介绍了Java中接口的基本语法, 什么是接口, java中的接口 语法规则, 接口的使用,接口的特性,如何实现多个接口,接口间的继承,以及抽象类和接口的区别 Java接口的学习一.接口的概念二.Java中的接口1.接口语法规则2.接口的使用3.接口的特性4.实现多个接口5.接口间的继承三.抽象…

Vue学习 -- 如何用Axios发送请求(get post)Promise对象 跨域请求问题

什么是Axios Vue本身是不支持发送axios请求,需要使用第三方插件,这里推荐使用Axios,Axios是基于promise的HTTP库;它会从浏览器中创建XMLHttpRequset对象。 安装Axios npm install axios -S下载后把axios.js文件复制进项目目录 …

QT串口助手开发3串口开发

系列文章目录 QT串口助手开发3串口开发 QT串口助手开发3系列文章目录一、UI界面程序的编写二、发送框程序编写一、UI界面程序的编写 根据上文的未解决问题:我们打开串口按钮打开后只能选择关闭串口,所以这个是循环的过程 上文链接 所以按钮对应的槽函数…

VR全景城市,用720全景树立城市形象,打造3D可视化智慧城市

随着城市化进程的加速,城市之间的竞争也日益激烈。城市管理者们需要寻求新的方式来提升城市的品牌形象和吸引力。在这个过程中,VR全景营销为城市提供了一种全新的营销手段,可以帮助提升城市的价值和吸引力。一、城市宣传新方式VR全景营销是一…

《Linux的权限》

本文主要对linux的一些基本权限进行讲解 文章目录前言Linux权限(1)权限的概念(2)linux下用户分类(root,普通)(3)linux的文件属性文件属性的分类文件权限修改文件权限1、chmod2、chown和chgrp3、fiile权限的三个重要的问题第一个问…

考研408每周一题(2019 41)

2019年(单链表) 41.(13分)设线性表L(a1,a2,a3,...,a(n-2),a(n-1),an)采用带头结点的单链表保存,链表中的结点定义如下: typedef struct node {int data;struct node *next; } NODE; 请设计一个空间复杂度为O(1)且时间上尽可能高效的算法&…

嵌入式学习笔记——STM32的时钟树

时钟树前言时钟树时钟分类时钟树框图LSI与LSEHSI、HSE与PLL系统时钟的产生举例AHB、APBx的时钟配置时钟树相关寄存器介绍1.时钟控制寄存器(RCC_CR)2.RCC PLL 配置寄存器 (RCC_PLLCFGR)3.RCC 时钟配置寄存器 (RCC_CFGR)4.RCC 时钟中断寄存器 (RCC_CIR)修改…

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

摘要:本文整理自京东零售-技术研发与数据中心张颖&闫莉刚在 ApacheCon Asia 2022 的分享。内容主要包括五个方面: 京东零售实时计算的现状实时计算框架场景优化:TopN场景优化:动线分析场景优化:FLINK 一站式机器学…

软件测试面试找工作你必须知道的面试技巧(帮助超过100人成功通过面试)

目录 问题一:“请你自我介绍一下” 问题二:“谈谈你的家庭情况” 问题三:“你有什么业余爱好?” 问题四:“你最崇拜谁?” 问题五:“你的座右铭是什么?” 问题六:“谈谈你的缺点” 问题七&#xff…

【React】React入门--生命周期

🎀个人主页:努力学习前端知识的小羊 感谢你们的支持:收藏🎄 点赞🍬 加关注🪐 文章目录React生命周期初始化阶段运行中阶段销毁阶段老生命周期的问题新生命周期代替性能优化的方案重要的勾子即将废弃的勾子R…

Qt之QPainter绘制多个矩形/圆形(含源码+注释)

一、绘制示例图 下图绘制的是矩形对象,但是将绘制矩形函数(drawRect)更改为绘制圆形(drawEllipse)即可绘制圆形。 二、思路解释 绘制矩形需要自然要获取矩形数据,因此通过鼠标事件获取每个矩形的rect数…

“国产版ChatGPT”文心一言发布会现场Demo硬核复现

文章目录前言实验结果一、文学创作问题1 :《三体》的作者是哪里人?问题2:可以总结下三体的核心内容吗?如果要续写的话,可以从哪些角度出发?问题3:如何从哲学角度来进行续写?问题4:电…

学习28个案例总结

学习前 对于之前遇到的问题没有及时总结,导致做什么事情都是新的一样。没有把之前学习到接触到的内容应用上。通过这次对28个案例的学习。把之前遇到的问题总结成自己的经验,在以后的开发过程中避免踩重复性的坑。多看帮助少走弯路。 学习中 对28个案例…

2022-2023年度广东省职业院校学生专业技能大赛 中职组网络安全赛项竞赛规程

2022-2023年度广东省职业院校学生专业技能大赛 中职组网络安全赛项竞赛规程 一、赛项名称 赛项编号:Z27 赛项名称:网络安全赛项组别:中职 赛项归属:信息技术类 二、竞赛目的 为检验中职学校网络信息安全人才培养成效,促…

用chatgpt写insar地质灾害的论文,重复率只有1.8%,chatgpt4.0写论文不是梦

突发奇想,想用chatgpt写一篇论文,并看看查重率,结果很惊艳,说明是确实可行的,请看下图。 下面是完整的文字内容。 InSAR (Interferometric Synthetic Aperture Radar) 地质灾害监测技术是一种基于合成孔径雷达…

从零开始学Python第02课:第一个Python程序

在上一课中,我们对 Python 语言的过去现在有了一些了解,我们准备好了运行 Python 程序所需要的解释器环境。相信大家已经迫不及待的想开始自己的 Python 编程之旅了,但是新问题来了,我们应该在什么地方书写 Python 程序&#xff0…

攻防世界reverse-box

题目下载:下载 这道题有两种方法,一个是写c来解,另一个是用gdb脚本。 经查wp知道,这道题攻防世界中少给了条件: 挑战描述 $ ./reverse_box ${FLAG} 95eeaf95ef94234999582f722f492f72b19a7aaf72e6e776b57aee722fe77a…

「业务架构」TOGAF建模之业务架构:组织分解图(组织映射)

组织分解图描述了组织树中参与者、角色和位置之间的链接。组织图应该提供组织中所有者和决策者的指挥链。虽然组织分解图的目的不是将目标与组织联系起来,但是应该可以从组织分解图直观地将目标与涉众联系起来。这个图表还可以描述参与者的定义和他们的职责。组织是…

C#中的DataGridView中添加按钮并操作数据

背景:最近在项目中有需求需要在DataGridView中添加“删除”、“修改”按钮,用来对数据的操作以及显示。 在DataGridView中显示需要的按钮 首先在DataGridView中添加需要的列,此列是用来存放按钮的。 然后在代码中“画”按钮。 if (e.Column…

Three.js——learn02

Three.js——learn02Three.js——learn02通过轨道控制器查看物体OrbitControls核心代码index2.htmlindex.cssindex2.jsresult添加辅助器1.坐标轴辅助器AxesHelper核心代码完整代码2.箭头辅助器ArrowHelper核心代码完整代码3.相机视锥体辅助器CameraHelper核心代码完整代码Three…
最新文章