
AIGC
文章平均质量分 92
知来者逆
点错技能树了
展开
-
利用稳定扩散模型和控制网架构调整生成物体背景
本文介绍了一种基于扩散模型的方法,用于在不改变对象边界的情况下生成背景。在设计和电子商务等应用中,保持对象特征至关重要。文章指出了对象扩展的问题,并提供了一种测量方法来捕捉这一问题。对不太突出的物体进行背景生成仍然是未来的挑战,这可能需要高质量的实例或全景分割掩码。此外,将调制 U-Net 编码器的 T2I 适配器作为 ControlNet 的替代品,与用于对象感知背景生成任务的新控制架构相结合,也能提高生成图像的整体精度和质量。原创 2025-03-13 09:00:00 · 980 阅读 · 0 评论 -
探索在生成扩散模型中基于RAG增强生成的实现与未来
这是一篇关于图像检索多模态生成系统的代表性而非穷尽性概述。一些此类系统仅使用检索来改善视觉理解或数据集策划,而不是寻求生成图像,例如。文献中还有许多其他基于 RAG 的项目尚未发布。只有发表研究论文的原型,例如Re-Imagen,尽管它来自谷歌,但只能访问本地自定义数据库中的图像。此外,2024 年 11 月,百度宣布了基于图像检索的增强生成(iRAG),这是一个使用“数据库”检索图像的新平台。尽管据报道 iRAG 可在 Ernie 平台上使用,但关于检索过程的细节似乎很少,它似乎依赖于一个本地数据库。原创 2025-03-10 22:12:21 · 762 阅读 · 0 评论 -
SGOOL——侧重于优化图像的最有可能引起人类注意的区域用于改善人工智能生成的图像
传统方法,优化整个图像而新方法利用显著性检测器来识别和优先处理更“重要”的区域,就像人类一样。在定量和定性测试中,研究人员的方法在图像质量和文本提示的保真度方面都能够胜过以前基于扩散的模型。原创 2024-12-30 20:18:46 · 873 阅读 · 0 评论 -
TKG-DM – 基于Latent Diffusion模型的“原生”色度提取生成具有透明通道的图像
这篇新论文最值得注意的一点可能是潜在扩散模型的纠缠程度,这与公众普遍认为的在生成新内容时可以毫不费力地分离图像和视频的各个方面形成了鲜明对比。该研究进一步强调了研究和爱好者社区在多大程度上将微调作为事后修复模型的缺点——解决方案始终针对特定类别和类型的对象。在这种情况下,经过微调的模型要么在有限数量的类别上工作得很好,要么在有限数量的类别上工作得很好可以忍受根据训练集中的大量数据,可以很好地处理更多可能的类别和对象。因此,看到至少有一个不依赖于这种费力且可能不诚实的解决方案是令人欣慰的。原创 2024-12-29 15:50:45 · 1004 阅读 · 0 评论 -
MicroDiffusion——采用新的掩码方法和改进的 Transformer 架构,实现了低预算的扩散模型
现代图像生成模型擅长创建自然、高质量的内容,每年生成的图像超过十亿幅。然而,从头开始训练这些模型极其昂贵和耗时。文本到图像(T2I)扩散模型降低了部分计算成本,但仍需要大量资源。目前最先进的技术需要大约 18 000 个 A100 GPU 小时,而使用 8 个 H100 GPU 进行训练则需要一个多月的时间。此外,该技术通常依赖于大型或专有数据集,因此难以普及。在这篇评论性论文中,我们开发了一种低成本、端到端文本到图像扩散建模管道,目的是在没有大型数据集的情况下显著降低成本。原创 2024-12-26 13:34:44 · 1324 阅读 · 0 评论 -
GenAI-Arena——基于用户偏好对生成模型进行排名的开放平台,通过用户投票对生成模型进行评分,支持图像生成、图像编辑和视频生成三项任务
图像生成和图像编辑技术发展迅速,被广泛应用于艺术品创作和医疗成像支持等多个领域。尽管如此,掌握模型并评估其性能仍然是一项具有挑战性的任务。传统的评估指标,如 PSNR、SSIM、LPIPS 和 FID 等,对于评估特定的视角非常有用,但对于综合评估却存在挑战。特别是在评估美学和用户满意度等主观方面存在挑战。为了应对这些挑战,本文提出了一个名为 GenAI-Arena 的新平台。GenAI-Arena 简化了比较不同模型的过程,并根据用户的偏好对它们进行排名,从而对模型的能力进行更全面的评估。原创 2024-12-20 21:11:08 · 1001 阅读 · 0 评论 -
Google Imagen 3 ——文本转图像模型的新基准
它为文本转图像模型所能实现的功能设定了新的基准,可根据简单的文本提示提供令人印象深刻的视觉效果。例如,当负责生成图像时,该模型不是简单地组合随机元素,而是将所有可能的细节整合成一个连贯且视觉上引人注目的图像,反映出对提示的高度理解。虽然 Google Imagen 3 在 AI 驱动的文本转图像方面表现出色,但它与其他强劲竞争对手如 OpenAI 的 DALL-E 3、MidJourney 和 Stable Diffusion XL 1.0 竞争,每个竞争对手都具有独特的优势。原创 2024-10-19 14:35:05 · 1087 阅读 · 0 评论 -
TryOnDiffusion——生成拟合图像的最强大模型
虚拟试穿是以人的图像和服装的图像为基础,目的是想象服装穿在人身上的效果。虚拟试穿可以改善网上购物体验,但大多数传统试穿方法只有在身体姿势和形状变化较小时才能奏效。主要的挑战在于如何根据目标体形对服装进行非刚性变形,同时不扭曲服装的图案或纹理。本文介绍了 TryOnDiffusion 方法,该方法可处理大型障碍物、姿势变化和体形变化,同时在 1024×1024 美元的分辨率下保留服装的细节。原创 2024-09-30 15:29:49 · 1082 阅读 · 0 评论 -
OmniGen——只需一个生成模型就能完成所有基于图像生成的任务
本文的结论表明,OmniGen 在各种图像生成任务中都表现出了卓越的性能,并可能大大超过现有扩散模型的极限。OmniGen 是第一个能够以统一的方式处理各种任务的模型,如从文本生成图像、图像编辑和视觉条件生成。OmniGen 是第一个可以统一处理各种任务的模型,如从文本生成图像、图像编辑和视觉条件生成。展望未来,OmniGen 的性能有望进一步提高,并可应用于新的任务。特别是,图像生成的统一方法可在未来为更广泛的人工智能应用做出贡献。研究团队的目标是通过开源进一步开发 OmniGen。原创 2024-09-29 22:16:15 · 1675 阅读 · 0 评论 -
Diffusion2GAN——将扩散模型的知识提炼为条件 GAN
在这项工作中,我们提出了一个新的框架 Diffusion2GAN,将预先训练好的多步扩散模型提炼成一个根据条件 GAN 和感知损失训练好的单步生成器。所提出的方法表明,将生成建模分成两项任务(识别对应关系和学习映射)可以提高使用不同生成模型的性能和计算效率。这种简单的方法不仅能改善交互式图像生成,还能提高视频和三维应用的效率。原创 2024-08-28 10:58:30 · 1515 阅读 · 0 评论 -
GenTron——用于生成图像和视频的Diffusion Transformers
本文介绍了基于变换器的图像和视频生成扩散模型 GenTron。通过研究文本编码器、如何将嵌入文本整合到扩散过程中,以及提出用于视频生成的 TempSelfAttn 和无运动引导,GenTron 在人类评估和一般评估指标上都优于扩散模型 SOTA。从这些结果来看,GenTron可望帮助缩小将转换器应用于扩散模型的差距,并促进其在不同领域的广泛应用。原创 2024-08-27 13:07:31 · 1153 阅读 · 0 评论 -
DisenDiff——从单张图像中提取多个概念的 T2I 模型
近年来,使用大型语料库的文本到图像(T2I)建模技术取得了巨大进步,大大提高了图像生成和合成的质量。现在,只需输入少量图像,就能轻松生成参考图像中不存在的新概念。但另一方面,当数据集为单一图像时,注意力图谱变得模糊不清,扩散模型难以学习和生成该图像特有的概念和外观,这仍然是一个挑战。因此,本文提出了一种注意力校准机制,以提高 T2I 模型的概念理解能力。该机制引入了与类相关联的可学习修饰符,从单幅图像中提取多个概念,这些概念之间互不干扰,抑制了不同概念之间的相互影响,增强了逐类理解能力。原创 2024-08-20 15:36:45 · 938 阅读 · 0 评论 -
Black Forest Labs 的 Flux——文本转图像模型的下一个飞跃,它比 Midjourney 更好吗?
Black Forest Labs 推出了 FLUX.1 文本转图像模型套件,旨在为图像细节、即时性、风格多样性和场景复杂性树立新的标杆。:旗舰型号,提供顶级的图像生成性能,具有卓越的快速跟踪、视觉质量、图像细节和输出多样性。它可通过 API 获得,定位为专业和企业用途的高级选项。:一种面向非商业应用的开放式指导提炼模型。其设计旨在实现与专业版类似的质量和及时遵守能力,同时效率更高。:套件中速度最快的模型,针对本地开发和个人使用进行了优化。原创 2024-08-13 21:37:36 · 2438 阅读 · 0 评论 -
FreqNet——通过频率感知进行深度伪造检测算法研究
作者提出的 FreqNet 是一种轻量级模型,用于通用检测由各种生成模型创建的虚假图像;FreqNet 的一个显著特点是将频率分析明确纳入网络框架。因此,与传统模型相比,FreqNet 用更少的参数就能达到最先进的水平。这支持了本研究中给出的策略的有效性。另一方面,作者主要关注的是由 GAN 生成的假图像,但 FreqNet 是否也适用于其他生成模型(如扩散模型)生成的图像仍有待商榷。未来,FreqNet 预计将用于由扩散模型和其他模型创建的图像,以获得进一步的多功能性。原创 2024-08-12 14:53:36 · 1193 阅读 · 0 评论 -
DIFFUSSM——无需注意力机制的扩散模型
本文介绍了与注意力无关的扩散模型 DIFFUSSM。这种方法可以处理长程隐藏状态,而无需压缩表示。因此,在 256x256 分辨率下,它能以更少的 Gflops 达到比 DiT 模型更好的性能,并且在更高分辨率下,只需更少的训练就能显示出具有竞争力的结果。然而,它仍然存在一些局限性。首先,它侧重于无条件图像生成,不支持全文到图像的方法。此外,掩码图像训练等最新方法也可以改进该模型。原创 2024-08-09 10:21:48 · 828 阅读 · 0 评论 -
文本到 3D AI 生成——Meta 3D Gen、OpenAI Shap-E工作原理与算法解析
根据文本提示生成 3D 数字资产的能力代表了人工智能和计算机图形学领域最近最令人兴奋的发展之一。随着 3D 数字资产市场规模预计将从,文本转 3D 人工智能模型将在游戏、电影、电子商务等行业的内容创作革命中发挥重要作用。但这些人工智能系统究竟是如何工作的呢?在本文中,我们将深入探讨文本转 3D 生成背后的技术细节。原创 2024-07-17 09:55:45 · 1817 阅读 · 0 评论 -
速度与质量的碰撞——对抗扩散蒸馏 (ADD) 如何彻底改变图像生成
ADD 代表了图像生成领域的重要一步,它将 GAN 的速度与扩散模型的质量融为一体。这种创新方法彻底改变了各个领域,从创意产业和医疗保健到科学研究和实时内容创作。ADD 通过显著减少迭代步骤实现了快速逼真的图像合成,使其非常高效且用途广泛。整合分数提炼和对抗性损失可确保高质量输出,这对于要求精确度和真实度的应用至关重要。总体而言,ADD 是 AI 驱动图像生成时代的一项变革性技术。原创 2024-07-16 15:06:49 · 1504 阅读 · 0 评论 -
Stable Diffusion——SDXL 1.0原理解析
SDXL 1.0是Stability AI推出的新基础模型,作为Stable Diffusion的大幅改进版本,它是一个用于文本到图像合成的潜在扩散模型(LDM)。作为Stable Diffusion的最新进化,它正在超越其前身,并与MidjourneySOTA图像生成器相媲美的图像。这些改进源于一系列有意识的设计选择,包括一个3倍大的UNet骨干网络,更强大的预训练文本编码器,以及引入了一个单独的基于扩散的精炼模型。精炼模型使用SDEdit首次提出的后处理图像到图像扩散技术,提高了样本的视觉保真度。原创 2024-06-25 15:41:22 · 1351 阅读 · 0 评论 -
ToonCrafter——自动生成动画中间帧与动画上色
ToonCrafter作为开源工具,其代码和模型权重的公开,迅速激发了社区的活力。不久之后,它便在Huggingface和Replicate上实现了线上部署,让任何人都能免费体验这款AI动画工具的神奇效果。在Huggingface平台上,ToonCrafter允许用户通过上传起始和结束帧来生成动画。用户可以上传自己的图像(建议使用横幅格式),并在提示框中详细描述所需的画面内容和动态效果,随后点击“生成”按钮即可启动动画制作流程。例如,通过使用"midjourney"功能,可以生成如小王子这样的卡通图像;原创 2024-06-06 21:08:24 · 1491 阅读 · 0 评论 -
Make-An-Audio——用于语音生成的提示增强扩散模型
本文介绍了用于文本到音频(Text-to-Audio)的提示增强扩散模型 Make-An-Audio;Make-An-Audio 可实现高精度的语音生成。毫无疑问,这项工作将为未来的语音合成研究奠定基础。此外,它还有助于减少制作短视频和数字艺术所需的工作量。作者还提到了这项研究面临的挑战,即 "潜在扩散模型通常需要更多的计算资源,并可能随着训练数据的减少而退化"。因此,未来的方向之一是 "开发轻量级的快速扩散模型",以加快数据生成速度。原创 2024-05-29 15:23:17 · 1241 阅读 · 0 评论 -
Stable Diffusion——U-ViT用于扩散建模的 ViT 主干网
U-ViT 将所有输入(时间、条件和噪声图像片段)视为标记,并在浅层和深层之间采用长跳转连接。U-ViT 已在无条件和有条件图像生成以及文本到图像生成等任务中进行了评估。U-ViT 的性能与类似规模的基于 CNN 的 U-Nets 不相上下,甚至更好。这些结果表明,长跳接对于基于扩散的图像建模非常重要,而基于 CNN 的 U-Nets 并不总是需要向下向上采样运算符。U-ViT 可以为未来的扩散建模骨干研究提供信息,并有利于在具有不同模式的大型数据集中进行生成建模。原创 2024-05-25 21:57:18 · 1503 阅读 · 0 评论 -
AIGC——ADD具有对抗学习和知识提炼功能的扩散模型
对抗性扩散蒸馏(ADD)是用于将预先训练好的扩散模型蒸馏为快速、低步骤的图像生成模型。所提出的方法结合了对抗性蒸馏和分数蒸馏损失,利用来自判别器的真实数据和来自扩散教师的结构理解,对稳定扩散和 SDXL 等训练有素的模型进行蒸馏。所提出的方法在进行一到两步的超快速采样时表现尤为出色,实验结果表明,它在很多情况下都优于之前的研究。另一方面,进一步增加步数会产生更好的结果,优于常用的多步扩散模型,如 SDXL、IF 和 OpenMUSE。不过,在图像质量和与 pronto 的一致性方面,单步采样生成模型仍有改进原创 2024-05-21 22:08:27 · 1640 阅读 · 0 评论 -
MagicDance——逼真的人类舞蹈视频生成
MagicDance 是一种新颖的方法,通过结合面部和动作表情传输来促进逼真的人类视频生成,并在野外动画生成中实现一致,而不需要任何进一步的微调,这表明比现有方法有显着的进步。此外,MagicDance框架在复杂的运动序列和不同的人类身份方面表现出卓越的泛化能力,使MagicDance框架成为人工智能辅助运动传输和视频生成领域的领先者。原创 2024-05-19 22:24:41 · 1660 阅读 · 0 评论 -
AIGC——BrushNet使用双分支扩散进行即插即用图像修复
在本文中,我们讨论了 BrushNet,这是一种新颖的即插即用双分支工程框架,它将像素级掩模图像特征嵌入到任何预先训练的扩散模型中,从而保证一致性并增强图像修复任务的结果。 BrushNet 框架引入了一种新颖的范例,在该范例下,该框架将图像特征和潜在噪声划分为单独的分支。图像特征和噪声潜伏的划分极大地减少了模型的学习负担,并有助于以分层方式细致地合并基本的屏蔽图像信息。除了 BrushNet 框架之外,我们还将讨论 BrushBench 和 BrushData,它们分别促进基于分割的性能评估和图像修复训练原创 2024-05-18 19:08:58 · 1381 阅读 · 0 评论 -
AIGC——Instant-Style文本到图像生成中的样式保留算法解析
在本文中,我们讨论了 Instant-Style,这是一个通用框架,它采用两种简单但有效的策略来实现内容和风格与参考图像的有效分离。InstantStyle 框架的设计目的是解决当前基于调整的扩散模型在图像生成和定制方面所面临的问题。Instant-Style 框架实现了两个重要策略:一种简单而有效的方法,用于将样式和内容与特征空间内的参考图像解耦,该方法是基于同一特征空间内的特征可以相互添加或减去的假设进行预测的。原创 2024-05-15 13:08:14 · 912 阅读 · 0 评论 -
Versatile Diffusion—— 融合文本和图像的扩散模型
Diffusion模型在各种生成任务中取得了显著的进展,成为了一个重要的里程碑。特别是像DALL·E 2、Imagen和Stable Diffusion(SD)这样的模型,不仅在学术界引起了广泛关注,也在工业界产生了深远影响。尽管这些模型在特定任务上表现出色,例如根据文本描述生成图像,但它们通常只能处理一类任务。对于不同类型的任务,我们往往需要独立训练或构建新的模型。原创 2024-05-07 10:29:57 · 1763 阅读 · 0 评论 -
Brain2Music——根据大脑信息自动生成音乐
这项研究由谷歌、大阪大学和其他机构合作进行,开发出了 “基于大脑活动生成音乐的模型”–Brain2Music。生成的音乐可在以下 GitHub 页面上聆听。具体来说,该技术利用 fMRI(功能磁共振成像)测量 “听音乐的受试者的大脑活动”,并利用大脑活动数据生成音乐。这项研究很可能成为未来开发可输出想象旋律的模型以及大脑如何解读音乐的垫脚石。fMRI 是一种通过检测大脑血流变化来无创观察大脑活动的技术。它使用一种取决于血液中氧含量的信号(BOLD 信号)来显示大脑活动的空间分布。原创 2024-05-05 21:41:48 · 1537 阅读 · 0 评论 -
UI-Diffuser——使用生成式扩散模型的UI原型设计算法解析
移动UI是影响参与度的一个重要因素,例如用户对应用的熟悉程度和使用的便利性。如果你有一个类似的应用程序,你可能会选择一个具有现代、好看的设计的应用程序,而不是一个旧的设计。然而,要从头开始研究什么样的UI最适合应用开发,需要花费大量的时间和精力。因此,为了支持UI设计,本文提出了UI-Diffuser,它应用了最近得到显著发展的生成性人工智能(稳定扩散),来自动生成UI原型。原创 2024-05-02 19:22:20 · 1588 阅读 · 1 评论 -
Enhancing Diffusion——利用三维透视几何约束增强扩散模型
透视在艺术中被广泛研究,但现代高质量图像生成方法却缺乏透视精度。新的生成模型引入了几何约束,通过训练过程提高透视精度。这样可以生成更逼真的图像,并提高相关深度估计模型的性能。最近的图像生成技术使研究人员能够创造性地进行文本到图像的合成。这些模型可以根据各种文字提示生成绘画和照片,但在满足物理限制方面能力有限。手绘艺术强调透视几何,最近的生成模型也通过考虑透视精度来改善逼真度。缺乏物理约束的潜在扩散模型引入了新的损失函数,从而提高了生成图像的物理精确度和逼真度。原创 2024-05-01 10:56:14 · 1115 阅读 · 0 评论 -
DiffusionGAN ——最快的小波扩散模型应用研究
本研究引入了一种名为小波扩散的新扩散模型,该模型在图像质量和采样率方面都表现出色。通过将小波变换纳入图像和特征空间,所提出的方法达到了扩散模型中最先进的执行速度,缩小了与 GAN 中 SOTA 的差距,并获得了与 StyleGAN2 和其他扩散模型几乎相当的图像生成质量。此外,与基线 DDGAN 相比,所提方法的收敛速度更快,从而证实了所提框架的高效性。原创 2024-04-29 22:58:08 · 2686 阅读 · 0 评论 -
DiffSeg——基于Stable Diffusion的无监督零样本图像分割
基于计算机视觉的模型的核心挑战之一是生成高质量的分割掩模。大规模监督训练的最新进展已经实现了跨各种图像风格的零样本分割。此外,无监督训练简化了分割,无需大量注释。尽管取得了这些进展,构建一个能够在没有注释的零样本设置中分割任何东西的计算机视觉框架仍然是一项复杂的任务。语义分割是计算机视觉模型中的一个基本概念,涉及将图像划分为具有统一语义的较小区域。该技术为许多下游任务奠定了基础,例如医学成像、图像编辑、自动驾驶等。为了推进计算机视觉模型的发展,图像分割不局限于类别有限的固定数据集,这一点至关重要。原创 2024-04-28 18:21:19 · 2890 阅读 · 1 评论 -
Stability AI 推出稳定音频 2.0:为创作者提供先进的 AI 生成音频
Stability AI 的发布再次突破了创新的界限。这一尖端模型以其前身的成功为基础,引入了一系列突破性的功能,有望彻底改变艺术家和音乐家创建和操作音频内容的方式。Stable Audio 2.0 代表了人工智能生成音频发展的一个重要里程碑,为质量、多功能性和创意潜力设定了新标准。该模型能够生成完整长度的曲目、使用自然语言提示转换音频样本以及产生各种音效,为各行业的内容创作者开辟了一个充满可能性的世界。原创 2024-04-27 22:54:52 · 1500 阅读 · 2 评论 -
Stable Diffusion——SDXL Turbo让 AI 出图速度提高10倍
这项工作介绍了对抗扩散蒸馏,这是一种将预训练的扩散模型蒸馏成快速,少步图像生成模型的通用方法。结合了对抗和分数蒸馏目标来提取公共的稳定扩散[54]和SDXL[50]模型,通过鉴别器利用真实数据,通过扩散教师利用结构理解。原创 2024-04-08 14:48:38 · 1843 阅读 · 0 评论 -
AIGC——ComfyUI SDXL多种风格预设提示词插件安装与使用
SDXL Prompt Styler可以预先给SDXL模型提供了各种预设风格的提示词插件,相当于预先设定好了多种不同风格的词语。使用这个插件,只需从中选取所需的风格,它会自动将选定的风格词汇添加到我们的提示中。原创 2024-03-23 23:39:39 · 5383 阅读 · 0 评论 -
AIGC——ComfyUI使用SDXL双模型的工作流(附件SDXL模型下载)
SDXL和之前的版本也是基于latent diffusion架构,对于latent diffusion,首先会采用一个autoencoder模型来图像压缩为latent,然后扩散模型用来生成latent,生成的latent可以通过autoencoder的decoder来重建出图像。SDXL的autoencoder依然采用KL-f8,但是并没有采用之前的autoencoder,而是基于同样的架构采用了更大的batch size(256 vs 9)重新训练,同时采用了EMA。重新训练的VAE模型(尽管和VAE有原创 2024-03-23 15:38:14 · 3393 阅读 · 0 评论 -
AIGC——ComfyUI工作流搭建、导入与常用工作流下载
ComfyUI工作流是一个基于图形节点编辑器的工作流程,通过拖拽各种节点到画布上,连接节点之间的关系,构建从加载模型到生成图像的流程。每个节点代表一个与Stable Diffusion相关的模型或功能,节点之间通过连线传递图片信息。原创 2024-03-20 21:04:19 · 13655 阅读 · 0 评论 -
OpenAI视频生成模型Sora背后的技术及其深远的影响
Sora 对语言有着深刻的理解,能够准确地解释 prompt 并生成吸引人的字符来表达充满活力的情感。同时,Sora 不仅能够了解用户在 prompt 中提出的要求,还能 get 到在物理世界中的存在方式。原创 2024-02-18 12:46:13 · 1873 阅读 · 0 评论 -
Stable Diffusio——采样方法使用与原理详解
采样器算法负责控制去噪的具体操作,而另一个名为“噪声调度器”(noise scheduler)的算法则负责调节去噪的程度,决定每一步去除多少噪声,以确保整个过程高效又精准。原创 2024-02-24 13:52:58 · 2945 阅读 · 0 评论 -
Stable Diffusion——使用TensorRT GPU加速提升Stable Diffusion出图速度
NVIDIA 已发布了 TensorRT 稳定扩散工作流的演示,为开发者提供了一个参考实例,说明如何准备扩散模型并使用 TensorRT 加速这些模型。如果您有兴趣增强扩散工作流并为您的应用带来快速推理,这将是您的起点。在此基础上,TensorRT 工作流应用于 Stable Diffusion 开发者常用的项目。在 Stable Diffusion Web UI 中实施 TensorRT 进一步普及了生成式 AI,并提供了广泛而轻松的访问。原创 2024-02-08 09:45:22 · 10398 阅读 · 3 评论 -
Stable Diffusion——常用插件安装与测试(一)
随着Stable Diffusion不断演进,越来越多的开发者开始涉足插件开发。尽管网络上存在大量教程,但它们通常零散分布,逐个学习和查找非常耗时,使人感觉每天都在劳累思考。这里总结了Stable Diffusion常用的插件安装与测试方法。原创 2024-02-17 09:30:00 · 2795 阅读 · 0 评论