
ai合成
文章平均质量分 67
昨日之日2006
人工智能影像爱好者!
展开
-
FitDiT - 腾讯联合复旦开源的轻量版高保真虚拟试衣模型 4G显存可使用 本地一键整合包下载
FiTDiT 是腾讯和复旦大学联合推出的一种利用 DiT 的新型服装感知增强技术,旨在实现高保真虚拟试衣。与传统的基于 U-Net 的 LDM 相比,FiTDiT 能够将更多参数和注意力分配给高分辨率特征,从而更好地保留服装纹理,并达到尺寸感知的试衣效果。且FiTDiT对硬件资源占用做了优化,不同算法的性能对比,分辨率为768x1024,20步去噪。上传一张模特图片,一张衣服图片(支持上半身、下半身、连衣裙),设置相关参数,生成即可。建议N卡,显存4G起(4G显卡生成速度略慢,效果略差,建议8G起最佳)原创 2025-01-11 21:19:58 · 403 阅读 · 0 评论 -
Memo - 音频驱动图像生成说话数字人视频 一张图生成说话视频 本地一键整合包下载
Memo 是由南洋理工大学和新加坡国立大学主导开发的一种最先进的开放式模型,用于音频驱动的通话视频生成。这是一种端到端的音频驱动肖像动画方法,旨在生成具有身份一致性和富有表现力的口型动画视频。Memo 在各类图像和音频类型上生成更为逼真的口型动画视频,并在总体质量、音频-口型同步、身份一致性和表情-情感对齐方面优于现有的最先进方法。Memo 可以用肖像、雕塑、数字艺术和动画等图像生成会说话的视频;Memo 可以生成有声音的视频,音频类型包括演讲、唱歌、说唱;Memo 可以生成具有各种头部姿势的谈话视频;原创 2024-12-18 17:39:03 · 297 阅读 · 1 评论 -
NVComposer - 一张或多张图片生成可控的多方位角度视频 本地一键整合包下载
NVComposer 是腾讯ARC实验室联系香港中文大学以及北京大学共同发布的生成式新颖视图合成模型,你只需要提供一张或几张参考图片,并设置相机模式和角度,就可以自动生成你设置的角度的多方位视角视频,甚至可以用来生成3D/4D场景视频。NVComposer 有点类似扩图功能,也有点类似之前发布的 DimensionX ,可以以一张或多张参考图为中心点,设置不同的相机移动方式,以及移动方向来生成连贯视频。原创 2024-12-17 10:22:43 · 250 阅读 · 0 评论 -
GOT-OCR-2-GUI - 一个强大的AI文本识别模型 OCR文字识别 图片文字识别 本地一键整合包下载
GOT-OCR-2.0 是一个基于通用 OCR 理论(General OCR Theory)的统一端到端模型,专注于提升光学字符识别(OCR)的准确性与效率。GOT-OCR 2.0 不仅支持场景文本识别,还能处理多页文档,为 OCR 领域带来更多灵活性。有了这个软件,大家不用再去苦苦寻找免费的ORC识别软件了,很多软件接口不稳定,随时可能失效。有了这个软件,本地一键运行,无需联网,永久免费。今天分享的就是GOT-OCR的GUI版本,支持的场景比如文本、文档、乐谱、图表、数学公式等内容识别。原创 2024-10-18 12:27:18 · 1022 阅读 · 0 评论 -
PMRF - 高质量人像超清修复、人脸逼真高清修复 一键整合包下载
处理复杂的图像退化问题:PMRF能够应对各种复杂的图像退化情况,包括噪声、模糊、分辨率降低、颜色丢失等问题,生成视觉质量高且符合真实图像分布的恢复图像。不论图片内容有多复杂,比如细节丰富的面部图像,还是受到多重损坏的图片,PMRF都能很好地处理,并提供优质的修复结果。降低图像失真(MSE):PMRF通过后验均值预测实现图像恢复,最小化图像的均方误差(MSE),确保生成的图像与真实图像在数值上尽可能接近,失真尽可能小。图像恢复:处理去噪、超分辨率、盲图像恢复和图像修复等任务,生成自然逼真的图像。原创 2024-10-15 15:36:21 · 636 阅读 · 1 评论 -
Pyramid Flow - 快手联合北大、北邮开发的文生视频AI模型 最高 10 秒 768P@24fps 本地一键整合包下载
10月12日上午,快手和北京大学及北京邮电大学的研究团队共同开源了Pyramid-Flow的超高清视频生成模型。目前支持两种分辨率模型生成,一种640x384,另一种1280x768。我们建议在文本到视频生成期间对 768p 模型使用 [7, 9] ,对 384p模型使用 7 中。相比之前的 CogVideoX ,Pyramid Flow的生成速度更快,资源占用更低。对于 10 秒视频生成,我们建议使用引导系数 7 和 视频引导系数 5。(测试了CPU卸载,速度太慢了,所以低于12G显存的卡就别尝试了)原创 2024-10-15 08:30:35 · 333 阅读 · 0 评论 -
HivisionIDPhoto V3 - AI一键智能制作生成高清证件照 新增分享模版照、美颜等功能 本地一键整合包下载
HivisionIDPhoto V3 - AI一键智能制作生成高清证件照 新增分享模版照、美颜等功能 本地一键整合包下载原创 2024-09-24 09:57:55 · 626 阅读 · 0 评论 -
EDTalk - 支持自定义情感的AI数字人、对口型、唇形同步项目 本地一键整合包下载
只需一个简单的输入,即可让静态的人像“开口说话”,且每一个细微的表情变化都贴合语境情绪,为虚拟人物赋予生动的灵魂。EDTalk 的应用潜力无限广阔,从个人数字助理的个性化定制,到影视后期制作中的角色对话合成,乃至教育软件的互动教学助手开发,都能见到它的身影。该项目的核心在于其高效的解耦训练机制,这使得EDTalk能在保持高精度的同时,快速地将面部特征(如口型、头部姿势和表情)从复杂的视频数据中分离出来,并整合新的情感信号。和以往类似项目不同的是,EDTalk还支持自定义情感,比如高兴、愤怒、悲伤等。原创 2024-09-12 14:08:28 · 647 阅读 · 0 评论 -
CatVTON - AI一键换装、虚拟试衣、一键虚拟换装工具 本地整合包下载
CatVTON是一个小型的AI虚拟换衣模型,由是由美图、中山大学、鹏城实验室共同开发,适合每一个时尚爱好者使用。CatVTON 的特点是拥有轻量级网络,总共有899.06M 的参数,训练时只需要49.57M 的可训练参数。而且在进行推理时,使用的显存少于8G,支持1024x768的高分辨率,非常适合个人电脑进行操作。原创 2024-09-10 15:20:35 · 707 阅读 · 0 评论 -
HivisionIDPhoto V2 - AI一键智能制作生成证件照 新增抠图模型,优化抠图效果 本地一键整合包下载
HivisionIDPhoto是一种实用的证件照智能制作算法。它利用一套完善的模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。原创 2024-09-07 10:12:08 · 578 阅读 · 0 评论 -
Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载
Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。原创 2024-09-05 09:13:55 · 565 阅读 · 0 评论 -
LivePortrait V4版:新增图片驱动图片,一张照片生成生动视频、表情包,精准操控五官,本地一键整合包下载
今天的V4版一键包在官方8月19日发布的最新版做了更新,在原有图片驱动视频、视频驱动视频的基础上,新增了图片驱动图片。这样就可以实现表情神同步了,表情包制作功能更丰富了。原创 2024-08-27 14:38:15 · 557 阅读 · 0 评论 -
LivePortrait V3版:新增精确的肖像编辑,精准操控五官比如眉毛鼻子摇头眨眼撇嘴等,本地一键整合包下载
今天的V3版一键包在官方8月9日发布的最新版做了更新,新增精确的肖像编辑,人像重定向功能在原有的抬头低头等编辑的基础上,新增了X/Y/Z轴运动原创 2024-08-16 10:46:04 · 1117 阅读 · 0 评论 -
LivePortrait V2版:新增动物模式,支持动物表情迁移。一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载
今天的一键包在官方8月2日发布的最新版做了更新,新版主要新增了动物模式,可以驱动动物做任何表情同步操作了。而且新增了更多实用的图片和视频生成功能。因为更新的地方较多,所以这次没法做升级包,只提供完整的一键包。原创 2024-08-05 16:41:09 · 1033 阅读 · 0 评论 -
EasyAnimate - 阿里开源视频生成项目,国产版Sora,高质量长视频生成 本地一键整合包下载
EasyAnimate是阿里云人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等原创 2024-07-28 15:31:54 · 970 阅读 · 0 评论 -
FoleyCrafter - AI视频自动配音黑科技,让无声视频瞬间拥有逼真配音 本地一键整合包下载
FoleyCrafter 是一个开源基于文本的视频到音频生成框架,可以自动为无声视频生成清晰、逼真的声音效果,而且声音与视频内容完全匹配。它能够理解视频的语义内容,自动匹配适合的声音,比如视频里有狗,FoleyCrafter就会生成狗叫声,而且确保声音和视频是同步的。FoleyCrafter确保声音与视频的同步性门被关上的瞬间,那“砰”的一声也在同一时刻响起。这种精确的同步,让视听体验更加沉浸和真实。原创 2024-07-23 14:47:29 · 851 阅读 · 0 评论 -
MimicMotion - 一张图片实现视频跳舞,腾讯开源照片跳舞模型 本地一键整合包下载
近期,腾讯联合上海交通大学开源了一个可控视频生成框架:MimicMotion,类似阿里的全民舞王,只需要上传一张照片,然后再上传一段人物的舞蹈或者动作视频,就可以生成以照片中人物为原型的动作或者舞蹈视频了。原创 2024-07-16 14:55:00 · 3563 阅读 · 0 评论 -
DDColor - 黑白老照片一键AI上色工具,找回“失色“的记忆,老照片一键“回春” 本地一键整合包下载
DDColor 是一个由阿里达摩院研究的基于深度学习技术的图像上色模型,主要用于黑白照片的修复和上色。它能够自动将黑白或灰度图像着色,使图像更加生动逼真。原创 2024-07-15 09:03:33 · 760 阅读 · 0 评论 -
EchoMimic - 一张照片生成说话视频,可用于AI数字人生成,阿里最新开源 本地一键整合包下载
EchoMimic是阿里巴巴达摩院推出的一个AI驱动的口型同步技术项目。这项技术能够通过给定的音频和一张或多张人物的面部照片,生成一个看起来像是在说话的视频,其中的人物口型动作与音频中的语音完美匹配。这种技术在娱乐、教育、虚拟现实、在线会议等领域有广泛的应用前景,可以用于创建更加真实和互动的视频内容。原创 2024-07-12 14:18:37 · 4441 阅读 · 2 评论 -
LivePortrait:一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载
LivePortrait,这个名字听起来就像是魔法,但它其实是现实世界中的黑科技。想象一下,你那尘封已久的相册里,那些定格在时间里的笑脸,突然间动了起来,眨眼、微笑、甚至说话,这不再是电影里的场景,LivePortrait让它变成了现实。原创 2024-07-06 07:36:41 · 1014 阅读 · 0 评论 -
ProPainter – AI视频去水印工具,可以去除视频中的静态水印、动态物体/人物等 本地一键整合包下载
ProPainter是一个基于E2FGVI实现的AI视频编辑工具,它可以一键移除视频内的移动物体和水印。这个开源项目提供了一个简单而强大的解决方案,帮助用户轻松编辑和改善视频内容。原创 2024-06-29 15:17:22 · 1996 阅读 · 0 评论 -
DCT-Net - 一键图片、视频转卡通动漫风格工具,本地一键整合包下载
只需要输入一张人物图像或者一段视频,就可以实现端到端全图卡、视频通化转换,生成二次元虚拟形象,返回卡通化后的结果图像或视频。原创 2024-06-25 16:33:48 · 433 阅读 · 0 评论 -
Arc2Face - 一张图生成逼真的多风格人脸,本地一键整合包下载
Arc2Face是用于人脸的基础模型训练,可批量生成超高质量主题的AI人脸艺术风格照,完美复制人脸。只需一张照片,几秒钟,即可批量生成超高质量主题的AI人脸艺术风格照,完美复制人脸。原创 2024-06-24 17:44:09 · 588 阅读 · 0 评论 -
AudioSep:从音频中分离出特定声音(人声、笑声、噪音、乐器等)本地一键整合包下载
AudioSep是一种 AI 模型,可以使用自然语言查询进行声音分离。这一创新性的模型由Audio-AGI开发,使用户能够通过简单的语言描述来分离各种声音源。原创 2024-06-22 16:38:15 · 2330 阅读 · 0 评论 -
阿里AI图片编辑新项目,人人都可做设计师。MimicBrush本地一键整合包下载
最近阿里巴巴联合香港大学开源了一个创新图像编辑工具:MimicBrush,这个工具相当于是一个局部重绘工具。它通过先进的AI技术,能够将一张图片的某一部分融合到另一张图片上。原创 2024-06-21 11:09:29 · 672 阅读 · 0 评论 -
ToonCrafter - AI 生成动画越来越简单了,两张照片生成动画视频 本地一键整合包
ToonCrafter 是一款开源的动画插帧工具, 它通过预训练的图像到视频扩散模型,来实现两个卡通图像之间的平滑过渡,也就是说我们只需提供起始和结束的卡通画面,ToonCrafter 就能自动生成中间一系列流畅的动画帧。原创 2024-06-09 22:56:03 · 2587 阅读 · 0 评论 -
Omost - 一句话即可AI绘画,自动生成关键词,本地一键整合包
近日,ControlNet的作者推出了一个全新的项目——Omost。这个项目对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词,就可以生成非常详细并且空间表现很准确的图片。原创 2024-06-05 10:54:48 · 1656 阅读 · 0 评论 -
ChatTTS改良版 - 新增分角色朗读功能、音色抽卡功能以及生成长音频
这个版本是ChatTTS的一个分支,基于ChatTTS修改,由6drf21e大佬改良,大佬GitHub地址https://github.com/6drf21e/ChatTTS_colab支持本地一键运行,同时支持colab运行。最大的亮点还要属“角色扮演”了,可以用一段剧情或故事生成角色扮演对话,并为不同的角色配音,这个功能简直炸裂了。原创 2024-06-04 09:32:53 · 1724 阅读 · 0 评论 -
ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包下
和之前发布的Fish Speech类似,都是免费开源的文本生成语音的AI软件,但不同的是,ChatTTS测试下来,对于人类情感语调的模仿,应该是目前开源项目做的最好的,是一款高度接近人类情感、音色、语调的文本语音合成项目。原创 2024-06-02 22:40:19 · 3941 阅读 · 0 评论 -
腾讯混元Dit-业内首个支持中文的AI绘画大模型,他来了!附本地一键包下载
5月14日,腾讯旗下混元文生图大模型(下称:混元DiT,Scalable Diffusion Models with Transformers)宣布全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面,一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白;另一方面混元DiT为全面开放,与现网版本完全一致。原创 2024-05-22 16:41:19 · 865 阅读 · 1 评论 -
AI一键生成高清短视频:MoneyPrinterTurbo 本地一键包
MoneyPrinterTurbo是一个强大的开源项目,只需提供一个视频主题或关键词,即可全自动生成视频文案、视频素材、视频字幕、视频背景音乐,并合成一个高清的短视频。自媒体必备神器!转载 2024-05-14 11:33:14 · 849 阅读 · 1 评论 -
PuLID: 图像背景、光线、风格等均保持高度一致图像生成工具,附本地一键包
这一技术通过对比对齐的方式,实现了Pure和Lightning ID的自定义,既保持了高度的ID保真度,又有效减少了对原始模型行为的干扰。PuLID的发布将是该领域的重要进步,为用户提供了更多选择和灵活性,推动技术的创新和发展。如果你想脑洞大开,让张三和李四两个人合体,或者用爸爸和妈妈的照片,给自己生一个“弟弟”或“妹妹”,也可以上传父母的照片,勾选ID混合这个选项,如下图。接下来就是提示词,可以先用默认的提示词和反向提示词,如果精通SD等AI绘画软件,可以自行发挥创造,自己写提示词,开阔新的玩法。原创 2024-05-13 22:39:29 · 845 阅读 · 0 评论 -
灯光师又要下岗了,AI又干掉一个行业。IC-Light实现一键智能打光,附IC-Light本地一键包
IC-Light,即“Imposing Consistent Light”(强加一致的光源),ControlNet大佬张吕敏的全新力作。是一个致力于操纵图像照明的项目。这极大了解决了图片迁移后的一致性问题,至少抠图更生动。原创 2024-05-10 12:11:23 · 1204 阅读 · 0 评论 -
一键换装IDM-VTON本地一键包,超真实的虚拟试衣项目,连衣服的褶子都那么真实
近日,一项名为IDM-VTON的虚拟试衣技术引起了广泛关注。这项技术能够生成高度真实的虚拟试衣图像,其细节处理之精细,令人赞叹不已。IDM-VTON技术的核心在于其对服装细节的精准捕捉。无论是纹理、图案还是缝线,这些细微之处都能在试衣图像中得到准确的再现。这种对细节的高度还原,使得用户在试衣时能够更加真实地感受到衣物的质感和设计。原创 2024-05-09 10:33:14 · 1632 阅读 · 1 评论 -
MuseTalk - 一键创建高质量数字人(对口型)一键整合包,大厂腾讯出品
MuseTalk 是由腾讯团队开发的先进技术,项目地址:https://github.com/TMElyralab/MuseTalk,它是一个实时的音频驱动唇部同步模型。该模型能够根据输入的音频信号,自动调整数字人物的面部图像,使其唇形与音频内容高度同步。原创 2024-04-16 17:52:51 · 4718 阅读 · 8 评论 -
Easy-wav2lip-一键批量数字人制作软件(一键包+教程)
Easy-wav2lip是基于wav2lip优化改进而来,新增了WebUI界面,操作更简便,同时提升了生成效率,大大减少了生成的时间。最上方选择源素材(图片或者视频都可以),就是你要驱动的数字人素材,右边选择音频(驱动数字人说话的音频文件),如下图。由于帧被裁剪到脸上,嘴巴位置已经很近似了,只有当发现视频的遮罩似乎没有跟随嘴巴时,才启用此功能。等待程序自动执行完成,找到软件目录下的out目录,里面就是生成的数字人视频。原创 2024-04-02 15:19:36 · 6507 阅读 · 4 评论 -
一张图生成全套AI写真-腾讯开源项目PhotoMaker一键包
无需进行额外的LoRA训练,还支持自定义参数控制生成风格,包括混合不同人物特征生成全新人物形态,以及修改年龄、性别以及照片年代等细节功能。利用多张照片作为身份ID,获取人物特征,同时结合我们的文本描述,然后生成一个新的、个性化的人物图像。通过简单地替换类词(例如,man和woman),可以在保持原始身份的同时实现性别和年龄的变化。只需要一张照片,即可生成多种风格的AI写真套图,这就是腾讯最新开源的PhotoMaker。可以根据提供的不同人物的图片作为输入,整合不同人物的特征,生成一个新的人物形态的图片。原创 2024-02-01 14:52:15 · 534 阅读 · 1 评论 -
阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)
阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)阿里港大发布“Anydoor”任意门,可实现隔空换物,一键换衣等功能(附anydoor一键包下载)原创 2023-12-26 13:45:23 · 4838 阅读 · 57 评论 -
DeepFaceLab常见的几种模型概念:通用模型和万能模型
很多新手会听到几种关于模型的概念,比如:通用模型,万能模型(万能丹,模型被通俗的称之为‘丹’)。还有一些商家鼓吹出来的名词,比如神丹,仙丹等,这俩就不做解释和说明了。今天主要讲解下通用模型和万能模型这两个概念。原创 2023-11-18 08:35:07 · 1613 阅读 · 1 评论