
ai语音
文章平均质量分 60
昨日之日2006
人工智能影像爱好者!
展开
-
Orpheus-TTS - 像真人一样自然逼真的语音合成系统 文本转语音,TTS 本地一键整合包下载
它能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。超低延迟:Orpheus TTS的默认延迟约为200毫秒,通过优化输入流与模型的KV缓存,可以将延迟降低至25-50毫秒,完全满足实时对话的需求。零样本语音克隆:Orpheus TTS基于Llama-3b架构,具备零样本复刻任何人声的能力,无需预训练即可模仿特定语音。情感表达:该模型能够生成自然、富有情感的语音,支持丰富的语调变化,能够细腻地捕捉人类的情感,显著提升用户的交互体验。原创 2025-04-03 08:47:10 · 174 阅读 · 0 评论 -
MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件 中英混搭无缝切换 本地一键整合包下载
MegaTTS3 不仅能在普通的设备上流畅运行,还能生成自然、逼真的语音,支持中英混合场景和灵活的口音控制。上传参考音频和NPY文件,官方介绍,处于安全目的,目前只支持固定的示例音色生成,暂不支持上传自己的音色(可以把参考音频提交给官方,由官方审核通过,生成NPY才能使用)个性化语音生成 语音助手、虚拟主播等场景中生成与特定人物音色一致的语音。高质量语音克隆:可模拟目标说话人的音色、语气、节奏,生成高度拟真的合成语音。多媒体内容创作 自动化生成影视配音、有声读物,降低人工录制成本。原创 2025-04-03 08:46:00 · 223 阅读 · 0 评论 -
InspireMusic - 阿里通义实验室开源音乐生成框架 支持音乐、歌曲、音频生成 本地一键整合包下载
InspireMusic 不仅为研究者和开发者提供了丰富的音乐/歌曲/音频生成模型的训练和调优工具,还为他们配备了高效的模型,以便优化生成效果。InspireMusic 是阿里通义实验室开源的一个用于音乐生成的统一框架,旨在打造一个集音乐、歌曲及音频生成能力于一体的开源工具包,为研究者、开发者及音乐爱好者提供一个全面的创作平台。InspireMusic-1.5B-Long:预训练音乐生成 1.5B 模型,48kHz,支持 5 分钟以上的长格式音乐生成。2、通过不同的音乐类型、曲式结构标签来控制生成音乐。原创 2025-02-16 16:16:10 · 887 阅读 · 0 评论 -
TangoFlux - 3秒生成,比你还快!速度超快超逼真的文本生成语音模型 本地一键整合包下载
它以515M的参数规模,展现出令人惊叹的音频生成能力,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。1、影视与游戏音频制作:TangoFlux可依剧本或场景描述,快速生成逼真音效、配乐及配音,缩短制作周期、降成本,提升作品音频质量,增强游戏互动性与沉浸感。输入提示词,设置相关参数,生成即可。原创 2025-01-03 14:11:41 · 258 阅读 · 3 评论 -
MaskGCT - 媲美人声的语音大模型,零样本语音克隆,文本转语音大模型 本地一键整合包下载
近期,趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,该模型在语音质量、相似度和可控性方面取得了显著突破,直接颠覆了传统语音合成(TTS)的玩法,让AI彻底摆脱了对人工标注的依赖,实现了真正意义上的“自学成才”。2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。更可怕的是,MaskGCT不仅能生成高质量的语音,还能模仿不同说话者的风格,甚至可以跨语言进行语音翻译,简直就是一个六边形战士。一键包下载地址:私信。原创 2024-11-12 14:39:41 · 1200 阅读 · 0 评论 -
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本(speech-to-text, STT)转换模型」,旨在为资源受限设备提供快速而准确的「自动语音识别(ASR)服务」。相比同类产品,如 OpenAI 的 Whisper,Moonshine 在处理速度上提高了五倍,并且在多个标准数据集上展示了更低的词错误率(WER)。据官方报告,Moonshine 的处理速度「比 OpenAI 的 Whisper 快五倍」,并且在词错误率方面也表现得更好。,期待后期更多语种的支持。原创 2024-11-07 17:37:04 · 921 阅读 · 1 评论 -
FireRedTTS - 小红书最新开源AI语音克隆合成系统 免训练一键音频克隆 本地一键整合包下载
FireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿任意音色、任意说话风格,创造独特的音频内容。搞怪风、女友风、emo 小片段……同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedTTS 还能够生成具有小红书博主风格的高级感旁白,少年博主音颇具特色,将听众拉入即将离去的夏天。小红书技术团队FireRed最近推出了一款名为FireRedTTS的先进语音合成系统,该系统能够基于少量参考音频快速模仿任意音色和说话风格,实现独特的音频内容创造。原创 2024-10-02 17:23:00 · 2083 阅读 · 0 评论 -
Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载
Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。原创 2024-09-05 09:13:55 · 565 阅读 · 0 评论 -
audiocraft - 免费文本转音乐、AI音乐生成、AI音乐创作工具,Facebook开源,本地一键整合包下载
这个强大的工具包集成了两个最新的AI音频生成模型:AudioGen和MusicGen,能够产生高质量的声音和音乐。如果你的显卡较好,显存12G起,推荐facebook/musicgen-stereo-melody和facebook/musicgen-stereo-melody-large这两个模型,生成的效果是最好的。考虑到一键包大小,一键包只内置了 facebook/musicgen-stereo-melody 这个模型,如果需要体验其他模型,只需要切换到任意模型,提交的时候后台会自动下载。原创 2024-08-31 22:27:22 · 938 阅读 · 0 评论 -
【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型
【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型原创 2024-08-10 17:01:01 · 1524 阅读 · 0 评论 -
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载
近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版,新增自定义音色保存,优化长文本生成以及修复上个版本错误提示的bug。原创 2024-07-10 13:31:01 · 2926 阅读 · 0 评论 -
SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载
阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆原创 2024-07-09 15:32:02 · 1641 阅读 · 0 评论 -
CosyVoice - 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载
CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。原创 2024-07-07 21:19:42 · 17482 阅读 · 1 评论 -
AI一键音频转文字工具 速度超快,支持实时转换,无需联网,本地整合包下载
这是 CapsWriter-Offline ,一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。原创 2024-07-03 09:36:32 · 1037 阅读 · 0 评论 -
DCT-Net - 一键图片、视频转卡通动漫风格工具,本地一键整合包下载
只需要输入一张人物图像或者一段视频,就可以实现端到端全图卡、视频通化转换,生成二次元虚拟形象,返回卡通化后的结果图像或视频。原创 2024-06-25 16:33:48 · 433 阅读 · 0 评论