ai语音_昨日之日2006的博客-CSDN博客

ai语音

关注

文章平均质量分 60

关注数：文章数：15 文章阅读量：32276 文章收藏量：106

作者: 昨日之日2006

人工智能影像爱好者！

展开

Orpheus-TTS - 像真人一样自然逼真的语音合成系统文本转语音，TTS 本地一键整合包下载

它能够生成自然、富有情感且接近人类水平的语音，具备零样本语音克隆能力，无需预训练即可模仿特定语音。超低延迟‌：Orpheus TTS的默认延迟约为200毫秒，通过优化输入流与模型的KV缓存，可以将延迟降低至25-50毫秒，完全满足实时对话的需求‌。零样本语音克隆‌：Orpheus TTS基于Llama-3b架构，具备零样本复刻任何人声的能力，无需预训练即可模仿特定语音‌。情感表达‌：该模型能够生成自然、富有情感的语音，支持丰富的语调变化，能够细腻地捕捉人类的情感，显著提升用户的交互体验‌。

原创 2025-04-03 08:47:10 · 174 阅读 · 0 评论
MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件中英混搭无缝切换本地一键整合包下载

MegaTTS3 不仅能在普通的设备上流畅运行，还能生成自然、逼真的语音，支持中英混合场景和灵活的口音控制。上传参考音频和NPY文件，官方介绍，处于安全目的，目前只支持固定的示例音色生成，暂不支持上传自己的音色（可以把参考音频提交给官方，由官方审核通过，生成NPY才能使用）个性化语音生成‌ 语音助手、虚拟主播等场景中生成与特定人物音色一致的语音‌。高质量语音克隆：可模拟目标说话人的音色、语气、节奏，生成高度拟真的合成语音。多媒体内容创作‌ 自动化生成影视配音、有声读物，降低人工录制成本‌。

原创 2025-04-03 08:46:00 · 223 阅读 · 0 评论
InspireMusic - 阿里通义实验室开源音乐生成框架支持音乐、歌曲、音频生成本地一键整合包下载

InspireMusic 不仅为研究者和开发者提供了丰富的音乐/歌曲/音频生成模型的训练和调优工具，还为他们配备了高效的模型，以便优化生成效果。InspireMusic 是阿里通义实验室开源的一个用于音乐生成的统一框架，旨在打造一个集音乐、歌曲及音频生成能力于一体的开源工具包，为研究者、开发者及音乐爱好者提供一个全面的创作平台。InspireMusic-1.5B-Long：预训练音乐生成 1.5B 模型，48kHz，支持 5 分钟以上的长格式音乐生成。2、通过不同的音乐类型、曲式结构标签来控制生成音乐。

原创 2025-02-16 16:16:10 · 887 阅读 · 0 评论
TangoFlux - 3秒生成，比你还快！速度超快超逼真的文本生成语音模型本地一键整合包下载

它以515M的参数规模，展现出令人惊叹的音频生成能力，能够在短短3.7秒内生成高达30秒的高质量音频，展现出卓越的性能和效率。该模型不仅能够生成各种音效，如鸟鸣和口哨声，还引入了一种新的优化框架CLAP-Ranked Preference Optimization（CRPO），以提升生成音频的质量和对齐性能。1、影视与游戏音频制作：TangoFlux可依剧本或场景描述，快速生成逼真音效、配乐及配音，缩短制作周期、降成本，提升作品音频质量，增强游戏互动性与沉浸感。输入提示词，设置相关参数，生成即可。

原创 2025-01-03 14:11:41 · 258 阅读 · 3 评论
MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型本地一键整合包下载

近期，趣丸科技发布了名为MaskGCT的全新语音合成（TTS）模型，该模型在语音质量、相似度和可控性方面取得了显著突破，直接颠覆了传统语音合成(TTS)的玩法，让AI彻底摆脱了对人工标注的依赖，实现了真正意义上的“自学成才”。2、更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。更可怕的是，MaskGCT不仅能生成高质量的语音，还能模仿不同说话者的风格，甚至可以跨语言进行语音翻译，简直就是一个六边形战士。一键包下载地址：私信。

原创 2024-11-12 14:39:41 · 1200 阅读 · 0 评论
Moonshine - 新型开源ASR（语音识别）模型，体积小，速度快，比OpenAI Whisper快五倍本地一键整合包下载

Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本（speech-to-text, STT）转换模型」，旨在为资源受限设备提供快速而准确的「自动语音识别（ASR）服务」。相比同类产品，如 OpenAI 的 Whisper，Moonshine 在处理速度上提高了五倍，并且在多个标准数据集上展示了更低的词错误率（WER）。据官方报告，Moonshine 的处理速度「比 OpenAI 的 Whisper 快五倍」，并且在词错误率方面也表现得更好。，期待后期更多语种的支持。

原创 2024-11-07 17:37:04 · 921 阅读 · 1 评论
FireRedTTS - 小红书最新开源AI语音克隆合成系统免训练一键音频克隆本地一键整合包下载

FireRedTTS 只需要给定文本和几秒钟参考音频，无需训练，就可模仿任意音色、任意说话风格，创造独特的音频内容。搞怪风、女友风、emo 小片段……同时，除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外，FireRedTTS 还能够生成具有小红书博主风格的高级感旁白，少年博主音颇具特色，将听众拉入即将离去的夏天。小红书技术团队FireRed最近推出了一款名为FireRedTTS的先进语音合成系统，该系统能够基于少量参考音频快速模仿任意音色和说话风格，实现独特的音频内容创造。

原创 2024-10-02 17:23:00 · 2083 阅读 · 0 评论
Easy Voice Toolkit - 简易语音工具箱，一款强大的语音识别、转录、转换工具本地一键整合包下载

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱，提供了包括语音模型训练在内的多种自动化音频工具，集成了GUI，无需配置，解压即用。

原创 2024-09-05 09:13:55 · 565 阅读 · 0 评论
audiocraft - 免费文本转音乐、AI音乐生成、AI音乐创作工具，Facebook开源，本地一键整合包下载

这个强大的工具包集成了两个最新的AI音频生成模型：AudioGen和MusicGen，能够产生高质量的声音和音乐。如果你的显卡较好，显存12G起，推荐facebook/musicgen-stereo-melody和facebook/musicgen-stereo-melody-large这两个模型，生成的效果是最好的。考虑到一键包大小，一键包只内置了 facebook/musicgen-stereo-melody 这个模型，如果需要体验其他模型，只需要切换到任意模型，提交的时候后台会自动下载。

原创 2024-08-31 22:27:22 · 938 阅读 · 0 评论
【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

原创 2024-08-10 17:01:01 · 1524 阅读 · 0 评论
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。

原创 2024-07-10 13:31:01 · 2926 阅读 · 0 评论
SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型本地一键整合包下载

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM，该项目包含了两个核心模型：SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆

原创 2024-07-09 15:32:02 · 1641 阅读 · 0 评论
CosyVoice - 阿里最新开源语音克隆、文本转语音项目支持情感控制及粤语本地一键整合包下载

CosyVoice专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。

原创 2024-07-07 21:19:42 · 17482 阅读 · 1 评论
AI一键音频转文字工具速度超快，支持实时转换，无需联网，本地整合包下载

这是 CapsWriter-Offline ，一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。

原创 2024-07-03 09:36:32 · 1037 阅读 · 0 评论
DCT-Net - 一键图片、视频转卡通动漫风格工具，本地一键整合包下载

只需要输入一张人物图像或者一段视频，就可以实现端到端全图卡、视频通化转换，生成二次元虚拟形象，返回卡通化后的结果图像或视频。

原创 2024-06-25 16:33:48 · 433 阅读 · 0 评论

ai语音

作者: 昨日之日2006

Orpheus-TTS - 像真人一样自然逼真的语音合成系统 文本转语音，TTS 本地一键整合包下载

MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件 中英混搭无缝切换 本地一键整合包下载

InspireMusic - 阿里通义实验室开源音乐生成框架 支持音乐、歌曲、音频生成 本地一键整合包下载

TangoFlux - 3秒生成，比你还快！速度超快超逼真的文本生成语音模型 本地一键整合包下载

MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型 本地一键整合包下载

Moonshine - 新型开源ASR（语音识别）模型，体积小，速度快，比OpenAI Whisper快五倍 本地一键整合包下载

FireRedTTS - 小红书最新开源AI语音克隆合成系统 免训练一键音频克隆 本地一键整合包下载

Easy Voice Toolkit - 简易语音工具箱，一款强大的语音识别、转录、转换工具 本地一键整合包下载

audiocraft - 免费文本转音乐、AI音乐生成、AI音乐创作工具，Facebook开源，本地一键整合包下载

【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载

SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载

CosyVoice - 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载

AI一键音频转文字工具 速度超快，支持实时转换，无需联网，本地整合包下载

DCT-Net - 一键图片、视频转卡通动漫风格工具，本地一键整合包下载

Orpheus-TTS - 像真人一样自然逼真的语音合成系统文本转语音，TTS 本地一键整合包下载

MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件中英混搭无缝切换本地一键整合包下载

InspireMusic - 阿里通义实验室开源音乐生成框架支持音乐、歌曲、音频生成本地一键整合包下载

TangoFlux - 3秒生成，比你还快！速度超快超逼真的文本生成语音模型本地一键整合包下载

MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型本地一键整合包下载

Moonshine - 新型开源ASR（语音识别）模型，体积小，速度快，比OpenAI Whisper快五倍本地一键整合包下载

FireRedTTS - 小红书最新开源AI语音克隆合成系统免训练一键音频克隆本地一键整合包下载

Easy Voice Toolkit - 简易语音工具箱，一款强大的语音识别、转录、转换工具本地一键整合包下载

CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载

SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型本地一键整合包下载

CosyVoice - 阿里最新开源语音克隆、文本转语音项目支持情感控制及粤语本地一键整合包下载

AI一键音频转文字工具速度超快，支持实时转换，无需联网，本地整合包下载