Parler TTS是一个轻量级的开源高质量文本转语音 (TTS) 模型,可以以给定说话者的风格(性别、音调、说话风格等)生成高质量、自然流畅的语音。
它是根据Dan Lyth和Simon King在Stability AI和Edinburgh University发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作进行的复现,与其他TTS模型不同,Parler-TTS是一个完全开源的发布版本,所有的数据集、预处理、训练代码和权重都以宽松的许可证公开发布,感兴趣的同学可以在线体验。
相关导航
GPT4o-image-prompts:Nano Banana、GPT-5、GPT-4o、豆包 AI 图片提示词与实用案例分享
“gpt4o-image-prompts” 是由 GitHub 用户 songguoxs 维护的开源项目,聚合了 Nano Banana(nanobanana)/ GPT-5 / GPT-4o / 豆包 的图片提示词与示例案例。持续更新并分享适用于AI图像生成的高质量提示词。项目中包含丰富的创作案例,覆盖漫画风格插画、复古宝丽来照片、益智玩具角色、品牌字体、3D建模、广告设计、食物与运动结合等多种主题。这些提示词不仅详细描述了画面效果,还强调特定视觉风格,能为插画、广告、UI设计、品牌创意等领域提供灵感。
暂无评论...