text2video是一个开源一键文本转视频的工具,工具可以将一段文本转换为视频,并保存到指定的本地,初衷是想实现小说的可视化阅读功能,具通过标点符号句号分段文本。
使用 stable-diffusion生成图片和 edge-tts转换语言,通过 OpenCV合并图片为 mp4 视频,字母贴在视频底部,音频控制画面播放时长,最后使用 FFmpeg合并音频和视频,非开箱即用的工具,需要一定的知识。
实现原理
- 将文本进行分段,现在没有想到好的办法,就是通过标点符号句号分段,分成一个个的句子
- 通过句子生成图片,生成声音,图片开源的有很多,本方案采用 stable-diffusion,语言转文字使用 edge-tts
- 在通过 opencv 将图片合并为视频,目前输出 mp4 格式的视频,句子作为字母贴到视频内容的底部区域。
- 音频是一个有时间概念的东西,恰好可以通过音频控制一张画面的播放时长
- 在通过 ffmpeg 将音频合并到原始视频中。
最终,一个有画面,有字幕,有声音的视频就出现了,咱们实现了一个 文本转视频。
本地开发
安装依赖
开发时,需要安装的环境是 macOS python 3.10.12,其他环境可能存在兼容性问题
pip install -r requirements.txt
生成 huggingface api key
token 申请地址:https://huggingface.co/settings/tokens
因为,该项目中使用了 huggingface 上的开源文生图模型生成图片,中文生成图片效果不大好,因此,本项目对中文进行了翻译,感谢有道,直接使用有道翻译,比较方便。翻译后,生成图的质量有一定的提高。
token 可以写入到 .env 文件里面
如果使用的 pollinations-ai ,则不填写 token 就 ok
相关导航
Local Deep Research 是一款功能卓越的AI科研助手,通过集成主流大模型与网页搜索实现深度迭代式分析,为科研和信息整合提供高效解决方案。该系统既支持在本地运行以确保隐私安全,又能配置云端大模型如Claude和GPT以增强性能。平台具备自动生成跟进问题、精准引用跟踪与来源验证的能力,并能全面提取网页内容,输出详实研究报告和快速摘要。支持灵活调用Ollama等本地模型和各类Langchain模型,满足用户个性化需求。系统还集成了智能搜索引擎,可自动匹配Wikipedia、arXiv、PubMed、DuckDuckGo、SerpAPI、Google可编程搜索及The Guardian等多个数据源,同时提供基于向量嵌入的本地文档检索功能,支持PDF、文本和Markdown格式文档,展示出在多领域整合与验证信息的卓越实力,是科研人员和数据分析师理想的工具选择。