TaleStreamAI是什么?
TaleStreamAI是由开发者zqq-nuli主导的开源AI驱动小说推文全自动工作流项目,集成了多款大模型(如 DeepSeek-V3、gemini-2.0-flash、硅基智能-FunAudioLLM/CosyVoice2-0.5B)和 ffmpeg 视频处理引擎,完成小说内容提取、小说章节分镜生成、分镜润色提示词、图片/音频生成、分镜视频生成的一键自动流程,给小说作者、小说网文作者、内容创作者、教育和企业用户等提供高效内容创作工具。

TaleStreamAI功能特点
- 全自动流程闭环:支持从指定小说 id 抓取内容,章节分镜自动设计,提示词自动生成优化,场景图片生成自动生成,语音旁白自动生成,字幕自动生成,全部合成为短视频发布,整个流程不需要人工干预各环节之间的衔接。
- 多AI模型协同:利用大语言模型如下 Gemini-2.0-flash、DeepSeek-V3 等做文本、分镜处理,利用大模型做语音生成引擎,比如 CosyVoice2-0.5B,语音文本生成模型如 Whisper 生成字幕,利用图像生成模型做场景图生成,各模型齐发力,各尽其能。
- 模块化灵活适配:模块各部分对应一条脚本可以分别单独调试或替换部分中心文件(如更换图像生成模型、更换语音风格),兼顾不同规格的 AI 模型,可根据设备显存大小选取合适的方案。
- 高效硬件加速:支持 GPU 加速运算,适配 CUDA 和 FFmpeg-GPU 版本,大大缩短图片生成、视频合成耗时,高效提升生产效率。
- 开源可扩展:代码公开,开源,开发人员可依据自身需求二次开发,可以自行修改对应 API、自行调节生成参数,兼容各种个性化的需求。
适用场景
- 小说推广与自媒体创作:适合短视频自媒体人、小说作者,快速将网络小说的章节转换成适合网上分享平台的推文视频供小说推广、内容变现等使用。
- 技术学习与实践:适合AI技术爱好、技术人员学习自己感兴趣的模型(多模态一体的工作流程实战案例),来学习使用大语言模型、语音合成、图片生成、视频合成等多种技术的相关理论。
- 批量内容生产:适用于需要高频输出小说相关短视频的场景,借助自动化流程与并发支持,减少重复劳动,提升内容产出效率。
- 个性化内容定制:适合有自己比较偏向视频风格的用户使用,改变一些基本模型的参数、使用某些核心工具来达到个性化的小说风格视频的目的。
TaleStreamAI快速使用教程
- 准备基础环境:安装 Python3.10+、Git、uv、配置 FFmpeg-GPU 加速版(加入系统环境变量),下载秋叶aaaki forge整合包。
- 硬件要求:NVIDIA 显卡(启用 CUDA 11.8+),显存≥8G(8G 以上)、内存≥16G、硬盘可用空间≥100G。
- 获取必备资源:申请 Gemini、DeepSeek、CosyVoice API Key(多个可用英文逗号分隔),申请起点中文网达人中心Cookie。
- 克隆项目:新建一个非中文文件夹,用 git 命令 git clone https://github.com/zqq-nuli/TaleStreamAI.git 下载项目。
- 搭建虚拟环境:进入项目文件所在文件夹,使用命令 uv venv –python 3.12 创建虚拟环境,使用命令 .venv\Scripts\activate 激活(WINDOWS环境)。
- 安装依赖:激活虚拟环境后,使用命令 uv add -r requirements.txt 安装软件包要求,然后根据自己的 CUDA 版本安装相对应的 PyTorch 版本(参考官网命令)。
- 配置核心参数:复制 .env.example,更名为 .env,填入 API Key、起点 Cookie、秋叶 forge 的 API 地址(默认为 http://127.0.0.1:7860)。
- 启动图像生成工具:打开秋叶 forge 整包,运行启动脚本,http://127.0.0.1:7860 可访问。
- 运行项目(二选一):逐步运行(推荐新朋友)【分别运行 uv run app/main.py –book_id 小说ID→uv run board.py→uv run prompt.py→uv run image.py→uv run audio.py→uv run tts.py→uv run video.py→uv run video_end.py】。一键运行【直接运行 uv run main.py –book_id 小说ID(小说 ID 可从起点小说网址上获得)】。
- 查看结果:最终视频存放在 data/book/小说ID/ 文件夹中。