
StoryMem简介
StoryMem是什么?
StoryMem是字节跳动与南洋理工大学联合开源的AI多镜头长视频生成框架,托管于GitHub平台,主要解决长视频的“叙事一致性”和“镜头多样性”,可以根据文本指令生成多个镜头切换、具有完整故事逻辑的长视频,提供完整的模型、训练过程和推理脚本,对开发者友好,易于二次开发和拓展,为AI长视频生成领域的研究与落地提供技术支撑。

StoryMem的主要功能
- 多镜头长视频连贯生成:基于文本的输入指令自动生成由多个镜头切割而成的长视频,并注重镜头内剧情联通、镜头间画面风格统一及连贯性,解决文本生成的 AI 视频生的“零碎化”、“长镜头不连贯”问题。
- 文本驱动的镜头定制化:可自定义地通过文本提供镜头类别(例如:远景镜头、近景镜头、跟镜头等)、镜头切换速度、画面风格(古风、科幻、纪实等等),不需要视频制作的相关知识,精准地定制视频的丰富性与稳定性。
- 完整开源可拓展架构:项目完全开源,在项目中介绍完整的代码框架、模型框架、数据预处理框架以及模型训练脚本框架,用户也可以自己自定义镜头调度策略、补充垂直领域数据集,进行二次开发与模型优化。
- 兼顾画面质量与生成效率:兼顾多镜头长视频的叙事连贯性,单镜头画面清晰度和风格一致性,提供轻量推理脚本、降低快速测试和检验门槛等。
- 长时记忆机制支撑叙事:带有专属记忆功能,能存留长视频生成的主线剧情、主要人物、场景信息,避免后续镜头产生错误的逻辑,保障长视频叙事的整体性。
适用场景
- 影视创作:快速生成短片或故事片的分镜视频。
- 动漫与游戏:保持角色一致性,生成多场景的动画片段。
- 学术研究:作为视频生成与记忆机制的研究框架。
- 内容创作:适合自媒体、短视频创作者进行故事化内容生产。
StoryMem的使用教程
一、前期准备(3 个核心要求)
硬件前提:必须有NVIDIA显卡(显存≥24G,支持 CUDA),内存≥16G,硬盘预留≥50G 空间。
1. 克隆代码与配置环境
终端执行命令克隆仓库并进入目录:
运行:
git clone https://github.com/Kevin-thu/StoryMem.git
cd StoryMem
安装 Python 3.9/3.10,再安装依赖(含支持 CUDA 的 PyTorch):
运行:pip install -r requirements.txt
# 额外安装适配自身 CUDA 版本的 PyTorch(参考官网命令,推荐 CUDA 11.7/11.8)
2. 获取预训练模型:从项目 README 提供的链接下载预训练模型,放入项目新建的 ./checkpoints/ 目录中。
3. 写文本指令:新建 my_prompt.txt 文件,用清晰语言描述剧情、镜头、风格(示例):15秒古风视频:镜头1(远景)女子庭院赏花;镜头2(特写)指尖碰花瓣;镜头3(中景)女子抚琴;风格:水墨国风,镜头切换自然。
3. 运行推理命令:终端在项目根目录执行核心命令,直接调用预训练模型生成视频:
4. 运行:python run_inference.py –prompt_path ./my_prompt.txt –checkpoint_path ./checkpoints/预训练模型文件名.pth –output_path ./outputs/
5. 查看结果:等待 5-30 分钟(看硬件性能),在 ./outputs/ 目录中找到生成的 MP4 视频文件即可。
StoryMem资源链接
- GitHub地址: https://github.com/Kevin-thu/StoryMem
- 论文: https://arxiv.org/abs/2512.19539
- 模型:Wan2.2-T2V(https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B)和StoryMem LoRA(https://huggingface.co/Kevin-thu/StoryMem)
- 项目主页:https://kevin-thu.github.io/StoryMem/
本站新媒派提供的StoryMem内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2026年1月23日 上午11:43收录时,该网页上的内容,都属于合规合法,后期网页的内容如有出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
相关导航


Darwin

心辰Lingo语音大模型

Llama 2

Waver 1.0

百度智能云客悦

神力霓裳



