bubbliiiing commited on
Commit
ca0aeec
·
verified ·
1 Parent(s): 196a92b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +356 -353
README.md CHANGED
@@ -1,353 +1,356 @@
1
- ---
2
- license: apache-2.0
3
- language:
4
- - en
5
- - zh
6
- pipeline_tag: text-to-video
7
- library_name: diffusers
8
- tags:
9
- - video
10
- - video-generation
11
- ---
12
-
13
- # Wan-Fun
14
-
15
- 😊 Welcome!
16
-
17
- [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-yellow)](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP)
18
-
19
- [![Github](https://img.shields.io/badge/🎬%20Code-Github-blue)](https://github.com/aigc-apps/VideoX-Fun)
20
-
21
- [English](./README_en.md) | [简体中文](./README.md)
22
-
23
- # 目录
24
- - [目录](#目录)
25
- - [模型地址](#模型地址)
26
- - [视频作品](#视频作品)
27
- - [快速启动](#快速启动)
28
- - [如何使用](#如何使用)
29
- - [参考文献](#参考文献)
30
- - [许可证](#许可证)
31
-
32
- # 模型地址
33
-
34
- | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 |
35
- |--|--|--|--|--|
36
- | Wan2.2-Fun-A14B-InP | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-InP) | Wan2.2-Fun-14B文图生视频权重,以多分辨率训练,支持首尾图预测。 |
37
- | Wan2.2-Fun-A14B-Control | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-Control)| Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,,以81帧、每秒16帧进行训练,支持多语言预测 |
38
- | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-Control-Camera) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-Control-Camera)| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,,以81帧、每秒16帧进行训练,支持多语言预测 |
39
- | Wan2.2-Fun-5B-InP | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-InP) | Wan2.2-Fun-5B文图生视频权重,以121帧、每秒24帧进行训练支持首尾图预测。 |
40
- | Wan2.2-Fun-5B-Control | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-Control)| Wan2.2-Fun-5B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。以121帧、每秒24帧进行训练,支持多语言预测 |
41
- | Wan2.2-Fun-5B-Control-Camera | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-Control-Camera) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-Control-Camera)| Wan2.2-Fun-5B相机镜头控制权重。以121帧、每秒24帧进行训练,支持多语言预测 |
42
-
43
-
44
- # 视频作品
45
-
46
- ### Wan2.2-Fun-A14B-InP
47
-
48
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
49
- <tr>
50
- <td>
51
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_1.mp4" width="100%" controls autoplay loop></video>
52
- </td>
53
- <td>
54
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_2.mp4" width="100%" controls autoplay loop></video>
55
- </td>
56
- <td>
57
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_3.mp4" width="100%" controls autoplay loop></video>
58
- </td>
59
- <td>
60
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_4.mp4" width="100%" controls autoplay loop></video>
61
- </td>
62
- </tr>
63
- </table>
64
-
65
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
66
- <tr>
67
- <td>
68
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_5.mp4" width="100%" controls autoplay loop></video>
69
- </td>
70
- <td>
71
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_6.mp4" width="100%" controls autoplay loop></video>
72
- </td>
73
- <td>
74
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_7.mp4" width="100%" controls autoplay loop></video>
75
- </td>
76
- <td>
77
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_8.mp4" width="100%" controls autoplay loop></video>
78
- </td>
79
- </tr>
80
- </table>
81
-
82
- ### Wan2.2-Fun-A14B-Control
83
-
84
- Generic Control Video + Reference Image:
85
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
86
- <tr>
87
- <td>
88
- Reference Image
89
- </td>
90
- <td>
91
- Control Video
92
- </td>
93
- <td>
94
- Wan2.2-Fun-14B-Control
95
- </td>
96
- <tr>
97
- <td>
98
- <image src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/8.png" width="100%" controls autoplay loop></image>
99
- </td>
100
- <td>
101
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose.mp4" width="100%" controls autoplay loop></video>
102
- </td>
103
- <td>
104
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/14b_ref.mp4" width="100%" controls autoplay loop></video>
105
- </td>
106
- <tr>
107
- </table>
108
-
109
- Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control:
110
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
111
- <tr>
112
- <td>
113
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/guiji.mp4" width="100%" controls autoplay loop></video>
114
- </td>
115
- <td>
116
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/guiji_out.mp4" width="100%" controls autoplay loop></video>
117
- </td>
118
- <tr>
119
- </table>
120
-
121
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
122
- <tr>
123
- <td>
124
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose.mp4" width="100%" controls autoplay loop></video>
125
- </td>
126
- <td>
127
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/canny.mp4" width="100%" controls autoplay loop></video>
128
- </td>
129
- <td>
130
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/depth.mp4" width="100%" controls autoplay loop></video>
131
- </td>
132
- <tr>
133
- <td>
134
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose_out.mp4" width="100%" controls autoplay loop></video>
135
- </td>
136
- <td>
137
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/canny_out.mp4" width="100%" controls autoplay loop></video>
138
- </td>
139
- <td>
140
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/depth_out.mp4" width="100%" controls autoplay loop></video>
141
- </td>
142
- </tr>
143
- </table>
144
-
145
- ### Wan2.2-Fun-A14B-Control-Camera
146
-
147
- <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
148
- <tr>
149
- <td>
150
- Pan Up
151
- </td>
152
- <td>
153
- Pan Left
154
- </td>
155
- <td>
156
- Pan Right
157
- </td>
158
- <td>
159
- Zoom In
160
- </td>
161
- <tr>
162
- <td>
163
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Up.mp4" width="100%" controls autoplay loop></video>
164
- </td>
165
- <td>
166
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Left.mp4" width="100%" controls autoplay loop></video>
167
- </td>
168
- <td>
169
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Right.mp4" width="100%" controls autoplay loop></video>
170
- </td>
171
- <td>
172
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Zoom_In.mp4" width="100%" controls autoplay loop></video>
173
- </td>
174
- <tr>
175
- <td>
176
- Pan Down
177
- </td>
178
- <td>
179
- Pan Up + Pan Left
180
- </td>
181
- <td>
182
- Pan Up + Pan Right
183
- </td>
184
- <td>
185
- Zoom Out
186
- </td>
187
- <tr>
188
- <td>
189
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Down.mp4" width="100%" controls autoplay loop></video>
190
- </td>
191
- <td>
192
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_UL.mp4" width="100%" controls autoplay loop></video>
193
- </td>
194
- <td>
195
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_UR.mp4" width="100%" controls autoplay loop></video>
196
- </td>
197
- <td>
198
- <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Zoom_Out.mp4" width="100%" controls autoplay loop></video>
199
- </td>
200
- </tr>
201
- </table>
202
-
203
-
204
- # 快速启动
205
- ### 1. 云使用: AliyunDSW/Docker
206
- #### a. 通过阿里云 DSW
207
- DSW 有免费 GPU 时间,用户可申请一次,申请后3个月内有效。
208
-
209
- 阿里云在[Freetier](https://free.aliyun.com/?product=9602825&crowd=enterprise&spm=5176.28055625.J_5831864660.1.e939154aRgha4e&scm=20140722.M_9974135.P_110.MO_1806-ID_9974135-MID_9974135-CID_30683-ST_8512-V_1)提供免费GPU时间,获取并在阿里云PAI-DSW中使用,5分钟内即可启动CogVideoX-Fun。
210
-
211
- [![DSW Notebook](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/dsw.png)](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideox_fun)
212
-
213
- #### b. 通过ComfyUI
214
- 我们的ComfyUI界面如下,具体查看[ComfyUI README](comfyui/README.md)
215
- ![workflow graph](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/cogvideoxfunv1_workflow_i2v.jpg)
216
-
217
- #### c. 通过docker
218
- 使用docker的情况下,请保证机器中已经正确安装显卡驱动与CUDA环境,然后以此执行以下命令:
219
-
220
- ```
221
- # pull image
222
- docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
223
-
224
- # enter image
225
- docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
226
-
227
- # clone code
228
- git clone https://github.com/aigc-apps/VideoX-Fun.git
229
-
230
- # enter VideoX-Fun's dir
231
- cd VideoX-Fun
232
-
233
- # download weights
234
- mkdir models/Diffusion_Transformer
235
- mkdir models/Personalized_Model
236
-
237
- # Please use the hugginface link or modelscope link to download the model.
238
- # CogVideoX-Fun
239
- # https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
240
- # https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
241
-
242
- # Wan
243
- # https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
244
- # https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP
245
- # https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-InP
246
- # https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-InP
247
- ```
248
-
249
- ### 2. 本地安装: 环境检查/下载/安装
250
- #### a. 环境检查
251
- 我们已验证该库可在以下环境中执行:
252
-
253
- Windows 的详细信息:
254
- - 操作系统 Windows 10
255
- - python: python3.10 & python3.11
256
- - pytorch: torch2.2.0
257
- - CUDA: 11.8 & 12.1
258
- - CUDNN: 8+
259
- - GPU: Nvidia-3060 12G & Nvidia-3090 24G
260
-
261
- Linux 的详细信息:
262
- - 操作系统 Ubuntu 20.04, CentOS
263
- - python: python3.10 & python3.11
264
- - pytorch: torch2.2.0
265
- - CUDA: 11.8 & 12.1
266
- - CUDNN: 8+
267
- - GPU:Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G
268
-
269
- 我们需要大约 60GB 的可用磁盘空间,请检查!
270
-
271
- #### b. 权重放置
272
- 我们最好将[权重](#model-zoo)按照指定路径进行放置:
273
-
274
- **通过comfyui**:
275
- 将模型放入Comfyui的权重文件夹`ComfyUI/models/Fun_Models/`:
276
- ```
277
- 📦 ComfyUI/
278
- ├── 📂 models/
279
- │ └── 📂 Fun_Models/
280
- │ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
281
- ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
282
- ├── 📂 Wan2.1-Fun-V1.1-14B-InP
283
- └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
284
- ```
285
-
286
- **运行自身的python文件或ui界面**:
287
- ```
288
- 📦 models/
289
- ├── 📂 Diffusion_Transformer/
290
- │ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
291
- │ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
292
- ├── 📂 Wan2.1-Fun-V1.1-14B-InP
293
- └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
294
- ├── 📂 Personalized_Model/
295
- └── your trained trainformer model / your trained lora model (for UI load)
296
- ```
297
-
298
- # 如何使用
299
-
300
- <h3 id="video-gen">1. 生成 </h3>
301
-
302
- #### a、显存节省方案
303
- 由于Wan2.2的参数非常大,我们需要考虑显存节省方案,以节省显存适应消费级显卡。我们给每个预测文件都提供了GPU_memory_mode,可以在model_cpu_offload,model_cpu_offload_and_qfloat8,sequential_cpu_offload中进行选择。该方案同样适用于CogVideoX-Fun的生成。
304
-
305
- - model_cpu_offload代表整个模型在使用后会进入cpu,可以节省部分显存。
306
- - model_cpu_offload_and_qfloat8代表整个模型在使用后会进入cpu,并且对transformer模型进行了float8的量化,可以节省更多的显存。
307
- - sequential_cpu_offload代表模型的每一层在使用后会进入cpu,速度较慢,节省大量显存。
308
-
309
- qfloat8会部分降低模型的性能,但可以节省更多的显存。如果显存足够,推荐使用model_cpu_offload。
310
-
311
- #### b、通过comfyui
312
- 具体查看[ComfyUI README](https://github.com/aigc-apps/VideoX-Fun/tree/main/comfyui)
313
-
314
- #### c、运行python文件
315
- - 步骤1:下载对应[权重](#model-zoo)放入models文件夹。
316
- - 步骤2:根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2,在examples文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以CogVideoX-Fun为例。
317
- - 文生视频:
318
- - 使用examples/cogvideox_fun/predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
319
- - 而后运行examples/cogvideox_fun/predict_t2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos文件夹中。
320
- - 图生视频:
321
- - 使用examples/cogvideox_fun/predict_i2v.py文件中修改validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
322
- - validation_image_start是视频的开始图片,validation_image_end是视频的结尾图片。
323
- - 而后运行examples/cogvideox_fun/predict_i2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_i2v文件夹中。
324
- - 视频生视频:
325
- - 使用examples/cogvideox_fun/predict_v2v.py文件中修改validation_video、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
326
- - validation_video是视频生视频的参考视频。您可以使用以下视频运行演示:[演示视频](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/play_guitar.mp4)
327
- - 而后运行examples/cogvideox_fun/predict_v2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_v2v文件夹中。
328
- - 普通控制生视频(CannyPoseDepth等):
329
- - 使用examples/cogvideox_fun/predict_v2v_control.py文件中修改control_video、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
330
- - control_video是控制生视频的控制视频,是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示:[演示视频](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1.1/pose.mp4)
331
- - 而后运行examples/cogvideox_fun/predict_v2v_control.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_v2v_control文件夹中。
332
- - 步骤3:如果想结合自己训练的其他backbone与Lora,则看情况修改examples/{model_name}/predict_t2v.py中的examples/{model_name}/predict_i2v.pylora_path
333
-
334
- #### d、通过ui界面
335
-
336
- webui支持文生视频、图生视频、视频生视频和普通控制生视频(Canny、Pose、Depth等)。在examples文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以CogVideoX-Fun为例。
337
-
338
- - 步骤1:下载对应[权重](#model-zoo)放入models文件夹。
339
- - 步骤2:运行examples/cogvideox_fun/app.py文件,进入gradio页面。
340
- - 步骤3:根据页面选择生成模型,填入prompt、neg_prompt、guidance_scale和seed等,点击生成,等待生成结果,结果保存在sample文件夹中。
341
-
342
- # 参考文献
343
- - CogVideo: https://github.com/THUDM/CogVideo/
344
- - EasyAnimate: https://github.com/aigc-apps/EasyAnimate
345
- - Wan2.1: https://github.com/Wan-Video/Wan2.1/
346
- - Wan2.1: https://github.com/Wan-Video/Wan2.2/
347
- - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes
348
- - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper
349
- - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper
350
- - CameraCtrl: https://github.com/hehao13/CameraCtrl
351
-
352
- # 许可证
353
- 本项目采用 [Apache License (Version 2.0)](https://github.com/modelscope/modelscope/blob/master/LICENSE).
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - en
5
+ - zh
6
+ pipeline_tag: image-to-video
7
+ library_name: wan2.2
8
+ tags:
9
+ - video
10
+ - video-generation
11
+ - wan2.2
12
+ base_model:
13
+ - Wan-AI/Wan2.2-TI2V-5B
14
+ ---
15
+
16
+ # Wan-Fun
17
+
18
+ 😊 Welcome!
19
+
20
+ [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-yellow)](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP)
21
+
22
+ [![Github](https://img.shields.io/badge/🎬%20Code-Github-blue)](https://github.com/aigc-apps/VideoX-Fun)
23
+
24
+ [English](./README_en.md) | [简体中文](./README.md)
25
+
26
+ # 目录
27
+ - [目录](#目录)
28
+ - [模型地址](#模型地址)
29
+ - [视频作品](#视频作品)
30
+ - [快速启动](#快速启动)
31
+ - [如何使用](#如何使用)
32
+ - [参考文献](#参考文献)
33
+ - [许可证](#许可证)
34
+
35
+ # 模型地址
36
+
37
+ | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 |
38
+ |--|--|--|--|--|
39
+ | Wan2.2-Fun-A14B-InP | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-InP) | Wan2.2-Fun-14B文图生视频权重,以多分辨率训练,支持首尾图预测。 |
40
+ | Wan2.2-Fun-A14B-Control | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-Control)| Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,,以81帧、每秒16帧进行训练,支持多语言预测 |
41
+ | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-Control-Camera) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-Control-Camera)| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,,以81帧、每秒16帧进行训练,支持多语言预测 |
42
+ | Wan2.2-Fun-5B-InP | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-InP) | Wan2.2-Fun-5B文图生视频权重,以121帧、每秒24帧进行训练支持首尾图预测。 |
43
+ | Wan2.2-Fun-5B-Control | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-Control)| Wan2.2-Fun-5B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。以121帧、每秒24帧进行训练,支持多语言��测 |
44
+ | Wan2.2-Fun-5B-Control-Camera | 23.0 GB | [🤗Link](https://huggingface.co/alibaba-pai/Wan2.2-Fun-5B-Control-Camera) | [😄Link](https://modelscope.cn/models/PAI/Wan2.2-Fun-5B-Control-Camera)| Wan2.2-Fun-5B相机镜头控制权重。以121帧、每秒24帧进行训练,支持多语言预测 |
45
+
46
+
47
+ # 视频作品
48
+
49
+ ### Wan2.2-Fun-A14B-InP
50
+
51
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
52
+ <tr>
53
+ <td>
54
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_1.mp4" width="100%" controls autoplay loop></video>
55
+ </td>
56
+ <td>
57
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_2.mp4" width="100%" controls autoplay loop></video>
58
+ </td>
59
+ <td>
60
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_3.mp4" width="100%" controls autoplay loop></video>
61
+ </td>
62
+ <td>
63
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_4.mp4" width="100%" controls autoplay loop></video>
64
+ </td>
65
+ </tr>
66
+ </table>
67
+
68
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
69
+ <tr>
70
+ <td>
71
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_5.mp4" width="100%" controls autoplay loop></video>
72
+ </td>
73
+ <td>
74
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_6.mp4" width="100%" controls autoplay loop></video>
75
+ </td>
76
+ <td>
77
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_7.mp4" width="100%" controls autoplay loop></video>
78
+ </td>
79
+ <td>
80
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/inp_8.mp4" width="100%" controls autoplay loop></video>
81
+ </td>
82
+ </tr>
83
+ </table>
84
+
85
+ ### Wan2.2-Fun-A14B-Control
86
+
87
+ Generic Control Video + Reference Image:
88
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
89
+ <tr>
90
+ <td>
91
+ Reference Image
92
+ </td>
93
+ <td>
94
+ Control Video
95
+ </td>
96
+ <td>
97
+ Wan2.2-Fun-14B-Control
98
+ </td>
99
+ <tr>
100
+ <td>
101
+ <image src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/8.png" width="100%" controls autoplay loop></image>
102
+ </td>
103
+ <td>
104
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose.mp4" width="100%" controls autoplay loop></video>
105
+ </td>
106
+ <td>
107
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/14b_ref.mp4" width="100%" controls autoplay loop></video>
108
+ </td>
109
+ <tr>
110
+ </table>
111
+
112
+ Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control:
113
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
114
+ <tr>
115
+ <td>
116
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/guiji.mp4" width="100%" controls autoplay loop></video>
117
+ </td>
118
+ <td>
119
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/guiji_out.mp4" width="100%" controls autoplay loop></video>
120
+ </td>
121
+ <tr>
122
+ </table>
123
+
124
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
125
+ <tr>
126
+ <td>
127
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose.mp4" width="100%" controls autoplay loop></video>
128
+ </td>
129
+ <td>
130
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/canny.mp4" width="100%" controls autoplay loop></video>
131
+ </td>
132
+ <td>
133
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/depth.mp4" width="100%" controls autoplay loop></video>
134
+ </td>
135
+ <tr>
136
+ <td>
137
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/pose_out.mp4" width="100%" controls autoplay loop></video>
138
+ </td>
139
+ <td>
140
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/canny_out.mp4" width="100%" controls autoplay loop></video>
141
+ </td>
142
+ <td>
143
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/depth_out.mp4" width="100%" controls autoplay loop></video>
144
+ </td>
145
+ </tr>
146
+ </table>
147
+
148
+ ### Wan2.2-Fun-A14B-Control-Camera
149
+
150
+ <table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
151
+ <tr>
152
+ <td>
153
+ Pan Up
154
+ </td>
155
+ <td>
156
+ Pan Left
157
+ </td>
158
+ <td>
159
+ Pan Right
160
+ </td>
161
+ <td>
162
+ Zoom In
163
+ </td>
164
+ <tr>
165
+ <td>
166
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Up.mp4" width="100%" controls autoplay loop></video>
167
+ </td>
168
+ <td>
169
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Left.mp4" width="100%" controls autoplay loop></video>
170
+ </td>
171
+ <td>
172
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Right.mp4" width="100%" controls autoplay loop></video>
173
+ </td>
174
+ <td>
175
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Zoom_In.mp4" width="100%" controls autoplay loop></video>
176
+ </td>
177
+ <tr>
178
+ <td>
179
+ Pan Down
180
+ </td>
181
+ <td>
182
+ Pan Up + Pan Left
183
+ </td>
184
+ <td>
185
+ Pan Up + Pan Right
186
+ </td>
187
+ <td>
188
+ Zoom Out
189
+ </td>
190
+ <tr>
191
+ <td>
192
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_Down.mp4" width="100%" controls autoplay loop></video>
193
+ </td>
194
+ <td>
195
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_UL.mp4" width="100%" controls autoplay loop></video>
196
+ </td>
197
+ <td>
198
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Pan_UR.mp4" width="100%" controls autoplay loop></video>
199
+ </td>
200
+ <td>
201
+ <video src="https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/wan_fun/asset_Wan2_2/v1.0/Zoom_Out.mp4" width="100%" controls autoplay loop></video>
202
+ </td>
203
+ </tr>
204
+ </table>
205
+
206
+
207
+ # 快速启动
208
+ ### 1. 云使用: AliyunDSW/Docker
209
+ #### a. 通过阿里云 DSW
210
+ DSW 有免费 GPU 时间,用户可申请一次,申请后3个月内有效。
211
+
212
+ 阿里云在[Freetier](https://free.aliyun.com/?product=9602825&crowd=enterprise&spm=5176.28055625.J_5831864660.1.e939154aRgha4e&scm=20140722.M_9974135.P_110.MO_1806-ID_9974135-MID_9974135-CID_30683-ST_8512-V_1)提供免费GPU时间,获取并在阿里云PAI-DSW中使用,5分钟内即可启动CogVideoX-Fun。
213
+
214
+ [![DSW Notebook](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/dsw.png)](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideox_fun)
215
+
216
+ #### b. 通过ComfyUI
217
+ 我们的ComfyUI界面如下,具体查看[ComfyUI README](comfyui/README.md)。
218
+ ![workflow graph](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/cogvideoxfunv1_workflow_i2v.jpg)
219
+
220
+ #### c. 通过docker
221
+ 使用docker的情况下,请保证机器中已经正确安装显卡驱动与CUDA环境,然后以此执行以下命令:
222
+
223
+ ```
224
+ # pull image
225
+ docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
226
+
227
+ # enter image
228
+ docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
229
+
230
+ # clone code
231
+ git clone https://github.com/aigc-apps/VideoX-Fun.git
232
+
233
+ # enter VideoX-Fun's dir
234
+ cd VideoX-Fun
235
+
236
+ # download weights
237
+ mkdir models/Diffusion_Transformer
238
+ mkdir models/Personalized_Model
239
+
240
+ # Please use the hugginface link or modelscope link to download the model.
241
+ # CogVideoX-Fun
242
+ # https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
243
+ # https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
244
+
245
+ # Wan
246
+ # https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
247
+ # https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP
248
+ # https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-InP
249
+ # https://modelscope.cn/models/PAI/Wan2.2-Fun-A14B-InP
250
+ ```
251
+
252
+ ### 2. 本地安装: 环境检查/下载/安装
253
+ #### a. 环境检查
254
+ 我们已验证该库可在以下环境中执行:
255
+
256
+ Windows 的详细信息:
257
+ - 操作系统 Windows 10
258
+ - python: python3.10 & python3.11
259
+ - pytorch: torch2.2.0
260
+ - CUDA: 11.8 & 12.1
261
+ - CUDNN: 8+
262
+ - GPU: Nvidia-3060 12G & Nvidia-3090 24G
263
+
264
+ Linux 的详细信息:
265
+ - 操作系统 Ubuntu 20.04, CentOS
266
+ - python: python3.10 & python3.11
267
+ - pytorch: torch2.2.0
268
+ - CUDA: 11.8 & 12.1
269
+ - CUDNN: 8+
270
+ - GPU:Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G
271
+
272
+ 我们需要大约 60GB 的可用磁盘空间,请检查!
273
+
274
+ #### b. 权重放置
275
+ 我们最好将[权重](#model-zoo)按照指定路径进行放置:
276
+
277
+ **通过comfyui**:
278
+ 将模型放入Comfyui的权重文件夹`ComfyUI/models/Fun_Models/`:
279
+ ```
280
+ 📦 ComfyUI/
281
+ ├── 📂 models/
282
+ └── 📂 Fun_Models/
283
+ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
284
+ │ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
285
+ │ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
286
+ │ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
287
+ ```
288
+
289
+ **运行自身的python文件或ui界面**:
290
+ ```
291
+ 📦 models/
292
+ ├── 📂 Diffusion_Transformer/
293
+ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
294
+ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
295
+ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
296
+ │ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
297
+ ├── 📂 Personalized_Model/
298
+ │ └── your trained trainformer model / your trained lora model (for UI load)
299
+ ```
300
+
301
+ # 如何使用
302
+
303
+ <h3 id="video-gen">1. 生成 </h3>
304
+
305
+ #### a、显存节省方案
306
+ 由于Wan2.2的参数非常大,我们需要考虑显存节省方案,以节省显存适应消费级显卡。我们给每个预测文件都提供了GPU_memory_mode,可以在model_cpu_offload,model_cpu_offload_and_qfloat8,sequential_cpu_offload中进行选择。该方案同样适用于CogVideoX-Fun的生成。
307
+
308
+ - model_cpu_offload代表整个模型在使用后会进入cpu,可以节省部分显存。
309
+ - model_cpu_offload_and_qfloat8代表整个模型在使用后会进入cpu,并且对transformer模型进行了float8的量化,可以节省更多的显存。
310
+ - sequential_cpu_offload代表模型的每一层在使用后会进入cpu,速度较慢,节省大量显存。
311
+
312
+ qfloat8会部分降低模型的性能,但可以节省更多的显存。如果显存足够,推荐使用model_cpu_offload
313
+
314
+ #### b、通过comfyui
315
+ 具体查看[ComfyUI README](https://github.com/aigc-apps/VideoX-Fun/tree/main/comfyui)
316
+
317
+ #### c、运行python文件
318
+ - 步骤1:下载对应[权重](#model-zoo)放入models文件夹。
319
+ - 步骤2:根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2,在examples文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以CogVideoX-Fun为例。
320
+ - 文生视频:
321
+ - 使用examples/cogvideox_fun/predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
322
+ - 而后运行examples/cogvideox_fun/predict_t2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos文件夹中。
323
+ - 图生视频:
324
+ - 使用examples/cogvideox_fun/predict_i2v.py文件中修改validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
325
+ - validation_image_start是视频的开始图片,validation_image_end是视频的结尾图片。
326
+ - 而后运行examples/cogvideox_fun/predict_i2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_i2v文件夹中。
327
+ - 视频生视频:
328
+ - 使用examples/cogvideox_fun/predict_v2v.py文件中修改validation_videovalidation_image_endprompt、neg_prompt、guidance_scale和seed。
329
+ - validation_video是视频生视频的参考视频。您可以使用以下视频运行演示:[演示视频](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/play_guitar.mp4)
330
+ - 而后运行examples/cogvideox_fun/predict_v2v.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_v2v文件夹中。
331
+ - 普通控制生视频(Canny、Pose、Depth等):
332
+ - 使用examples/cogvideox_fun/predict_v2v_control.py文件中修改control_video、validation_image_end、prompt、neg_prompt、guidance_scaleseed
333
+ - control_video是控制生视频的控制视频,是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示:[演示视频](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1.1/pose.mp4)
334
+ - 而后运行examples/cogvideox_fun/predict_v2v_control.py文件,等待生成结果,结果保存在samples/cogvideox-fun-videos_v2v_control文件夹中。
335
+ - 步骤3:如果想结合自己训练的其他backbone与Lora,则看情况修改examples/{model_name}/predict_t2v.py中的examples/{model_name}/predict_i2v.py和lora_path。
336
+
337
+ #### d、通过ui界面
338
+
339
+ webui支持文生视频、图生视频、视频生视频和普通控制生视频(Canny、Pose、Depth等)。在examples文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以CogVideoX-Fun为例。
340
+
341
+ - 步骤1:下载对应[权重](#model-zoo)放入models文件夹。
342
+ - 步骤2:运行examples/cogvideox_fun/app.py文件,进入gradio页面。
343
+ - 步骤3:根据页面选择生成模型,填入prompt、neg_prompt、guidance_scale和seed等,点击生成,等待生成结果,结果保存在sample文件夹中。
344
+
345
+ # 参考文献
346
+ - CogVideo: https://github.com/THUDM/CogVideo/
347
+ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate
348
+ - Wan2.1: https://github.com/Wan-Video/Wan2.1/
349
+ - Wan2.1: https://github.com/Wan-Video/Wan2.2/
350
+ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes
351
+ - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper
352
+ - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper
353
+ - CameraCtrl: https://github.com/hehao13/CameraCtrl
354
+
355
+ # 许可证
356
+ 本项目采用 [Apache License (Version 2.0)](https://github.com/modelscope/modelscope/blob/master/LICENSE).