AI视频：Animatediff推动其大规模应用

Midjourney2yrs ago (2024)update lida

174 0 0

文章主题：AI 视频, Midjourney V5, 技术基建

各位朋友或许已经察觉到，近期我对AI视频的发展及其具体实现过程给予了极大的关注。这主要是因为我预计AI视频的Midjourney V5版本即将来临，最晚有望在12月底前广泛应用于生产环境，类似于如今市面上常见的AI绘图软件以及广泛应用的AI图像识别技术。事实上，这一趋势已经开始显现，从早期的Pika，到后来的Genmo，再到前几天的Moonvalley，其表现力和效果都在不断提升。

根本原因是技术基建的成熟，是的就是Animatediff。我的判断主要基于这几个维度的原因：

从生成质量来看：Animatediff在很多场景生成视频的闪烁都已经可以接受了，由于提示旅行这个功能的存在，时间比较长的视频也能获得不错的连贯性。

从控制方式来看：你现在可以通过Animatediff的镜头控制模型来控制镜头，可以利用 ControlNet 来从原始视频转绘，可以基于图片生成视频，控制方式非常全面适合各种场景。

从资源消耗看：Animatediff小分辨率和低帧率的视频的时候 4090 需要的时间已经非常短了，几秒的视频达到了几十秒这个量级，再加上 SD 生态里面各种原有的放大模块，高清视频消耗的资源也可以接受了。

目前Animatediff主要的问题可能还是在有些人看来每段视频的时长过短，无法生产类似电影镜头那种长视频，还有每段视频的连续性不太够。我理解这在现在不是问题，毕竟现在是短视频的天下，几秒十几秒一个镜头的时长已经够用了。想要 AI 一步到位完成电影或者电视 TVC 这种质量的内容本来就是不现实的。

下面是最近一些比较热门的Animatediff视频，可以看一下相关视频的质量，已经出现的Pika和Moonvalley这类产品也可以试用一下。如果认同我的观点的话也可以点个赞，有想要讨论的也可以随时跟我沟通。