2024 Python 计算生态三月推荐榜 第73期
3月10日 · Python123 2191 人阅读
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
text-to-video技术是一种先进的人工智能应用,它允许用户仅通过输入文本描述来创建动态视频内容。这种技术的核心在于将自然语言理解与视觉内容生成相结合。用户可以输入一个故事、描述、情景或任何文本指令,系统将这些文字信息转换成相应的视频。例如,如果用户描述一个场景,如“一个小孩在公园里追逐蝴蝶”,模型将理解这个描述,并创建一个展示这一场景的视频。这不仅包括视觉元素(如小孩、蝴蝶、公园),还包括动态元素(如追逐动作),甚至可能包括音频元素(如孩子的笑声或背景音乐)。
2024年3月,随着人工智能和机器学习技术的进步,以及sora文生视频大模型的发布,特别推荐10款优秀的Python计算生态工具和框架,以帮助开发者了解 text-to-video 领域。
text-to-video-ms-1.7b
这是一个基于多阶段扩散模型的文本到视频的生成模型,能够根据输入的描述性文本生成与之匹配的视频。目前,该模型仅支持英语输入。
https://huggingface.co/ali-vilab/text-to-video-ms-1.7b
zeroscope_v2_576w
Zeroscope_v2 576w 是一个基于 Modelscope 的视频模型,没有水印,专为生成高质量的 16:9 视频构图和平滑的视频输出而优化。该模型是从原始权重中训练而来,使用了 9,923 段视频剪辑和
29,769 帧标记帧,分辨率为 576x320,以
24 帧速率进行训练。
https://huggingface.co/cerspense/zeroscope_v2_576w
AnimateLCM
"AnimateLCM用于快速视频生成的四个步骤。AnimateLCM:通过解耦一致性学习加速个性化扩散模型和适配器的动画制作,作者是Fu-Yun Wang等人。
https://huggingface.co/wangfuyun/AnimateLCM
Hotshot-XL
Hotshot-XL 是一个与 Stable Diffusion XL(SDXL)协作的
AI 文本到GIF模型。
https://huggingface.co/hotshotco/Hotshot-XL
animatediff-motion-lora-zoom-out
Motion LoRAs(Learning Overlaid Registration of Animations)允许你向动画中添加特定类型的运动。
https://huggingface.co/guoyww/animatediff-motion-lora-zoom-out
i2vgen-xl
VGen是阿里巴巴集团同仪实验室开发的一个开源视频合成代码库,包含了最先进的视频生成模型。
https://huggingface.co/ali-vilab/i2vgen-xl
animov-512x
这是一个为扩散器设计的文本到视频模型,通过ModelScope进行了微调,使其具有动漫风格的外观。
与之前的版本相比,该模型现在具有更加动漫风格的外观。 它的训练分辨率为512x512。
https://huggingface.co/vdo/animov-512x
potat1
这是一个开源的文本生成视频模型。
https://huggingface.co/camenduru/potat1
Text_to_Vision
一个使用 Hugging Face Transformers 库进行微调的文本到视频生成模型。该模型经过大约1000步的训练,可以从文本输入生成视频内容。
https://huggingface.co/Revanthraja/Text_to_Vision
text2video-zero-controlnet-canny-anime
Text2Video-Zero是一个零样本文本到视频生成器。它能够进行零样本文本到视频的生成,视频指令Pix2Pix(指令引导的视频编辑),文本和姿势条件的视频生成,文本和Canny边缘条件的视频生成,以及文本、Canny边缘和Dreambooth条件的视频生成。
https://huggingface.co/PAIR/text2video-zero-controlnet-canny-anime
Python3Turtle