2024 Python 计算生态四月推荐榜 第74期
4月10日 · Python123 1200 人阅读
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
CLIP(Contrastive Language–Image Pretraining)是一种由OpenAI开发的深度学习模型,用于理解图像和文本之间的关系。CLIP模型通过在大规模数据集上进行训练,学习将图像和描述它们的文本紧密地联系起来。这个模型的一个关键特点是它的多功能性:它能够在多种不同类型的视觉和语言任务上表现出色,而无需针对特定任务进行额外的训练。CLIP的主要用途之一是零样本学习,即在没有特定于任务的训练数据的情况下,对新任务进行分类和理解。例如,给定一组图像和一些相关描述,CLIP可以识别出哪些图像与哪些描述最为匹配,即使它之前从未看过这些特定的图像或描述。
2024年4月,随着人工智能和机器学习技术的迅速发展,特别是在CLIP技术的推动下,我们看到了计算机视觉与自然语言处理领域的显著进步。特别推荐10款优秀的Python计算生态工具和框架,以帮助开发者了解CLIP模型。
CLIP
OpenAI 官方提供的CLIP模型实现,支持多种预训练模型和直观的API接口。
https://github.com/openai/CLIP
clip-as-service
CLIP-as-service 是一种基于CLIP 模型的图像和文本跨模态编码服务。它的低延迟、高可靠性的特点使其能作为微服务轻松集成到神经搜索解决方案中。
https://github.com/jina-ai/clip-as-service
open_clip
OpenAI的CLIP开源实现版本,多个预训练模型。
https://github.com/mlfoundations/open_clip
deep-daze
简易的命令行工具,用于使用OpenAI的CLIP和Siren进行文本到图像的生成。这项技术的发现归功于Ryan Murdock(他还为这项技术起了一个很棒的名字!)。
https://github.com/lucidrains/deep-daze
marqo
Marqo不仅仅是一个向量数据库,它是一个针对文本和图像的端到端向量搜索引擎。通过一个单一的API,向量生成、存储和检索都可以即插即用,无需自行提供嵌入。
https://github.com/marqo-ai/marqo
StyleCLIP
StyleCLIP的官方实现,这是一种使用驱动文本来操作图像的方法。我们的方法利用了预训练的StyleGAN生成器的生成能力,以及CLIP的视觉语言能力。
https://github.com/orpatashnik/StyleCLIP
Chinese-CLIP
本项目为CLIP模型的中文版本,使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。本项目代码基于open_clip project建设,并针对中文领域数据以及在中文数据上实现更好的效果做了优化。本项目提供了API、训练代码和测试代码,下文中将详细介绍细节。
https://github.com/OFA-Sys/Chinese-CLIP
mmpretrain
MMPreTrain 是一款基于 PyTorch 的开源深度学习预训练工具箱,是 OpenMMLab 项目的成员之一。
https://github.com/open-mmlab/mmpretrain
VQGAN-CLIP
这是一个用于在本地运行VQGAN+CLIP的代码仓库。这个项目起初是基于Katherine Crowson开发的VQGAN+CLIP的Google Colab笔记本。
https://github.com/nerdyrodent/VQGAN-CLIP
big-sleep
一个简单的命令行工具,用于使用OpenAI的CLIP和BigGAN进行文本到图像的生成。
https://github.com/lucidrains/big-sleep
Python3Turtle