2023 Python 计算生态八月推荐榜 第66期

23年8月10日 · Python123 1938 人阅读
![]() |
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
向量数据库是一种将数据存储为高维向量的数据库类型,这些向量是特征或属性的数学表示。每个向量具有一定数量的维度,可以从十几到数千个不等,具体取决于数据的复杂性和细粒度。这些向量通常是通过将原始数据(如文本、图像、音频、视频等)应用某种转换或嵌入函数生成的。嵌入函数可以基于各种方法,如机器学习模型、词嵌入、特征提取算法。向量数据库的主要优势在于它可以基于向量的距离或相似度进行快速准确的相似性搜索和检索。这意味着您可以使用向量数据库,而不是使用传统的基于完全匹配或预定义条件的数据库查询方法,来找到最相似或相关的数据,基于它们的语义或上下文含义。例如,您可以使用向量数据库来:根据图像的视觉内容和风格,找到与给定图像相似的图像,根据文档的主题和情感,找到与给定文档相似的文档,根据产品的特征和评分,找到与给定产品相似的产品。
2023年8月,随着大量的向量数据库不断涌现,好事者特别推荐10款优秀的Python计算生态,帮助您了解向量数据库。
milvus
Milvus是一个开源的向量相似度搜索引擎,主要用于大规模向量数据的存储、管理和高效相似度搜索。它提供了可扩展的分布式存储和处理能力,以及针对向量数据的高效搜索算法。
https://github.com/milvus-io/milvus
weaviate
weaviate是一个开源的知识图谱和搜索引擎。它提供了可扩展的向量化数据模型,使得数据能够根据语义相似性进行高效的搜索和分类。
Qdrant
Qdrant是一个向量相似性搜索引擎和向量数据库。它提供了一个生产就绪的服务,带有一个方便的 API 来存储、搜索和管理带有额外负载的点向量 Qdrant 是为扩展过滤支持而定制的。它对于各种神经网络或基于语义的匹配、分面搜索和其他应用都很有用。
https://github.com/qdrant/qdrant
pinecone
Pinecone 是一个矢量数据库,使开发人员只需使用API 即可轻松地向其应用程序添加矢量搜索功能。
chroma
AI本地化开源嵌入式数据库。
https://github.com/chroma-core/chroma
vectordb
一个Python矢量数据库。
https://github.com/jina-ai/vectordb
hyperDB
用于LLM代理的超快速本地矢量数据库。
https://github.com/jdagdelen/hyperDB
nucliadb
NucliaDB,为文档和视频搜索优化的矢量数据库。
https://github.com/nuclia/nucliadb
vlite
用numpy制作的简单矢量数据库。
lancedb
适用于 AI 应用程序的开发人员友好型无服务器矢量数据库。
https://github.com/lancedb/lancedb
Python3Turtle