2024 Python 计算生态九月推荐榜 第79期
9月11日 · Python123 486 人阅读
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将检索和生成结合的自然语言处理技术。这种方法尤其在处理复杂问题时非常有效,因为它可以结合外部知识库或数据库中的信息来提高生成模型的回答质量。模型首先从一个大型文档集合或知识库中检索出与用户问题最相关的文档或段落。然后生成模型将检索到的文档或段落作为上下文,生成一个连贯且有意义的回答。生成模型利用检索到的信息,结合自身的语言生成能力,生成回答。检索到的信息增强了生成模型的回答能力,使得回答不仅基于语言模型的预训练知识,还结合了最新的、特定领域的外部知识。这使得 RAG 模型在特定领域问题或需要最新信息的任务中表现更好。
2024年9月,随着RAG技术在金融、医疗、教育等行业的应用不断拓展,受到了越来越多的关注。特别推荐10款优秀的Python计算生态工具和框架,以帮助开发者更好地理解和应用检索增强生成技术。
ragflow
RAGFlow 是一款基于深度文档理解构建的开源RAG(Retrieval-Augmented Generation)引擎。 RAGFlow 可以为各种规模的企业及个人提供一套精简的RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
https://github.com/infiniflow/ragflow
ragas
RAGAS是一个对检索增强生成(RAG)pipeline进行无参考评估的框架。 考虑标准的RAG设置,即给定一个问题q,系统首先检索一些上下文c(q),然后使用检索到的上下文生成答案as(q)。
在构建RAG系统时,通常无法访问人工标注的数据集或参考答案,因此该工作将重点放在 完全独立且无参考的度量指标上
。
https://github.com/explodinggradients/ragas
graphrag
GraphRAG 是一种结构化的、分层的检索增强生成(RAG) 方法,不同于使用纯文本片段的简单语义搜索方法。 GraphRAG 流程包括从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要,然后在执行基于RAG 的任务时利用这些结构。
https://github.com/microsoft/graphrag
LlamaParse
LlamaParse
是一款由LlamaIndex 开发的API,旨在为开发者提供高效且灵活的文件解析服务,特别适合于文档检索和上下文增强。
https://github.com/run-llama/llama_parse
AutoRAG
RAG AutoML 工具可自动为您的数据找到最佳 RAG 管道。
https://github.com/Marker-Inc-Korea/AutoRAG
RAG
使用 PyMuPDF 的 RAG(检索增强生成)聊天机器人示例。
https://github.com/pymupdf/RAG
langchain-rag-tutorial
一个简单的
Langchain RAG 应用程序。
https://github.com/pixegami/langchain-rag-tutorial
RAG
基于
Flask API 的解决方案中 Rag(检索增强生成)Python 解决方案与
llama3、LangChain、Ollama
和 ChromaDB。
https://github.com/ThomasJay/RAG
llmware
使用小型专业模型构建企业
RAG 管道的统一框架。
https://github.com/llmware-ai/llmware
paper-qa
这是一个最小的包,用于从pdf或文本文件 (可以是原始HTML) 中进行问题和回答。它努力给出非常好的答案,没有幻觉,通过文本引用的基础回应。
Python3Turtle