重构：添加模型服务模块，支持嵌入和重排服务的自动降级

新增功能： - 创建 app/model_services 模块，提供统一的模型服务获取接口 - 实现 BaseServiceProvider 基类和 FallbackServiceChain 降级链 - 实现 get_embedding_service()：优先本地 llama.cpp，降级到智谱 API - 实现 get_rerank_service()：优先本地 llama.cpp，降级到智谱 API - 支持单例管理，确保全局只有一个服务实例修改内容： - 更新 app/config.py，添加智谱 API 相关配置 - 修改 rag_core/vector_store.py：支持接受外部传入的 embeddings - 修改 rag_core/retriever_factory.py：支持接受外部传入的 embeddings - 修改 app/agent/rag_initializer.py：使用 get_embedding_service() - 修改 app/rag/pipeline.py：使用 get_rerank_service() - 修改 app/memory/mem0_client.py：智能判断可用服务配置 mem0 - 修改 rag_indexer/index_builder.py：支持使用新服务，保持向后兼容 - 修改 rag_indexer/config.py：添加智谱配置环境变量： - ZHIPUAI_API_KEY：智谱 API 密钥（必选） - ZHIPU_EMBEDDING_MODEL：可选，默认 embedding-3 - ZHIPU_RERANK_MODEL：可选，默认 rerank-2 - ZHIPU_API_BASE：可选，默认 https://open.bigmodel.cn/api/paas/v4
2026-04-24 22:52:36 +08:00
parent 4722e2646a
commit 8db63e7a8d
13 changed files with 794 additions and 58 deletions
--- a/backend/rag_core/retriever_factory.py
+++ b/backend/rag_core/retriever_factory.py
@@ -17,10 +17,11 @@ def create_parent_retriever(
    parent_chunk_overlap: int = 100,
    child_chunk_size: int = 200,
    child_chunk_overlap: int = 20,
+    embeddings: Embeddings | None = None,
 ) -> ParentDocumentRetriever:
    """
    创建 ParentDocumentRetriever 实例。
-
+    
    Args:
        collection_name: Qdrant 集合名称，默认 "rag_documents"
        parent_splitter: 父文档切分器，默认 None（使用默认参数创建）
@@ -31,16 +32,18 @@ def create_parent_retriever(
        parent_chunk_overlap: 父文档块重叠大小，默认 100
        child_chunk_size: 子文档块大小，默认 200
        child_chunk_overlap: 子文档块重叠大小，默认 20
-
+        embeddings: 嵌入模型实例，默认 None（使用内部默认的 LocalLlamaCppEmbedder）
+    
    Returns:
        ParentDocumentRetriever 实例
    """
    # 嵌入模型
-    embedder = LlamaCppEmbedder()
-    embeddings = embedder.as_langchain_embeddings()
-
+    if embeddings is None:
+        embedder = LlamaCppEmbedder()
+        embeddings = embedder.as_langchain_embeddings()
+    
    # 向量存储（只读）
-    vector_store = QdrantVectorStore(collection_name=collection_name)
+    vector_store = QdrantVectorStore(collection_name=collection_name, embeddings=embeddings)

    # 切分器（若未提供则创建默认）
    if parent_splitter is None: