ailine/backend/app/model_services/chat_services.py

"""
生成式大模型服务模块

本模块提供统一的生成式大模型服务获取接口，支持多种模型：
1. Local VLLM 服务：本地 gemma-4-E4B-it 模型
2. Zhipu AI：智谱 glm-5.1 模型
3. DeepSeek：deepseek-v4-pro 模型
4. Baosi API：ops4.7 模型

主要功能：
- LocalVLLMChatProvider：本地 VLLM 服务提供者
- ZhipuChatProvider：智谱 API 服务提供者
- DeepSeekChatProvider：DeepSeek API 服务提供者
- BaosiChatProvider：Baosi API 服务提供者
- get_chat_service()：获取默认服务（带自动降级）
- get_all_chat_services()：获取所有可用模型服务（用于多模型切换）
"""

import logging
from typing import Dict, Callable
from langchain_core.language_models import BaseChatModel

from .base import (
    BaseServiceProvider,
    FallbackServiceChain,
    SingletonServiceManager
)
from backend.app.config import (
    VLLM_BASE_URL,
    LLM_API_KEY,
    ZHIPUAI_API_KEY,
    DEEPSEEK_API_KEY,
    BAOSI_API_KEY,
    BAOSI_API_BASE,
    BAOSI_MODEL,
    LOCAL_MODEL_NAME
)

logger = logging.getLogger(__name__)

# 缓存已初始化的模型字典
_cached_services: Dict[str, BaseChatModel] | None = None


def _check_http_service_available(base_url: str, api_key: str = "", timeout: float = 2.0) -> bool:
    """通过探测 /models 端点检查 HTTP API 是否可用（内部工具函数）"""
    try:
        import httpx
        client = httpx.Client(base_url=base_url.rstrip('/'), timeout=timeout)
        headers = {"Authorization": f"Bearer {api_key}"} if api_key else {}
        resp = client.get("/models", headers=headers)
        return resp.status_code == 200
    except Exception:
        return False


class LocalVLLMChatProvider(BaseServiceProvider[BaseChatModel]):
    """
    本地 VLLM 生成式大模型服务提供者
    """
    
    def __init__(self, model: str = None):
        super().__init__("local_vllm_chat")
        self._model = model or LOCAL_MODEL_NAME
    
    def is_available(self) -> bool:
        """
        检查本地 VLLM 服务是否可用
        
        Returns:
            bool: 服务是否可用
        """
        if not VLLM_BASE_URL:
            logger.warning("VLLM_BASE_URL 未配置")
            return False
        
        # 使用统一的 HTTP 探测方法
        return _check_http_service_available(VLLM_BASE_URL, LLM_API_KEY, timeout=2.0)
    
    def get_service(self) -> BaseChatModel:
        """
        获取本地 VLLM 服务
        
        Returns:
            BaseChatModel: LangChain 兼容的 ChatModel 实例
        """
        if self._service_instance is None:
            from langchain_openai import ChatOpenAI
            from pydantic import SecretStr
            
            self._service_instance = ChatOpenAI(
                base_url=VLLM_BASE_URL,
                api_key=SecretStr(LLM_API_KEY) if LLM_API_KEY else SecretStr(""),
                model=self._model,
                timeout=60.0,
                max_retries=2,
                streaming=True,
            )
        return self._service_instance


class ZhipuChatProvider(BaseServiceProvider[BaseChatModel]):
    """
    智谱 AI 生成式大模型服务提供者
    """
    
    def __init__(self, model: str = "glm-5.1"):
        super().__init__("zhipu_chat")
        self._model = model
    
    def is_available(self) -> bool:
        """
        检查智谱 AI 服务是否可用
        
        Returns:
            bool: 服务是否可用
        """
        if not ZHIPUAI_API_KEY:
            logger.warning("ZHIPUAI_API_KEY 未配置")
            return False
        
        try:
            logger.info(f"智谱 AI 服务配置正确，准备使用: {self._model}")
            return True
        except Exception as e:
            logger.warning(f"智谱 AI 服务不可用: {e}")
            return False
    
    def get_service(self) -> BaseChatModel:
        """
        获取智谱 AI 服务
        
        Returns:
            BaseChatModel: LangChain 兼容的 ChatModel 实例
        """
        if self._service_instance is None:
            from langchain_community.chat_models import ChatZhipuAI
            
            self._service_instance = ChatZhipuAI(
                model=self._model,
                api_key=ZHIPUAI_API_KEY,
                temperature=0.1,
                max_tokens=4096,
                timeout=120.0,
                max_retries=3,
                streaming=True,
            )
        return self._service_instance


class DeepSeekChatProvider(BaseServiceProvider[BaseChatModel]):
    """
    DeepSeek 生成式大模型服务提供者
    """
    
    def __init__(self, model: str = "deepseek-v4-pro"):
        super().__init__("deepseek_chat")
        self._model = model
    
    def is_available(self) -> bool:
        """
        检查 DeepSeek 服务是否可用
        
        Returns:
            bool: 服务是否可用
        """
        if not DEEPSEEK_API_KEY:
            logger.warning("DEEPSEEK_API_KEY 未配置")
            return False
        
        try:
            logger.info(f"DeepSeek 服务配置正确，准备使用: {self._model}")
            return True
        except Exception as e:
            logger.warning(f"DeepSeek 服务不可用: {e}")
            return False
    
    def get_service(self) -> BaseChatModel:
        """
        获取 DeepSeek 服务
        
        Returns:
            BaseChatModel: LangChain 兼容的 ChatModel 实例
        """
        if self._service_instance is None:
            from langchain_openai import ChatOpenAI
            from pydantic import SecretStr
            
            self._service_instance = ChatOpenAI(
                base_url="https://api.deepseek.com",
                api_key=SecretStr(DEEPSEEK_API_KEY),
                model=self._model,
                temperature=0.1,
                max_tokens=4096,
                timeout=60.0,
                max_retries=2,
                streaming=True,
            )
        return self._service_instance


class BaosiChatProvider(BaseServiceProvider[BaseChatModel]):
    """
    Baosi API 生成式大模型服务提供者
    """
    
    def __init__(self, model: str = None):
        super().__init__("baosi_chat")
        self._model = model or BAOSI_MODEL
        self._base_url = BAOSI_API_BASE
        self._api_key = BAOSI_API_KEY
    
    def is_available(self) -> bool:
        """
        检查 Baosi API 服务是否可用
        
        Returns:
            bool: 服务是否可用
        """
        if not self._api_key:
            logger.warning("BAOSI_API_KEY 未配置")
            return False
        
        try:
            logger.info(f"Baosi API 服务配置正确，准备使用: {self._model}")
            return True
        except Exception as e:
            logger.warning(f"Baosi API 服务不可用: {e}")
            return False
    
    def get_service(self) -> BaseChatModel:
        """
        获取 Baosi API 服务
        
        Returns:
            BaseChatModel: LangChain 兼容的 ChatModel 实例
        """
        if self._service_instance is None:
            from langchain_openai import ChatOpenAI
            from pydantic import SecretStr
            
            self._service_instance = ChatOpenAI(
                base_url=self._base_url,
                api_key=SecretStr(self._api_key) if self._api_key else SecretStr(""),
                model=self._model,
                temperature=0.1,
                max_tokens=4096,
                timeout=120.0,
                max_retries=2,
                streaming=False,  # Baosi API 可能不兼容 streaming，设置为 False
            )
        return self._service_instance


# ========== 轻量级模型 Provider ==========

class LocalSmallModelProvider(BaseServiceProvider[BaseChatModel]):
    """
    本地轻量级模型服务提供者（用于查询改写、意图分类等简单任务）
    使用小模型独立配置
    """
    
    def __init__(self, model: str = None):
        from backend.app.config import SMALL_LOCAL_MODEL_NAME, SMALL_VLLM_BASE_URL, SMALL_LLM_API_KEY
        super().__init__("local_small")
        self._model = model or SMALL_LOCAL_MODEL_NAME
        self._base_url = SMALL_VLLM_BASE_URL
        self._api_key = SMALL_LLM_API_KEY
    
    def is_available(self) -> bool:
        """检查本地小模型服务是否可用"""
        if not self._base_url:
            logger.warning("SMALL_VLLM_BASE_URL 未配置，本地小模型不可用")
            return False
        
        # 使用统一的 HTTP 探测方法
        return _check_http_service_available(self._base_url, self._api_key, timeout=2.0)
    
    def get_service(self) -> BaseChatModel:
        """获取本地小模型服务"""
        if self._service_instance is None:
            from langchain_openai import ChatOpenAI
            from pydantic import SecretStr
            
            self._service_instance = ChatOpenAI(
                base_url=self._base_url,
                api_key=SecretStr(self._api_key) if self._api_key else SecretStr(""),
                model=self._model,
                timeout=30.0,
                max_retries=2,
                streaming=False,
            )
        return self._service_instance


class DeepSeekSmallModelProvider(BaseServiceProvider[BaseChatModel]):
    """
    DeepSeek 轻量级模型服务提供者（用于查询改写、意图分类等简单任务）
    使用小模型独立配置
    """
    
    def __init__(self, model: str = None):
        from backend.app.config import SMALL_DEEPSEEK_MODEL, SMALL_DEEPSEEK_API_KEY, SMALL_DEEPSEEK_API_BASE
        super().__init__("deepseek_small")
        self._model = model or SMALL_DEEPSEEK_MODEL
        self._api_key = SMALL_DEEPSEEK_API_KEY
        self._api_base = SMALL_DEEPSEEK_API_BASE
    
    def is_available(self) -> bool:
        if not self._api_key:
            logger.warning("SMALL_DEEPSEEK_API_KEY 未配置")
            return False
        logger.info(f"DeepSeek 轻量模型配置正确: {self._model}")
        return True
    
    def get_service(self) -> BaseChatModel:
        if self._service_instance is None:
            from langchain_openai import ChatOpenAI
            from pydantic import SecretStr
            
            self._service_instance = ChatOpenAI(
                base_url=self._api_base,
                api_key=SecretStr(self._api_key),
                model=self._model,
                temperature=0.1,
                max_tokens=2048,
                timeout=30.0,
                max_retries=2,
                streaming=False,
            )
        return self._service_instance


# 全局服务映射表 - 名称 -> Provider
CHAT_PROVIDERS: Dict[str, Callable[[], BaseServiceProvider[BaseChatModel]]] = {
    "local": lambda: LocalVLLMChatProvider(),
    "baosi": lambda: BaosiChatProvider(),
    "zhipu": lambda: ZhipuChatProvider(),
    "deepseek": lambda: DeepSeekChatProvider(),
}


def get_chat_service() -> BaseChatModel:
    """
    获取默认的生成式大模型服务（带自动降级）
    优先顺序: local → baosi → zhipu → deepseek
    
    Returns:
        BaseChatModel: LangChain 兼容的 ChatModel 实例
    """
    def _create_chain():
        primary = LocalVLLMChatProvider()
        fallbacks = [BaosiChatProvider(), ZhipuChatProvider(), DeepSeekChatProvider()]
        return FallbackServiceChain(primary, fallbacks)
    
    chain = SingletonServiceManager.get_or_create("chat_service_chain", _create_chain)
    return chain.get_available_service()


def _init_chat_services() -> Dict[str, BaseChatModel]:
    """实际初始化所有可用模型（仅在首次调用）"""
    services = {}
    
    for name, provider_factory in CHAT_PROVIDERS.items():
        try:
            provider = provider_factory()
            if provider.is_available():
                services[name] = provider.get_service()
                logger.info(f"已加载模型: {name}")
        except Exception as e:
            logger.warning(f"模型 {name} 初始化失败: {e}")
    
    if not services:
        raise RuntimeError(f"没有可用的生成式大模型，尝试了: {list(CHAT_PROVIDERS.keys())}")
    
    return services


def get_cached_chat_services() -> Dict[str, BaseChatModel]:
    """获取缓存的可用模型字典（用于单图动态注入）"""
    global _cached_services
    if _cached_services is None:
        _cached_services = _init_chat_services()
    return _cached_services


def get_all_chat_services() -> Dict[str, BaseChatModel]:
    """
    获取所有可用的生成式大模型服务（用于多模型切换，保留兼容性）
    新代码请使用 get_cached_chat_services() 获取缓存版本
    
    Returns:
        Dict[str, BaseChatModel]: 模型名称 -> ChatModel 实例 的字典
    """
    return get_cached_chat_services()


def get_small_llm_service() -> BaseChatModel:
    """
    获取轻量级大模型服务（用于查询改写、意图分类等简单任务）
    优先顺序: 本地模型 -> DeepSeek 小模型
    ⚠️  注意：小模型任务不降级到大模型，避免不必要的 token 消耗！
    
    Returns:
        BaseChatModel: LangChain 兼容的 ChatModel 实例
    """
    def _create_small_chain():
        primary = LocalSmallModelProvider()
        fallbacks = [DeepSeekSmallModelProvider()]
        return FallbackServiceChain(primary, fallbacks)
    
    chain = SingletonServiceManager.get_or_create("small_llm_chain", _create_small_chain)
    return chain.get_available_service()
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								"""
 								生成式大模型服务模块
 								本模块提供统一的生成式大模型服务获取接口，支持多种模型：
 . Local VLLM 服务：本地 gemma-4-E4B-it 模型
-												update: 升级模型版本 - 智谱 glm-4.7-flash -> glm-5.1, DeepSeek deepseek-reasoner -> deepseek-v4-pro

											
										
										
											2026-05-01 02:56:09 +08:00
+. Zhipu AI：智谱 glm-5.1 模型
 . DeepSeek：deepseek-v4-pro 模型
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+. Baosi API：ops4.7 模型
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								主要功能：
 								- LocalVLLMChatProvider：本地 VLLM 服务提供者
 								- ZhipuChatProvider：智谱 API 服务提供者
 								- DeepSeekChatProvider：DeepSeek API 服务提供者
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								- BaosiChatProvider：Baosi API 服务提供者
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								- get_chat_service()：获取默认服务（带自动降级）
 								- get_all_chat_services()：获取所有可用模型服务（用于多模型切换）
 								"""
 								import logging
 								from typing import Dict, Callable
 								from langchain_core.language_models import BaseChatModel
 								from .base import (
 								    BaseServiceProvider,
 								    FallbackServiceChain,
 								    SingletonServiceManager
 								)
-												添加rag置信度判断

											
										
										
											2026-05-06 01:15:52 +08:00
+								from backend.app.config import (
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								    VLLM_BASE_URL,
 								    LLM_API_KEY,
 								    ZHIPUAI_API_KEY,
-												fix: 修复本地llm服务不可用问题 + 统一模型缓存目录位置

- 修复 config.py 添加 LOCAL_MODEL_NAME 配置项
- 修复 chat_services.py 本地模型检测时API路径重复问题(/v1/models -> /models)
- 更新 .gitignore，移除模型目录跟踪
- 统一模型缓存到 docker/models/fastembed_cache，避免重复
- 更新 Dockerfile，正确复制预下载的BM25模型缓存

											
										
										
											2026-05-04 03:26:19 +08:00
+								    DEEPSEEK_API_KEY,
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								    BAOSI_API_KEY,
 								    BAOSI_API_BASE,
 								    BAOSI_MODEL,
-												fix: 修复本地llm服务不可用问题 + 统一模型缓存目录位置

- 修复 config.py 添加 LOCAL_MODEL_NAME 配置项
- 修复 chat_services.py 本地模型检测时API路径重复问题(/v1/models -> /models)
- 更新 .gitignore，移除模型目录跟踪
- 统一模型缓存到 docker/models/fastembed_cache，避免重复
- 更新 Dockerfile，正确复制预下载的BM25模型缓存

											
										
										
											2026-05-04 03:26:19 +08:00
+								    LOCAL_MODEL_NAME
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								)
 								logger = logging.getLogger(__name__)
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								# 缓存已初始化的模型字典
 								_cached_services: Dict[str, BaseChatModel] | None = None
 								def _check_http_service_available(base_url: str, api_key: str = "", timeout: float = 2.0) -> bool:
 								    """通过探测 /models 端点检查 HTTP API 是否可用（内部工具函数）"""
 								    try:
 								        import httpx
 								        client = httpx.Client(base_url=base_url.rstrip('/'), timeout=timeout)
 								        headers = {"Authorization": f"Bearer {api_key}"} if api_key else {}
 								        resp = client.get("/models", headers=headers)
 								        return resp.status_code == 200
 								    except Exception:
 								        return False
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								class LocalVLLMChatProvider(BaseServiceProvider[BaseChatModel]):
 								    """
 								    本地 VLLM 生成式大模型服务提供者
 								    """
-												fix: 修复本地llm服务不可用问题 + 统一模型缓存目录位置

- 修复 config.py 添加 LOCAL_MODEL_NAME 配置项
- 修复 chat_services.py 本地模型检测时API路径重复问题(/v1/models -> /models)
- 更新 .gitignore，移除模型目录跟踪
- 统一模型缓存到 docker/models/fastembed_cache，避免重复
- 更新 Dockerfile，正确复制预下载的BM25模型缓存

											
										
										
											2026-05-04 03:26:19 +08:00
+								    def __init__(self, model: str = None):
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								        super().__init__("local_vllm_chat")
-												fix: 修复本地llm服务不可用问题 + 统一模型缓存目录位置

- 修复 config.py 添加 LOCAL_MODEL_NAME 配置项
- 修复 chat_services.py 本地模型检测时API路径重复问题(/v1/models -> /models)
- 更新 .gitignore，移除模型目录跟踪
- 统一模型缓存到 docker/models/fastembed_cache，避免重复
- 更新 Dockerfile，正确复制预下载的BM25模型缓存

											
										
										
											2026-05-04 03:26:19 +08:00
+								        self._model = model or LOCAL_MODEL_NAME
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								    def is_available(self) -> bool:
 								        """
 								        检查本地 VLLM 服务是否可用
 								        Returns:
 								            bool: 服务是否可用
 								        """
 								        if not VLLM_BASE_URL:
 								            logger.warning("VLLM_BASE_URL 未配置")
 								            return False
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								        # 使用统一的 HTTP 探测方法
 								        return _check_http_service_available(VLLM_BASE_URL, LLM_API_KEY, timeout=2.0)
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								    def get_service(self) -> BaseChatModel:
 								        """
 								        获取本地 VLLM 服务
 								        Returns:
 								            BaseChatModel: LangChain 兼容的 ChatModel 实例
 								        """
 								        if self._service_instance is None:
 								            from langchain_openai import ChatOpenAI
 								            from pydantic import SecretStr
 								            self._service_instance = ChatOpenAI(
 								                base_url=VLLM_BASE_URL,
 								                api_key=SecretStr(LLM_API_KEY) if LLM_API_KEY else SecretStr(""),
 								                model=self._model,
 								                timeout=60.0,
 								                max_retries=2,
 								                streaming=True,
 								            )
 								        return self._service_instance
 								class ZhipuChatProvider(BaseServiceProvider[BaseChatModel]):
 								    """
 								    智谱 AI 生成式大模型服务提供者
 								    """
-												update: 升级模型版本 - 智谱 glm-4.7-flash -> glm-5.1, DeepSeek deepseek-reasoner -> deepseek-v4-pro

											
										
										
											2026-05-01 02:56:09 +08:00
+								    def __init__(self, model: str = "glm-5.1"):
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								        super().__init__("zhipu_chat")
 								        self._model = model
 								    def is_available(self) -> bool:
 								        """
 								        检查智谱 AI 服务是否可用
 								        Returns:
 								            bool: 服务是否可用
 								        """
 								        if not ZHIPUAI_API_KEY:
 								            logger.warning("ZHIPUAI_API_KEY 未配置")
 								            return False
 								        try:
 								            logger.info(f"智谱 AI 服务配置正确，准备使用: {self._model}")
 								            return True
 								        except Exception as e:
 								            logger.warning(f"智谱 AI 服务不可用: {e}")
 								            return False
 								    def get_service(self) -> BaseChatModel:
 								        """
 								        获取智谱 AI 服务
 								        Returns:
 								            BaseChatModel: LangChain 兼容的 ChatModel 实例
 								        """
 								        if self._service_instance is None:
 								            from langchain_community.chat_models import ChatZhipuAI
 								            self._service_instance = ChatZhipuAI(
 								                model=self._model,
 								                api_key=ZHIPUAI_API_KEY,
 								                temperature=0.1,
 								                max_tokens=4096,
 								                timeout=120.0,
 								                max_retries=3,
 								                streaming=True,
 								            )
 								        return self._service_instance
 								class DeepSeekChatProvider(BaseServiceProvider[BaseChatModel]):
 								    """
 								    DeepSeek 生成式大模型服务提供者
 								    """
-												update: 升级模型版本 - 智谱 glm-4.7-flash -> glm-5.1, DeepSeek deepseek-reasoner -> deepseek-v4-pro

											
										
										
											2026-05-01 02:56:09 +08:00
+								    def __init__(self, model: str = "deepseek-v4-pro"):
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								        super().__init__("deepseek_chat")
 								        self._model = model
 								    def is_available(self) -> bool:
 								        """
 								        检查 DeepSeek 服务是否可用
 								        Returns:
 								            bool: 服务是否可用
 								        """
 								        if not DEEPSEEK_API_KEY:
 								            logger.warning("DEEPSEEK_API_KEY 未配置")
 								            return False
 								        try:
 								            logger.info(f"DeepSeek 服务配置正确，准备使用: {self._model}")
 								            return True
 								        except Exception as e:
 								            logger.warning(f"DeepSeek 服务不可用: {e}")
 								            return False
 								    def get_service(self) -> BaseChatModel:
 								        """
 								        获取 DeepSeek 服务
 								        Returns:
 								            BaseChatModel: LangChain 兼容的 ChatModel 实例
 								        """
 								        if self._service_instance is None:
 								            from langchain_openai import ChatOpenAI
 								            from pydantic import SecretStr
 								            self._service_instance = ChatOpenAI(
 								                base_url="https://api.deepseek.com",
 								                api_key=SecretStr(DEEPSEEK_API_KEY),
 								                model=self._model,
 								                temperature=0.1,
 								                max_tokens=4096,
 								                timeout=60.0,
 								                max_retries=2,
 								                streaming=True,
 								            )
 								        return self._service_instance
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								class BaosiChatProvider(BaseServiceProvider[BaseChatModel]):
 								    """
 								    Baosi API 生成式大模型服务提供者
 								    """
 								    def __init__(self, model: str = None):
 								        super().__init__("baosi_chat")
 								        self._model = model or BAOSI_MODEL
 								        self._base_url = BAOSI_API_BASE
 								        self._api_key = BAOSI_API_KEY
 								    def is_available(self) -> bool:
 								        """
 								        检查 Baosi API 服务是否可用
 								        Returns:
 								            bool: 服务是否可用
 								        """
 								        if not self._api_key:
 								            logger.warning("BAOSI_API_KEY 未配置")
 								            return False
 								        try:
 								            logger.info(f"Baosi API 服务配置正确，准备使用: {self._model}")
 								            return True
 								        except Exception as e:
 								            logger.warning(f"Baosi API 服务不可用: {e}")
 								            return False
 								    def get_service(self) -> BaseChatModel:
 								        """
 								        获取 Baosi API 服务
 								        Returns:
 								            BaseChatModel: LangChain 兼容的 ChatModel 实例
 								        """
 								        if self._service_instance is None:
 								            from langchain_openai import ChatOpenAI
 								            from pydantic import SecretStr
 								            self._service_instance = ChatOpenAI(
 								                base_url=self._base_url,
 								                api_key=SecretStr(self._api_key) if self._api_key else SecretStr(""),
 								                model=self._model,
 								                temperature=0.1,
 								                max_tokens=4096,
 								                timeout=120.0,
 								                max_retries=2,
 								                streaming=False,  # Baosi API 可能不兼容 streaming，设置为 False
 								            )
 								        return self._service_instance
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								# ========== 轻量级模型 Provider ==========
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								class LocalSmallModelProvider(BaseServiceProvider[BaseChatModel]):
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								    """
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    本地轻量级模型服务提供者（用于查询改写、意图分类等简单任务）
 								    使用小模型独立配置
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								    """
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    def __init__(self, model: str = None):
-												添加rag置信度判断

											
										
										
											2026-05-06 01:15:52 +08:00
+								        from backend.app.config import SMALL_LOCAL_MODEL_NAME, SMALL_VLLM_BASE_URL, SMALL_LLM_API_KEY
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        super().__init__("local_small")
 								        self._model = model or SMALL_LOCAL_MODEL_NAME
 								        self._base_url = SMALL_VLLM_BASE_URL
 								        self._api_key = SMALL_LLM_API_KEY
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
 								    def is_available(self) -> bool:
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        """检查本地小模型服务是否可用"""
 								        if not self._base_url:
 								            logger.warning("SMALL_VLLM_BASE_URL 未配置，本地小模型不可用")
 								            return False
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								        # 使用统一的 HTTP 探测方法
 								        return _check_http_service_available(self._base_url, self._api_key, timeout=2.0)
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
 								    def get_service(self) -> BaseChatModel:
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        """获取本地小模型服务"""
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								        if self._service_instance is None:
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								            from langchain_openai import ChatOpenAI
 								            from pydantic import SecretStr
 								            self._service_instance = ChatOpenAI(
 								                base_url=self._base_url,
 								                api_key=SecretStr(self._api_key) if self._api_key else SecretStr(""),
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								                model=self._model,
 								                timeout=30.0,
 								                max_retries=2,
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								                streaming=False,
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								            )
 								        return self._service_instance
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								class DeepSeekSmallModelProvider(BaseServiceProvider[BaseChatModel]):
 								    """
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    DeepSeek 轻量级模型服务提供者（用于查询改写、意图分类等简单任务）
 								    使用小模型独立配置
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								    """
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    def __init__(self, model: str = None):
-												添加rag置信度判断

											
										
										
											2026-05-06 01:15:52 +08:00
+								        from backend.app.config import SMALL_DEEPSEEK_MODEL, SMALL_DEEPSEEK_API_KEY, SMALL_DEEPSEEK_API_BASE
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								        super().__init__("deepseek_small")
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        self._model = model or SMALL_DEEPSEEK_MODEL
 								        self._api_key = SMALL_DEEPSEEK_API_KEY
 								        self._api_base = SMALL_DEEPSEEK_API_BASE
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
 								    def is_available(self) -> bool:
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        if not self._api_key:
 								            logger.warning("SMALL_DEEPSEEK_API_KEY 未配置")
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								            return False
 								        logger.info(f"DeepSeek 轻量模型配置正确: {self._model}")
 								        return True
 								    def get_service(self) -> BaseChatModel:
 								        if self._service_instance is None:
 								            from langchain_openai import ChatOpenAI
 								            from pydantic import SecretStr
 								            self._service_instance = ChatOpenAI(
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								                base_url=self._api_base,
 								                api_key=SecretStr(self._api_key),
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								                model=self._model,
 								                temperature=0.1,
 								                max_tokens=2048,
 								                timeout=30.0,
 								                max_retries=2,
 								                streaming=False,
 								            )
 								        return self._service_instance
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								# 全局服务映射表 - 名称 -> Provider
 								CHAT_PROVIDERS: Dict[str, Callable[[], BaseServiceProvider[BaseChatModel]]] = {
 								    "local": lambda: LocalVLLMChatProvider(),
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								    "baosi": lambda: BaosiChatProvider(),
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								    "zhipu": lambda: ZhipuChatProvider(),
 								    "deepseek": lambda: DeepSeekChatProvider(),
 								}
 								def get_chat_service() -> BaseChatModel:
 								    """
 								    获取默认的生成式大模型服务（带自动降级）
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								    优先顺序: local → baosi → zhipu → deepseek
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								    Returns:
 								        BaseChatModel: LangChain 兼容的 ChatModel 实例
 								    """
 								    def _create_chain():
 								        primary = LocalVLLMChatProvider()
-												feat: 完成极简 LangGraph 架构迁移，添加 Baosi API 支持

主要变更：
- 迁移到极简 LangGraph 标准架构（START → init_state → 记忆 → Agent ⇄ Tools → finalize → END）
- 添加 Baosi API 支持，配置 ops4.7 模型
- 保留本地模型作为默认首选，Baosi 作为备选
- 新架构使用 LangGraph 原生 ToolNode 和 bind_tools
- 移除旧的混合路由、JSON 解析等复杂逻辑
- 把旧代码移到 deprecated/ 目录
- 添加新的 Agent 节点和 Tools 模块
- 添加测试脚本验证新架构
- 所有测试通过 ✓

											
										
										
											2026-05-07 00:48:17 +08:00
+								        fallbacks = [BaosiChatProvider(), ZhipuChatProvider(), DeepSeekChatProvider()]
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								        return FallbackServiceChain(primary, fallbacks)
 								    chain = SingletonServiceManager.get_or_create("chat_service_chain", _create_chain)
 								    return chain.get_available_service()
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								def _init_chat_services() -> Dict[str, BaseChatModel]:
 								    """实际初始化所有可用模型（仅在首次调用）"""
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								    services = {}
 								    for name, provider_factory in CHAT_PROVIDERS.items():
 								        try:
 								            provider = provider_factory()
 								            if provider.is_available():
 								                services[name] = provider.get_service()
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								                logger.info(f"已加载模型: {name}")
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
+								        except Exception as e:
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								            logger.warning(f"模型 {name} 初始化失败: {e}")
-												refactor: 将生成式大模型提取为服务层架构，移除 llm_factory

											
										
										
											2026-04-26 12:00:57 +08:00
 								    if not services:
 								        raise RuntimeError(f"没有可用的生成式大模型，尝试了: {list(CHAT_PROVIDERS.keys())}")
 								    return services
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
-												refactor: 单图方案重构 + 动态模型选择 + chat_services优化

## 核心改动

### 1. 单图方案重构
- 删除了多图（self.graphs），改为单图（self.graph）
- 新增 MainGraphState.current_model 字段用于运行时注入模型
- llm_call 节点改为动态选择模型（create_dynamic_llm_call_node）

### 2. chat_services 优化
- 添加 _cached_services 缓存，避免重复初始化
- 新增 get_cached_chat_services() 函数，用于单图注入
- 新增 _check_http_service_available() 统一HTTP探测逻辑
- 减少重复代码，LocalVLLMChatProvider和LocalSmallModelProvider共用探测方法

### 3. AIAgentService 重构
- initialize() 只构建一次图，传入 chat_services 字典
- 新增 _resolve_model() 模型回退逻辑
- 新增 _build_invocation() 统一构建调用参数
- process_message() 和 process_message_stream() 改为注入 current_model
- 流式处理代码拆分，增加可读性

### 4. 新增和删除文件
- 新增：backend/app/main_graph/main_graph_builder.py（图构建）
- 新增：backend/app/main_graph/subgraph_wrapper.py（子图封装）
- 新增：tools/test/test_tavily_search.py（测试）
- 删除：backend/app/main_graph/graph.py（旧图）
- 删除：backend/app/main_graph/utils/main_graph_builder.py（旧构建器）
- 删除：backend/app/main_graph/utils/__init__.py

### 5. 其他更新
- README.md：新增模型服务使用情况详解章节
- backend/app/model_services/__init__.py：新增 get_cached_chat_services 导出

## 方案优势

- 内存优化：N张图 → 1张图
- 灵活性：运行时动态选择模型，支持同会话不同模型
- 性能：模型服务缓存，初始化仅一次
- 可维护性：减少重复代码，统一HTTP探测逻辑

											
										
										
											2026-05-05 17:30:55 +08:00
+								def get_cached_chat_services() -> Dict[str, BaseChatModel]:
 								    """获取缓存的可用模型字典（用于单图动态注入）"""
 								    global _cached_services
 								    if _cached_services is None:
 								        _cached_services = _init_chat_services()
 								    return _cached_services
 								def get_all_chat_services() -> Dict[str, BaseChatModel]:
 								    """
 								    获取所有可用的生成式大模型服务（用于多模型切换，保留兼容性）
 								    新代码请使用 get_cached_chat_services() 获取缓存版本
 								    Returns:
 								        Dict[str, BaseChatModel]: 模型名称 -> ChatModel 实例 的字典
 								    """
 								    return get_cached_chat_services()
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								def get_small_llm_service() -> BaseChatModel:
 								    """
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    获取轻量级大模型服务（用于查询改写、意图分类等简单任务）
 								    优先顺序: 本地模型 -> DeepSeek 小模型
 								    ⚠️  注意：小模型任务不降级到大模型，避免不必要的 token 消耗！
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
 								    Returns:
 								        BaseChatModel: LangChain 兼容的 ChatModel 实例
 								    """
 								    def _create_small_chain():
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								        primary = LocalSmallModelProvider()
-												✨ 完整的混合路由优化系统

1. 双模型服务 (llm + smallLLM)
   - 增加 get_small_llm_service() 函数
   - 支持智谱/DeepSeek 小模型作为轻量级选项

2. 前置混合路由
   - 规则快速分流（无 LLM，超快速）
   - 轻量级意图分类（smallLLM）
   - 快速路径：fast_chitchat, fast_rag, fast_tool

3. 自动升级机制
   - 快速路径失败 → 自动回到 React 循环
   - SSE 事件增强：intent_classified, path_decision, fast_path_*, escalation

4. 向后兼容
   - build_react_main_graph(use_hybrid_router=True/False)
   - 可选择启用或禁用混合路由

5. 更新 intent.py
   - 支持 use_small_llm 参数
   - 保留原有完整功能供 React 循环使用

											
										
										
											2026-05-03 16:45:46 +08:00
+								        fallbacks = [DeepSeekSmallModelProvider()]
 								        return FallbackServiceChain(primary, fallbacks)
-												refactor: 重构RAG核心组件，简化代码结构和测试文件

											
										
										
											2026-05-04 17:58:10 +08:00
+								    chain = SingletonServiceManager.get_or_create("small_llm_chain", _create_small_chain)
 								    return chain.get_available_service()