feat: RAG混合检索系统完整实现 + 启动脚本修复
Some checks failed
构建并部署 AI Agent 服务 / deploy (push) Failing after 5m4s

- 实现了稠密+稀疏混合检索,使用 Qdrant 原生 RRF 融合
- 修复了 retriever.py 的 BaseRetriever 继承和稀疏向量包装问题
- 修复了 pipeline.py 的 Optional 导入问题
- 添加了稀疏 embedder 的缓存配置
- 简化了 vector_store.py,移除不必要的逻辑
- 修复了 start.sh 的 PROJECT_DIR 硬编码和端口配置问题
- 完善了 RAG 检索的测试文件
This commit is contained in:
2026-05-04 02:54:37 +08:00
parent 54ba2d3457
commit 8af82f8f7f
9 changed files with 461 additions and 157 deletions

View File

@@ -121,7 +121,7 @@ class IndexBuilder:
# 初始化向量存储(自动支持稠密+稀疏混合检索)
self.vector_store = QdrantVectorStore(
collection_name=config.collection_name,
embedding=self.embeddings if self._embedder is None else None
embeddings=self.embeddings if self._embedder is None else None
)
logger.info("✅ 混合检索向量存储初始化成功(稠密+BM25稀疏")
@@ -178,7 +178,7 @@ class IndexBuilder:
child_splitter=self.child_splitter,
docstore=self.docstore,
search_k=cfg.search_k,
embeddings=self.embeddings if self.embedder is None else None,
embeddings=self.embeddings if self._embedder is None else None,
)
logger.info("ParentDocumentRetriever 初始化完成")