Production-ready RAG engine for medical claim adjudication. FoC (Forest of Clauses) — LLM routes over document structure trees to solve cross-section retrieval failures. Triple-path search · LangGraph Multi-Agent · vLLM Guided Decoding · K8s HPA autoscaling.
# 医疗理赔与合规文档 AI 推理引擎
> **FoC (Forest of Clauses) 条款森林** — 摒弃传统向量检索“盲人摸象”式的碎片化召回,将文档目录树提升为“一等公民”。通过 LLM Top-down 全局路由与 Vector Bottom-up 碎片检索双引擎并发,彻底解决强层级长文档中“跨章节逻辑对比”的召回死角。
覆盖**文档解析 → 多路检索 → 大模型推理 → 理赔决策**全链路的 AI 系统。基于 RAG + GraphRAG + LangGraph Multi-Agent 架构,部署在 Kubernetes 上,支持异构 GPU 算力调度与弹性伸缩。
<p align="center">
<img src="benchmark/images/pipeline.gif" alt="RAG Pipeline" width="720" />
</p>
## 核心亮点
| 亮点 | 描述 |
|------|------|
| **FoC 条款森林检索** | 自研 $O(N)$ 单遍状态机解析引擎,动态构建适配主附险的条款森林(5K~10K Tokens),首创由 LLM 基于目录层级执行 Top-down 全局语义路由,并基于 `clause_path` 实现快速溯源拼装“局部树”,彻底消除跨章节逻辑的召回盲区。 |
| **三路并发检索** | FoC(结构推理)∥ GraphRAG(实体关系遍历)∥ Vector(语义相似度),三路并发检索 P95 < 1s |
| **100% 确定性输出** | 深入 vLLM 底层引入 **Guided Decoding** (FSM 约束),在 Token 采样阶段进行 Logits 拦截,彻底根除高并发下 LLM 输出 JSON 畸形的痛点 |
| **极致上下文压榨** | 针对 FoC 6K+ 长上下文导致的并发灾难,全面开启 **vLLM Prefix Caching**。实测并发上限从 c≤16 提升至 c=32+,c=28 时 TTFT P99 < 1s |
| **理赔 Multi-Agent** | LangGraph 双子图并行(ICD-10 编码 + TNM 分期)→ Human-in-the-Loop 审批 → 时间旅行(Checkpoint fork + replay) |
| **三级模型路由** | 9B(查询改写,TTFT < 500ms)→ 35B MoE(条款推理,TPOT 24.9ms)→ DeepSeek-Reasoner(理赔决策,0 容错) |
## 目录
- [医疗理赔与合规文档 AI 推理引擎](#医疗理赔与合规文档-ai-推理引擎)
- [核心亮点](#核心亮点)
- [目录](#目录)
- [架构概览](#架构概览)
- [模型路由](#模型路由)
- [质量评估](#质量评估)
- [部署指南](#部署指南)
- [外部服务依赖](#外部服务依赖)
- [本地开发](#本地开发)
- [K8s 部署](#k8s-部署)
- [项目结构](#项目结构)
- [CI/CD](#cicd)
- [技术栈](#技术栈)
- [压测报告](#压测报告)
- [Qwen3.5-9B 硬件选型对比 (A10 vs L20, 并发 c=4)](#qwen35-9b-硬件选型对比-a10-vs-l20-并发-c4)
- [长文本并发压测 (Prefix Caching)](#长文本并发压测-prefix-caching)
- [License](#license)
---
## 架构概览
**系统架构**:K8s (ACK) 部署,Ingress 统一入口,三级模型路由层 (9B → 35B MoE → DeepSeek-Reasoner),基于 vLLM 原生指标 (`num_requests_waiting`) 的 HPA 弹性伸缩,HAMi 实现单卡多 Pod 显存隔离。
**存储与检索**:PDF 经 LlamaParse 解析后,通过栈式扫描自动构建 ClauseForest,为每个 Chunk 打上 `clause_path` (GPS定位) 并向量化。持久化到 PostgreSQL (结构数据) + Milvus (向量) + Neo4j (图谱)。检索时三路并发:FoC (LLM 结构路由) ∥ GraphRAG (多跳遍历) ∥ Vector (Dense+Sparse RRF),最终在内存中通过祖先链溯源,拼装出定向修剪的“局部树”喂给 LLM。
**理赔 Multi-AgentHAL 分层混合模型工作流 — 强模型(Claude)负责理解/拆解/验收,低成本模型(DeepSeek)负责检索/提取/清洗。Hermes Agent skill。
An LLM agent fine-tuned on DeepSeek for spaced repetition, dynamically integrating knowledge points based on the Ebbinghaus forgetting curve.
基于 STM32F103 构建的端到端 AI 智能手表生态。自研“零重定位”原生机器码动态加载引擎与页面栈式 UI 框架;集成生产级 OTA 回滚保护机制与高带宽(921600 baud)串口协议栈。通过 Node.js 中继实现 DeepSeek AI 语义控制及 ASRPRO 语音全双工交互,是一个集成了分布式计算、现代存储管理与 AI Agent 的嵌入式全栈工程。
A Meta-Agent-Driven Self-Evolving Multi-Agent System for UAV Detection and Tracking
One command to run Hermes AI Agent with a browser UI. Zero prerequisites. 一行命令,AI 就位。
网页应用Agent,接入DeepSeek、Mimo等模型