rag-fintech

Name: rag-fintech
Author: EllenLiu2019

EllenLiu2019 November 30, 2025

2 copies 0 downloads

Production-ready RAG engine for medical claim adjudication. FoC (Forest of Clauses) — LLM routes over document structure trees to solve cross-section retrieval failures. Triple-path search · LangGraph Multi-Agent · vLLM Guided Decoding · K8s HPA autoscaling.

医疗理赔与合规文档 AI 推理引擎

FoC (Forest of Clauses) 条款森林 — 摒弃传统向量检索“盲人摸象”式的碎片化召回，将文档目录树提升为“一等公民”。通过 LLM Top-down 全局路由与 Vector Bottom-up 碎片检索双引擎并发，彻底解决强层级长文档中“跨章节逻辑对比”的召回死角。

覆盖文档解析 → 多路检索 → 大模型推理 → 理赔决策全链路的 AI 系统。基于 RAG + GraphRAG + LangGraph Multi-Agent 架构，部署在 Kubernetes 上，支持异构 GPU 算力调度与弹性伸缩。

核心亮点

亮点	描述
FoC 条款森林检索	自研 $O(N)$ 单遍状态机解析引擎，动态构建适配主附险的条款森林（5K~10K Tokens），首创由 LLM 基于目录层级执行 Top-down 全局语义路由，并基于 `clause_path` 实现快速溯源拼装“局部树”，彻底消除跨章节逻辑的召回盲区。
三路并发检索	FoC（结构推理）∥ GraphRAG（实体关系遍历）∥ Vector（语义相似度），三路并发检索 P95 < 1s
100% 确定性输出	深入 vLLM 底层引入 Guided Decoding (FSM 约束)，在 Token 采样阶段进行 Logits 拦截，彻底根除高并发下 LLM 输出 JSON 畸形的痛点
极致上下文压榨	针对 FoC 6K+ 长上下文导致的并发灾难，全面开启 vLLM Prefix Caching。实测并发上限从 c≤16 提升至 c=32+，c=28 时 TTFT P99 < 1s
理赔 Multi-Agent	LangGraph 双子图并行（ICD-10 编码 + TNM 分期）→ Human-in-the-Loop 审批 → 时间旅行（Checkpoint fork + replay）
三级模型路由	9B（查询改写，TTFT < 500ms）→ 35B MoE（条款推理，TPOT 24.9ms）→ DeepSeek-Reasoner（理赔决策，0 容错）

架构概览

系统架构：K8s (ACK) 部署，Ingress 统一入口，三级模型路由层 (9B → 35B MoE → DeepSeek-Reasoner)，基于 vLLM 原生指标 (num_requests_waiting) 的 HPA 弹性伸缩，HAMi 实现单卡多 Pod 显存隔离。

存储与检索：PDF 经 LlamaParse 解析后，通过栈式扫描自动构建 ClauseForest，为每个 Chunk 打上 clause_path (GPS定位) 并向量化。持久化到 PostgreSQL (结构数据) + Milvus (向量) + Neo4j (图谱)。检索时三路并发：FoC (LLM 结构路由) ∥ GraphRAG (多跳遍历) ∥ Vector (Dense+Sparse RRF)，最终在内存中通过祖先链溯源，拼装出定向修剪的“局部树”喂给 LLM。

**理赔 Multi-Agent

rag-fintech

医疗理赔与合规文档 AI 推理引擎

核心亮点

目录

架构概览

Tags

Comments

More Agents

Klaatcode

Agentmaker

Api Model Playground Cookbook

Agent Ecologies

Private Agent

Loom Novel

Ready-made automations for this