学术成果

Current Research Projects and Initiatives

小雅医生

小雅医生是北大智枢实验室自主研发的医疗电子病历数据分析平台的总称。该系统基于深度学习技术，构建了一套覆盖患者预后预测、疾病轨迹分析与临床决策支持的全流程解决方案。其核心技术体系包括：

可解释健康状况学习框架：提出多通道时序特征编码与自适应特征重要性重校准机制，从高维医疗时序数据中提取疾病进展模式，实现个体化不良结局风险动态预测。该框架支持对关键临床指标（如白蛋白、舒张压、血红蛋白等）的贡献度量化，并首次发现特征重要性变化模式，为临床提供动态参考值界定。
大模型驱动的多智能体协作引擎：融合DeepSeek大语言模型与领域专家模型，构建模拟临床多学科会诊的协作框架。通过检索增强生成（RAG）技术整合权威医学指南，支持多智能体多轮循证辩论与共识形成，实现“数据预测-临床推理-指南依据”三位一体的诊断报告生成。
全链条临床预测基准与可视化系统：针对腹膜透析、滤泡性淋巴瘤、围产期等不同临床场景，设计早期死亡风险预测、疾病进展预测与维持性化疗推荐推荐、早产预测等新型任务，开发预后轨迹可视化系统，动态展示患者风险曲线与关键指标演变，支持医生进行个体化干预方案制定。

相关成果发表于Cell Patterns、Cell Innovation、NeurIPS、KDD、WWW、AAAI等国际顶级期刊与会议20余篇，覆盖医疗预后预测、多智能体决策、电子病历建模等前沿方向，并在北京大学第三医院、北京大学肿瘤医院等机构开展临床验证与应用。核心代码与基准系统均已开源发布。

小北健康

小北健康是北大智枢实验室自主研发的健康医疗人工智能技术与系统的总称。此系统主要由三个部分组成：

健康医疗垂域大模型（类似大脑），在国产开源大模型基础上，通过自主研发的数据筛选和模型精调技术训练而成，模型参数340亿，具备面向医疗知识问答、疾病辅助诊断、诊疗方案建议等多种场景的任务规划、逻辑反思和工具调用能力。
基于混合适配器（MoA, Mixture of Adapter）的多智能体框架（类似神经系统），可内置多个大模型适配器，通过动态加载不同的适配器使同一基模型实例在运行时具备不同智能体的行为，从而大幅降低系统对算力的需求；支持长短记忆机制，使智能体不仅可以记忆当前任务信息，还可以基于之前类似任务的反馈进步演化；支持多种智慧医疗工具的动态加载和基于MCP的工具调用机制。
面向健康医疗特定任务的模型工具集（类似四肢），包括：基于时序电子病历、医学影像、医学文本等不同模态电子病历的分析工具、基于自然语言的电子病历检索工具、支持精准溯源的医学知识库构造与RAG工具等。

以上系统在CMB、MMCU-Medical等多个医疗垂域大模型基准评测中达到国际最高水平；并且与北大口腔医院、北大人民医院、协和医院合作，推出了针对儿童口腔疾病、糖尿病、抗生素使用等细分门类的系统，并开展临床验证和试用；相关研究成果在国际顶级人工智能学术期刊和会议发表原创学术论文20余篇，申请发明专利10余项。

问智

“问智”大模型是北大智枢实验室自主研发的垂域知识问答技术与系统的总称。此系统主要由三个部分组成：

基于图结构的知识库构建工具集：面向不同垂域场景中常见的多种知识文件类型，通过OCR、布局识别等工具，精准解析其中包含的文本、表格等知识，并依据文档特点自适应选择对应切片方式，形成可供下游检索的知识切片。同时支持基于已有知识切片生成知识图谱等图结构知识组织，为下游知识推理提供基础。
基于图推理模式的多路召回知识检索工具：根据用户提供的检索需求，在图结构知识的基础上，结合大模型本身推理能力，实现“边推边搜”的多路知识检索。
面向知识问答场景特定需求的“问智”垂域大模型：针对用户提问意图模糊影响准确检索的难点，利用大模型整理知识并主动提问以明确用户意图，有效提升了知识检索精度；针对大模型不具备分辨知识优劣、易被干扰的难点，问智提出了KnowPO，Parenting等基于知识感知偏好优化的大模型推理技术，大幅提升了模型抗噪能力和分辨更恰当知识的能力。

以上系统技术能力在QuALITY、conditional QA等多个知识问答领域基准评测数据中达到同参数量模型国际最高水平，并且已在无锡市梁溪区民政、人社部门、协和医院、工信部开展应用。并助力梁溪区基层赋能平台获得2024数字中国创新大赛·数据要素×应用赛题的优胜奖。相关研究成果在国际顶级人工智能学术期刊和会议发表原创学术论文20余篇，申请发明专利10余项。

问数

“问数”大模型是北京大学智枢实验室自主研发的面向自然语言交互的数据可视分析大模型与系统。该系统主要包括以下三个核心模块：

面向自然语言查询的SQL代码生成模型：针对现有数据分析系统中存在的灵活性不足、能力受限等问题，通过用户意图识别、模式链接筛选、复杂任务分解等技术，有效应对用户意图模糊、查询指令复杂、数据库表结构庞大等挑战，实现了从自然语言查询到SQL代码的高效端到端生成。系统同时集成了SQL代码校验与纠错机制，进一步保障生成结果的准确性与可用性。
支持人机协同修正的交互式可视化工具：基于数据库查询结果与用户指令中的可视化需求，自动生成可视化配置参数，并提供可交互的图表，支持用户在分析过程中实时调整与探索。
基于数据分析结果的洞见生成模型：结合查询结果与用户分析指令，通过迭代式提问与假设验证定位高价值数据子集，并借助大模型的工具调用与代码生成能力，实现数据交互。系统以交互结果反馈驱动推理，在自顶向下的模型推理与自底向上的洞见挖掘之间动态平衡，最终生成具有分析价值的洞见。

该系统的技术能力在Spider、Bird等多个NL2SQL国际权威评测中，达到了同参数量模型的最高水平，相关技术已在深圳市急救中心、无锡市梁溪区民政及人社部门投入实际应用。研究成果已在国际顶级人工智能期刊与会议上发表学术论文10余篇，并申请发明专利10余项。

问途

“问途”大规模知识图谱平台提供了一种更好地组织、管理和理解海量信息的能力，该平台支持知识的建模与表示，根据应用场景需求，辅助用户检索知识并以可视化方式展现，进而支持推理与决策。“问途”大规模知识图谱平台主要功能包括：图谱构建演化、知识精准抽取、图谱高效检索、异构图谱融合等功能。

图谱构建演化：面向复杂结构化数据集的大规模图谱自动构建，支持增量发现与自动更新机制。

基于知识图谱本体模型，从多个关系数据库、半结构化资源等数据源中抽取实例知识时，由于数据模式存在大量不规范形式，且数据不断更新，需要随着数据的更新实现知识图谱的自增长与演化，为此，问途平台针对结构化、半结构化数据建模，采用多种相似度结合的模型-模式匹配算法，提供多种可视化方式，呈现模型-模式复杂映射关系，并利用人工反馈迭代优化推荐算法，实现映射关系智能推荐，并基于增量自动发现机制，实现实例模型自增长。同时，采用了图数据库+文档数据库联合存储方案，缓解了单一图数据库面对海量数据的存储压力与劣势，高效适配多场景多类型检索需求，且对用户透明。问途平台支持存储不少于百种类别实体、不少于百维属性的图谱关联数据，支持存储量级不小于百亿节点、百亿边的关系实体数据，支持分布式集群部署以及设备的灵活扩展。该系统已经在得到实际应用与性能验证。面向亿级节点、亿级边、亿级属性大规模领域知识图谱构建与演化任务中，从零构建新图谱平均时效不低于5万条/秒*，基于数据增量图谱更新不低于1万条/秒；单节点千万级边数的数据导入，较纯图方案（Dgraph和JanusGraph）速度提升超过5倍。

知识精准抽取：面向无结构文本数据的高效实体与关系抽取，支持主动学习与可复用模型库机制

实现了融合LLM与ModelOps的交互式非结构化文本标注与知识抽取机制，针对数据来源多模型精度低，提出了大小模型协同机制以及融合LLM多模型协同推理，多阶段综合使用多个LLM进行召回与自我确认过程，在保证抽取信息尽量全面的同时过滤噪音，提升实体、关系等知识抽取质量，在权威通用领域知识抽取数据集ACE2005上，提出的LLM 多模型集成学习方法超过了大规模闭源模型，命名实体识别（基于开源模型）F1值提升21.4%；针对标注数据成本高，提出了主动学习与在线学习机制，利用主动学习采样模型置信度较低的样本交给人工确认，使用较少的人工成本最大程度提升模型表现，在著名医疗领域知识抽取和CMeIE 数据集上，主动学习采样方法的所需人力成本均有显著下降，所提出的主动学习采样方法在达到全量数据训练效果的90%和95%条件下，所需人工标注数据量均有显著下降(分别下降8.5%和12.7%左右)。，并以此优化设计了人机协同的知识抽取过程与模型，降低人工成本提升标注质量；针对模型研发周期长复用难，提出了基于ModelOps的模型管理机制，实现模型全生命周期管理与复用。基于上述研究工作，研发了相应的系统，该研究工作已被2024自然语言处理与计算语言学领域最高级别学术会议ACL 发表。该篇论文是知识抽取系统方面首篇集成主动学习、LLM和ModelOps技术的高效知识抽取系统。

图谱高效检索：实现了高效的面向自然语言的图谱检索

实现了融合LLM的面向自然语言的知识图谱检索机制，通过LLM理解用户查询意图，自动生成图查询语言并执行；通过对查询结果类型智能识别，自动为用户渲染最佳展示方式，辅助用户高效检索知识。基于大语言模型的语义解析能力，精准理解自然语言的用户问句；支持多种主流的大模型接口以及本地大模型的适配；融合知识图谱、文档知识库、实时监测数据接口等多种知识来源，回答更丰富、更精确，知识可溯源，大幅提高大模型的可解释性与可信性。

同时，面向亿级节点、亿级边、亿级属性大规模领域知识图谱检索任务，超级节点的单跳检索中，较纯图方案（Neo4j和JanusGraph）速度提升超过10倍；图算法效率（以两点之间最短路径为例），问途的改进双向BFS机制5跳内路径探查效率可秒级响应，较Neo4j与JanusGraph提升10倍，若路径中含单一超级节点，速度较Neo4j与JanusGraph提升20倍；节点和属性的统计分析任务中，较纯图方案（测Neo4j、Dgraph和Nebula Graph）性能提高超过15倍。

“问途”大规模知识图谱平台已经在智慧城市政务管理、金融反洗钱探查、智慧水务管理、网络安全实战攻防、院前急救诊疗、医疗辅助诊疗等领域得到了广泛的应用，部分案例如下：

✯问途” 平台应用案例——面向城市政务的领域知识图谱构建，构建了面向政务的领域知识图谱,其中43,063个实体概念，实例数4,080万。成果应用在广州、重庆、衡水、威海等13个大型、特大型城市的15个智慧城市应用服务系统中。应用举例：支持城市惠企政策兑付有效实施，抽取政府公开数据网惠企政策的各类条款知识，如惠企政策、扶植措施等知识实体，领域专家基于所抽取的知识实体，构建惠企政策推理树，并自动进行企业资质与惠企政策匹配，帮助企业能快速享受政府的各类补助和优惠扶植政策，用“数据跑”代替“企业跑”，提升了政企服务的效率与质量。

✯“问途” 平台应用案例——面向网络安全实战攻防的知识图谱，基于多源异构的网络安全相关数据，融合网络安全攻防事件以及其他相关数据，构建面向网络安全实战攻防的大规模知识图谱（百亿节点十亿级边），解决不同信息系统无法信息共享与语义互通问题，结合可视化、推理、检索等技术，提供可视化决策分析支持，并递进化、层次化展示Ddos攻击，钓鱼攻击等安全攻防事件，辅助安全威胁溯源，系统智能防护等任务。

✯“问途” 平台应用案例——面向金融违规业务的分析与推理，面向反洗钱和金融违规监测等需求，分析金融数据，提供辅助分析与推理支持，问途平台解决了金融信创痛点问题，即原始数据多源异构，客户、账户之间因资金往来建立的关系网络庞大，信息难检索、知识难抽取、规律难发现。“问途”通过建立基于图谱的统一知识组织模式，支持高效的知识检索和自动推理，辅助用户进行反洗钱、担保链识别等违规业务的分析与推理任务。