arXiv CS.AI

GraphDx: A Cost-Aware Knowledge-Enhanced Multi-Agent Framework for Sequential Diagnosis

GraphDx 提出一种成本感知的知识增强多智能体诊断框架，通过 LLM 自动构建医学诊断知识图谱（MDKG），并设计感知、推理、决策三个协作智能体，在 MedQA 和 MIMIC-IV 上将诊断成功率从 50-68% 提升至 79-93%，同时降低测试成本 20-54%。

该论文提出 GraphDx 框架，用于解决序贯诊断中诊断准确性与资源成本的平衡问题。框架的核心创新包括：利用 LLM 自动构建带量化典型性、动作中心拓扑和双重目标属性的医学诊断知识图谱（MDKG），以及设计感知、推理、决策三个协作智能体，其中推理智能体在 MDKG 上进行确定性证据评分和成本感知规划。在 MedQA 和 MIMIC-IV 数据集上，基于 DeepSeek-V3、Kimi-k2、Llama-3.3 三种大模型的实验显示，GraphDx 将诊断成功率从基线方法的 50-68% 提升至 79-93%，同时将测试成本降低 20-54%。

Causal-Audit: Explicit and Auditable Graph-based Reasoning via Target-Aware Causal Chain Construction

该论文提出 Causal-Audit 框架，通过目标感知的因果图构建和路径级证据聚合机制，将因果推理转化为显式可审计的结构化推理过程，在三个基准数据集上持续优于现有基于大语言模型的方法。

该研究提出 Causal-Audit 框架，将基于干预的因果问答推理转化为在显式因果图上的四阶段结构化推理，而非隐式的端到端预测。核心方法包括目标感知的因果图构建策略（以目标变量约束图扩展）和路径级因果证据聚合机制（综合多条因果路径的增强与抵消效应）。在三个基准数据集上的实验结果显示，该框架在性能上持续优于现有基于大语言模型的方法，同时提供可解释和可审计的完整因果推理轨迹。

框架工具◆ 持续监测▲积极

Cura 1T: Specialized Model for Agentic Healthcare

Cura 1T 是一个面向智能医疗的专用大语言模型，通过人工介入的自我进化循环进行训练，在医疗评估套件中达到或接近前沿基线水平，同时在通用推理和智能体基准测试中保持竞争力。

Cura 1T 是一款医疗专用大语言模型，由团队通过人工介入的自我进化循环（human-gated self-evolution loop）训练而成。在每个进化轮次中，训练智能体规划目标能力、训练模型、评估基准轨迹并根据观察到的失败来优化数据混合策略。该模型覆盖患者咨询、图文临床推理、交互式诊断和电子健康记录（EHR）工具使用等能力。在医疗评估套件中，Cura 1T 排名达到或接近前沿基线水平，并在领域外推理和智能体基准测试上同样表现良好。

AnovaX: A Local, Multi-Agent Voice Assistant with LLM Planning, Typed Executors, and Adaptive Recovery

AnovaX 是一个完全本地运行的多代理桌面语音助手系统，利用 Gemini LLM 进行任务规划，通过类型化子代理执行工具调用，并配备自适应恢复机制，无需将音频数据发送到云端。

该论文提出了 AnovaX，一个完全在用户本地计算机上运行的桌面语音助手系统。系统通过单 Python 进程集成了唤醒词门控、语音流水线、Gemini LLM 规划器和多代理编排器，将每个 JSON 格式的计划翻译为带类型、带超时和重试策略的子代理任务。系统还包含自适应恢复循环和两级的递归 MetaAgent，并配套提供 Flask 远程控制服务器，可通过手机在本地 WiFi 内实时操控电脑。

框架工具◆ 持续监测▲积极

5.0查看详情

Precise but Uncoupled: Reviewer Precision Does Not Guarantee Critique Uptake in Multi-Agent Math Reasoning

一篇 arXiv 论文通过 4,181 道 Omni-MATH 题目的实验发现，在多智能体数学推理系统中，审稿者的精确度并不保证其批评意见能被采纳。广播式同行讨论的最终准确率高于规划者-执行者-审稿者流水线，尽管后者的审稿者更精确（0.861 vs 0.644），问题在于批评意见的采纳率而非审稿质量。

该论文在 4,181 道 Omni-MATH 题目上，使用 gpt-oss-120b 模型作为参与者，对比了广播式同行讨论与规划者-执行者-审稿者流水线两种多智能体协作方式的表现。实验发现，在较难的题目上广播式讨论的最终准确率显著高于 PER 流水线。PER 的审稿者精确率为 0.861，高于广播式的 0.644，但其有价值的批评意见更难改变下一轮的候选答案，导致修复效率更低。在 PER 干预实验中，强制显式确认降低了最终准确率，而将审稿指导直接嵌入解题者的工作上下文能部分改善采纳率但仍无法弥合差距。

框架工具◆ 持续监测─中性

DrawingVQA: A Real-World Benchmark for Multi-Depth Visual-Textual Reasoning on Construction Drawings

DrawingVQA 是首个面向建筑施工图纸的多模态大语言模型评估基准，包含 33 张真实施工图纸和 92 组专家问答对，覆盖感知理解、语境解释和领域专家推理三个深度层次，评估发现当前最先进模型与人类专家之间存在显著差距。

研究团队提出了 DrawingVQA 基准，用于评估多模态大语言模型在建筑施工图纸这一复杂视觉-文本领域上的理解与推理能力。该基准包含 33 张真实施工图纸和 92 组专家标注的问答对，覆盖从感知理解到领域专家推理的三个深度层次。研究同时提出了双重分类框架，从七个建筑工程维度和四个多模态大语言模型能力维度联合分析模型表现。评估结果显示，现有最先进的多模态大语言模型与人类专家之间存在显著差距，尤其在高层推理任务上表现不足。

框架工具◆ 持续监测─中性

4.5查看详情

Do Coding Agents Need Executable World Models, Simplification, and Verification to Solve ARC-AGI-3?

该论文通过四个嵌套的Codex智能体变体，系统归因了可执行世界建模、简化机制和验证机制在ARC-AGI-3任务上的各自贡献。完整验证变体在所有模型和推理努力设置中排名第一，在gpt-5.6-sol上以不到人类基线一半的动作数完全解决了所有公开游戏。

该研究设计了四种基于Codex的智能体变体（文本基线、灵活接口可执行世界模型无回放验证、带调度简化机制的可执行世界模型、固定接口完整验证变体），在gpt-5.4和gpt-5.5的高与极高推理努力设置下，以及gpt-5.6-sol的后续实验中，评估它们在公开ARC-AGI-3游戏上的表现。结果显示更强模型和更高推理努力始终提升所有变体性能，但变体间差异小于预期。完整验证变体在所有设置中排名第一，但消耗显著更多资源；在gpt-5.6-sol上完全解决所有公开游戏并达到约99%的RHAE。

框架工具◆ 深度研判─中性

5.0查看详情

Beyond a Joke: Multi-Angle Reasoning for Detecting and Explaining Harmful Humor in Memes

研究团队提出 MAR-12 框架，利用视觉语言模型（VLM）从12个结构化视角分析网络迷因中的有害幽默，在 PrideMM 和 Memotion 数据集上幽默检测准确率达 80.3%，仇恨检测达 75.9%，并生成可解释的推理依据。

该论文提出了 MAR-12 框架，用于检测和理解同时包含幽默与仇恨元素的网络迷因。框架首先基于幽默与仇恨理论从12个结构化视角解析迷因，然后通过角色感知的软门控注意力机制学习每个视角的贡献权重，再使用基于原型分类器做出最终预测，最后综合各视角推理与注意力权重生成解释。在 PrideMM 和 Memotion 数据集上，MAR-12 的幽默检测准确率达到 80.3%，仇恨检测准确率达到 75.9%，超越现有最优方法。人类评估和 GPT-4 评估均确认 MAR-12 能生成连贯且有说服力的解释。

应用落地◆ 持续监测▲积极

SeerGuard: A Safety Framework for Mobile GUI Agents via World Model Prediction

SeerGuard 是一个面向移动 GUI 智能体的后果感知安全框架，通过执行前指令筛选和动作级风险评估来预防危险操作。在 Qwen3-VL-8B-Instruct 上，它将安全效用评分从 0.191 提升至 0.596。

该论文提出了 SeerGuard，一个针对移动图形用户界面（GUI）智能体的安全框架。SeerGuard 通过执行前指令级筛选和动作级风险评估来识别潜在风险。框架采用多任务学习构建统一的安全增强世界模型（SAWM），将语义化下一状态预测与安全风险评估相结合。在 Qwen3-VL-8B-Instruct 上的实验显示，安全效用评分从 0.191 提升至 0.596（ω=0.8），风险成本评分从 0.347 降至 0.130（α=0.8）。

框架工具◆ 持续监测▲积极

5.5查看详情

MGDT: MLLM-Guided Diffusion Transformer with Relation-Adaptive Mixture-of-Experts for Multimodal Knowledge Graph Completion

该论文提出 MGDT 框架，通过"先对齐后扩散"范式解决多模态知识图谱补全中现有扩散方法直接对原始多模态特征去噪导致的条件语义不一致问题，在三项基准数据集上持续超越强基线方法。

上海某研究团队（论文未标注具体机构）提出 MGDT 框架用于多模态知识图谱补全。该框架包含三个核心模块：关系自适应语义路由混合专家模块（RASR-MoE）选择与关系相关的多模态语义变换路径并抑制干扰，冻结的多模态大语言模型（MLLM）作为语义锚点将路由后的表示对齐到统一潜在空间，知识图谱扩散 Transformer（KGDT）在对齐空间中进行图条件去噪生成。实验在三个基准数据集上显示 MGDT 始终优于现有强基线方法。

框架工具◆ 持续监测─中性

Neuro-Symbolic AI for LEED compliance: Document-Centric Benchmarking, Deterministic Numeric Checking, and When Multimodal Hurts

一篇研究论文提出神经符号学管道用于LEED v4.1 BD+C认证合规检查，基于484份PDF和153个信用级别决策的实验表明，4B参数的gemma3:4b模型在纯文本验证中达67.3%准确率，优于8B参数的llama3.1:8b，确定性数值检查器将EA-p2信用从50%提升至100%准确率，而添加低分辨率图纸图片反而降低准确率。

该论文针对LEED v4.1 BD+C认证流程中文档密集型人工审核效率低的问题，设计了一套神经符号学管道，将项目PDF对齐到LEED信用章节、通过信用感知关键词签名检索证据、使用本地部署的4B参数语言模型进行合规验证，并应用确定性数值检查器处理定量阈值。在四栋大学建筑共484份PDF和153个信用级别决策上的实验表明，gemma3:4b作为纯文本核心验证器达到67.3%准确率，超越更大规模的llama3.1:8b模型。确定性数值检查器纠正了关键定量信用的算术错误，将EA-p2准确率从50%提升至100%。完整的神经符号学配置总体准确率为61.6%，低于最佳纯文本基线，原因在于提取失败和在定性类别上的保守行为。系统性消融实验显示添加150-300dpi低分辨率图纸图片持续降低准确率，且Rubric提示在文档丰富的项目上表现最佳，Chain-of-Thought提示在文档稀少的项目上表现最佳。

应用落地◆ 持续监测─中性

3.0查看详情

ToolVerse: Unlocking Massive Environments and Long-Horizon Tasks for Agentic Reinforcement Learning

ToolVerse 是一个基于近 400 个真实世界 MCP（约 4500 个工具）构建的大规模智能体强化学习框架，通过工具依赖图和动态解锁采样算法生成长期任务，并利用 Turn-Aware Relative Advantage 算法解决信用分配问题，实验表明能显著提升 LLM 在长期工具使用任务中的表现。

研究人员提出了 ToolVerse 框架，用于构建大规模智能体强化学习训练环境。该框架从约 400 个真实世界的 MCP（Model Context Protocol）中自动构建包含约 4500 个工具的可执行训练环境。团队提出了基于工具依赖图的任务设计策略，采用动态解锁采样算法生成长期任务并产出 GUST 数据集。为解决长期任务中的信用分配问题，论文设计了细粒度的 Turn-Aware Relative Advantage 算法。在多个智能体基准测试上的实验结果显示，该框架显著增强了 LLM 在长期工具使用中的推理能力和鲁棒性。

S1-Omni: A Unified Multimodal Reasoning Model for Scientific Understanding, Prediction, and Generation

S1-Omni是一个统一的多模态科学推理模型，通过统一数据表征、自然世界知识对齐和任务特定解码，将科学理解、预测和生成能力整合到单一模型中，在60多项基准测试上超越GPT-5.5和Gemini-3.1-Pro。

研究人员提出了S1-Omni，一个面向科学领域的统一多模态推理模型。该模型将自然语言指令与CIF、SMILES、蛋白质序列、光谱和科学图像等科学对象映射到共享表征空间，并融入科学定律和专家知识进行训练。S1-Omni基于包含200个科学任务和数百万推理样本的S1-Omni-Corpus数据集进行训练，在超过60项科学基准上评估，在大多数基准上优于GPT-5.5和Gemini-3.1-Pro，并在多个基准上达到或超越领域专用模型。

7.0查看详情

Behavioral Controllability of Agentic Models for Information Extraction: From Fixed Workflows to Reflective Agents

该论文通过学术会议论文数据集抽取任务，对比了固定工作流基线、反思代理变体和优化代理条件（S2）在信息抽取中的表现，重点评估工具执行、反思和记忆等过程级行为对任务完成的提升效果。

该论文在学术会议论文数据集抽取场景中，研究了反思和记忆等代理组件相比固定LLM工作流能否带来可观察且可控的改进。论文设计了固定工作流基线、反思代理变体和优化代理条件（S2）三种对比方案，评估聚焦于工具执行、重试、反思、记忆使用、运行时间和失败恢复等过程级行为指标。实验将抽取覆盖率和字段完整性作为次要结果指标，揭示了代理机制改变系统行为的条件以及这些变化对任务完成度的影响。

基建更新◆ 深度研判─中性

NeurOWL: An LLM-Based Neural-symbolic Framework for Incomplete OWL Ontology Reasoning

NeurOWL是一个基于大语言模型的神经符号框架，用于在不完整OWL本体论场景下执行子集推理，同时完成语义验证与溯因推理任务，在多个领域真实本体论上表现出色。

该论文针对不完整OWL本体论中的子集推理问题，提出NeurOWL框架，统一了子集关系验证与本体溯因两个任务。NeurOWL通过大语言模型和本体嵌入，同时利用形式化语义与文本语义进行推理，在医疗、生物信息学等多个领域的真实本体论上完成评估，展现出强且鲁棒的跨领域性能。

框架工具◆ 前瞻关注─中性