Daily AI Insight
数据源日报

免责声明

本站内容由 AI 自动聚合、分析与生成,仅供信息参考与学习交流,不构成投资、法律、医疗或其他重大决策建议。请结合原始信源独立判断,作者不对因使用本站内容而产生的任何后果承担责任。

关于本项目

个人开源实验项目,由 @sqliang 构建与维护。

在 GitHub 查看源码

© 2026 Daily AI Insight Engine · Built with AI-assisted pipelines

数据源列表

arXiv CS.AI

Tier A学术论文ENrss2026-05-28

arXiv 人工智能分类下的最新预印本,通过 RSS 实时获取。覆盖 LLM、Agent、多模态、对齐、推理等前沿研究方向,关键词过滤确保信噪比,仅保留高质量技术论文摘要。

LLMAgentVLARLHFRAG+7
https://rss.arxiv.org/rss/cs.AI
15 篇文章15 篇深度分析生成于 2026-05-28 02:34 UTC

文章列表

15 篇
Analyzed·分析

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

提出 BrickAnything 框架,通过结构感知树形分词从 3D 点云自回归生成可物理搭建的积木结构。

该研究提出了 BrickAnything 框架,利用点云作为统一几何接口,通过结构感知树形分词对积木附着关系建模,自回归生成满足装配约束的可搭建积木序列。引入偏好对齐后训练、有效性约束解码和自适应回退机制提升稳定性与几何保真度,实验证明生成的积木结构几何忠实且物理可实现。

4.0▲积极◆ 持续监测
Analyzed·分析

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

论文提出将AI智能体长期记忆视为状态轨迹管理问题而非记录级存储,并形式化为Governed Evolving Memory(GEM)框架。

该论文指出当前智能体记忆系统因将记忆视为静态存储而导致四种失效模式:无节制增长、缺乏语义修正、容量驱动遗忘和只读检索。作者将长期智能体记忆重新定义为一种新型数据管理工作负载,提出GEM框架,用摄入、修正、遗忘和检索四个状态级操作替代记录级数据库操作,并以六条正确性条件约束状态演化,

5.5▲积极◆ 持续监测
Analyzed·分析

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

提出POLAR框架,通过多模态记忆图实现具身MLLM智能体的长期个性化交互

研究者提出POLAR多模态记忆增强框架,将用户与具身智能体的长期交互组织为多模态知识图谱(含语义记忆和情景记忆),通过检索相关记忆来解读当前请求并指导任务执行。在多种MLLM骨干模型和评估场景上验证,证明该记忆机制能一致提升跨交互推理、多跳推断和用户上下文追踪的性能。

5.0▲积极◆ 持续监测
Analyzed·分析

Constraint acquisition needs better benchmarks

arXiv论文提出MPMMine基准套件,旨在解决约束获取(CA)领域缺乏标准化评估基准的问题。

研究人员指出约束获取(CA)和数学规划(MP)模型验证领域缺乏合适的基准,现有基准面向求解器而非CA算法,组织松散且遗漏领域知识工件。为此提出MPMMine基准套件,采用MiniZinc、CommonMark和JSON等开放格式,提供多模型、多实例及数千组解与非解数据,

3.0─中性◆ 持续监测
Analyzed·分析

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

提出 AgingBench 基准,揭示部署后的 AI Agent 即使模型权重冻结也会随时间退化,需用生命周期工程而非一次性评测来保障可靠性。

研究者于 2026 年发布论文,提出 AgingBench 纵向可靠性基准,将 Agent 老化归为压缩老化、干扰老化、修订老化和维护老化四种机制,通过时序依赖图和反事实探针对 7 个场景、14 个模型进行约 400 次运行,发现行为测试可能保持清洁而事实精度已衰退,同一错误答案需不同修复策略。

6.5⇅混合◆ 策略投资
Analyzed·分析

Experiments in Agentic AI for Science

提出两种基于混合架构的科学Agent框架,分别用于时间序列数据自动策展和物理讲座结构化报告生成。

该论文于2025年提出两个自主科学AI框架:DeepTS/DeepCollector 用于大规模时间序列数据集的策展、提取与去重;DeepScribe 用于将复杂物理讲座自动转化为结构化科学报告。两者均采用Google Colab上的本地-远程混合架构,通过Python编排器调用云端LLM,

4.5▲积极◆ 持续监测
Analyzed·分析

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

Anchor通过约束优化程序联合生成基准任务的全部组件,消除artifact drift,并以此构建了ERP-Bench企业级Agent评测集。

论文提出Anchor任务生成管道,将领域专家的业务工作流规范形式化为约束优化程序,从单一参数化规范同步生成自然语言指令、环境配置、求解器认证的最优解和状态验证器。基于Anchor构建了ERP-Bench,包含300个长周期采购与制造任务。实验表明,前沿模型仅26.1%的试验满足显式约束,17.

6.0─中性◆ 持续监测
Analyzed·分析

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM基准通过显式信念建模评估LLM心智理论能力,揭示其知识获取与信念追踪瓶颈。

研究人员在arXiv发表OmniToM基准论文,基于ToMBench的895个故事构建了22,343个标注信念命题,采用信念提取与七维标注两阶段评估。零样本测试发现,当前LLM在将叙事事实转化为角色信念及共享心智状态时存在严重的知识获取与表征决策瓶颈。

4.5⇅混合◆ 持续监测
Analyzed·分析

JobBench: Aligning Agent Work With Human Will

JobBench 基准测试评估 AI 智能体在 35 个职业 130 项任务上的表现,最强模型 Claude Opus 4.7 仅达 45.

研究团队提出 JobBench 基准,覆盖 35 个职业的 130 项智能体任务,任务以异构参考文件工作区形式呈现,要求智能体在混乱信息流中推理。评估采用事实锚定的评分链,每任务平均 35.6 个二元标准。测试 36 个模型后,Claude Opus 4.

5.5⇅混合◆ 策略投资
Analyzed·分析

Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning

提出原型框架,利用结构化领域表示和LLM状态转移样本提取规程规则、转化为约束并修复不确定的实验步骤

研究团队于2025年发表arXiv论文,针对LLM生成虚拟实验室实验规程时存在的步骤遗漏、顺序错误和逻辑不兼容等不确定性问题,提出一套原型框架。该框架通过结构化领域表示和LLM生成的状态转移样本提取候选规则、转化为可检查约束,并以此修复不确定的规程步骤。

4.5─中性◆ 持续监测
Analyzed·分析

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ScientistOne通过证据链框架实现零幻觉引用的自主科研智能体,在75篇论文对比中全面超越基线系统。

一篇arXiv论文提出ScientistOne端到端自主研究系统,通过Chain-of-Evidence可验证性框架确保每项声明可追溯至证据源。在覆盖5个系统、5项前沿任务的75篇论文实验中,基线系统的引用幻觉率高达21%、分数验证通过率仅42%;ScientistOne实现零幻觉引用(0/337)

7.2▲积极◆ 策略投资
Analyzed·分析

Automatic Layer Selection for Hallucination Detection

4.5▲积极◆ 持续监测
Analyzed·分析

Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL

提出CARL算法,利用局部动力学规律性在离线分层强化学习中学习可复用技能

该论文针对分层强化学习中技能复用难题,提出CARL(对比动作表示的可复用局部控制)算法。核心思想是利用局部动力学直觉——不同全局上下文中的局部状态转移需要相似的动作序列——通过对齐上下文与动作序列来学习技能复用。该算法在复杂人形环境中实现了有意义的技能聚类,并与HIQL集成后在OGBench基准上取

3.5▲积极◆ 持续监测
Analyzed·分析

Advancing Creative Physical Intelligence in Large Multimodal Models

提出MM-CreativityBench基准与affordance-grounded alignment方法,评估并提升LMM在物理环境中创造性工具使用的能力。

研究者于2025年提出MM-CreativityBench基准测试,用于评估大型多模态模型在视觉丰富、物理约束环境中的创造性工具使用能力。实验发现当前LMM的短板不在于生成能力,而在于缺乏持续的视觉探索——常忽略相关实体或产生幻觉。为此提出affordance-grounded

5.5▲积极◆ 持续监测
Analyzed·分析

From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator

论文提出校准交互式RL框架,通过对齐模拟器与真实人类行为来缓解多轮对话中的复合分布偏移问题。

该论文从理论上证明,基于静态离线日志(Static Context RL)和基于提示的模拟器(Interactive RL)两种范式均受限于上下文分布偏移——训练时对话历史与真实对话之间的不匹配会随轮次二次方复合,严重降低对话质量。为此提出Calibrated Interactive RL统一框架,

5.5▲积极◆ 持续监测