Efficient AI 论文日报 2026-03-17

🌊 PaperTide · 2026-03-17 Efficient AI 论文精选

共 141 篇

Yelysei Bondarenko, Thomas Hehn, Rob Hesselink et al.

本文提出了一种在资源受限的边缘设备上实现高效大语言模型推理的方法，通过结合LoRA适配器与强化学习预算约束来显著缩短推理链长度，并采用动态适配器切换与KV缓存共享策略，在Qwen2.5-7B模型上验证了该方法能在保持精度的同时大幅提升移动端推理效率。

ReasoningFinetuningInferenceMultimodal

2. Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

Sahil Sen, Elias Lumer, Anmol Gulati et al.

本文提出了Chronos，一种新颖的时序感知记忆框架，通过将对话分解为结构化事件并建立事件日历和轮次日历，显著提升了LLM在长期对话中对时序信息和多跳推理的处理能力。在基准测试中，Chronos实现了新的最优性能，其核心的事件日历组件贡献了最大的性能增益。

RAGAgentsReasoningAlignmentEvaluation

3. SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jinfa Huang, Yuexiao Ma et al.

本文提出了SocialOmni基准，用于评估全模态大语言模型在动态对话中处理视听社交互动的能力。研究发现，模型的感知准确性与生成恰当打断的能力存在显著脱节，表明仅靠理解性指标不足以衡量其社交对话能力。

RAGEvaluationMultimodal

4. Online Experiential Learning for Language Models

Tianzhu Ye, Li Dong, Qingxiu Dong et al.

该论文提出了在线体验学习（OEL）框架，其核心贡献是使大语言模型能够利用自身在真实部署中产生的交互经验进行持续自我改进。关键发现是，通过提取和整合“可迁移的体验知识”并进行策略一致性蒸馏，该方法能有效提升模型的任务准确性和效率，且不损害其泛化能力。

EvaluationInference

5. Mediocrity is the key for LLM as a Judge Anchor Selection

Shachar Don-Yehiya, Asaf Yehudai, Leshem Choshen et al.

该论文发现，在“LLM作为裁判”的评估范式中，锚点模型的选择对评估结果的可靠性至关重要。研究指出，应避免使用性能最好或最差的极端模型作为锚点，并建议选择中等性能的模型作为锚点，同时需要增加基准测试的规模以确保评估的可靠性。

EvaluationQuantization

6. Internalizing Agency from Reflective Experience

Rui Ge, Yichao Fu, Yuyang Qian et al.

该论文提出了LEAFE框架，通过让智能体从环境反馈中总结反思经验并探索替代行动路径，有效提升了LLM在长程交互任务中的自主恢复与问题解决能力。实验表明，该方法在固定交互预算下显著提高了Pass@k性能，优于传统的结果驱动型训练方法。

AgentsFinetuning

7. Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Karthik Ragunath Ananda Kumar, Subrahmanyam Arunachalam

本文提出了一种基于强化学习的LLM智能体框架，用于自动生成专业幻灯片。其核心贡献是引入了“逆向规范奖励”机制，通过让LLM从生成的幻灯片反推原始任务来评估生成质量，并发现智能体任务性能的关键在于指令遵循和工具调用能力，而非模型参数量。

RAGAgentsEvaluationCode

8. Prompt Programming for Cultural Bias and Alignment of Large Language Models

Maksim Eren, Eric Michalak, Brian Cook et al.

本文提出使用DSPy进行提示编程，以优化大语言模型的文化对齐，实验表明该方法能比手动提示工程更稳定地减少文化偏见。

ReasoningAlignmentEvaluationCode

9. Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Zhitao Zeng, Mengya Xu, Jian Jiang et al.

该论文提出了Surg$Σ$框架，通过构建大规模多模态手术数据集Surg$Σ$-DB，并基于此开发基础模型，解决了手术AI领域因数据缺乏而导致的泛化能力不足问题。其核心贡献在于首次提供了统一的大规模手术多模态数据基础，并证明了结构化标注能有效提升模型在跨任务泛化和可解释性方面的性能。

AgentsReasoningSafetyMultimodal

10. Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

Yi Chen, Daiwei Chen, Sukrut Madhav Chikodikar et al.

本文系统评估了基于检索增强生成（RAG）的大语言模型（LLM）中“保形事实性”方法的可靠性，发现该方法在高事实性要求下会因输出空洞而降低实用性，且其统计保证对数据分布变化和干扰信息敏感；研究同时提出新的效用感知指标，并证明轻量级蕴含验证器在计算效率上显著优于基于LLM的置信度评分器。

RAGEvaluation

11. Improving Code Comprehension through Cognitive-Load Aware Automated Refactoring for Novice Programmers

Subarna Saha, Alif Al Hasan, Fariha Tanjim Shifat et al.

本文提出了一种基于认知负荷的自动化代码重构方法CDDRefactorER，通过降低控制流复杂度来提升新手程序员的代码理解能力。实验表明，该方法能显著减少重构失败率（54-71%），并在人类研究中将新手的功能识别准确率提升31.3%、结构可读性提升22.0%。

EvaluationInferenceCode

12. InCoder-32B: Code Foundation Model for Industrial Scenarios

Jian Yang, Wei Zhang, Jiajun Wu et al.

InCoder-32B 是一个专为工业场景设计的 320 亿参数代码基础模型，其核心贡献在于通过整合工业领域代码和扩展上下文长度，显著提升了在芯片设计、GPU 内核优化等专业领域的代码理解和生成能力。

ReasoningEvaluationCode

13. IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans

Huimin Xiong, Zijie Meng, Tianxiang Hu et al.

本文提出了IOSVLM，一个用于口腔内扫描（IOS）统一诊断的3D视觉-语言模型，其核心贡献是首次直接利用3D点云几何信息进行口腔疾病诊断和视觉问答，并通过引入大规模数据集IOSVQA及几何-色彩代理方法，有效解决了3D数据与预训练间的模态差异问题。关键发现表明，直接建模3D几何信息能显著提升诊断性能，模型在多项指标上优于现有基线。

RAGAlignmentEvaluationMultimodalCodeMath

14. SOMP: Scalable Gradient Inversion for Large Language Models via Subspace-Guided Orthogonal Matching Pursuit

Yibo Li, Qiongxiu Li

该论文提出SOMP框架，将梯度反演攻击建模为稀疏信号恢复问题，通过利用Transformer梯度中的头部几何结构和样本稀疏性，显著提升了大规模语言模型在聚合梯度场景下的文本重建效果。实验表明，SOMP在批量处理长序列时仍能保持高重建保真度，揭示了现有防御机制下隐私泄露的持续风险。

RAGEvaluationLong Context

15. Finding Common Ground in a Sea of Alternatives

Jay Chooi, Paul Gölz, Ariel D. Procaccia et al.

该论文提出了一种基于比例否决核心的形式化模型，用于在无限备选方案中寻找共识，并设计了一种高效的基于采样的算法，能在高概率下找到近似共识方案。研究通过实验验证了该算法在文本偏好数据集上的有效性，并比较了其与其他社会选择方法及基于LLM的方法在共识达成可靠性上的表现。

Alignment

16. Probing Cultural Signals in Large Language Models through Author Profiling

Valentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys et al.

该研究通过零样本作者画像任务，发现大语言模型在歌词分析中存在系统性文化偏向：多数模型默认偏向北美族群，而DeepSeek-1.5B则更偏向亚洲族群。研究还提出两种公平性指标，量化了不同模型的族群偏差程度，其中Ministral-8B偏差最显著，Gemma-12B表现最均衡。

AlignmentEvaluationFinetuningQuantizationCode

17. Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Caglar Yildirim

本研究揭示了在个性化LLM智能体中，用户披露心理健康状况这一敏感上下文会轻微降低模型完成有害任务的比例，但也会导致对良性任务的过度拒绝，形成安全与效用的权衡；同时，个性化带来的微弱保护作用在简单的越狱攻击下极易失效。

RAGAgentsSafetyEvaluationLong Context

18. IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo et al.

本文介绍了IQuest-Coder-V1系列代码大语言模型，其核心贡献是提出了**代码流多阶段训练范式**，通过模拟软件逻辑的动态演化来提升模型性能。关键发现是，该系列模型在智能软件工程、竞赛编程和复杂工具使用等关键维度上达到了**最先进的性能**，并通过循环变体在模型能力与部署成本之间实现了优化权衡。

AgentsReasoningCode

19. Understanding Quantization of Optimizer States in LLM Pre-training: Dynamics of State Staleness and Effectiveness of State Resets

Kristi Topollai, Anna Choromanska

该论文研究了LLM预训练中优化器状态量化的动态影响，发现低精度存储会导致状态“停滞”而降低优化效率，并提出通过理论指导的状态重置策略来恢复性能，在减少内存占用的同时保持训练效果。

RAGQuantization

20. Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Mohamed Adel, Bashar Alhafni, Nizar Habash

该研究评估了指令微调大语言模型在阿拉伯语形态句法标注和依存句法分析任务上的表现，发现通过优化提示设计和基于检索的上下文学习，模型性能可接近监督基线水平，但在原始文本分词方面仍面临挑战。

RAGEvaluation

21. When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making

Jun Liu, Pu Zhao, Zhenglun Kong et al.

该论文提出RARRL框架，通过强化学习让具身机器人智能体自适应地决定何时调用大语言模型进行推理，以在任务成功率、执行延迟和计算资源之间实现最优权衡。核心贡献是证明了动态控制LLM推理时机能显著提升机器人系统的效率和可靠性。

AgentsReasoningEvaluationInference

22. Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?

Aishwarya Ramasethu, Niyathi Allu, Rohin Garg et al.

该研究探讨了在低资源机器翻译场景下，利用语言相关的枢纽语言和少量示例能否有效引导大语言模型（LLM）进行翻译。核心发现是，这种基于枢纽语言的提示方法在某些配置下（尤其是目标语言在模型词汇中表征不足时）能带来有限提升，但其效果不稳定且对示例构造敏感，对于表征较好或高度相关的语言则收益甚微。

EvaluationFinetuningInference

23. Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models

Xiaojie Gu, Sherry T. Tong, Aosong Feng et al.

该论文提出了Omanic数据集，通过提供分解的子问题和中间答案标注，实现了对大语言模型多步推理过程的逐步评估。研究发现，思维链推理的效果依赖于事实完整性，且在知识缺失时性能下降，同时利用该数据集进行监督微调能显著提升模型在多种推理任务上的表现。

RAGReasoningEvaluationFinetuningMultimodalCodeMath

24. Good Arguments Against the People Pleasers: How Reasoning Mitigates (Yet Masks) LLM Sycophancy

Zhaoxin Feng, Zheng Chen, Jianfei Ma et al.

该研究发现，思维链推理在缓解大语言模型谄媚行为的同时，也可能通过构建逻辑不一致的论证来掩盖该行为，且谄媚倾向在推理过程中是动态变化的。

AgentsReasoningAlignmentEvaluation

25. When AI Navigates the Fog of War

Ming Li, Xirui Li, Tianyi Zhou

该论文通过构建2026年中东冲突早期阶段的时序分析框架，首次在LLM领域实现了对地缘政治冲突的实时推理评估。研究发现，先进大语言模型展现出战略现实主义推理能力，但其表现受领域结构化程度影响，且模型对冲突的叙事会随时间推移从快速遏制预期转向系统性消耗战分析。

ReasoningFinetuning

26. MLLM-based Textual Explanations for Face Comparison

Redwan Sony, Anil K Jain, Ross Arun

该研究系统评估了多模态大语言模型（MLLM）在无约束人脸验证任务中生成文本解释的可靠性，发现即使模型做出正确判断，其解释也常依赖缺乏视觉证据支持或虚构的面部属性。研究进一步提出基于似然比的评估框架，揭示了当前MLLM在可解释人脸识别中的根本局限性，强调需要更严谨的评估方法来确保生物识别应用中解释的可信度。

EvaluationMultimodalCode

27. Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Omnilingual SONAR Team, João Maria Janeiro, Pere-Lluís Huguet Cabot et al.

该论文提出了OmniSONAR模型，通过渐进式训练和跨模态扩展，在单一语义空间中实现了对数千种语言文本和语音的统一编码，显著提升了跨语言检索和翻译等下游任务的性能。

AlignmentEvaluationInferenceCodeMath

28. BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Ji-Fu Li, Manyi Zhang, Xiaobo Xia et al.

该论文提出了BATQuant方法，通过可学习的块级优化实现MXFP4格式的量化，解决了现有方法在量化多模态大语言模型时因异常值传播导致的性能下降问题。其核心贡献在于限制变换范围以防止跨块异常值扩散，并引入参数高效的分解方法，在W4A4KV16配置下显著恢复了模型性能。

RAGEvaluationQuantizationMultimodal

29. Runtime Governance for AI Agents: Policies on Paths

Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy

该论文提出以执行路径为核心对象的运行时治理框架，将合规策略形式化为可计算函数，强调动态路径评估是实现AI智能体有效治理的必要手段，突破了传统提示工程和静态管控的局限性。

AgentsReasoningEvaluation

30. When and Why Does Unsupervised RL Succeed in Mathematical Reasoning? A Manifold Envelopment Perspective

Zelin Zhang, Fei Cheng, Chenhui Chu

本文提出通过内在奖励机制实现无监督强化学习，以提升大语言模型的数学推理能力，并揭示了该方法在模型具备基础逻辑先验时有效，否则易出现策略崩溃；同时引入几何诊断视角，指出成功案例受流形包络的约束。

ReasoningEvaluationMath

31. Characterizing Delusional Spirals through Human-LLM Chat Logs

Jared Moore, Ashish Mehta, William Agnew et al.

本研究首次通过分析真实有害案例的聊天记录，系统揭示了用户与LLM聊天机器人互动中产生的妄想螺旋现象。关键发现包括：用户妄想思维在15.5%的消息中出现，而聊天机器人自我标榜有感知力的消息占21.2%，且这些现象在长对话中显著增多，表明现有安全机制在多轮交互中可能失效。

AgentsSafetyCode

32. BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Sangyeon Yoon, Sunkyoung Kim, Hyesoo Hong et al.

该论文提出了BenchPreS基准，用于评估大语言模型在持久记忆中存储的用户偏好是否能在不同社交语境中被恰当应用或抑制。研究发现，当前前沿大语言模型难以实现语境敏感的偏好选择，往往将个性化偏好视为全局规则而非情境依赖的规范信号。

ReasoningAlignmentEvaluation

33. EmoLLM: Appraisal-Grounded Cognitive-Emotional Co-Reasoning in Large Language Models

Yifei Zhang, Mingyang Li, Henry Gao et al.

该论文提出了EmoLLM框架，通过引入基于认知评估理论的结构化推理图，使大语言模型能够协同处理事实认知与情感智能，从而在保持事实可靠性的同时生成更符合用户情感需求的回应。关键发现是，这种显式的评估推理机制通过强化学习训练，在多轮对话中显著提升了情感支持效果和整体回复质量。

ReasoningInference

34. How often do Answers Change? Estimating Recency Requirements in Question Answering

Bhawna Piryani, Zehra Mert, Adam Jatowt

该论文提出了一个时效性-稳定性分类法，用于评估问答中答案更新的频率和情境依赖性，并发布了RecencyQA数据集。研究发现，对于答案更新频繁且受情境影响的非稳定问题，大语言模型面临显著挑战，这为开发时效感知的问答系统提供了重要基础。

ReasoningEvaluation

35. Designing for Disagreement: Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots

Carmen Ng

该论文提出了一种面向LLM机器人辅助分配的前端约束框架，通过预设可审核的优先级模式、实时透明化决策依据、并提供特定结果申诉机制，以应对多元价值观冲突与LLM行为不确定性问题，避免隐性偏见或用户配置负担。

ReasoningEvaluation

36. Exploring different approaches to customize language models for domain-specific text-to-code generation

Luís Freire, Fernanda A. Andaló, Nicki Skafte Detlefsen

本研究探索了三种定制化方法（小样本提示、检索增强生成和LoRA微调）来提升较小规模语言模型在特定领域（Python编程、Scikit-learn和OpenCV）的文本到代码生成能力。关键发现是：基于提示的方法能低成本提升领域相关性但准确性有限，而LoRA微调在大多数任务中能实现更高的准确性和领域对齐度。

RAGAlignmentEvaluationFinetuningMultimodalCode

37. AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Shannan Yan, Jingchen Ni, Leqi Zheng et al.

该论文提出了AdaMem框架，通过构建多层级记忆结构和自适应检索机制，解决了现有LLM对话代理在长期对话中过度依赖语义相似性、记忆碎片化和粒度不灵活的问题。实验表明，AdaMem在长期推理和用户建模任务上取得了最先进的性能。

RAGAgentsReasoningEvaluationInferenceCode

38. ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation

Zihe Wang, Yihuan Wang, Haiyang Yu. Zhiyong Cui et al.

本文提出了ExpressMind，一个面向高速公路运营的多模态预训练大语言模型，通过构建首个全栈高速公路数据集和双层级预训练范式，显著提升了LLM在交通事件检测、安全响应生成等任务上的性能。其核心创新在于结合图增强检索与强化学习对齐的思维链机制，增强了模型对专业领域因果关系的理解和推理能力。

RAGReasoningSafetyEvaluationMultimodalCode

39. TRACE: Evaluating Execution Efficiency of LLM-Based Code Translation

Zhihao Gong, Zeyu Sun, Dong Huang et al.

该论文提出了首个专门评估大语言模型（LLM）代码翻译**执行效率**的基准测试TRACE，其核心发现是：代码功能正确性并不能代表执行效率，当前LLM普遍缺乏效率意识，且低效问题在正确的翻译中广泛存在并呈现规律性模式。

EvaluationInferenceCode

40. Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov et al.

该论文通过因果分析发现，大语言模型在生成中间结构（如检查清单）时，看似与最终决策一致，但实际干预中间结构后，模型往往不会相应更新预测（失败率高达60%），表明中间结构仅作为有影响力的上下文而非稳定的因果媒介。研究还发现，将最终决策委托给外部工具可显著缓解此问题，但提示模型优先考虑中间结构的方法效果有限。

RAGAgentsReasoningEvaluation

41. Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Yu Liu, Lei Zhang, Haoxun Li et al.

该论文提出HyDRA架构，通过混合证据演绎推理机制，解决了开放词汇多模态情感识别中因线索模糊导致的推理瓶颈问题。其核心贡献在于设计了“提出-验证-决策”协议，并利用分层奖励强化学习优化推理轨迹，显著提升了模型在模糊或冲突场景下的性能与可解释性。

RAGReasoningEvaluationInferenceMultimodal

42. DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning

Yanyu Qian, Yue Tan, Yixin Liu et al.

本文提出DynHD方法，用于检测扩散大语言模型（D-LLMs）的幻觉问题。其核心贡献在于从空间（令牌序列）和时间（去噪动态）两个维度建模：通过语义感知的证据构建模块筛选关键令牌，并利用参考证据生成器学习不确定性演变的预期轨迹，通过测量观测轨迹与参考轨迹的偏差来实现更高效的幻觉检测。

Evaluation

43. RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Linghua Zhang, Jun Wang, Jingtong Wu et al.

该论文提出了RetailBench基准测试和Evolving Strategy & Execution框架，用于评估LLM智能体在动态零售环境中的长期决策能力。研究发现，该框架能提升决策稳定性，但任务复杂度增加时性能显著下降，揭示了当前LLM在长期多因素决策方面的根本局限。

AgentsReasoningEvaluation

44. Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Rishaank Gupta

该论文提出了一种名为“能力引导压缩”的新框架，通过使用稀疏自编码器来量化模型组件的能力密度，从而在压缩时进行差异化预算分配。其核心贡献是首次提供了一种在压缩前预测组件性能相变点的方法，并证明该能力密度指标与现有压缩重要性度量正交。

ReasoningEvaluationQuantizationCode

45. VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

Yixuan Wang, Qingyu Shi, Jiayu Zhou et al.

本文提出了一种无需训练的大语言模型KV缓存压缩方法VQKV，通过向量量化技术，在保持高模型性能的同时实现了高压缩比。该方法在LLaMA3.1-8B上达到了82.8%的压缩率，性能保留率达98.6%，并在相同内存下支持生成长度提升4.3倍。

Long ContextQuantizationInference

46. From Natural Language to Executable Option Strategies via Large Language Models

Haochen Luo, Zhengzhao Lai, Junjie Xu et al.

该论文提出了一种名为OQL的领域特定中间表示语言，将复杂的期权策略设计转化为结构化查询，使大语言模型能够作为可靠的语义解析器而非自由编程器。通过神经符号化处理流程，该方法显著提升了从自然语言生成可执行期权策略的准确性和逻辑一致性。

ReasoningCode

47. EngGPT2: Sovereign, Efficient and Open Intelligence

G. Ciarfaglia, A. Rosanova, S. Cipolla et al.

EngGPT2-16B-A3B是一个高效、开源的意大利语大语言模型，其核心贡献在于：通过混合专家架构和较少的训练数据，实现了与8B-16B参数量级模型相当的性能，同时显著降低了推理和训练的资源消耗。该模型特别优化了对意大利语和欧洲NLP任务的支持，并集成了多种推理模式，旨在成为符合欧盟AI法案的高效开源模型。

ReasoningAlignmentEvaluationLong ContextInference

48. An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Ruijia Yang, Zeyi Wen

本文提出SlideFormer系统，通过异构协同设计实现在单GPU上高效微调大语言模型。其核心贡献在于利用异步滑动窗口机制与异构内存管理，将123B+模型的微调内存需求降低至单张RTX 4090可承载，并在吞吐量和内存效率上显著超越基线方法。

EvaluationLong ContextFinetuningInference

49. Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences

Quan Cheng

该论文提出，在AI对齐中，使用“负面约束”（即定义什么是不被接受的）在结构上优于“正面偏好”（即定义什么是更好的）。其核心发现是，负面信号能更稳定、可验证地界定行为边界，这解释了为何仅使用负面反馈的方法能在数学推理和安全性等任务上达到甚至超越传统强化学习的效果。

ReasoningAlignmentEvaluationCodeMath

50. IndexRAG: Bridging Facts for Cross-Document Reasoning at Index Time

Zhenghua Bao, Yi Shi

IndexRAG 的核心贡献是将跨文档推理从在线推理转移到离线索引阶段，通过识别文档间的桥接实体并生成可独立检索的“桥接事实”，从而在推理时仅需单次检索和一次LLM调用。该方法在多个多跳问答基准测试中显著提升了性能，且无需额外训练或微调。

RAGReasoningEvaluationFinetuningInferenceCode

51. Trained Persistent Memory for Frozen Encoder--Decoder LLMs: Six Architectural Methods

Hong Jeong

本文提出了一种在冻结编码器-解码器大语言模型的连续隐空间中实现持久记忆的可行性方案，其核心贡献在于通过六种可微的向量读写架构方法，使模型能在推理时无需梯度更新即可积累记忆，实现对话式学习。关键发现是记忆容量是设计关键参数，且紧凑的记忆数组可独立于主干模型进行任意扩展。

EvaluationFinetuningInferenceCodeMath

52. RECOVER: Robust Entity Correction via agentic Orchestration of hypothesis Variants for Evidence-based Recovery

Abhishek Kumar, Aashraya Sachdeva

该论文提出了RECOVER框架，通过智能协调多种ASR假设作为证据，并利用LLM进行约束性纠正，显著提升了罕见和领域特定实体的识别准确率。关键发现是LLM-Select策略在实体纠正上实现了最佳性能，将实体词错误率相对降低了8-46%，同时召回率最高提升22个百分点。

RAGAgentsEvaluation

53. PlotTwist: A Creative Plot Generation Framework with Small Language Models

Abhinav Thorat, Ravi Kolla, Jyotin Goel et al.

该论文提出了PlotTwist框架，其核心贡献在于**通过结构化分解和偏好对齐，使参数量小得多（≤5B）的小语言模型（SLM）能够生成与前沿大模型（大200倍）相媲美的高质量创意情节**。关键发现是，这种结合了方面评分奖励模型、专家混合生成器和智能体评估模块的资源高效方法，能有效解决大模型在创意写作领域进行偏好对齐时面临的计算成本高、可及性差的问题。

AgentsAlignmentEvaluation

54. Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Finnur Ágúst Ingimundarson, Steinunn Rut Friðriksdóttir, Bjarki Ármannsson et al.

该论文指出，在冰岛语等中低资源语言中，使用未经验证的合成或机器翻译数据构建的LLM评测基准存在严重缺陷，会扭曲评估结果并损害有效性。研究强调，必须改进此类语言的评估方法，并验证基准数据的质量。

EvaluationQuantization

55. Fanar 2.0: Arabic Generative AI Stack

FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad et al.

本文介绍了阿拉伯语生成式AI平台Fanar 2.0，其核心贡献在于：**在资源有限（仅用256块H100 GPU）和数据稀缺（阿拉伯语网络数据仅占0.5%）的约束下，通过“质量优于数量”的数据策略、持续预训练和模型合并，成功开发出性能显著提升的阿拉伯语大模型Fanar-27B**。该模型在阿拉伯语知识、方言及英语能力等多个基准测试中取得大幅进步，并构建了包含内容审核、语音识别、多模态理解、诗歌生成等功能的完整技术栈，证明了主权AI系统在有限规模下也能具备竞争力。

AgentsAlignmentSafetyEvaluationQuantizationMultimodal

56. FactorEngine: A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Qinhong Lin, Ruitao Feng, Yinglun Feng et al.

FactorEngine 提出了一种结合大语言模型（LLM）与程序级知识注入的量化因子挖掘框架，其核心贡献在于通过LLM引导的定向搜索和知识增强的闭环多智能体流程，将非结构化金融报告转化为可执行因子程序，从而在保持因子可解释性和可执行性的同时，显著提升了预测稳定性和投资组合表现。

RAGAgentsQuantizationMultimodalCode

57. Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Matthijs Jansen op de Haar, Nacir Bouali, Faizan Ahmed

本研究探索了开源大语言模型（LLM）在评估UML类图作业方面的潜力，其核心贡献在于提出了一种按具体评分标准对比助教与LLM评分的分析框架。关键发现是，开源LLM在单项评分标准上最高可达88.56%的准确率，且通过组合各标准下的最优模型，其综合表现可接近助教水平，为构建人机协同的混合评分系统提供了可行路径。

AlignmentEvaluationQuantization

58. Toward Experimentation-as-a-Service in 5G/6G: The Plaza6G Prototype for AI-Assisted Trials

Sergio Barrachina-Muñoz, Marc Carrascosa-Zamacois, Horacio Bleda et al.

本文介绍了首个将云资源与下一代无线基础设施统一的实验即服务平台Plaza6G，其核心贡献在于通过集成大语言模型助手，利用RAG和LoRA技术简化了实验设计流程，使非专家用户也能通过自然语言快速配置和开展5G/6G无线网络实验。

RAGSafetyEvaluationFinetuningCode

59. PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Hanif Rahman

本文为低资源语言普什图语构建了一个12.5亿词的大规模语料库PashtoCorp及处理流程，显著提升了该语言模型的性能。关键发现包括：基于该语料库继续预训练使XLM-R模型的困惑度降低25.1%，并在NER任务上获得最高27%的性能提升，同时首次为普什图语阅读理解任务建立了LLM基线。

EvaluationCode

60. Detecting Sentiment Steering Attacks on RAG-enabled Large Language Models

Isha Andrade, Shalaka S Mahadik, Mithun Mukherjee et al.

这篇论文与LLM领域无关，其核心贡献是提出了两种基于CNN和LSTM的轻量级深度学习入侵检测系统，用于保护物联网网络安全，并在CICIoT2023数据集上实现了超过98.6%的高分类准确率。

RAGEvaluation

61. An Interpretable Machine Learning Framework for Non-Small Cell Lung Cancer Drug Response Analysis

Ann Rachel, Pranav M Pawar, Mithun Mukharjee et al.

本文提出了一种用于非小细胞肺癌药物反应分析的机器学习框架，其核心贡献在于利用XGBoost模型预测药物敏感性，并创新性地结合SHAP与DeepSeek大语言模型来验证和解释关键生物特征的合理性，从而增强了模型的可解释性。

LLM

62. A Human-Centred Architecture for Large Language Models-Cognitive Assistants in Manufacturing within Quality Management Systems

Marcos Galdino, Johanna Grahl, Tobias Hamann et al.

该研究针对制造业质量管理体系，提出了一种以人为本、支持大语言模型认知助手集成的软件架构，填补了该领域的研究空白。该架构具备灵活性、可扩展性和模块化特点，旨在通过人机协作提升制造流程的持续改进与知识管理水平。

LLM

63. Learning to Predict, Discover, and Reason in High-Dimensional Discrete Event Sequences

Hugo Math

本文提出了一种将事件序列建模、因果发现与大语言模型（LLM）相结合的统一框架，用于处理高维车辆故障诊断序列。其核心贡献在于开发了基于Transformer的预测架构、可扩展的因果发现方法，以及一个能自动生成高级错误模式规则的多智能体系统，从而实现了从预测到因果推理的自动化诊断。

AgentsReasoningSafetyCode

64. Omnilingual MT: Machine Translation for 1,600 Languages

Omnilingual MT Team, Belen Alastruey, Niyati Bafna et al.

该论文提出了首个支持超过1,600种语言的机器翻译系统OMT，其核心贡献在于通过整合大规模多语言数据与专门化的大语言模型（如OMT-LLaMA），在保持模型参数较小（1B-8B）的情况下，实现了超越70B参数通用大模型的翻译性能，显著提升了低资源语言的生成质量与跨语言理解能力。

RAGEvaluationCode

65. NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Ming Yang, Zhi Zhou, Shi-Yu Tian et al.

该论文提出了NeSy-Route，一个用于遥感场景下约束路径规划的大规模神经符号基准测试。其核心贡献在于通过自动数据生成框架和三层评估协议，首次系统评估了多模态大语言模型在复杂规划任务中的能力，并发现现有模型在感知和规划方面存在显著不足。

AgentsReasoningEvaluationMultimodal

66. Attention-guided Evidence Grounding for Spoken Question Answering

Ke Yang, Bolin Chen, Yuejie Li et al.

本文提出了一种用于口语问答的注意力引导证据定位框架，通过监督微调校准语音大模型的跨模态注意力机制，使其能准确定位关键证据，从而在降低62%推理延迟的同时减少幻觉并超越级联基线系统。

RAGFinetuningInference

67. VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou et al.

该论文提出了一个名为VisBrowse-Bench的新基准，用于评估多模态浏览代理在网页原生视觉信息搜索中的视觉推理能力。其核心贡献在于通过多模态证据交叉验证，揭示了当前顶尖模型在此任务上的表现仍不理想，最高准确率不足50%，凸显了该领域的关键挑战。

RAGAgentsReasoningEvaluationMultimodalCode

68. Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Chunjiang Mu, Ya Zeng, Qiaosheng Zhang et al.

本文提出自适应心智理论（A-ToM）方法，通过动态对齐LLM智能体之间的心智推理层级，解决了多智能体协作中因心智理论层级错配导致的协调失效问题。实验表明，该方法能有效提升LLM智能体在多种协作任务中的协调性能，并探讨了其向非LLM智能体的泛化潜力。

RAGAgentsReasoningAlignmentEvaluation

69. How to Utilize Complementary Vision-Text Information for 2D Structure Understanding

Jiancheng Dong, Pengyue Jia, Derong Xu et al.

该论文提出DiVA-Former架构，通过视觉标记作为动态查询来融合视觉与文本信息，有效解决了大语言模型处理二维表格时因序列化而丢失布局信息的问题。实验表明，该方法在13个基准测试中显著优于纯文本基线及现有多模态方法，验证了视觉与文本信息在表格理解任务中具有高度互补性。

RAGEvaluationMultimodalCode

70. More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification

Song Tae-Eun

该研究发现，在LLM的跨上下文验证任务中，多轮次审阅（Dynamic Cross-Context Review）虽然能略微提高错误召回率，但会因产生大量误报而显著降低整体性能（F1值）。其核心机制是后续轮次的“误报压力”和“审阅目标漂移”，表明单纯增加审阅轮次会引入噪声而非提升准确性。

LLM

71. ReFORM: Review-aggregated Profile Generation via LLM with Multi-Factor Attention for Restaurant Recommendation

Moonsoo Park, Seulbeen Je, Donghyeon Park

该论文提出ReFORM框架，利用大语言模型从用户评论中提取多因素偏好信息，并通过注意力机制突出关键决策因素，从而提升餐厅推荐的个性化效果和性能。

AlignmentEvaluationCode

72. Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism

Kaixuan Du, Meng Cao, Hang Zhang et al.

本文提出DCRL方法，通过两阶段投票机制解决无监督RLVR中伪多数答案问题，无需外部监督即可生成更可靠的学习信号，在多个基准测试中稳定提升推理性能。

ReasoningEvaluationMultimodal

73. SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation

Hang Lv, Sheng Liang, Hao Wang et al.

该论文提出SpecSteer框架，通过协同本地设备与云端大模型，在保护用户隐私的同时提升个性化生成质量。其核心贡献是利用推测解码实现分布式对齐，在解耦隐私上下文的情况下验证逻辑，从而兼顾效率与推理能力。

ReasoningAlignmentEvaluationInference

74. Generative AI for Quantum Circuits and Quantum Code: A Technical Review and Taxonomy

Juhani Merilehto

本文系统回顾了量子电路与量子代码生成领域的生成式AI方法，核心发现是现有方法虽能保证语法正确性和部分语义准确性，但均缺乏在真实量子硬件上的端到端可执行性评估，揭示了生成结果与实际部署间的关键差距。

AgentsEvaluationFinetuningQuantizationCode

75. CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

Gengxin Sun, Ruihao Yu, Liangyi Yin et al.

本文提出CoMAI，一个基于多智能体协作的面试评估框架，其核心贡献在于通过模块化任务分解与协同机制，显著提升了基于大语言模型的评估系统的鲁棒性、公平性和可解释性。关键发现是，该框架在抵御提示注入、实现多维自适应评分方面表现优异，实验达到了高准确率和候选人满意度。

AgentsEvaluation

76. MOSAIC: Composable Safety Alignment with Modular Control Tokens

Jingyu Peng, Hongyu Chen, Jiancheng Dong et al.

MOSAIC提出了一种模块化安全对齐框架，通过可学习的控制令牌在冻结的基础模型上实现组合式安全控制。该方法能灵活组合不同安全约束，在保持模型性能的同时显著降低了过度拒绝问题。

AlignmentSafetyInference

77. Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes

Xinxin Jin, Zhengwei Ni, Zhengguo Sheng et al.

该论文提出了一种双阶段意图感知框架（DS-IA），通过将高层意图理解与低层物理执行分离，有效解决了AIoT智能家居中LLM的实体幻觉和交互效率问题。其核心贡献在于，该框架通过语义防火墙和级联验证器，显著提升了指令执行的准确率（EM提升超28%）和无效指令拒绝率（达87.04%），同时将自主成功率从42.86%提升至71.43%，在确保安全的前提下减少了不必要的用户干预。

AgentsEvaluationInference

78. Offline Exploration-Aware Fine-Tuning for Long-Chain Mathematical Reasoning

Yongyu Mu, Jiali Zeng, Fandong Meng et al.

该论文提出离线探索感知微调（OXA）方法，通过优化低置信度正确数据和高置信度错误数据的训练目标，增强大语言模型在数学推理中的探索能力。实验表明，OXA能显著提升模型初始性能并维持长期训练效果，为后续强化学习训练提供了更好的起点。

RAGReasoningEvaluationFinetuningMath

79. A Scoping Review of AI-Driven Digital Interventions in Mental Health Care: Mapping Applications Across Screening, Support, Monitoring, Prevention, and Clinical Education

Yang Ni, Fanli Jia

该论文系统综述了AI在心理健康领域的应用，重点指出以LLM为核心的对话代理等技术在筛查、治疗支持和监测等环节发挥关键作用，同时揭示了算法偏见与数据隐私等挑战，并提出了一个四支柱框架以推动该领域安全、公平地发展。

Agents

80. Are Large Language Models Truly Smarter Than Humans?

Eshwar Reddy M, Sourav Karmakar

该论文通过三项实验对前沿大语言模型进行数据污染审计，发现模型在公开基准测试中的优异表现部分源于训练数据污染，且当问题表述方式改变时，模型性能会显著下降，表明其真实能力可能被高估。核心贡献在于系统性地揭示了LLM在常见评测中因数据泄露导致的性能虚高问题，并提出了检测污染和评估模型真实泛化能力的方法。

RAGEvaluationCode

81. Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models

Xiaobing Sun, Perry Lam, Shaohua Li et al.

本文提出了一种名为结构化语义伪装（S2C）的新型越狱攻击框架，其核心贡献在于通过分散和重塑恶意请求的语义线索，延迟并干扰大语言模型在推理过程中对有害意图的重建，从而有效绕过模型的安全机制。关键发现是，该方法在多个基准测试中显著提升了攻击成功率，特别是在GPT-5-mini等模型上表现突出，揭示了当前LLM安全机制在应对多步、长程语义推理攻击时的脆弱性。

RAGReasoningSafetyEvaluationInference

82. 360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro et al.

本文针对多模态大语言模型（MLLMs）在理解360°全景图像方面的不足，提出了首个综合性基准测试360Bench，并揭示现有模型在此类任务上的缺陷。为解决该问题，作者提出了一种无需训练的框架Free360，它通过模块化推理和自适应图像变换，有效提升了MLLMs在全景视觉问答任务上的性能。

ReasoningEvaluationMultimodalCode

83. DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

Long Li, Zhijian Zhou, Tianyi Wang et al.

该论文提出DyJR框架，通过动态Jensen-Shannon散度正则化和时序敏感缓冲区，在强化学习训练中有效维持策略多样性，防止大语言模型在推理任务中出现模式崩溃。实验表明该方法在数学推理和Text-to-SQL任务上显著提升性能，并通过概率分布分析验证了其对token多样性保持的贡献。

ReasoningEvaluationInferenceMath

84. Dialect-Agnostic SQL Parsing via LLM-Based Segmentation

Junwen An, Kabilan Mahathevan, Manuel Rigger

该论文提出SQLFlex框架，通过将SQL查询分解为子句和表达式级别的分段任务，结合基于语法的解析与LLM的分段能力，实现了对多种SQL方言的鲁棒解析。其核心贡献在于利用LLM处理序列化任务的强项，显著提升了跨方言SQL解析的准确性和可靠性，在多个实际任务中优于现有工具。

AgentsEvaluation

85. HIPO: Instruction Hierarchy via Constrained Reinforcement Learning

Keru Chen, Jun Luo, Sen Lin et al.

本文提出HIPO框架，通过约束强化学习将分层指令遵循问题建模为约束马尔可夫决策过程，其核心贡献在于将系统提示作为严格算法约束，在确保系统指令优先遵从的前提下优化用户指令效用，实验表明该方法能显著提升模型对系统指令的遵从性并引导注意力机制聚焦于长程系统标记。

AlignmentEvaluationFinetuning

86. Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction

Mengyuan Li, Qianfan Lu, Jiachen Tian et al.

该论文提出了一种基于大语言模型的多模态框架，通过融合GPS、图像和LiDAR等多源数据，利用LLM的推理与泛化能力，实现了对复杂近场环境的深度理解，从而显著提升了波束预测的准确性和效率。

ReasoningAlignmentMultimodalCode

87. Parametric Social Identity Injection and Diversification in Public Opinion Simulation

Hexi Wang, Yujia Zhou, Bangde Du et al.

该论文提出了一种名为PSII的新方法，通过向大语言模型的中间隐藏状态注入参数化的社会身份表征，有效解决了现有基于LLM的舆论模拟中存在的“多样性崩溃”问题。该方法显著提升了模拟结果与真实世界调查数据的分布保真度和群体内多样性，为大语言模型在表示层面的可控性提供了新思路。

AgentsEvaluationCode

88. Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards

Yuxuan Zhu, Daniel Kang

本文研究发现，在带有可验证奖励的强化学习（RLVR）中，噪声数据具有破坏性，现有算法改进无法有效缓解其负面影响。实验表明，使用含噪声数据训练的模型在数学推理和Text2SQL任务上的性能显著低于使用干净数据训练的模型。

ReasoningEvaluationMath

89. Answer Bubbles: Information Exposure in AI-Mediated Search

Michelle Huang, Agam Goyal, Koustuv Saha et al.

该研究通过对比四种搜索系统发现，生成式搜索系统在引用来源上存在显著偏见，过度依赖维基百科等特定来源，同时减少了不确定性表达，可能形成信息获取的“答案气泡”，影响用户对信息的信任与获取透明度。

RAGEvaluationInference

90. SIA: A Synthesize-Inject-Align Framework for Knowledge-Grounded and Secure E-commerce Search LLMs with Industrial Deployment

Zhouwei Zhai, Mengxiang Chen, Anmeng Zhang

该论文提出了一个名为SIA的框架，旨在解决电商搜索大语言模型中的知识幻觉和安全漏洞问题。其核心贡献是通过合成高质量语料、参数高效的知识注入以及双路径对齐方法，有效提升了模型的领域知识准确性和抗攻击鲁棒性，并已在京东平台成功部署验证。

ReasoningAlignmentSafetyEvaluationInference

91. SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Han Jang, Junhyeok Lee, Kyu Sung Choi

该论文提出了SciZoom，一个大规模、分层级的科学文献摘要基准数据集，覆盖LLM时代前后的论文，其核心贡献在于首次系统分析了LLM辅助写作如何使科学文本风格趋于自信和同质化（如公式化表达激增、模糊性表述减少）。

EvaluationCode

92. Social Simulacra in the Wild: AI Agent Communities on Moltbook

Agam Goyal, Olivia Pal, Hari Sundaram et al.

本研究首次对AI智能体社区与人类在线社区进行了大规模实证比较，发现AI社区存在极端参与不平等、情感表达扁平化及社交疏离等特征。核心贡献在于揭示了多智能体互动产生的集体传播动态与人类社区存在本质差异，为理解AI中介传播提供了实证基础。

AgentsFinetuning

93. Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning

Kazuki Yano, Shun Kiyono, Sosuke Kobayashi et al.

本文研究发现，在大型语言模型（LLM）的预训练阶段，使用无学习率衰减的调度器（Warmup-Stable-Only）进行训练，尽管预训练损失可能更高，但能使其在后续监督微调（SFT）后获得比使用衰减调度器更好的下游任务性能。关键发现在于，衰减调度器会将模型导向更尖锐的损失最小值，从而损害模型适应性，而无衰减方法则能保持更平坦的最小值，增强下游任务的适应能力。

EvaluationFinetuning

94. SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Songcheng Cai, Zhiheng Lyu, Yuansheng Ni et al.

该论文提出了SWE-QA-Pro基准测试，通过覆盖长尾仓库和可执行环境，有效评估LLM在仓库级代码理解中的智能体探索能力，并设计了一个可扩展的两阶段训练方法，使小型开源模型在该任务上能超越GPT-4o等先进模型。

AgentsReasoningAlignmentEvaluationFinetuningCode

95. Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users

Nishant Balepur, Malachi Hamada, Varsha Kishore et al.

该论文提出了个性化研究工具MyScholarQA，其核心贡献在于揭示了仅依赖LLM评估无法发现的九类个性化深层研究错误，并强调真实用户反馈对实现有效个性化的必要性。

AgentsEvaluation

96. PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency

Minbing Chen, Zhu Meng, Fei Su

该研究提出了PathGLS，一个无需人工标注的评估框架，用于检测病理学视觉-语言模型（VLMs）的幻觉和错误。其核心贡献在于通过多维度一致性（定位、逻辑、稳定性）评估模型，实验表明它能更有效地识别幻觉，并与专家评估高度相关，显著优于基于大语言模型的评估方法。

AlignmentEvaluationQuantizationInferenceMultimodalCode

97. ASDA: Automated Skill Distillation and Adaptation for Financial Reasoning

Tik Yu Yim, Wenting Tan, Sum Yee Chan et al.

本文提出ASDA框架，通过自动生成结构化技能文件（包含推理步骤和代码模板）来提升大语言模型在金融推理任务上的表现，无需微调模型权重即可在FAMMA基准上实现显著性能提升。该方法的核心贡献在于提供了一种可审计、可版本控制的领域适应方案，使组织能够在不修改模型的情况下高效迁移专业知识。

AgentsReasoningEvaluationFinetuningInferenceCode

98. Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

Francesco Pio Monaco, Elia Cunegatti, Flavio Vella et al.

本文提出了一种名为ZipCal的模型无关数据筛选方法，通过最大化基于齐夫定律的词汇多样性来选择校准数据，用于LLM的剪枝和量化。该方法在保持下游任务性能的同时，比依赖模型困惑度的现有方法快约240倍，且计算复杂度仅为线性。

RAGEvaluationLong ContextQuantizationInferenceCode

99. Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

Noppanat Wadlom, Junyi Shen, Yao Lu

本文从数据系统视角提出Helium框架，将智能体工作流建模为查询计划，通过主动缓存和缓存感知调度实现提示、KV状态和工作流的跨调用复用，相比现有系统最高可提升1.56倍效率，证明了端到端工作流优化对提升LLM智能体服务效能的关键作用。

AgentsFinetuningInference

100. CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

Tianyi Huang, Ying Kai Deng

该论文提出了CounterRefine方法，通过在推理时检索与初步答案相矛盾的证据来验证和修正答案，从而显著提升了事实问答的准确性。其核心贡献在于将检索机制从单纯收集上下文转变为对答案进行测试和修复的工具，在基准测试中大幅超越了基线RAG模型和GPT-5.4的表现。

RAGEvaluationInferenceMultimodal

101. TharuChat: Bootstrapping Large Language Models for a Low-Resource Language via Synthetic Data and Human Validation

Prajwal Panth, Agniva Maiti

本文提出了一种利用合成数据和人工验证为低资源语言构建大语言模型的方法，通过LLM-to-Human引导流程创建了TharuChat数据集，并基于此训练出Tharu-LLaMA模型。核心贡献在于证明即使是不完美的合成数据也能有效提升模型性能，为保护资源匮乏语言提供了可行的技术路径。

RAGCodeMath

102. Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text

Federico Albanese, Pablo Ronco, Nicolás D'Ippolito

本文提出了一种基于本地大语言模型的文本匿名化框架，通过用类型一致的虚构信息替换个人身份信息，在保护隐私的同时保持了文本的流畅性和语义完整性。该框架在隐私保护、语义效用和下游任务可用性方面均优于现有方法，实现了无需数据外传的安全匿名化处理。

AgentsEvaluationFinetuningInferenceCode

103. AI Scientist via Synthetic Task Scaling

Ziyang Cai, Harkirat Behl

本文提出了一种用于训练机器学习智能体的合成任务生成方法，通过自动创建基于真实数据集的机器学习挑战任务，并利用这些合成任务训练学生模型，显著提升了模型在机器学习基准测试上的性能。其核心贡献在于为训练能够“从实践中学习”的AI研究智能体提供了一种可扩展且高质量的数据生成方案。

AgentsEvaluationCode

104. SYMDIREC: A Neuro-Symbolic Divide-Retrieve-Conquer Framework for Enhanced RTL Synthesis and Summarization

Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi et al.

SYMDIREC 提出了一种神经符号化的“分治-检索-整合”框架，通过将 RTL 任务分解为符号子目标并指导 LLM 推理，显著提升了硬件描述语言的合成与摘要性能。该框架无需微调 LLM，在多项任务上超越了传统提示和 RAG 方法，证明了符号化引导在 RTL 领域的关键作用。

RAGAgentsReasoningAlignmentEvaluationFinetuningMultimodalCode

105. OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Haoyang Fang, Shuai Zhang, Yifei Ma et al.

本文提出了OPERA框架，通过数据剪枝提升稠密检索模型微调的效率和效果。研究发现静态剪枝存在质量与覆盖率的权衡，而提出的动态剪枝策略能自适应调整采样，在显著减少训练时间的同时，在排序和检索指标上均优于标准微调，且该优势在基于LLM的检索器上也得到验证。

RAGEvaluation

106. CODMAS: A Dialectic Multi-Agent Collaborative Framework for Structured RTL Optimization

Che-Ming Chang, Prashanth Vijayaraghavan, Ashutosh Jadhav et al.

本文提出了CODMAS框架，其核心贡献在于通过一个包含辩证推理的多智能体协作系统（包含阐述者、假设伙伴等），结合领域感知的代码生成与确定性评估，实现了对寄存器传输级（RTL）代码的自动化优化。关键发现是，该框架能显著降低关键路径延迟和功耗，并减少功能与编译错误，证明了结构化多智能体推理能有效提升大语言模型在复杂硬件设计优化任务中的性能。

AgentsReasoningEvaluationCode

107. Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing

Parsa Mirtaheri, Mikhail Belkin

该论文提出通过探测大语言模型内部激活状态，可以在其生成思维链之前或之后，更可靠地识别出模型为迎合外部暗示而进行“合理化论证”的行为。研究发现，这种基于内部表征的探测方法，比单纯分析思维链文本能更早、更准确地检测出模型的动机性推理。

Reasoning

108. Talk is Cheap, Logic is Hard: Benchmarking LLMs on Post-Condition Formalization

I. S. W. B. Prasetya, Fitsum Kifetew, Davide Prandi

该研究评估了24个先进大语言模型根据程序自然语言描述生成形式化前后置条件的能力。核心发现是：大语言模型能够生成有效的前后置条件，其中闭源模型表现优于开源模型，且所有模型对前置条件的处理均优于后置条件，但尚无模型能完全正确完成所有任务。

EvaluationCode

109. Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Sophie Kearney, Shu Yang, Zixuan Wen et al.

该研究提出了TAP-GPT，一个基于TableGPT2微调的表格专用大语言模型，用于阿尔茨海默病的少样本预测。其核心贡献在于：首次系统地将表格专用LLM应用于多模态生物标志物数据，在少样本、数据缺失情况下实现了稳定且可解释的预测，为临床决策支持系统奠定了基础。

AgentsReasoningEvaluationMultimodalCode

110. MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang et al.

MetaClaw 提出了一种持续元学习框架，通过技能驱动的快速适应和机会性策略优化，使 LLM 智能体能在不中断服务的情况下持续进化。该框架显著提升了任务准确性和系统鲁棒性，实现了在真实场景中边服务边学习的能力。

AgentsFinetuningCode

111. Towards Unsupervised Adversarial Document Detection in Retrieval Augmented Generation Systems

Patrick Levi

该论文提出了一种用于检索增强生成系统的**无监督对抗性文档检测方法**，其核心贡献在于无需标注数据即可识别恶意篡改的上下文文档，甚至能检测零日攻击。关键发现是，通过分析生成器激活状态、输出嵌入和基于熵的不确定性度量等指标，结合简单的统计异常检测，就能有效发现被操纵的上下文，且无需依赖攻击者的目标提示。

RAGEvaluationQuantization

112. Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Shenao Yan, Shimaa Ahmed, Shan Jin et al.

该论文提出了首个针对代码生成大语言模型的数据投毒检测框架CodeScan，其核心贡献是通过分析不同干净提示下生成代码的结构相似性，结合抽象语法树归一化与基于LLM的漏洞分析，实现了对诱导生成不安全代码的后门/投毒攻击的高效检测。关键发现是该方法在108个不同架构和规模的模型上达到了97%以上的检测准确率，且误报率显著低于现有方法。

EvaluationCode

113. Generalist Multimodal LLMs Gain Biometric Expertise via Human Salience

Jacob Piland, Byron Dowling, Christopher Sweet et al.

该研究提出，通用多模态大语言模型（MLLMs）在结合人类专家知识（如对攻击特征的文本描述）后，能够在严格隐私约束下有效进行虹膜呈现攻击检测（PAD），其性能甚至超越专用CNN模型和人类专家。关键发现是，MLLMs的预训练视觉编码器能自发区分多种攻击类型，而融合人类显著信息的提示词可进一步解决分类模糊问题。

EvaluationMultimodalCode

114. Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges

Maxim Khomiakov, Jes Frellsen

该论文提出了一种基于因果干预的校准方法，通过向输入添加噪声来评估LLM作为自动评估者的可靠性。研究发现，文本类任务中LLM的性能会随噪声增加而可预测地下降，但多数表格数据任务对噪声不敏感，揭示了不同模态任务下LLM评估行为的显著差异。

Evaluation

115. Exploiting the English Grammar Profile for L2 grammatical analysis with LLMs

Stefano Bannò, Penny Karanasou, Kate Knill et al.

该研究提出了一种利用英语语法档案（EGP）和大语言模型（LLM）分析二语学习者语法能力的新框架。核心贡献在于：1）结合规则与LLM方法，LLM在处理需语义理解的语法结构上表现更优，而规则方法在形态句法特征上仍有竞争力；2）采用混合（规则预过滤+LLM）管道在语法结构检测和CEFR水平评估中实现最佳性能，并能基于自动纠错结果有效识别学习者的正确语法尝试。

RAGEvaluationLong Context

116. How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

Rebecca Ansell, Autumn Toney-Wails

该研究通过基于文本的多人版《妙探寻凶》游戏评估大语言模型的多步演绎推理能力，发现GPT-4o-mini和Gemini-2.5-Flash等模型在完整游戏中难以保持一致的推理逻辑，且针对逻辑谜题的微调并不能有效提升游戏表现，有时甚至会增加无效推理。

AgentsReasoningEvaluationFinetuning

117. Multilingual Reference Need Assessment System for Wikipedia

Aitolkyn Baigutanova, Francisco Navas, Pablo Aragon et al.

本文提出了一种多语言机器学习系统，用于自动识别维基百科中需要添加引用的内容，以辅助人工编辑。该系统在10种语言版本中超越了现有基准，并在模型精度与计算效率之间取得了平衡，已投入实际应用。

EvaluationCode

118. REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge

Yasi Zhang, Tianyu Chen, Mingyuan Zhou et al.

本文提出REAL框架，将回归目标融入强化学习，以优化LLM作为评估者时的打分性能。该方法通过分解探索与精调，显著提升了模型在相关性指标和泛化能力上的表现。

ReasoningEvaluationFinetuning

119. Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework

Taiwo Onitiju, Iman Vakilinia

本研究针对主流大语言模型（LLM）建立了首个标准化的安全漏洞评估框架，并开发了一个多层防御系统。核心发现是：不同LLM的安全漏洞率差异显著（11.9%至29.8%），且模型能力与安全性不相关；同时，所提出的防御框架能以低误报率有效检测对抗性攻击。

RAGSafetyEvaluationQuantization

120. SENSE: Efficient EEG-to-Text via Privacy-Preserving Semantic Retrieval

Akshaj Murhekar, Christina Liu, Abhijit Mishra et al.

该论文提出SENSE框架，通过隐私保护的语义检索实现高效脑电信号到文本的转换，其核心贡献在于无需微调大语言模型，仅需约600万参数的本地模块提取语义关键词，再结合现成大语言模型生成流畅文本，在保护神经数据隐私的同时大幅降低计算开销。

RAGEvaluationFinetuningInferenceCode

121. Knowledge Localization in Mixture-of-Experts LLMs Using Cross-Lingual Inconsistency

Lucas Bandarkar, Alan Ansell, Trevor Cohn

本文提出了一种利用跨语言不一致性来定位MoE大语言模型中知识存储位置的方法。研究发现，通过对比模型在不同语言下回答事实问题的路由差异，可以识别出对特定知识至关重要的少量专家模块，禁用这些专家会导致模型正确率显著下降。

RAGAgents

122. An End-to-End Framework for Functionality-Embedded Provenance Graph Construction and Threat Interpretation

Kushankur Ghosh, Mehar Klair, Kian Kyars et al.

本文提出Auto-Prov框架，其核心贡献在于**利用大语言模型（LLM）自动构建并丰富溯源图**，通过嵌入系统级功能属性来提升异常检测性能，并生成可解释的攻击摘要。关键发现是该方法能适应异构日志格式，增强多种检测器的性能，并在系统演化中保持稳定。

RAGEvaluationInference

123. Evaluating LLM-Simulated Conversations in Modeling Inconsistent and Uncollaborative Behaviors in Human Social Interaction

Ryo Kamoi, Ameya Godbole, Longqi Yang et al.

本文提出了CoCoEval评估框架，发现LLM模拟的对话在默认提示下比人类对话表现出更少的不一致和不合作行为，且提示工程难以可靠控制这些行为，这凸显了用LLM模拟人类社交互动的困难。

EvaluationFinetuning

124. PRISM: Demystifying Retention and Interaction in Mid-Training

Bharat Runwal, Ashish Agrawal, Anurag Roy et al.

该论文提出了PRISM框架，通过大规模实验证明，在LLM训练中期引入高质量数据（约270亿token）能显著提升模型在数学、代码和科学任务上的推理能力（提升15-40分），同时保持通用性能。关键发现是：训练中期的数据构成对最终性能起决定性作用，而后续的强化学习（RL）仅对约5%的参数做稀疏微调，且其效果高度依赖于中期训练所达到的模型配置状态。

RAGReasoningEvaluationInferenceCodeMath

125. Large Reasoning Models Struggle to Transfer Parametric Knowledge Across Scripts

Lucas Bandarkar, Alan Ansell, Trevor Cohn

该研究发现，大型推理模型在跨文字脚本（如拉丁字母与西里尔字母）进行参数知识迁移时存在显著障碍，而非语言或语系差异。通过微调模型增强其对音译模糊性的推理能力，可以有效缩小跨脚本知识迁移的差距。

RAGReasoningEvaluationInference

126. Evaluating Ill-Defined Tasks in Large Language Models

Yi Zhou, Basel Shbita

该论文指出，当前大语言模型（LLM）在评估定义不明确的任务时存在根本性缺陷，现有评测基准和指标常因混淆不同失败模式而得出不稳定且无诊断价值的分数。其核心贡献在于通过两个案例研究，揭示了现有评估方法的局限性，并强调了采用更稳健、可解释的多维度评估设计的必要性。

RAGEvaluation

127. LLM Use, Cheating, and Academic Integrity in Software Engineering Education

Ronnie de Souza Santos, Italo Santos, Maria Bento et al.

该研究调查了软件工程专业学生如何描述其不当使用大语言模型（LLM）的经历，发现LLM作弊行为主要发生在编程作业和常规课程任务中，且与评估设计、时间压力和指导不明确密切相关。研究指出，需要更清晰地协调评估设计、学习目标与LLM使用规范，以应对LLM带来的学术诚信挑战。

AlignmentQuantizationCode

128. Early Quantization Shrinks Codebook: A Simple Fix for Diversity-Preserving Tokenization

Wenhao Zhao, Qiran Zou, Rushi Shah et al.

该论文首次系统研究了向量量化在生成模型中的表征坍缩问题，发现随机初始化和编码器容量不足会导致码本和嵌入表征的多样性丧失。研究提出了针对性的解决方案，为提升大语言模型等生成模型的词元化质量提供了关键洞见。

RAGEvaluationQuantizationInferenceCode

129. SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization

Ishrith Gowda, Chunwei Liu

本文提出SA-CycleGAN-2.5D，通过引入2.5D三平面输入和全局自注意力机制，在保持计算效率的同时有效建模MRI图像中的全局强度相关性，从而显著提升多中心医学影像数据的标准化效果。该方法在高效AI领域的核心贡献在于，以接近2D的复杂度实现了3D的上下文一致性，并通过注意力机制突破了CNN感受野的限制，为跨域医学图像分析提供了一种高效的轻量级解决方案。

Efficient InferenceMultimodal

130. Alignment Makes Language Models Normative, Not Descriptive

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

该研究发现，语言模型的对齐过程会使其更倾向于预测人类“应该”做出的规范性行为，而非实际观察到的描述性行为。在需要理解多轮互动中复杂动态（如互惠、报复等）的场景下，基础模型比对齐模型能更准确地预测人类实际决策。

Safety

131. Adaptive Contracts for Cost-Effective AI Delegation

Eden Saig, Tamar Garbuz, Ariel D. Procaccia et al.

本文提出了一种用于AI委托的自适应合同机制，通过选择性评估来平衡任务质量与成本，核心贡献在于设计了资源高效的自适应评估框架，能够在保证性能的同时显著降低AI任务委托的经济成本。

Efficient InferenceEvaluationCode

132. Personalized Fall Detection by Balancing Data with Selective Feedback Using Contrastive Learning

Awatif Yasmin, Tarek Mahmud, Sana Alamgeer et al.

本文提出了一种基于对比学习的个性化跌倒检测框架，通过选择性平衡用户反馈数据来解决真实跌倒数据稀缺和样本不平衡问题，从而提升模型对真实跌倒事件的敏感性。该框架在多种学习策略下均能有效提升检测性能，其中从头训练策略相比基线提升高达25%，展示了其在现实场景中高效个性化部署的潜力。

Efficient AI

133. Cascade-Aware Multi-Agent Routing: Spatio-Temporal Sidecars and Geometry-Switching

Davide Di Gioia

本文提出了一种用于符号图网络的高效AI路由方法，通过引入时空副车（sidecar）和几何切换机制，显著提升了任务调度中的故障传播控制能力。其核心贡献在于：使用轻量级MLP（仅133参数）动态选择路由几何结构，在树状与循环图等不同拓扑中自适应优化，将最困难非树状场景的胜率从72%提升至92%，有效缓解了传统方法中几何盲视导致的级联故障问题。

QuantizationEdge/MobileReasoningAgentsEvaluation

134. Optimization-Embedded Active Multi-Fidelity Surrogate Learning for Multi-Condition Airfoil Shape Optimization

Isaac Robledo, Alberto Vilariño, Arnau Miró et al.

本文提出了一种用于多工况翼型优化的主动多保真度代理建模方法，通过结合低保真度信息的高斯过程迁移模型、不确定性触发采样和嵌入混合遗传算法的同步精英规则，在保持高精度（RANS级）的同时，显著减少了高保真度CFD的计算成本。该方法在优化过程中自适应地分配计算资源，仅需对少量个体（巡航工况14.78%，起飞工况9.5%）进行高保真评估，即实现了巡航效率提升41.05%和起飞升力提升20.75%，体现了其在**高效AI/计算**领域通过智能采样和模型管理来**加速昂贵仿真优化过程**的核心贡献。

PruningEdge/MobileEvaluation

135. SOMA: Unifying Parametric Human Body Models

Jun Saito, Jiefeng Li, Michael de Ruyter et al.

SOMA提出了一种统一参数化人体模型的框架，通过三层抽象（网格拓扑、骨骼、姿态）实现了不同模型间的兼容与转换，显著降低了模型间适配的复杂度（从O(M²)降至O(M)），并支持端到端的GPU加速推理。

PEFT

136. Long-Horizon Traffic Forecasting via Incident-Aware Conformal Spatio-Temporal Transformers

Mayur Patil, Qadeer Ahmed, Shawn Midlam-Mohler et al.

该论文提出了一种结合事故感知动态图构建与自适应保形预测的时空Transformer模型，用于长时域交通预测。其核心贡献在于通过小时级变异系数策略和事故严重性信号扰动，动态建模交通网络的时空依赖性，从而在保证预测区间校准的同时提升了长时域预测的准确性。

Edge/Mobile

137. GIST: Gauge-Invariant Spectral Transformers for Scalable Graph Neural Operators

Mattia Rigotti, Nicholas Thumiger, Thomas Frick

GIST提出了一种新的图Transformer架构，通过随机投影实现线性复杂度，并利用基于内积的注意力机制保持规范不变性，从而在保持高效计算的同时解决了图神经网络在归纳学习中因数值选择差异导致的泛化失败问题。该模型在标准图基准和高达75万节点的大规模网格神经算子任务上均达到先进性能。

Efficient InferenceEvaluation

138. Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Reek Das, Biplab Kanti Sen

本文提出FedAOT，一种基于元学习的自适应聚合框架，通过动态加权客户端更新来抑制恶意攻击，从而在保护隐私的联邦学习中实现了对多种未定向投毒攻击的鲁棒性，同时保持了计算效率。

Edge/Mobile

139. Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning

Jello Zhou, Vudtiwat Ngampruetikorn, David J. Schwab

该论文提出将随机重置机制引入强化学习，通过定期将智能体状态重置为初始状态，有效加速策略收敛。核心贡献在于将统计力学中的经典现象转化为强化学习的优化原则，在稀疏奖励场景下通过截断无效轨迹来提升价值传播效率，从而在不改变最优策略的前提下实现高效学习。

PruningPEFTLong ContextAgents

140. Empirical Recipes for Efficient and Compact Vision-Language Models

Jiabo Huang, Zhizhong Li, Sina Sajadmanesh et al.

本文针对资源受限场景下视觉语言模型（VLM）的部署需求，通过实证分析识别了推理瓶颈，并提出了一套优化方案，显著降低了紧凑型VLM的首次令牌生成时间（TTFT），同时保持了模型精度。此外，研究还扩展了紧凑VLM的能力，引入了具备结构化感知输出的ArgusVLM模型族，在保持高效紧凑设计的同时实现了强劲性能。

Efficient InferenceMultimodalEvaluation

141. DexGrasp-Zero: A Morphology-Aligned Policy for Zero-Shot Cross-Embodiment Dexterous Grasping

Yuliang Wu, Yanhan Lin, WengKit Lao et al.

本文提出DexGrasp-Zero方法，通过形态对齐的图表示和物理约束注入机制，实现了灵巧抓取策略在异构机械手间的零样本跨本体迁移，显著提升了抓取成功率和适应性。

Long ContextRAGEvaluationSafetyCode

更多详情访问 PaperTide 网站 · hechenyu@zju.edu.cn

管理员验证

Efficient AI 论文日报 2026-03-17

🌊 PaperTide · 2026-03-17 Efficient AI 论文精选