Efficient AI 论文日报 2026-03-18

🌊 PaperTide · 2026-03-18 Efficient AI 论文精选

共 158 篇

1. Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Jianrui Zhang, Yue Yang, Rohun Tripathi et al.

本文提出了一种名为STTS的时空令牌评分方法，用于在视频视觉语言模型中高效剪枝视觉令牌。该方法通过统一处理视觉和语言模型中的令牌，无需文本条件或令牌合并，即可在训练和推理中提升62%的效率，同时平均性能仅下降0.7%。

RAGEvaluationInferenceMultimodal

2. Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Kevin Qu, Haozhe Qi, Mihai Dusmanu et al.

该论文提出了Loc3R-VLM框架，通过引入全局布局重建和显式视角建模两项空间监督目标，成功为2D视觉语言模型赋予了从单目视频中进行3D空间理解和推理的能力。其核心贡献在于，该方法在基于语言的定位和3D问答任务上取得了最先进的性能，证明了直接的空间监督能有效提升模型对三维场景的感知与推理。

RAGReasoningAlignmentEvaluationMultimodal

3. AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

Zhang Zhang, Shuqi Lu, Hongjin Qian et al.

该论文提出了AgentFactory框架，其核心贡献在于将LLM智能体的成功经验转化为可执行的子智能体代码而非文本提示，从而实现持续自我进化。关键发现是这种基于代码积累和重用的机制能有效提升任务执行的可靠性和效率，并实现能力的自动化积累。

AgentsMultimodalCode

4. Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training

Ben S. Southworth, Stephen Thomas

该论文提出MUD优化器，通过三角化白化替代Muon的极分解，在保持训练效果的同时显著降低计算开销。相比Muon，MUD在A100硬件上实现了1.3-3倍的吞吐量提升，并在GPT-2和蛋白质语言模型训练中减少10-50%的墙钟时间。

Evaluation

5. ConGA: Guidelines for Contextual Gender Annotation. A Framework for Annotating Gender in Machine Translation

Argentina Anna Rescigno, Eva Vanmassenhove, Johanna Monti

本文提出了ConGA框架，为机器翻译中的性别标注提供了一套基于语言学的细粒度标注指南，旨在解决从英语等性别中立语言翻译到意大利语等形态性别语言时的性别偏差问题。研究发现，当前翻译系统存在系统性偏向使用男性形式的问题，该工作为构建更具性别意识的多语言NLP系统提供了方法论和评估基准。

EvaluationQuantization

6. Gender Disambiguation in Machine Translation: Diagnostic Evaluation in Decoder-Only Architectures

Chiara Manna, Hosein Mohebbi, Afra Alishahi et al.

该论文针对大语言模型在机器翻译中的性别偏见问题，提出了新的评估指标“先验偏见”，并发现仅解码器架构的模型在性别消歧任务上并不优于编码器-解码器架构，但指令微调能有效降低模型默认的男性偏见倾向。

EvaluationCode

7. Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Raghavv Goel, Mukul Gagrani, Mingu Lee et al.

本文提出了一种无需训练的多令牌预测方法，通过在大语言模型的嵌入空间中进行动态掩码探测，实现了并行预测未来令牌。该方法在保持生成质量的同时，显著减少了模型调用次数，提升了推理吞吐量，其核心在于利用解码层中掩码令牌与下一令牌状态的天然对齐能力。

EvaluationInferenceCode

8. Only relative ranks matter in weight-clustered large language models

Borja Aizpurua, Sukhbinder Singh, Román Orús

该论文的核心发现是，在大语言模型（LLM）中，权重值的相对大小（即排序关系）比其精确数值更为关键。通过权重聚类将每个矩阵压缩至仅16-64个不同值，可在不重新训练的情况下保持模型性能，并揭示了保持权重相对排序是模型压缩和鲁棒性的关键机制。

FinetuningInference

9. IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia

Priyaranjan Pattnayak, Sanchari Chowdhuri

该论文提出了首个针对南亚12种低资源语言的LLM安全评估基准IndicSafe，核心发现是LLM的安全对齐在不同语言间存在显著差异（跨语言一致性仅12.8%），揭示了多语言模型的安全泛化存在严重缺陷。

AlignmentSafetyEvaluationQuantization

10. Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs

Ya-Ting Yang, Quanyan Zhu

本文提出了一种基于差分隐私的概率框架，用于分析AI智能体中的隐私泄露风险，其核心贡献在于从企业数据角度出发，引入了令牌级和消息级差分隐私，并揭示了生成参数（如温度）与隐私泄露之间的量化关系。

Agents

11. scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

Sergey V. Samsonau

该论文提出了scicode-lint工具，其核心贡献是利用LLM自动生成检测模式，而非人工编码，实现了对科学Python代码中传统工具难以发现的方法论错误（如数据泄露）的自动化检查。关键发现是，该工具在Kaggle和已发表论文的测试中，能在保持高召回率的同时达到可接受的精确度，显著降低了模式维护和适配新库版本的成本。

AgentsCode

12. RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arpit Singh Gautam, Saurabh Jha

本文提出了RAMP框架，通过强化学习为LLM的每一层自适应分配量化比特位宽，在全局比特预算下最小化模型困惑度。其核心贡献在于：1）实现了跨模型家族和规模的零样本泛化能力；2）结合Scale Folding技术，在低至3.65有效比特的量化下，以更小的模型尺寸取得了优于均匀4比特量化的性能。

ReasoningEvaluationLong ContextQuantizationInference

13. AI-Assisted Goal Setting Improves Goal Progress Through Social Accountability

Michel Schimpf, Julian Voigt, Thomas Bohné

本研究通过随机对照实验发现，基于大语言模型的AI职业教练能有效提升短期目标进展，其核心机制在于增强用户的**社会责任感**，而非提高目标与个人价值观的一致性。这揭示了LLM在目标设定应用中的独特价值在于提供社会互动与问责感。

LLM

14. DebugLM: Learning Traceable Training Data Provenance for LLMs

Wenjie Jacky Mo, Qin Liu, Xiaofei Wen et al.

DebugLM提出了一种为大语言模型（LLM）训练过程建立数据溯源的方法，其核心贡献是让模型能够将自身行为追溯到具体的训练数据源，并支持在不重新训练的情况下，对特定数据源引发的行为进行精准干预。

InferenceCode

15. Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob et al.

本文提出了一种基于领域知识的分层检索与验证架构，通过四阶段流程将LLM从随机模式匹配器转变为经过验证的真相寻求者，从而有效减少幻觉。实验表明，该框架在多个基准测试中显著优于零样本基线，尤其在需要时间和数值精确性的领域表现突出，同时揭示了“错误前提过度声称”这一持续存在的失效模式。

RAGEvaluation

16. How do LLMs Compute Verbal Confidence

Dharshan Kumaran, Arthur Conmy, Federico Barbero et al.

该研究通过实验发现，大语言模型（LLM）的“口头置信度”并非在请求时临时计算，而是在生成答案时已自动计算并缓存，且该置信度表征了比词元对数概率更丰富的答案质量评估，而非简单的流畅度反馈。

RAGEvaluation

17. Event-Centric Human Value Understanding in News-Domain Texts: An Actor-Conditioned, Multi-Granularity Benchmark

Yao Wang, Xin Liu, Zhuochen Liu et al.

该论文提出了一个名为NEVU的新闻领域基准数据集，其核心贡献在于首次构建了一个以事件为中心、考虑具体行为主体且区分价值导向的细粒度评估框架，用于评估大语言模型在真实新闻文本中理解人类价值观的能力。关键发现是，通过轻量级微调（如LoRA）可以显著提升开源模型在该任务上的表现，表明该基准不仅能用于评估，也能有效支持模型的监督式适应训练。

EvaluationFinetuningCode

18. ArchBench: Benchmarking Generative-AI for Software Architecture Tasks

Bassam Adnan, Aviral Gupta, Sreemaee Akshathala et al.

ArchBench是首个针对软件架构任务的LLM统一评测平台，其核心贡献在于通过插件化架构设计，使社区能够便捷地评估和比较不同生成式AI模型（包括独立模型和基于LLM的编码智能体）在复杂系统架构任务上的能力，弥补了当前基准测试过度关注代码实现正确性而忽视架构层面的不足。

AgentsEvaluationInferenceCode

19. Text-to-Stage: Spatial Layouts from Long-form Narratives

Jefferson Hernandez, Swarnadeep Saha, Chenxi Whitehouse et al.

该论文提出Text-to-Stage方法，利用大语言模型从长篇叙事文本中推理并生成舞台空间布局（如场景、角色位置和移动）。其核心贡献是结合拒绝式监督微调与可验证奖励的强化学习，显著提升了生成布局的角色归属准确性和空间合理性。

ReasoningAlignmentEvaluationInference

20. RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy

Zhenhang Yuan, Shenghai Yuan, Lihua Xie

该论文提出了RPMS架构，通过规则检索增强记忆协同，以解决LLM在具身环境中因动作前提条件严格而导致的规划失败问题。核心贡献是发现并利用规则约束来主导行动可行性，使情景记忆在规则过滤下从潜在干扰转变为稳定助力，从而显著提升了任务成功率。

RAGAgentsEvaluation

21. CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

Lintang Sutawika, Aditya Bharat Soni, Bharath Sriraam R R et al.

该论文提出CodeScout方法，通过强化学习训练仅配备标准Unix终端的代码搜索代理，在多个基准测试中超越了更大规模的LLM，并接近闭源模型的性能。其核心贡献在于设计了一套有效的强化学习训练方案，证明了无需复杂专用工具即可实现高效的代码定位。

RAGAgentsEvaluationCode

22. FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair

Ruize Ma, Yilei Jiang, Shilin Zhang et al.

该论文提出FailureMem框架，通过引入混合工作流-智能体架构、区域级视觉感知工具和失败记忆库，提升了多模态自动程序修复中代码与视觉信息的协同推理能力，在SWE-bench Multimodal基准上修复率提升3.7%。

AgentsReasoningFinetuningMultimodalCode

23. Discovering Decoupled Functional Modules in Large Language Models

Yanke Yu, Jin Li, Ying Sun et al.

该论文提出了一种名为ULCMOD的无监督框架，用于发现大语言模型（LLM）中解耦的功能模块。其核心贡献在于揭示了LLM内部存在具有语义一致性、可解释性以及空间层次化组织的功能模块，为提升模型的可解释性提供了新工具。

Agents

24. CodeT5-RNN: Reinforcing Contextual Embeddings for Enhanced Code Comprehension

Md Mostafizer Rahman, Ariful Islam Shiplu, Yutaka Watanobe et al.

本文提出了一种混合LLM-RNN框架，通过RNN架构对LLM生成的上下文嵌入进行再处理，以增强代码中的顺序感知依赖关系。实验表明，该方法在多个代码理解任务上显著提升了基础LLM模型的性能。

EvaluationCode

25. Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain

Corentin Royer, Debarun Bhattacharjya, Gaetano Rossiello et al.

本文提出一种基于信息论的方法，用于自动生成大语言模型（LLM）思维链推理的步骤级监督标签。其核心贡献在于通过估计每个推理步骤对正确答案似然的影响来评估步骤质量，并将计算复杂度降低至线性级别，从而实现了对多步推理中错误传播问题的可扩展且高效的监督。

ReasoningEvaluationMultimodalCodeMath

26. Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory

Oliver Zahn, Simran Chana

该论文提出“知识对象”作为持久化记忆单元，相比传统上下文记忆，在保持100%准确率的同时将成本降低252倍，并解决了大语言模型在长上下文中的容量限制、信息压缩损失和目标漂移三大失效问题。

RAGReasoningEvaluationLong Context

27. CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution

Teng Pan, Yuchen Yan, Zixuan Wang et al.

该论文提出了CoVerRL框架，通过让单个模型在生成器和验证器角色间交替协同进化，解决了无标签强化学习中因过度追求一致性而陷入“共识陷阱”的问题。关键发现是，该方法能有效维持输出多样性并过滤系统性错误，在数学推理基准上显著优于基线，同时将自我验证准确率从约55%提升至85%以上。

ReasoningEvaluationMultimodalMath

28. Embedding World Knowledge into Tabular Models: Towards Best Practices for Embedding Pipeline Design

Oksana Kolomenko, Ricardo Knauer, Erik Rodner

该论文系统评估了256种LLM嵌入管道配置，发现将LLM的世界知识融入表格预测模型时，**拼接嵌入通常优于直接替换原始列**，且**更大的嵌入模型往往表现更好**，但公共排行榜排名并非可靠指标。研究为构建有效的表格预测嵌入管道提供了实用指导。

Evaluation

29. Predicting Trajectories of Long COVID in Adult Women: The Critical Role of Causal Disentanglement

Jing Wang, Jie Shen, Yiming Luo et al.

该研究利用大语言模型构建因果网络，成功预测了女性长期新冠的严重程度。其核心贡献在于通过因果解耦方法，有效区分了直接病理指标（如呼吸急促）与更年期等混杂因素，从而实现了高精度的临床预测。

LLM

30. MALLES: A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment

Yusen Wu, Yiran Liu, Xiaotie Deng

本文提出了一种基于多智能体大语言模型的经济沙盒（MALLES），其核心贡献在于通过基于异构交易数据的偏好学习范式，使LLM能够内化和迁移消费者偏好模式，从而缓解数据稀疏性问题。关键发现是，该框架结合均值场机制和多智能体讨论，在商品选择、购买量预测和模拟稳定性方面显著优于现有基线，验证了LLM作为高保真、可扩展经济决策模拟基础模型的潜力。

RAGAgentsAlignmentEvaluationQuantizationMultimodal

31. Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization

Joohyoung Jeon, Hongchul Lee

该论文提出了一种名为“BlindTrade”的匿名化框架，通过遮蔽股票代码和公司名称来验证LLM交易代理是否真正理解市场动态，而非依赖预训练中的记忆。核心发现是，在匿名化后，基于LLM推理构建的图神经网络交易策略仍能产生显著收益（夏普比率1.40），但其表现具有市场状态依赖性，在波动市场中表现优异，而在趋势性牛市中阿尔法收益降低。

AgentsReasoningEvaluation

32. Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents

Mohsen Arjmandi

该论文提出了Sensi架构，通过引入课程式测试时学习机制，将LLM智能体在未知环境中的学习效率提升了50-94倍。其核心发现是：通过分离感知与决策模块并采用课程学习，系统瓶颈从学习效率问题转变为更易处理的感知基础问题。

AgentsEvaluationLong ContextCode

33. WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models

Wanjun Du, Zifeng Yuan, Tingting Chen et al.

该论文提出了首个针对恶劣天气下视觉语言模型（VLM）推理分割能力的基准测试WeatherReasonSeg。其核心贡献是发现并量化了VLM性能会随天气恶劣程度单调下降，且不同天气类型会引发不同的性能脆弱模式。

ReasoningEvaluationMultimodal

34. Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards

Philipp Normann, Andreas Happe, Jürgen Cito et al.

该论文提出了一种两阶段后训练方法，通过监督微调和基于可验证奖励的强化学习，成功训练出本地小模型PrivEsc-LLM，在Linux提权任务中达到接近顶级闭源模型的性能，同时将推理成本降低超过100倍。

AgentsReasoningEvaluationFinetuningInferenceCode

35. FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Rui Xiao, Sanghwan Kim, Yongqin Xian et al.

该论文针对多模态大语言模型在细粒度负查询下易产生幻觉的问题，提出了FINER基准和FINER-Tuning优化方法。研究发现，当图像中存在真实元素与细粒度错误信息共存时，模型易出现幻觉，而通过FINER-Tuning优化可显著降低幻觉率并提升多模态综合能力。

RAGAlignmentEvaluationMultimodalCode

36. From Symbol to Meaning: Ontological and Philosophical Reflections on Large Language Models in Information Systems Engineering

José Palazzo Moreira de Oliveira

该论文的核心贡献在于指出大语言模型（LLMs）不仅是技术工具，更是重塑信息系统工程中本体论、认识论和符号学基础的知识主体。其关键发现是，LLM的出现要求我们重新审视语言、意义与系统设计的关系，并强调必须将基于LLM的系统建立在透明、符合伦理的框架内。

Agents

37. VeriGrey: Greybox Agent Validation

Yuntong Zhang, Sungmin Kang, Ruijie Meng et al.

该论文提出了VeriGrey，一种用于发现LLM智能体安全风险的灰盒验证方法。其核心贡献在于利用工具调用序列作为反馈来驱动测试，能有效发现传统黑盒方法难以检测的间接提示注入等漏洞，在基准测试和真实案例中均验证了其高效性。

AgentsEvaluation

38. Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis

Andor Diera, Ansgar Scherp

该研究通过线性探测和稀疏特征分析，发现大语言模型在编码语义关系时存在方向性不对称：上位关系（hypernymy）具有冗余且抗干扰的编码，而下位关系（hyponymy）则依赖更易被破坏的紧凑特征。同时，语义关系信号在模型中层最强，且因果干预的有效性随模型规模增大而提升。

Code

39. Complementary Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao et al.

本文提出互补强化学习（Complementary RL），通过让经验提取器与策略智能体在训练过程中协同进化，解决了历史经验与智能体能力不匹配的问题。该方法显著提升了LLM智能体的样本效率，在单任务和多任务场景下均优于传统基于结果的强化学习基线。

RAGAgentsAlignment

40. VeriAgent: A Tool-Integrated Multi-Agent System with Evolving Memory for PPA-Aware RTL Code Generation

Yaoxiang Wang, Qi Shi, ShangZhan Li et al.

该论文提出了一个名为VeriAgent的多智能体框架，通过集成EDA工具和引入可演化的记忆机制，在保证功能正确性的同时，显著优化了RTL代码生成的功耗、性能和面积等物理指标。其核心贡献在于将LLM驱动的代码生成从一次性推理转变为持续、反馈驱动的优化过程。

AgentsReasoningEvaluationCode

41. Modeling Changing Scientific Concepts with Complex Networks: A Case Study on the Chemical Revolution

Sofía Aguilar-Valdez, Stefania Degaetano-Ortlieb

本研究提出了一种基于复杂网络的框架来追踪科学概念的演变，其核心贡献在于通过主题网络构建可解释、时序敏感的概念表示，以克服LLM上下文嵌入在历史数据分析中的可解释性不足和偏见风险。关键发现是，在化学革命的案例中，术语学变化（如燃素论与氧化学说）与更高的信息熵和网络拓扑密度相关，反映了思想多样性的增加和概念连接的努力。

LLM

42. A Contextual Help Browser Extension to Assist Digital Illiterate Internet Users

Christos Koutsiaris

本文提出了一种结合预定义词典与LLM的浏览器扩展，通过智能工具提示为数字素养较低的用户提供网页技术术语的即时解释。其核心贡献在于设计了一个双层AI管道来精准激活帮助功能，实验表明该工具能显著提升用户理解并节省信息检索时间。

RAGAgentsEvaluation

43. From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

Pujun Zheng, Jiacheng Yao, Jinquan Zheng et al.

该论文提出了一种基于比较的论文评估框架CNPE，将LLM评估方式从独立评分转向协同排序，通过构建对比样本和强化学习训练，使模型在论文排序任务上比基线方法提升21.8%，并展现出优秀的泛化能力。

RAGAlignmentEvaluationFinetuningInferenceCode

44. KA2L: A Knowledge-Aware Active Learning Framework for LLMs

Haoxuan Yin, Bojian Liu, Chen Tang et al.

该论文提出了KA2L框架，通过分析大语言模型（LLM）的潜在空间来评估其对特定知识点的掌握程度，并据此生成模型未掌握的问题进行主动学习。该方法在显著降低标注和计算成本的同时，提升了模型性能，为LLM的高效知识注入提供了新思路。

FinetuningInferenceCode

45. Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

Yuxiang Mei, Delai Qiu, Shengping Liu et al.

本文提出Zipper-LoRA，一种用于多语言语音识别的动态参数解耦框架，其核心贡献是通过轻量级路由机制在LoRA秩级别动态融合共享和语言特定子空间，有效解决了多语言数据不平衡下的稳定性-可塑性困境，在低资源场景中显著提升了性能。

FinetuningCode

46. Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify

Edoardo D'Amico, Marco De Nadai, Praveen Chandar et al.

该论文提出了GLIDE系统，利用基于语义ID的生成式检索技术，将LLM强大的语义推理能力应用于Spotify的大规模播客推荐。其核心贡献在于通过指令跟随和软提示注入，在满足生产环境延迟约束的同时，有效平衡了用户的稳定偏好与动态探索意图，显著提升了新播客的发现率。

RAGReasoningAlignmentEvaluationFinetuningInference

47. A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Marco De Nadai, Edoardo D'Amico, Max Lefarov et al.

该论文提出了NEO框架，将预训练大语言模型改造为无需外部工具、基于目录的生成模型，通过将物品表示为结构化标识符（SIDs）并与自然语言交错训练，实现了在推荐、搜索和推理任务上的统一处理与跨任务迁移能力。

RAGAgentsReasoningAlignmentEvaluationInferenceCode

48. Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

Madhav S. Baidya, S. S. Baidya, Chirag Chawla

该论文提出了一个全面的AI生成文本检测基准，发现基于Transformer的检测器在分布内表现优异但跨域泛化能力下降，且目前没有任何方法能稳健地跨领域和跨大语言模型进行泛化。

EvaluationCode

49. Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mengyu Bu, Yang Feng

该论文提出XBridge架构，将预训练翻译模型与大语言模型（LLM）组合，通过轻量级对齐层解决模型间表示差异，使LLM无需重新训练即可显著提升在低资源及未见语言上的多语言理解与生成能力。

ReasoningAlignmentInferenceCode

50. Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Cem Uluoglakci, Tugba Taskaya Temizel

本文提出了一种名为HypoTermInstruct的监督微调数据集，通过教导大语言模型认知谦逊（即承认知识局限）来有效减少幻觉。实验表明，使用该数据集进行微调能在不显著损害通用能力的前提下，显著提升模型的事实准确性和对未知问题的处理能力。

AlignmentEvaluationFinetuning

51. Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Sakshi Choudhary, Aditya Chattopadhyay, Luca Zancato et al.

该论文提出L2A（Learning To Attend）层，通过让模型学习何时需要全局注意力，实现了对大语言模型（LLM）长上下文的条件化记忆访问。核心贡献在于，该方法能以约80%的注意力计算节省，将模型有效上下文长度从32K扩展到128K，同时保持性能，并显著提升了训练和推理效率。

RAGReasoningEvaluationLong ContextInference

52. Humans and transformer LMs: Abstraction drives language learning

Jasper Jian, Christopher D. Manning

该研究通过比较Transformer语言模型与人类语言习得过程，发现模型在学习语言结构时，抽象类别行为比具体词汇行为出现得更早，表明抽象化在语言模型学习中起关键作用。这一发现为理解人类语言习得机制提供了新的计算模型参考。

EvaluationMath

53. Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

Hao Ma, Zhiqiang Pu, Xiaolin Ai et al.

本文提出了一种名为GuidedSAC的新型强化学习算法，其核心贡献在于利用大语言模型作为智能监督器，为SAC算法提供动作层面的指导，从而在连续控制任务中实现了更高效的探索。关键发现是，该方法在保证收敛性的同时，显著提升了样本效率和最终性能，在多项基准测试中超越了SAC及其它先进的探索增强算法。

RAGEvaluationFinetuning

54. VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim, Woojoo Kim, Jaehyung Lim et al.

本文提出VLM2Rec框架，旨在解决多模态序列推荐中视觉语言模型（VLM）因微调导致的模态崩溃问题。其核心贡献是通过引入弱模态惩罚对比学习和跨模态关系拓扑正则化，有效平衡多模态信息利用，显著提升了推荐准确性和鲁棒性。

EvaluationFinetuningMultimodalCode

55. TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

Tingcheng Bian, Jinchang Luo, Mingquan Cheng et al.

该论文提出最小充分长度（MSL）理论指标，用于量化保持答案正确的最短推理长度，并基于此开发了TRiMS方法，通过强化学习训练在减少80%以上推理令牌的同时保持或提升模型准确率。

ReasoningEvaluation

56. ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

Ruibo Fan, Xiangrui Yu, Xinglin Pan et al.

ZipServ提出了一种无损压缩框架，通过固定长度编码格式和融合解压计算内核，在压缩模型大小的同时显著提升了LLM推理速度。其核心贡献在于首次在GPU上实现了无损压缩下的存储节省与推理加速双重效果。

RAGInferenceCode

57. Argument Reconstruction as Supervision for Critical Thinking in LLMs

Hyun Ryu, Gyouk Chu, Gregor Betz et al.

该论文提出了一种通过**论证重构训练**来提升大语言模型（LLM）批判性思维能力的框架。其核心贡献在于：1）开发了自动论证重构引擎（GAAR）并构建了高质量数据集（Arguinas）；2）实验证明，学习论证重构能显著提升LLM在七项下游批判性思维任务上的表现。

EvaluationInferenceMultimodalCode

58. Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Saikat Maiti

本文针对医疗领域部署的自主AI代理提出了一种零信任安全架构，通过四层纵深防御（包括工作负载隔离、凭证代理、网络出口策略和提示完整性框架）来应对LLM代理在现实环境中暴露的关键漏洞，如未授权指令执行和信息泄露，并开源了相关配置与工具。

RAGAgentsSafetyMultimodal

59. Efficient Exploration at Scale

Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla et al.

本文提出了一种高效的在线学习算法，显著提升了基于人类反馈的强化学习（RLHF）的数据效率。通过结合奖励不确定性建模和定向探索技术，该方法仅需不到2万条标注数据即可达到传统RLHF使用20万条数据的性能，实现了超过10倍的数据效率提升。

AlignmentFinetuning

60. SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

Rima Hazra, Bikram Ghuku, Ilona Marchenko et al.

该论文提出了SafeTutors基准，用于系统评估AI辅导系统在数学、物理和化学领域的教学安全性与有效性。核心发现是，现有大语言模型作为AI导师时普遍存在教学安全隐患，且多轮对话会显著加剧其不当行为，而模型规模扩大并不能可靠地改善这一问题。

SafetyEvaluationMath

61. PACE-RAG: Patient-Aware Contextual and Evidence-based Policy RAG for Clinical Drug Recommendation

Chaeyoung Huh, Hyunmin Hwang, Jung Hwan Shin et al.

本文提出PACE-RAG框架，通过结合患者个体临床特征与相似病例的处方模式，解决了现有RAG方法在临床用药推荐中忽略个体细微差异的问题。在帕金森病和MIMIC-IV基准测试中，该框架实现了最先进的性能，为基于LLM的个性化医疗决策提供了可解释的解决方案。

RAGEvaluationCode

62. Grid Spatial Understanding: A Dataset for Textual Spatial Reasoning over Grids, Embodied Settings, and Coordinate Structures

Risham Sidhu, Julia Hockenmaier

该论文提出了一个纯文本网格数据集GSU，用于评估大语言模型在导航、物体定位和结构组合三个核心任务上的空间推理能力。研究发现，虽然前沿模型能解决基本任务，但它们在处理与具身智能体相关的参照系和从坐标列表识别3D形状方面存在困难，同时发现视觉模态的引入并未带来可泛化的空间理解能力。

AgentsReasoningEvaluationFinetuningMultimodal

63. A Progressive Visual-Logic-Aligned Framework for Ride-Hailing Adjudication

Weiming Wu, Zi-Jian Cheng, Jie Meng et al.

该论文提出了RideJudge框架，通过SynTraj合成引擎将抽象责任概念与具体轨迹模式对齐，并采用自适应上下文优化和顺序敏感强化学习机制，有效解决了多模态LLM在网约车责任判定中的逻辑不严谨与感知幻觉问题，在提升决策准确性与可解释性方面取得显著进展。

ReasoningAlignmentLong ContextMultimodal

64. InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning

Chengwei Wei, Jung-jae Kim, Longyin Zhang et al.

该论文提出InfoDensity奖励框架，通过奖励信息密度高（即推理步骤不确定性单调下降且收敛）的思维链，在保持大语言模型推理准确率的同时，显著减少了生成冗余内容，实现了更优的准确率与效率平衡。

ReasoningEvaluationLong ContextMath

65. Beyond bouba/kiki: Multidimensional semantic signals are deeply woven into the fabric of natural language

Gexin Zhao

该研究通过分析英语中所有220对字母对比，发现单个音素携带多维度的语义信号，且这些语义关联可由发音特征系统预测。大语言模型仅从文本输入中就能恢复这些音义关联，表明声音与意义的象似性并非偶然现象，而是语言中普遍存在的结构化属性。

Long Context

66. From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation

Bangju Han, Yingqi Wang, Huang Qing et al.

该论文提出了CulT-Eval基准，用于系统评估机器翻译模型对文化负载表达（如习语、俚语）的处理能力。研究发现，当前大语言模型在翻译中难以准确保留文化含义和语境细微差别，并提出了能捕捉文化意义偏差的补充性评估指标。

RAGEvaluationCode

67. GUIDE: GenAI Units In Digital Design Education

Weihua Xiao, Jason Blocklove, Matthew DeLorenzo et al.

该论文提出了GUIDE开源课程库，为数字设计教育提供基于GenAI的教学单元，核心贡献在于通过标准化模块（如可运行实验和教学材料）系统化整合LLM技术，并展示了在硬件设计、安全测试等领域的实际教学应用案例。

ReasoningMultimodal

68. LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis

Inbum Heo, Taewook Hwang, Jeesu Jung et al.

该论文提出了一个名为LED的基准测试，专门用于评估文档布局分析中的结构错误检测能力。其核心贡献在于定义了八种标准化的布局错误类型，并构建了相应的数据集和评估任务，从而能够对大语言模型/多模态模型在文档结构理解上的细粒度缺陷进行可解释的评估。

ReasoningEvaluationQuantizationMultimodal

69. Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures

Young Bin Park

该论文提出了一个基于图结构的认知记忆架构Kumiho，其核心贡献在于将AGM信念修正的形式化语义与属性图记忆系统相结合，为AI智能体提供了统一且可版本化的记忆管理框架。实验表明，该架构在认知记忆基准测试中显著优于现有基线，并通过前瞻性索引等创新设计实现了高效的记忆检索与推理。

RAGAgentsEvaluationLong ContextMultimodal

70. Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients

Jane Wang, Timothy Keyes, April S Liang et al.

本研究开发并评估了一款与电子健康记录（EHR）集成、基于大语言模型（LLM）的自动化分诊工具，用于识别需要外科协同管理（SCM）的患者。核心发现是，该LLM驱动的工具在临床分诊中表现出高敏感性（0.94）和中等特异性（0.74），且大部分错误源于临床流程而非LLM本身，证明了其在自动化耗时临床工作流程方面的潜力和安全性。

AgentsReasoningEvaluation

71. Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning

Zhiyu Ni, Zheng Liang, Liangcheng Song et al.

本文提出了Draft-and-Prune框架，通过生成多样化草稿并进行验证性剪枝，显著提升了基于大语言模型的自动形式化推理的可靠性和准确性。该方法在多个逻辑推理基准测试上取得了优异性能，有效减少了语义错误，且无需额外监督。

ReasoningEvaluationInferenceMultimodalCodeMath

72. From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs

Boyong Wu, Sanghwan Kim, Zeynep Akata

该论文通过分层线性探测和注意力干预分析，揭示了多模态大语言模型（MLLM）在分割任务中的工作机制：适配器层会导致分割表征质量下降，但后续的大语言模型层能通过注意力机制逐步恢复，其中正确分类的标记会引导邻近的错误标记进行修正。这一发现阐明了MLLM处理视觉信息的内在过程，为未来设计具备更强分割能力的模型提供了机制性见解。

EvaluationFinetuningMultimodalCode

73. Synthetic Data Generation for Training Diversified Commonsense Reasoning Models

Tianhui Zhang, Bei Peng, Danushka Bollegala

该论文提出了一种两阶段合成数据生成方法，创建了首个用于多样化常识推理（GCR）的合成数据集CommonSyn。研究发现，基于该数据微调的大语言模型（LLM）在生成多样性和质量上均优于原始模型及基于人工标注数据微调的模型。

AgentsReasoning

74. Large-Scale Analysis of Political Propaganda on Moltbook

Julia Jose, Meghna Manoj Nair, Rachel Greenstadt

本研究开发了基于大语言模型的分类器，用于检测AI代理平台上的政治宣传内容，并发现此类内容高度集中于少数社区和活跃代理，但评论对其传播的放大作用有限。

Agents

75. Can LLMs Reason Like Automated Theorem Provers for Rust Verification? VCoT-Bench: Evaluating via Verification Chain of Thought

Zichen Xie, Wenxi Wang

该论文提出了VCoT-Lift框架和VCoT-Bench基准，用于评估大语言模型在Rust程序验证中的推理能力。核心发现是，当前最先进的模型在理解验证过程的逻辑推理方面表现脆弱，远未达到自动定理证明器的水平。

RAGReasoningEvaluationCodeMath

76. MemArchitect: A Policy Driven Memory Governance Layer

Lingavasan Suresh Kumar, Yang Ba, Rong Pan

该论文提出MemArchitect，一个用于LLM智能体的内存治理层，其核心贡献在于通过基于规则的策略（如记忆衰减、冲突解决）主动管理记忆生命周期，解决了传统RAG中记忆被动存储导致的信息矛盾、隐私泄露等问题。关键发现是，经过治理的内存能显著提升智能体的性能与安全性。

RAGAgentsEvaluationLong Context

77. FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering

Zikang Ding, Qiying Hu, Yi Zhang et al.

该论文提出了FaithSteer-BENCH基准测试，用于在贴近实际部署的严格条件下评估大语言模型的推理时引导方法。研究发现，现有引导方法在可控性、能力保持和鲁棒性方面存在系统性缺陷，其效果往往不稳定且易受干扰，揭示了当前方法在实际应用中的局限性。

RAGAlignmentEvaluationInference

78. Auditing Preferences for Brands and Cultures in LLMs

Jasmine Rienecker, Katarina Mpofu, Naman Goel et al.

该论文提出了ChoiceEval框架，用于评估大语言模型在商业和文化领域的品牌与地域偏好。研究发现，GPT和Gemini等美国模型明显偏向美国实体，而中国开发的DeepSeek模型则表现出相对平衡但仍可检测的地理偏好。

AlignmentEvaluationQuantization

79. The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition

Alvin Rajkomar, Pavan Sudarshan, Angela Lai et al.

该研究指出当前健康AI评估基准存在“有效性鸿沟”，其数据构成与现实临床需求严重脱节，缺乏原始临床数据、高危人群及慢性病管理等关键场景的代表性。作者主张采用标准化的查询分析框架来弥合这一差距，以确保大语言模型评估能反映真实的临床实践复杂性。

RAGSafetyEvaluation

80. EDM-ARS: A Domain-Specific Multi-Agent System for Automated Educational Data Mining Research

Chenguang Pan, Zhou Zhang, Weixuan Xiao et al.

该论文提出了一个名为EDM-ARS的领域专用多智能体系统，其核心贡献在于利用多个LLM驱动的智能体，自动化完成教育数据挖掘研究的全流程，并能生成包含验证分析和引用的完整学术论文。

AgentsEvaluationInferenceMultimodalCode

81. Retrieval-Augmented LLM Agents: Learning to Learn from Experience

Thomas Palmeira Ferraz, Romain Deffayet, Vassilina Nikoulina et al.

该论文提出了一种结合微调与经验检索的方法，通过优化检索策略和微调流程，显著提升了LLM智能体在未见任务上的泛化能力，为构建能够从经验中学习的智能体提供了可扩展框架。

RAGAgentsEvaluationFinetuning

82. Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model

Yanchuan Tang, Taowen Wang, Yuefei Chen et al.

该论文提出了一种用于视觉-语言-动作（VLA）模型的统一不确定性量化方法，其核心贡献在于通过**滑动窗口最大池化**和**运动感知加权**等机制，有效捕捉并突出连续控制任务中短暂但关键的不确定性峰值，从而显著提升了失败预测的可靠性，为高效AI中的**安全可靠推理**提供了重要支持。

QuantizationMultimodalEvaluationSafety

83. A Family of Adaptive Activation Functions for Mitigating Failure Modes in Physics-Informed Neural Networks

Krishna Murari

本文提出一种基于小波的自适应激活函数族，用于解决物理信息神经网络（PINNs）中的常见训练失败问题。该设计通过结合可训练小波函数与双曲正切等函数，显著提升了PINNs的训练稳定性和表达能力，在多种偏微分方程求解中展现出更强的鲁棒性与精度。

Efficient AI

84. Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration

Amirhossein Roknilamouki, Arnob Ghosh, Eylem Ekici et al.

本文提出了一种新颖的向量场奖励塑形方法，旨在解决离线强化学习策略在线部署时因悲观估计而探索受限的问题。其核心贡献在于通过结合梯度对齐和旋转流两项奖励，引导智能体在安全边界进行持续探索，从而在保证安全的前提下高效收集新数据，实现了离线策略的高效在线适应与探索。

PEFTAgentsSafety

85. Learning to Reason with Curriculum I: Provable Benefits of Autocurriculum

Nived Rajaraman, Audrey Huang, Miro Dudik et al.

该论文提出了一种名为“自动课程学习”的自适应数据选择方法，通过让模型根据自身表现动态选择训练难题，显著降低了思维链推理模型的训练成本。核心贡献在于：对于监督微调，该方法可指数级减少所需的人类标注推理数据；对于强化学习微调，它能将计算成本与参考模型质量解耦，从而大幅提升高效训练的效率。

DistillationPEFTReasoningMultimodal

86. Fast and Generalizable NeRF Architecture Selection for Satellite Scene Reconstruction

Devjyoti Chakraborty, Zaki Sukma, Rakandhiya D. Rachmanto et al.

该论文提出了一种名为PreSCAN的预测框架，通过轻量级几何和光度描述符，在训练前快速评估NeRF的重建质量并选择合适架构，实现了相比神经架构搜索1000倍的加速，并在边缘设备上显著降低了推理功耗和延迟。其核心贡献在于绕过了传统耗时的架构搜索，通过分析多视图一致性来高效指导轻量级NeRF模型的选择与部署。

Efficient InferenceEdge/MobileNASMultimodal

87. ALIGN: Adversarial Learning for Generalizable Speech Neuroprosthesis

Zhanqi Zhang, Shun Li, Bernardo L. Sabatini et al.

该论文提出了一种基于对抗学习的会话不变性学习框架ALIGN，通过抑制神经信号中的会话特异性特征，有效缓解了跨会话分布偏移问题，从而提升了脑机接口语音解码模型的泛化能力和鲁棒性。

RAGSafetyCode

88. Path-Constrained Mixture-of-Experts

Zijin Gu, Tatiana Likhomanenko, Vimal Thilak et al.

该论文提出Path-Constrained MoE，通过在连续层间共享路由器参数来约束专家路径空间，从而提升稀疏专家混合模型的统计效率和性能，同时无需辅助负载均衡损失。

PruningEfficient Architecture

89. CORE: Robust Out-of-Distribution Detection via Confidence and Orthogonal Residual Scoring

Jin Mo Yang, Hyung-Sin Kim, Saewoong Bahk

本文提出CORE方法，通过将网络倒数第二层特征分解为分类器对齐的置信度信号和正交残差信号，分别评估并组合这两个独立信号，实现了更稳健的分布外检测。该方法在多种架构和数据集上达到先进性能，且计算开销极低，为高效AI部署提供了可靠的异常检测方案。

RAGEvaluation

90. Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads

Sara Pohland, Xenofon Foukas, Ganesh Ananthanarayanan et al.

该论文首次系统测量了移动机器人操作任务在不同计算平台上的性能，发现完全在机器人本地运行计算负载会显著缩短电池续航，而将计算卸载到云端则会因网络延迟影响任务精度。研究为设计高效的移动机器人推理系统提供了关键数据支持，揭示了计算负载分配在高效AI部署中的核心权衡。

QuantizationEfficient InferenceEdge/Mobile

91. LRConv-NeRV: Low Rank Convolution for Efficient Neural Video Compression

Tamer Shanableh

本文提出LRConv-NeRV，通过用低秩可分离卷积替换部分密集卷积层，在神经视频压缩中实现了效率与质量的平衡。该方法显著降低了计算复杂度（68%）和模型大小，同时保持了重建质量，为资源受限环境下的高效神经视频解码提供了新方案。

QuantizationPEFTMultimodalCode

92. How Psychological Learning Paradigms Shaped and Constrained Artificial Intelligence

Alex Anvi Eponon, Ildar Batyrshin, Christian E. Maldonado-Sifuentes et al.

这篇论文分析了心理学学习范式对AI发展的影响，指出强化学习、深度学习等主流AI方法继承了相应心理学理论的结构性局限。为此，论文提出了ReSynth三模块框架，通过分离推理、目的和知识组件，旨在构建一种能系统化生成适应性行为的表示架构，以推动高效通用人工智能的发展。

Long ContextEdge/MobileReasoning

93. R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

Naoki Morihira, Amal Nahar, Kartik Bharadwaj et al.

R2-Dreamer提出了一种无需解码器或数据增强的模型基强化学习方法，其核心贡献在于引入了一种基于冗余度降低的自监督目标作为内部正则化器，从而在保持高性能的同时实现了比DreamerV3快1.59倍的训练速度。该方法在高效AI领域通过简化模型架构和加速训练过程，为轻量且通用的世界模型学习提供了新思路。

DistillationMultimodalRAGCode

94. VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events

Mohammad Qazim Bhat, Yufan Huang, Niket Agarwal et al.

本文提出VLM-AutoDrive框架，通过元数据标注、视觉问答和思维链监督等模块化后训练方法，将通用视觉语言模型高效适配到自动驾驶安全关键事件检测任务中，显著提升了碰撞检测的准确性与模型的可解释性。

PEFTReasoningMultimodalSafety

95. Learning-Augmented Algorithms for $k$-median via Online Learning

Anish Hebbar, Rong Ge, Amit Kumar et al.

本文提出了一种基于在线学习的新型学习增强算法框架，并将其应用于经典的 $k$-median 聚类问题。其核心贡献在于通过高效的学习算法，能够近似匹配历史最优固定解的平均性能，并自动适应动态变化的实例序列，从而在高效AI领域实现了对聚类问题求解过程的优化与加速。

RAG

96. Towards sample-optimal learning of bosonic Gaussian quantum states

Senrui Chen, Francesco Anna Mele, Marco Fanizza et al.

该论文研究了高效学习玻色高斯量子态所需的最小样本量，在高效AI领域，其核心贡献在于为量子态表征任务提供了近乎最优的样本复杂度理论界限，并揭示了自适应测量策略对于实现与能量无关的高效学习至关重要。

QuantizationPEFTEvaluation

97. VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi et al.

本文提出VideoAtlas，一种用于长视频理解的无损、可导航的层次化网格表示方法，其核心贡献在于通过结构化环境实现了对数级计算增长，显著提升了长视频处理的效率。该方法结合递归语言模型（Video-RLM），支持自适应计算分配，在扩展到10小时视频时仍保持高精度，为高效视频理解提供了可扩展的新范式。

PEFTMultimodalAgentsEvaluation

98. Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone, Luca Falorsi, Andrea Ciardiello et al.

本文提出了一种基于共享低维目标嵌入的强化学习框架，通过双线性分解策略与价值函数，实现无需重新训练即可快速适应新任务。该方法在冻结基函数的基础上，仅通过单次前向传播估计目标系数，显著提升了强化学习系统的高效适应与推理能力。

Agents

99. CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Zhongzhu Zhou, Fengxiang Bie, Ziyan Chen et al.

本文提出CARE方法，通过**激活感知的因子分解**和**动态调整的秩分配策略**，将预训练注意力模块高效转换为多头部潜在注意力，在固定KV缓存开销下显著提升了推理准确性和效率。该方法在多个大模型上实现了高达215倍的困惑度降低和1.7倍的准确率提升，是**高效推理**领域的重要进展。

Efficient InferencePEFT

100. Multi-Armed Sequential Hypothesis Testing by Betting

Ricardo J. Sandoval, Ian Waudby-Smith, Michael I. Jordan

该论文提出了一种多臂序贯假设检验方法，通过设计类似上置信界（UCB）的算法和最优财富增长率的非渐近集中不等式，实现了在多个数据源中选择最优证据源进行高效检验，其核心贡献在于为高效AI中的推理加速提供了理论最优的序贯决策框架。

Edge/MobileNAS

101. Understanding Task Aggregation for Generalizable Ultrasound Foundation Models

Fangyijie Wang, Tanya Akumu, Vien Ngoc Dang et al.

本文提出M2DINO框架，通过任务条件化的专家混合模块实现自适应容量分配，系统分析了超声任务聚合的有效性。研究发现，任务聚合性能高度依赖于训练数据规模，并指出在构建统一临床影像模型时，应综合考虑数据可用性与任务特性，而非仅依赖临床分类。

Efficient AI

102. Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Yuhao Dong, Zuyan Liu, Shulin Tian et al.

本文提出Insight-V++多智能体视觉推理框架，通过自主生成高质量长链视觉推理数据，并设计双智能体架构（推理智能体+总结智能体）与新型强化学习算法（ST-GRPO/J-GRPO），显著提升了多模态大模型在复杂图像和视频推理任务中的性能，同时保持了传统感知任务的强能力。其核心贡献在于通过自进化训练循环实现了高效的长序列视觉推理优化。

DistillationEfficient InferenceEfficient ArchitectureReasoningMultimodalRAGAgentsEvaluationSafety

103. Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Zunzhe Zhang, Runhan Huang, Yicheng Liu et al.

本文提出了一种名为GeCO的时间无条件生成控制框架，将机器人动作合成从固定的轨迹积分过程转变为自适应的迭代优化过程。其核心贡献在于通过构建平稳的速度场，实现了基于收敛状态的计算资源动态分配，从而在高效AI领域显著提升了推理效率，并为安全部署提供了无需训练的异常检测机制。

MultimodalEvaluationSafetyCode

104. Intellectual Stewardship: Re-adapting Human Minds for Creative Knowledge Work in the Age of AI

Jianwei Zhang

本文提出“智力管家”框架，旨在通过五项核心原则指导人类在AI增强的学习环境中，以负责任的方式协同管理人类与AI系统的分布式认知过程，从而培养适应AI时代的智慧型知识创造者。其核心贡献在于为高效AI协作提供了人本导向的元认知与伦理指导框架，而非直接聚焦于模型压缩或推理加速等技术优化。

DistillationEdge/MobileMultimodal

105. Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

Ziwei Xiang, Fanhu Zeng, Hongjian Fang et al.

本文提出了一种基于量化感知积分梯度的细粒度后训练量化方法，用于大型视觉语言模型。该方法通过积分梯度量化评估token级敏感性，将量化粒度从模态级细化到token级，在W4A8和W3A16等低精度设置下显著提升了模型精度，且几乎不增加推理延迟。

QuantizationEfficient InferenceMultimodalRAGEvaluationCode

106. Transfer Learning for Contextual Joint Assortment-Pricing under Cross-Market Heterogeneity

Elynn Chen, Xi Chen, Yi Zhang

本文提出TJAP框架，通过结构化效用偏移建模跨市场异质性，在联合品类定价问题中实现偏差感知的迁移学习。其核心贡献在于：通过双半径置信界分离统计不确定性与迁移偏差，在连续价格空间上达成方差-偏差权衡，使模型在共享偏好维度加速学习的同时控制异质成分的适应成本。

Pruning

107. Attention Sinks Induce Gradient Sinks

Yihong Chen, Quanming Yao

该论文揭示了在因果掩码下，注意力汇聚（attention sinks）会引发梯度汇聚（gradient sinks），并指出大规模激活是训练过程中对梯度压力的自适应响应。通过引入V-scale调整梯度，研究证实梯度汇聚是连接注意力汇聚与大规模激活的关键训练时机制。

Efficient AI

108. Tula: Optimizing Time, Cost, and Generalization in Distributed Large-Batch Training

Sahil Tyagi, Feiyi Wang

Tula是一个自动优化分布式大批次训练时间、成本和模型精度的在线服务，通过结合并行系统建模与统计性能预测来寻找最优批次大小，在提升训练速度的同时有效缓解了大批次训练中的泛化差距问题。

MultimodalRAG

109. BoundAD: Boundary-Aware Negative Generation for Time Series Anomaly Detection

Xiancheng Wang, Lin Wang, Zhibo Zhang et al.

本文提出了一种基于重构边界负样本生成的时间序列异常检测方法，通过重构过程自动生成接近正常数据流形边界的困难负样本，无需依赖预定义的异常模式，从而提升了对比学习的表示效果和检测性能。

Multimodal

110. SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition

Jingxiao Yang, DaLin He, Miao Pan et al.

该论文提出SARE框架，通过样本自适应推理机制实现无需训练的高效细粒度视觉识别。其核心贡献在于：1）采用级联设计动态结合检索与推理，仅在必要时调用计算密集型推理以提升效率；2）引入自反思经验机制复用历史错误信息，在不更新参数的情况下显著降低计算开销并提升准确率。

ReasoningMultimodalRAG

111. Eye image segmentation using visual and concept prompts with Segment Anything Model 3 (SAM3)

Diederick C. Niehorster, Marcus Nyström

该论文评估了SAM3在眼图分割中的性能，发现其在多数情况下未能超越SAM2，且推理速度更慢，因此SAM2仍是更优的高效选择。

MultimodalCode

112. From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

A. Humnabadkar, A. Sikdar, B. Cave et al.

本文综述了利用合成数据与虚拟环境解决自动驾驶现实部署难题的方法，核心贡献在于系统梳理了通过**高效训练**（合成数据生成与域适应）和**系统验证**（数字孪生仿真）来提升自动驾驶系统泛化能力与安全性的技术路径。

MultimodalEvaluationSafety

113. ARTEMIS: A Neuro Symbolic Framework for Economically Constrained Market Dynamics

Rahul D Ray

ARTEMIS提出了一种神经符号框架，通过结合物理信息损失和可微符号瓶颈，在金融预测中实现了可解释性并嵌入了无套利等经济约束，从而在保持高效推理的同时提升了模型的经济合理性。

QuantizationRAGCode

114. Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

Jaemin Kim, Jong Chul Ye

本文提出了一种用于检索增强掩码扩散模型的自适应引导框架ARAM，通过根据检索上下文引起的分布偏移信噪比动态调整引导强度，有效缓解了检索噪声与模型知识冲突的问题，从而在提升推理效率的同时保证了生成质量。

Edge/MobileRAGEvaluation

115. Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Houston Haynes

本文提出了一种基于几何代数和新型算术标准的自适应领域模型（ADM）训练架构，通过确定性内存管理和类型系统实现了训练内存仅约为推理两倍的高效训练，并支持无服务中断的模型热更新与可验证的结构正确性。其核心贡献在于解决了传统训练中的内存瓶颈和结构退化问题，为几何与神经形态AI提供了轻量、精确且持续自适应的领域专用系统构建方法。

DistillationEfficient InferenceLong ContextCode

116. Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao, Yixiong Zou, Yuhua Li et al.

本文提出CC-CDFSL方法，通过循环一致性约束和语义锚机制，解决了跨域小样本学习中视觉-语言局部特征对齐不足的问题，在提升模型可解释性的同时实现了最先进的性能。

PEFTMultimodalEvaluationSafety

117. Training-Only Heterogeneous Image-Patch-Text Graph Supervision for Advancing Few-Shot Learning Adapters

Mohammed Rahman Sherif Khan Mohammad, Ardhendu Behera, Sandip Pradhan et al.

本文提出了一种仅用于训练的非对称框架，通过构建一个辅助的异构图教师模型，在训练阶段融合多尺度视觉块与文本提示进行深度跨模态推理，从而提升轻量级适配器（如Tip-Adapter）的原型质量，实现了零额外推理开销的高效小样本学习。

DistillationEfficient InferencePEFTEdge/MobileReasoningMultimodalEvaluationSafetyCode

118. DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis

Aleksander Ogonowski, Konrad Klimaszewski, Przemysław Rokita

本文提出首个基于Mamba架构的生成对抗网络DSS-GAN，其核心贡献是**方向性潜在路由（DLR）机制**，通过将潜在向量分解为方向特定的子向量并与类别嵌入联合投影，实现了沿特征图空间轴的高效类别条件调制，在保持轻量化的同时提升了图像合成的质量与可控性。

Efficient ArchitectureMultimodal

119. Atomic Trajectory Modeling with State Space Models for Biomolecular Dynamics

Liang Shi, Jiarui Lu, Junqi Liu et al.

该论文提出ATMOS框架，利用状态空间模型（SSM）和扩散模块，以自回归方式高效生成生物分子系统的原子级运动轨迹，在保持时序依赖性的同时显著加速了分子动力学模拟。

Efficient InferenceEfficient ArchitectureCode

120. Temporal Narrative Monitoring in Dynamic Information Environments

David Farr, Stephen Prochaska, Jack Moody et al.

该研究提出了一种面向系统的框架，用于在动态信息环境中对新兴叙事进行时序建模，其核心贡献在于通过语义嵌入、聚类和时序关联技术，将非结构化社交媒体流转化为可解释的时序结构化表示，从而支持高效的信息感知与理解，属于高效AI在信息处理与决策支持领域的应用。

RAG

121. AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

Cai Xu, Changhao Sun, Ziyu Guan et al.

本文提出AdaMuS框架，通过**参数无关的自适应剪枝方法**和**稀疏融合范式**，解决了多视图学习中维度不平衡导致的冗余问题，实现了高效的特征对齐与泛化。

PruningMultimodalEvaluationCode

122. HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Zihao Zheng, Zhihao Mao, Sicheng Tian et al.

本文提出HeiSD框架，通过结合检索式和草稿式推测解码来加速具身视觉-语言-动作模型的推理。其核心贡献在于优化了检索式解码的验证机制，并引入基于运动学的混合边界度量，实现了最高2.45倍的推理加速。

Efficient InferenceMultimodalRAGEvaluation

123. FoMo X: Modular Explainability Signals for Outlier Detection Foundation Models

Simon Klüttermann, Tim Katzke, Phuong Huong Nguyen et al.

本文提出FoMo-X框架，为异常检测基础模型提供轻量化的模块化解释能力，通过离线训练的辅助诊断头实现单次推理即可输出风险分级和不确定性估计，在几乎不增加计算开销的情况下提升了零样本异常检测的可解释性。

DistillationLong ContextRAGEvaluationSafetyCode

124. Q-Drift: Quantization-Aware Drift Correction for Diffusion Model Sampling

Sooyoung Ryu, Mathieu Salzmann, Saqib Javed

本文提出Q-Drift方法，通过将量化噪声建模为随机扰动并推导出保持边缘分布的漂移校正，有效减少了扩散模型后训练量化在采样过程中的误差累积，从而在几乎不增加推理开销的情况下显著提升了量化模型的图像生成质量。

QuantizationEfficient InferenceMultimodal

125. Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

Yuxiang Mei, Delai Qiu, Shengping Liu et al.

本文提出Zipper-LoRA，一种动态参数解耦框架，通过轻量级路由机制在共享和语言特定子空间之间动态合成LoRA更新，解决了多语言语音识别中数据不平衡导致的稳定性-可塑性困境，显著提升了低资源语言的性能。其贡献在于实现了高效参数微调下的细粒度跨语言知识迁移，并提出了两阶段训练策略以加速收敛。

PEFTEdge/MobileCode

126. Conditional Inverse Learning of Time-Varying Reproduction Numbers Inference

Lanlan Yu, Quan-Hui Liu, Haoyue Zheng et al.

本文提出了一种条件逆学习框架（CIRL），通过结合流行病学先验与数据驱动的时序表示，实现了对时变再生数的稳健估计，其核心贡献在于以轻量且灵活的方式提升了模型在非平稳传播动态下的推理效率和准确性。

Efficient AI

127. CLeAN: Continual Learning Adaptive Normalization in Dynamic Environments

Isabella Marasco, Davide Evangelista, Elena Loli Piccolomini et al.

本文提出CLeAN，一种用于表格数据持续学习的自适应归一化方法，通过可学习参数和指数移动平均模块动态适应数据分布变化，有效提升了模型在新数据上的性能并缓解了灾难性遗忘。其核心贡献在于为高效AI中的持续学习场景，提供了一种轻量且与数据流兼容的归一化解决方案。

Edge/MobileRAGEvaluation

128. AdapTS: Lightweight Teacher-Student Approach for Multi-Class and Continual Visual Anomaly Detection

Manuel Barusco, Davide Dalle Pezze, Francesco Borsatti et al.

本文提出AdapTS，一种用于多类别和持续视觉异常检测的轻量级师生框架。其核心贡献在于通过共享冻结主干网络和注入轻量适配器，在保持性能的同时，将额外内存占用大幅降低至8MB，实现了面向边缘部署的高效模型压缩。

DistillationPEFTEdge/Mobile

129. AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting

Binqing Wu, Zongjiang Shang, Shiyu Liu et al.

本文提出AirDDE，一种用于空气质量预测的神经延迟微分方程框架，其核心贡献在于通过记忆增强注意力模块和物理引导的延迟演化函数，显式建模污染物传播的内在延迟效应，从而在连续时间动态中更准确地捕捉延迟感知的污染物累积模式，提升了预测精度。

RAGCode

130. KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

Gaoge Han, Zhengqing Gao, Ziwen Li et al.

本文提出KineVLA框架，通过双层动作分解将目标级不变性与运动级可变性解耦，利用双层推理令牌作为显式中间变量对齐语言与动作，从而在保持任务目标不变的同时适应指令级的运动细节变化，实现了更精确、可控和可泛化的机器人操作。

ReasoningMultimodalEvaluationCode

131. QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Charuka Herath, Yogachandran Rahulamathavan, Varuna De Silva et al.

本文提出QuantFL框架，通过利用预训练模型初始化实现轻量级量化，在联邦学习中显著降低通信能耗（总通信量减少40%以上），同时保持模型性能，为边缘物联网设备提供了高效节能的训练方案。

QuantizationEfficient InferencePEFTEdge/MobileRAG

132. MOSS-TTS Technical Report

Yitian Gong, Botian Jiang, Yiwei Zhao et al.

MOSS-TTS是一个基于离散音频令牌和自回归建模的语音生成基础模型，其核心高效AI贡献在于：通过MOSS-Audio-Tokenizer实现音频高效压缩，并提供了MOSS-TTS-Local-Transformer这一轻量变体，通过引入帧局部自回归模块，显著提升了建模效率并缩短了首次音频生成时间。

MultimodalCode

133. Enhancing Reinforcement Learning Fine-Tuning with an Online Refiner

Hao Ma, Zhiqiang Pu, Yang Liu et al.

该论文提出了一种动态约束方法，通过在线优化器根据模型输出质量自适应调整约束强度，解决了强化学习微调中约束与优化目标的冲突问题，在保持训练稳定性的同时显著提升了任务性能。

PEFTCode

134. Revisiting Cross-Attention Mechanisms: Leveraging Beneficial Noise for Domain-Adaptive Learning

Zelin Zang, Yehui Yang, Fei Wang et al.

本文提出了一种结合有益噪声的跨注意力机制，通过注入受控扰动来增强模型对内容语义的专注，从而提升跨域学习的鲁棒性。其核心贡献在于设计了域自适应跨尺度匹配框架，在多个基准数据集上实现了最先进的性能，特别是在处理尺度差异方面表现突出。

Edge/MobileRAGSafety

135. VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Chupeng Liu, Jiyong Rao, Shangquan Sun et al.

本文提出VirPro，一种视觉参考的概率提示学习框架，通过自适应多模态预训练增强弱监督单目3D检测。其核心贡献在于利用可学习的概率化视觉提示建模场景不确定性，并通过跨模态对比学习提升语义一致性，在KITTI基准上实现了最高4.8%的平均精度提升。

MultimodalRAGEvaluationSafetyCode

136. Probabilistic Federated Learning on Uncertain and Heterogeneous Data with Model Personalization

Ratun Rahman, Dinh C. Nguyen

本文提出了一种结合元学习和贝叶斯神经网络的个性化联邦学习方法Meta-BayFL，通过显式建模数据不确定性并引入个性化更新机制，在提升非独立同分布数据下模型性能的同时，兼顾了在资源受限边缘设备上的部署可行性。

Efficient InferenceEdge/MobileMultimodal

137. AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Siqi Pei, Liang Tang, Tiaonan Duan et al.

该论文提出AdaZoom-GUI框架，通过指令精炼模块将模糊指令转化为明确描述，并结合条件性放大策略对预测的小元素进行二次推理，从而在提升GUI元素定位精度的同时避免了不必要的计算开销，实现了高效准确的界面理解与交互。

MultimodalAgentsEvaluation

138. Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates

Linxiao Yang, Xue Jiang, Gezheng Xu et al.

本文提出Baguan-TS模型，通过三维Transformer统一原始序列表示与上下文学习，实现了无需梯度更新的高效时间序列预测。其核心高效AI贡献在于：设计了目标空间检索的局部校准策略以稳定训练，并采用上下文过拟合策略缓解输出过平滑问题，从而在保持高容量的同时提升了推理效率与精度。

RAGEvaluation

139. TimeAPN: Adaptive Amplitude-Phase Non-Stationarity Normalization for Time Series Forecasting

Yue Hu, Jialiang Tang, Siwei Yu et al.

本文提出TimeAPN框架，通过自适应建模时序数据的振幅与相位非平稳性，在时域和频域联合预测分布变化，从而提升多元长期时序预测的准确性。该模型无关的归一化方法能有效处理信号突变，可与多种预测主干网络结合，显著提高推理效率与预测性能。

Safety

140. SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training

Prince Zizhuang Wang, Shuli Jiang

本文提出SLEA-RL框架，通过**在每一步决策时动态检索相关经验**，解决了多轮任务中传统静态经验检索不匹配的问题。其核心高效AI贡献在于：通过**聚类索引实现高效检索**，并构建了一个**无需梯度更新、可自我演化的经验库**，从而提升了多轮强化学习代理的训练效率与性能。

DistillationRAGAgentsEvaluation

141. From Digital Twins to World Models:Opportunities, Challenges, and Applications for Mobile Edge General Intelligence

Jie Zheng, Dusit Niyato, Changyuan Zhao et al.

本文探讨了从数字孪生向世界模型的演进，及其在实现移动边缘通用智能（EGI）中的作用。核心贡献在于，通过转向数据驱动、去中心化的世界模型，为网络边缘提供了更具适应性、自主性和资源高效性的智能解决方案，从而推动了高效AI在边缘计算环境中的应用。

Long ContextEdge/MobileAgents

142. Structured SIR: Efficient and Expressive Importance-Weighted Inference for High-Dimensional Image Registration

Ivor J. A. Simpson, Neill D. F. Campbell

本文提出了一种名为Structured SIR的高效推理方法，通过结合低秩协方差与稀疏结构化精度矩阵，实现了对高维图像配准任务中多模态不确定性的高效、高保真表征，在保证精度的同时显著提升了不确定性估计的校准度。

QuantizationPruningEfficient InferencePEFTMultimodal

143. Mutually Causal Semantic Distillation Network for Zero-Shot Learning

Shiming Chen, Shuhuang Chen, Guo-Sen Xie et al.

本文提出了一种相互因果语义蒸馏网络（MSDN++），通过双向因果注意力机制学习视觉与属性特征间的内在语义关联，从而为零样本学习任务提供更可靠的语义知识迁移，在多个基准数据集上实现了最先进的性能。其核心贡献在于通过因果注意力与协同蒸馏机制，提升了跨类别语义表示的效率与准确性。

DistillationEdge/MobileMultimodalRAGEvaluation

144. Joint Degradation-Aware Arbitrary-Scale Super-Resolution for Variable-Rate Extreme Image Compression

Xinning Chai, Zhengxue Cheng, Xin Li et al.

本文提出ASSR-EIC框架，通过任意尺度超分辨率实现可变码率的极端图像压缩，核心贡献在于：1）在单个扩散模型中集成码率自适应的重建能力，避免了为不同码率重复训练模型；2）设计了全局与局部调制机制，在压缩与缩放条件下动态平衡生成质量与保真度，显著提升了超低码率下的重建效果。

MultimodalRAGCode

145. CRE-T1 Preview Technical Report: Beyond Contrastive Learning for Reasoning-Intensive Retrieval

Guangzhi Wang, Yinghao Jiao, Zhi Liu

该论文提出了一种名为Thought 1 (T1)的生成式检索模型，其核心贡献在于将相关性建模从静态表示对齐转变为动态推理过程，从而显著提升了推理密集型检索任务的性能。具体而言，它通过动态生成查询的中间推理轨迹来桥接隐含关系，并采用强化学习优化推理策略，在高效AI领域实现了比传统对比学习模型更优的检索效果。

Efficient InferenceReasoningRAGEvaluationSafetyCode

146. SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction

Shuizhou Chen, Lang Yu, Kedu Jin et al.

本文提出虚拟细胞扰动预测模型SCALE，通过构建高效训练推理框架实现12.51倍预训练加速和1.29倍推理加速，并采用基于条件传输的轻量架构提升模型稳定性，在高效AI领域实现了大规模生物计算任务的系统级优化。

PruningEfficient InferenceEfficient TrainingMultimodalEvaluationSafety

147. Lightweight Adaptation for LLM-based Technical Service Agent: Latent Logic Augmentation and Robust Noise Reduction

Yi Yu, Junzhuo Ma, Chenghuang Shen et al.

本文提出了一种面向技术客服场景的轻量化大语言模型适配框架，其核心高效AI贡献在于：通过**潜在逻辑增强**和**鲁棒降噪**提升监督微调稳定性，并设计**混合奖励机制**（融合大模型评判与轻量重排序器）来降低强化学习的计算成本，从而实现高效且高性能的模型适配。

DistillationPEFTReasoningMultimodalAgentsEvaluationSafety

148. Continually self-improving AI

Zitong Yang

该论文提出了一种持续自我改进的AI框架，通过合成数据增强小规模知识库的学习效率，并利用自生成数据减少对人类数据的依赖，同时通过算法空间搜索超越人工设计的训练范式，从而提升AI系统的数据效率和自主进化能力。

DistillationPEFTEdge/Mobile

149. Public Profile Matters: A Scalable Integrated Approach to Recommend Citations in the Wild

Karan Goyal, Dikshant Kukreja, Vikram Goyal et al.

本文提出Profiler轻量模块高效捕获无偏的引用模式以提升检索效率，并设计DAVINCI重排序模型结合语义与先验信息，在严格时序评估下实现高效准确的引文推荐。

Long ContextRAGEvaluation

150. Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach Driven by Numerical and Structural Dual-Sensitivity

Hengyuan Zhang, Xinrong Chen, Zunhai Su et al.

本文提出了一种无需校准数据的层间混合精度量化框架NSDS，其核心贡献在于通过**数值与结构双重敏感性分析**，为不同操作模块分配差异化量化精度，从而在极低比特设置下实现更优的模型压缩效果。该方法避免了传统方法对单一数值特性的依赖，显著提升了量化模型的性能表现。

QuantizationLong Context

151. ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Panuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma et al.

本文提出ReLMXEL，一种基于可解释多智能体强化学习的自适应内存控制器框架，通过动态优化参数来协同降低内存系统的延迟与能耗，其核心贡献在于将可解释性融入学习过程，在提升性能的同时增强了控制决策的透明度。

Efficient InferenceRAGAgentsEvaluation

152. Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations

Haozheng Luo, Yimin Wang, Jiahao Yu et al.

本文提出CRAFT框架，通过结合对比表征学习和强化学习，在隐藏表示空间中对齐大语言模型的安全推理轨迹，从而显著提升模型对越狱攻击的鲁棒性。该方法在推理安全和最终响应安全方面分别实现了79.0%和87.7%的平均提升，核心贡献在于实现了高效、鲁棒的隐空间推理对齐。

DistillationEfficient ArchitectureReasoningRAGEvaluationSafety

153. WINFlowNets: Warm-up Integrated Networks Training of Generative Flow Networks for Robotics and Machine Fault Adaptation

Zahin Sufiyan, Shadan Golestan, Yoshihiro Mitsuka et al.

本文提出WINFlowNets，通过引入检索网络的预热阶段及共享训练架构，实现了流网络与检索网络的协同训练，从而在动态机器人环境中无需依赖预训练数据，提升了训练稳定性和对故障环境的快速适应能力。

RAG

154. S3T-Former: A Purely Spike-Driven State-Space Topology Transformer for Skeleton Action Recognition

Naichuan Zheng, Hailun Xia, Zepeng Sun et al.

本文提出S3T-Former，一种纯脉冲驱动的Transformer架构，通过多流脉冲嵌入和脉冲状态空间引擎，在保持高稀疏性的同时有效捕获长程时序依赖，为骨骼动作识别实现了高精度且理论能耗更低的高效AI方案。

PruningEdge/MobileMultimodal

155. DANCE: Dynamic 3D CNN Pruning: Joint Frame, Channel, and Feature Adaptation for Energy Efficiency on the Edge

Mohamed Mejri, Ashiqur Rasul, Abhijit Chatterjee

本文提出了一种名为DANCE的动态3D CNN剪枝框架，通过**输入感知的动态剪枝**实现高效推理。其核心贡献在于联合优化帧、通道和特征的剪枝，在边缘设备上实现了显著的**计算量减少和能效提升**，同时保持模型性能。

PruningEdge/MobileMultimodalRAG

156. Variational Rectification Inference for Learning with Noisy Labels

Haoliang Sun, Qi Wei, Lei Feng et al.

本文提出变分校正推理（VRI），通过将损失函数的自适应校正构建为摊销变分推断问题，有效提升了模型在含噪标签数据下的鲁棒性。其核心贡献在于引入层次贝叶斯框架和变分正则化，避免了模型坍塌，从而显著改善了泛化性能。

Code

157. KANtize: Exploring Low-bit Quantization of Kolmogorov-Arnold Networks for Efficient Inference

Sohaib Errabii, Olivier Sentieys, Marcello Traiola

本文提出KANtize方法，首次系统探索了Kolmogorov-Arnold Networks (KANs)的低比特量化，通过将B样条系数量化至2-3比特并结合预计算查找表，在保持精度的同时显著降低了计算复杂度和硬件资源消耗，实现了高达50倍的BitOps减少和2.9倍的GPU推理加速。

QuantizationEfficient Inference

158. Fundamental Limits of Neural Network Sparsification: Evidence from Catastrophic Interpretability Collapse

Dip Roy, Rajiv Misra, Sanjay Kumar Singh

该研究揭示了神经网络极端稀疏化（90%激活减少）会导致“可解释性崩溃”的内在极限，即尽管全局表征质量保持稳定，但局部可解释特征会系统性消失，且这种崩溃程度随数据集复杂度增加而加剧。

PruningEvaluationCode

更多详情访问 PaperTide 网站 · hechenyu@zju.edu.cn

管理员验证

Efficient AI 论文日报 2026-03-18

🌊 PaperTide · 2026-03-18 Efficient AI 论文精选