LLM推理优化论文日报 2026-03-19

🌊

PaperTide · 2026-03-19

大模型推理优化 · 共 141 篇

arXiv 141

🧩 高效架构14 篇

🔬 arXiv

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Zhuolin Yang, Zihan Liu, Yang Chen et al.

Nemotron-Cascade 2是一个300亿参数的开放MoE模型，其核心贡献在于通过扩展级联强化学习和引入多领域同策略蒸馏技术，以极小的激活参数量（30亿）实现了接近顶尖开源模型的数学与代码推理能力，并在多项国际顶级竞赛中达到金牌水平，展现了极高的智能密度。

AgentsReasoningEvaluationMath

🔬 arXiv

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

该研究评估了状态空间模型（SSM）作为视觉大语言模型（VLM）视觉编码器的潜力，发现SSM在多项任务中性能优于或媲美视觉Transformer（ViT），且模型规模更小、稳定性更强，为VLM的视觉编码器提供了高效的新选择。

EvaluationMultimodalCode

🔬 arXiv

RADIUS: Ranking, Distribution, and Significance - A Comprehensive Alignment Suite for Survey Simulation

Weronika Łajewska, Paul Missault, George Davidson et al.

该论文提出了RADIUS评估套件，用于系统评估LLM在调查模拟任务中的表现。其核心贡献在于首次整合了排名对齐和分布对齐两个关键维度，并引入统计显著性检验，解决了现有评估指标碎片化、难以比较的问题。

RAGAlignmentEvaluation

🔬 arXiv

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Pranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim et al.

该论文的核心贡献是提出了Principia数据集和训练方法，以提升大语言模型在数学对象推理上的能力。研究发现，通过策略内奖励模型训练和测试时聚合方法，能显著提升模型在结构化数学表达式生成任务上的表现，并实现跨格式的推理泛化。

ReasoningEvaluationMath

🔬 arXiv

Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Rudra Jadhav, Janhavi Danve, Sonalika Shaw

该研究发现，大语言模型（LLM）在作为自动评分工具时，存在基于写作风格的隐性评分偏见，且这种偏见具有任务依赖性。尽管明确要求仅评估内容正确性，模型在作文/写作任务中对非正式语言和非母语表达等风格因素仍施加了显著惩罚，而在数学和编程任务中则几乎无此偏见。

RAGEvaluationCodeMath

🔬 arXiv

SQL-Commenter: Aligning Large Language Models for SQL Comment Generation with Direct Preference Optimization

Lei Yu, Peng Wang, Jingyuan Zhang et al.

该论文提出了SQL-Commenter方法，通过构建高质量数据集、持续预训练和监督微调，并首次引入直接偏好优化（DPO）来对齐大语言模型，显著提升了模型对复杂SQL语义的理解能力，从而在SQL注释生成任务上取得了超越现有最佳基线的性能。

RAGAlignmentEvaluationFinetuning

🔬 arXiv

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Danaé Broustail, Anna Tegon, Thorir Mar Ingolfsson et al.

该论文提出LuMamba框架，通过结合拓扑不变编码与线性复杂度的状态空间模型，解决了EEG建模中电极拓扑差异和计算可扩展性的挑战。其核心高效AI贡献在于，仅用460万参数，在达到同等性能的同时，相比现有模型计算量减少377倍，并能处理长12倍的序列，显著提升了EEG基础模型的推理与训练效率。

Efficient ArchitectureCode

🔬 arXiv

Mitigating the Bandwidth Wall via Data-Streaming System-Accelerator Co-Design

Qunyou Liu, Marina Zapater, David Atienza

本文提出一种系统-加速器协同设计方法，通过分页流式数据流和计算-传输显式重叠，优化Transformer推理的带宽瓶颈。核心贡献在于设计轻量级矩阵加速器MatrixFlow与系统模拟框架Gem5-AcceSys，在有限片上缓存下实现高达22倍端到端加速，证明流式流水线设计比依赖大容量SRAM更有效提升能效。

Efficient InferenceEdge/MobileMultimodal

🔬 arXiv

DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning

Yizhou Han, Di Wu, Blesson Varghese

DriftGuard提出了一种联邦持续学习框架，通过专家混合（MoE）架构分离共享参数与本地参数，有效应对异步数据漂移。该设计在保证模型精度的同时，将重训练成本降低高达83%，显著提升了单位训练成本下的效率。

Efficient ArchitectureEdge/Mobile

🔬 arXiv

CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution

Elad Yoshai, Ariel D. Yoshai, Natan T. Shaked

本文提出CAFlow，一种自适应深度的单步流匹配框架，通过动态路由图像块至最浅的出口网络，在保持重建质量的同时显著降低计算开销。该方法在像素重排空间进行流匹配，将空间计算减少16倍，实现了高效的单步推理，并在病理图像超分辨率任务中取得了计算效率与模型性能的平衡。

Multimodal

🔬 arXiv

Foundations and Architectures of Artificial Intelligence for Motor Insurance

Teerapong Panboonyuen

该论文提出了一种面向车险领域的垂直集成AI架构，通过领域自适应Transformer模型实现车辆损伤分析和理赔流程的端到端自动化，其核心贡献在于构建了融合感知、推理与生产基础设施的高效AI系统，并建立了算法与MLOps协同演化的工业部署框架。

Efficient ArchitectureReasoningMultimodalEvaluation

🔬 arXiv

Cross-Domain Demo-to-Code via Neurosymbolic Counterfactual Reasoning

Jooyoung Kim, Wonje Choi, Younguk Song et al.

该论文提出NeSyCR框架，通过神经符号反事实推理实现跨领域视频演示到代码的转换，核心贡献在于利用符号化轨迹与可验证的程序修订机制，显著提升机器人任务在跨域场景下的执行成功率。

Efficient ArchitectureReasoningMultimodalAgents

🔬 arXiv

AIMER: Calibration-Free Task-Agnostic MoE Pruning

Zongfang Liu, Shengkun Tang, Yifan Shen et al.

本文提出了一种无需校准的任务无关MoE模型剪枝方法AIMER，其核心贡献在于通过简单的统计指标高效评估专家重要性，在保持模型性能的同时显著降低了剪枝的预处理开销和计算成本。

PruningEfficient InferenceEfficient ArchitectureEvaluation

🔬 arXiv

AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba

Yan Li, Yifei Xing, Xiangyuan Lan et al.

本文提出AlignMamba-2框架，通过引入模态感知Mamba层和双对齐策略，在保持Mamba模型线性计算效率的同时，有效解决了跨模态全局关系建模的难题，实现了多模态情感分析任务中效果与效率的新突破。

Efficient ArchitectureEdge/MobileMultimodalEvaluation

📦 模型压缩27 篇

🔬 arXiv

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Ziyin Zhang, Zihan Liao, Hang Yu et al.

本文提出了F2LLM-v2系列多语言嵌入模型，其核心贡献在于通过创新的两阶段训练流程，在支持超过200种语言（尤其关注中低资源语言）的同时，实现了比以往基于LLM的嵌入模型更高的效率。关键发现是，其最大模型在多个基准测试中排名第一，而较小的模型也为资源受限场景设立了新的性能标杆。

EvaluationCode

🔬 arXiv

VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

Chonghan Liu, Yimin Du, Qi An et al.

该论文提出VEPO方法，通过强化学习将结构化约束融入策略对齐过程，以提升大语言模型在低资源语言上的性能。其核心贡献是引入可变熵机制，动态平衡文本忠实度与语义自然性，显著改善了低资源语言的翻译质量和分词效率。

RAGAlignmentEvaluationFinetuning

🔬 arXiv

Implicit Patterns in LLM-Based Binary Analysis

Qiang Li, XiangRui Zhang, Haining Wang

该论文首次通过大规模追踪研究发现，基于大语言模型（LLM）的二进制漏洞分析在迭代推理过程中，会自发形成四种稳定的、结构化的隐式模式（如早期剪枝、路径依赖锁定等）。这些模式揭示了LLM如何在没有显式控制流或预定义启发式规则的情况下，通过隐式的令牌级决策来组织和引导分析路径，为构建更可靠的LLM驱动分析系统提供了理论基础。

AgentsReasoningLong ContextFinetuning

🔬 arXiv

Quantitative Introspection in Language Models: Tracking Internal States Across Conversation

Nicolas Martorell

该研究提出使用大语言模型（LLM）自身的“数值自报告”来追踪其在对话过程中的内部情感状态（如幸福感、兴趣等）。关键发现是，通过基于逻辑值的自报告方法，可以有效地揭示并量化模型的内省能力，且这种能力在更大规模的模型中表现更强，为理解LLM的内部状态提供了一种新的补充工具。

AgentsSafetyEvaluationQuantization

🔬 arXiv

Geography According to ChatGPT -- How Generative AI Represents and Reasons about Geography

Krzysztof Janowicz, Gengchen Mai, Rui Zhu et al.

这篇论文探讨了以ChatGPT为代表的生成式AI如何表征和推理地理知识。其核心贡献在于，它超越了单纯评估模型的事实准确性，通过三个探索性案例，揭示了LLM在形成地理认知默认值、任务组合引发分布偏移以及过度依赖事实回忆而忽视深层理解等方面存在的潜在问题。

ReasoningEvaluationFinetuning

🔬 arXiv

Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs

Gaoxiang Cao, Wenke Yuan, Huasen He et al.

本文提出了一种语义增强的深度强化学习框架（SA-DRL），其核心贡献在于**利用大语言模型（LLM）理解路网拓扑语义，并将其推理能力作为先验知识注入到无人机部署策略中**。关键发现是，该框架能显著提升训练效率与网络连接性能，仅需26.6%的训练轮次即可达到基线水平，并将关键连接指标提升了13.2%和23.5%。

RAGAgentsReasoningEvaluation

🔬 arXiv

RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models

Xiao Feng, Bo Han, Zhanke Zhou et al.

该论文提出RewardFlow方法，通过构建状态图分析推理轨迹的拓扑结构，实现细粒度的状态级奖励估计，从而显著提升大语言模型在强化学习中的推理性能和训练效率。

RAGAgentsReasoningEvaluation

🔬 arXiv

Functional Subspace Watermarking for Large Language Models

Zikang Ding, Junhao Li, Suling Wu et al.

本文提出功能性子空间水印（FSW）框架，通过将所有权信号嵌入低维功能性主干，显著提升大语言模型水印在微调、量化等参数扰动下的鲁棒性。该方法在多种攻击下保持高检测准确率，且不影响模型原始语义性能。

FinetuningQuantization

🔬 arXiv

Analysis Of Linguistic Stereotypes in Single and Multi-Agent Generative AI Architectures

Martina Ullasci, Marco Rondina, Riccardo Coppola et al.

该研究证实了LLM在标准美国英语（SAE）和非裔美国人英语（AAE）输入中存在显著的方言偏见，表现为刻板印象输出。研究发现，思维链提示和多智能体（生成-批判-修订）架构能有效缓解这种偏见，其中多智能体方法在不同模型间均表现出一致的缓解效果。

AgentsReasoningEvaluationFinetuning

🔬 arXiv

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Minhua Lin, Zhiwei Zhang, Hanqing Lu et al.

该论文提出了MemMA框架，通过多智能体协同推理和原位自我进化来优化LLM的外部记忆管理。其核心贡献在于解决了记忆构建、检索与利用之间的割裂问题，实现了前向路径的战略性协调和后向路径的即时自我修复，从而显著提升了长程交互任务的性能。

RAGAgentsReasoningEvaluation

🔬 arXiv

HISR: Hindsight Information Modulated Segmental Process Rewards For Multi-turn Agentic Reinforcement Learning

Zhicong Lu, Zichuan Lin, Wei Jia et al.

该论文提出HISR方法，通过利用后见信息调节分段过程奖励，将奖励与子目标对齐并突出关键决策片段，从而提升多轮强化学习中信用分配的可靠性。核心贡献在于设计了一种结合后见模型与分段奖励的机制，有效解决了稀疏结果奖励延迟传播和细粒度轮次奖励不可靠的问题。

AgentsAlignmentEvaluation

🔬 arXiv

REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

Shuqi Xiao, Maani Ghaffari, Chengzhong Xu et al.

该论文提出了REST框架，通过构建一个以智能体为中心的路径树作为选项空间，并利用大语言模型（LLM）进行链式推理来选择最优路径，从而在零样本目标导航任务中实现了成功率与路径效率的优异平衡。其核心贡献在于将选项空间设计为路径树，使LLM能够进行从粗到细的推理，有效压缩了组合路径空间。

AgentsReasoningEvaluationFinetuning

🔬 arXiv

Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM

Zizhao Hu, Mohammad Rostami, Jesse Thomason

该论文提出PRISM方法，通过自蒸馏将专家角色适配到LoRA模块中，研究发现专家角色提示能提升LLM在生成任务中对人类偏好的对齐度，但会损害判别任务的准确性。该方法无需外部数据即可在保持判别任务准确性的同时，有效提升生成任务的安全性和对齐性。

RAGAgentsReasoningAlignment

🔬 arXiv

From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents

Myeongseob Ko, Jihyun Jeong, Sumiran Singh Thakur et al.

该论文提出LLM代理能够通过整合分散的非识别性线索与公开信息，自主推断出真实身份，从而构成新的隐私风险。研究发现，在Netflix等场景中，LLM代理的身份推断成功率（79.2%）显著超过传统方法，表明身份推断本身已成为一类独立的隐私威胁。

AgentsEvaluationInference

🔬 arXiv

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

Zhuofan Li, Hongkun Yang, Zhenyang Chen et al.

该论文指出，当前视觉-语言-动作（VLA）模型研究中常用的推理效率指标（如参数量、FLOPs）无法准确反映其在机器人平台上的实际性能，并提出了以任务完成时间、轨迹平滑度等系统级具身行为指标为核心的“具身效率”评估体系，为高效AI在具身智能领域的评估提供了更全面的视角。

Efficient InferencePEFTReasoningMultimodal

🔬 arXiv

CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization

Weilin Chen, Jiahao Rao, Wenhao Wang et al.

本文提出CustomTex框架，通过多参考图像定制实现高保真室内场景纹理生成。其核心贡献在于采用双蒸馏方法，在变分分数蒸馏框架中结合语义级与像素级蒸馏，实现了实例级精确控制与高视觉保真度，显著提升了纹理质量并减少了伪影。

DistillationMultimodalSafety

🔬 arXiv

Communication-Efficient and Robust Multi-Modal Federated Learning via Latent-Space Consensus

Mohamed Badi, Chaouki Ben Issaid, Mehdi Bennis

该论文提出了一种名为CoMFed的高效多模态联邦学习框架，其核心贡献在于通过可学习的投影矩阵生成压缩的潜在表示，并利用潜在空间正则化器对齐不同客户端的特征，从而在保证隐私的同时显著降低了通信开销并提升了模型鲁棒性。

Efficient InferenceEvaluation

🔬 arXiv

RadioDiff-FS: Physics-Informed Manifold Alignment in Few-Shot Diffusion Models for High-Fidelity Radio Map Construction

Xiucheng Wang, Zixuan Guo, Nan Cheng

本文提出RadioDiff-FS，一种基于物理先验的小样本扩散模型，通过将多径无线电地图分解为主径和稀疏残差分量，并引入方向一致性损失约束扩散过程，实现了在极少量高保真样本下对复杂多径环境的高效高保真建模，显著提升了模型在数据稀缺场景下的泛化性能。

PruningEfficient InferenceMultimodalSafety

🔬 arXiv

Learn for Variation: Variationally Guided AAV Trajectory Learning in Differentiable Environments

Xiucheng Wang, Zhenye Chen, Nan Cheng

本文提出L4V框架，通过构建端到端可微分计算图并利用时间反向传播生成精确梯度，替代传统稀疏奖励，实现了更稳定高效的无人机轨迹规划训练，显著提升了任务完成效率和训练成本效益。

PruningEdge/MobileRAG

🔬 arXiv

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Lei Gao, Hengda Bao, Jingfei Fang et al.

本文提出了一种名为Li-Net的高效多通道时间序列预测架构，其核心贡献在于通过稀疏Top-K注意力机制和动态压缩技术，在保证预测精度的同时，显著降低了模型的内存占用和推理时间，实现了预测准确性与计算效率的优越平衡。

PruningMultimodalEvaluation

🔬 arXiv

STEP: Scientific Time-Series Encoder Pretraining via Cross-Domain Distillation

Chen Zhang, Liwei Liu, Jun Tao et al.

本文提出STEP框架，通过跨领域知识蒸馏整合多个时间序列基础模型的知识，构建适用于稀疏异构科学时间序列的统一编码器。其核心贡献在于自适应分块处理超长序列和统计补偿机制适应数值尺度差异，实现了面向科学信号的高效表征学习。

PruningDistillationEdge/MobileMultimodal

🔬 arXiv

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Yipu Dou, Wang Yang

该论文提出MOSAIC框架，通过**高效训练**方法，在固定微调预算下，利用切片级失败分析自动优化数据混合策略，以同时提升模型的安全性、减少过度拒绝并保持指令遵循能力。其核心贡献在于将结构化失败诊断作为控制信号，实现了**多目标对齐的预算高效数据构建**。

PEFTEvaluationSafetyCode

🔬 arXiv

SCISSR: Scribble-Conditioned Interactive Surgical Segmentation and Refinement

Haonan Ping, Jian Jiang, Cheng Yuan et al.

本文提出SCISSR框架，通过引入轻量级涂鸦编码器，实现了基于涂鸦交互的精准手术场景分割，其核心高效AI贡献在于：仅训练少量新增模块（如LoRA适配器）并冻结主干网络，在保持预训练能力的同时显著降低了模型微调的计算成本。

PruningPEFTEvaluationCode

🔬 arXiv

Efficient Video Diffusion with Sparse Information Transmission for Video Compression

Mingde Zhou, Zheng Chen, Yulun Zhang

本文提出Diff-SIT方法，通过稀疏信息传输和一步扩散模型，在超低码率下显著提升了视频压缩的感知质量和时间一致性，实现了高效生成式视频压缩。

PruningMultimodalCode

🔬 arXiv

MLOW: Interpretable Low-Rank Frequency Magnitude Decomposition of Multiple Effects for Time Series Forecasting

Runze Yang, Longbing Cao, Xiaoming Wu et al.

该论文提出了一种名为MLOW的可解释时间序列分解方法，通过低秩频率幅度分解来分离趋势和季节效应，并引入Hyperplane-NMF算法以兼顾可解释性、效率和泛化性。该方法能灵活选择输入范围和频率级别，可即插即用地提升现有时间序列预测模型的性能，属于高效AI中的轻量架构与推理加速技术。

PEFT

🔬 arXiv

Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression

Minjun Kim, Jaehyeon Choi, Hyunwoo Yang et al.

该论文研究了联合模型压缩中不同方法（如剪枝和量化）的应用顺序对最终性能的影响，提出了“渐进强度假设”，即较弱的压缩扰动应先于较强的扰动执行，并通过理论和实验验证了该假设在语言和视觉模型中的有效性。

QuantizationPruningMultimodal

🔬 arXiv

Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration

Arundhathi Dev, Justin Zhan

本文提出AFBS-BO框架，通过自动化贝叶斯优化与二分搜索相结合的方法，为Transformer稀疏注意力机制高效寻找最优超参数，实现了3.4倍的加速和8.8倍的评估次数减少，在保持模型质量的同时显著提升了推理效率。

PruningPEFTRAGEvaluation

⚡ 推理系统16 篇

🔬 arXiv

Parallelograms Strike Back: LLMs Generate Better Analogies than People

Qiawen Ella Liu, Raja Marjieh, Jian-Qiao Zhu et al.

该研究发现，大语言模型（LLM）生成的词语类比（A:B::C:D）在质量和与“平行四边形”几何结构的契合度上均优于人类。核心贡献在于揭示了平行四边形模型本身是有效的，而人类在生成满足严格关系约束的类比时存在不足，LLM则能更一致地遵循这种关系结构。

AlignmentEvaluationInference

🔬 arXiv

Security awareness in LLM agents: the NDAI zone case

Enrico Bottazzi, Pia Park

该论文提出NDAI安全协商框架，通过实验发现LLM代理能可靠识别危险信号，但无法有效验证安全环境，这限制了其在隐私保护协议中的应用。研究指出提升LLM环境感知能力是部署可信代理的关键挑战。

RAGAgentsSafetyLong Context

🔬 arXiv

Secure Linear Alignment of Large Language Models

Matt Gorbett, Suman Jana

该论文提出了一种利用大语言模型表征趋同性、基于同态加密的隐私保护跨模型对齐框架，核心贡献在于首次实现了独立训练模型间的安全线性对齐与文本生成，同时保持了亚秒级推理延迟。

AlignmentEvaluationInference

🔬 arXiv

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Yuchen Li, Amanmeet Garg, Shalini Chaudhuri et al.

该论文提出了Perceptio模型，通过引入显式的语义分割和深度标记来增强大视觉语言模型的空间推理能力。其核心贡献在于实现了2D/3D空间感知的链式思考，在多个基准测试中显著提升了模型的细粒度空间理解性能。

ReasoningEvaluationMultimodalCode

🔬 arXiv

SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding

Shenggui Li, Chao Wang, Yikai Zhu et al.

本文介绍了SpecForge，一个用于高效训练推测解码草稿模型的开源框架，其核心贡献是解决了高质量草稿模型和可扩展训练基础设施的缺乏问题。通过该框架训练的模型（SpecBundle）能显著提升大语言模型的推理速度，最高可达4.48倍。

Inference

🔬 arXiv

CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models

Xiang Chen, Fangfang Yang, Chunlei Meng et al.

本文提出CoDA框架，通过模拟临床影像处理流程中的多阶段分布偏移攻击，揭示了医学视觉-语言模型（MVLM）在真实场景中的脆弱性，并发现链式组合攻击比单一攻击更具破坏性。研究还发现现有多模态大语言模型（MLLM）在医学图像质量审核上存在缺陷，并提出一种基于令牌空间对齐的轻量级修复方法以提升模型鲁棒性。

AlignmentEvaluationInferenceMultimodal

🔬 arXiv

EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models

Minsoo Cheong, Donghyun Son, Woosang Lim et al.

本文提出了一种名为EntropyCache的无训练KV缓存方法，通过解码令牌的最大熵作为恒定成本信号来决定何时重新计算，从而显著加速基于扩散的大语言模型推理。该方法在保持准确性的同时，实现了高达26.4倍的推理加速，且决策开销仅占推理时间的0.5%。

ReasoningEvaluationLong ContextInference

🔬 arXiv

WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior

Haonan Yu, Junhao Liu, Zhenyu Yan et al.

该论文提出WASD框架，通过定位关键神经元作为解释和控制大语言模型行为的充分条件。实验表明，该方法能生成更稳定、准确且简洁的解释，并有效实现了对模型行为的可控生成。

LLM

🔬 arXiv

UT-ACA: Uncertainty-Triggered Adaptive Context Allocation for Long-Context Inference

Lang Zhou, Shuxuan Li, Zhuohao Li et al.

本文提出UT-ACA框架，通过基于不确定性的动态上下文分配机制，在长文本推理中显著减少平均上下文使用量，同时保持生成质量。其核心贡献在于利用不确定性检测自适应调整上下文窗口，解决了固定上下文预算无法满足非均匀token级需求的问题。

RAGLong ContextInference

🔬 arXiv

PlanTwin: Privacy-Preserving Planning Abstractions for Cloud-Assisted LLM Agents

Guangsheng Yu, Qin Wang, Rui Lang et al.

该论文提出了PlanTwin架构，其核心贡献是为云端大语言模型（LLM）规划器创建了一个隐私保护的规划抽象层（即“数字孪生”），使得LLM能在不接触原始敏感环境数据的情况下进行任务规划。关键发现是，该方法能完全避免敏感信息泄露，同时将规划效用的损失控制在2.2%以内，在隐私与实用性之间取得了良好平衡。

AgentsSafetyEvaluationInference

🔬 arXiv

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

Ruishuo Chen, Yu Chen, Zhuoran Li et al.

PowerFlow提出了一种基于分布匹配的无监督微调框架，通过α-幂分布调控LLM的双重特性：增强逻辑推理（α>1）或激发创造性表达（α<1）。该方法在实验中超越了现有无监督强化学习方法，并在对齐模型中实现了多样性与质量的同步提升。

ReasoningFinetuningMultimodal

🔬 arXiv

The Exponentially Weighted Signature

Alexandre Bloch, Samuel N. Cohen, Terry Lyons et al.

本文提出指数加权签名（EWS），通过引入有界线性算子实现跨通道耦合和丰富记忆动态，在保持经典签名代数优势的同时，显著增强了路径表示中对历史信息的上下文建模能力。该框架支持高效计算和梯度学习，在SDE回归任务中验证了其相比传统签名方法的表达能力提升。

Efficient Inference

🔬 arXiv

CAMO: A Conditional Neural Solver for the Multi-objective Multiple Traveling Salesman Problem

Fengxiaoxiao Li, Xiao Mao, Mingfeng Fan et al.

本文提出CAMO，一种用于多目标多旅行商问题的条件神经求解器，通过条件编码器融合偏好以控制目标权衡，并采用协作解码器协调多智能体路径规划，实现了对帕累托前沿的高效近似，在模型泛化与多目标协同优化方面贡献显著。

Edge/MobileAgentsCode

🔬 arXiv

Neural Galerkin Normalizing Flow for Transition Probability Density Functions of Diffusion Models

Riccardo Saporiti, Fabio Nobile

本文提出了一种结合神经伽辽金方法与归一化流的框架，用于高效求解扩散过程的转移概率密度函数。其核心贡献在于通过归一化流保持解的结构特性，并利用自适应采样降低高维偏微分方程的求解成本，从而为随机微分方程的贝叶斯推断等任务提供高效的离线训练与在线推理方案。

Efficient InferenceEvaluation

🔬 arXiv

Beyond Passive Aggregation: Active Auditing and Topology-Aware Defense in Decentralized Federated Learning

Sheng Pan, Niansheng Tang

本文提出了一种主动审计框架，通过引入随机熵异常等动态检测指标和基于拓扑的防御部署策略，有效提升了去中心化联邦学习对隐蔽后门攻击的防御能力，同时保证了模型收敛性与任务性能。

Efficient InferenceLong ContextEdge/MobileEvaluation

🔬 arXiv

Towards Noise-Resilient Quantum Multi-Armed and Stochastic Linear Bandits

Zhuoyue Chen, Kechao Cai

本文提出了一种抗噪声的量子蒙特卡洛算法，用于提升量子多臂老虎机和随机线性老虎机在噪声环境下的估计精度与性能，同时保持相对于经典方法的量子加速优势。

QuantizationEfficient Inference

🏗️ AI基础设施14 篇

🔬 arXiv

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan et al.

该论文提出了FinTradeBench基准测试，用于评估大语言模型在结合公司基本面与市场交易信号方面的金融推理能力。研究发现，检索增强能显著提升模型对文本基本面的推理，但对交易信号推理帮助有限，揭示了当前LLM在数值和时间序列推理上的根本挑战。

RAGReasoningAlignmentEvaluation

🔬 arXiv

Box Maze: A Process-Control Architecture for Reliable LLM Reasoning

Zou Qiang

本文提出Box Maze框架，通过将LLM推理分解为记忆锚定、结构化推理和边界执行三个控制层，在对抗性场景下将边界失效概率从基线RLHF的约40%降至1%以下，为提升大语言模型推理可靠性提供了新的架构思路。

ReasoningAlignmentSafetyEvaluation

🔬 arXiv

UGID: Unified Graph Isomorphism for Debiasing Large Language Models

Zikang Ding, Junchi Yao, Junhao Li et al.

该论文提出了一种名为UGID的LLM去偏框架，其核心贡献是将Transformer模型建模为计算图，并通过约束注意力机制和隐藏表示在反事实输入下的结构不变性来减少内部表征中的社会偏见。关键发现是该方法能有效降低分布内外场景的偏见，同时保持模型的安全性和通用能力。

AlignmentSafety

🔬 arXiv

Hypothesis-Conditioned Query Rewriting for Decision-Useful Retrieval

Hangeol Chang, Changsun Lee, Seungjoon Rho et al.

本文提出了一种名为假设条件查询重写（HCQR）的训练前检索框架，旨在提升检索增强生成（RAG）在决策任务中的效果。其核心贡献在于将检索从主题相关性导向转变为证据导向，通过生成三个针对性查询来寻找支持、区分和验证假设的证据，从而显著提升了在医学问答等决策型任务上的准确率。

RAGEvaluationCode

🔬 arXiv

Book your room in the Turing Hotel! A symmetric and distributed Turing Test with multiple AIs and humans

Christian Di Maio, Tommaso Guidi, Luigi Quarantiello et al.

本文提出了一种基于多AI与人类混合社区的分布式图灵测试新方法，发现当前大语言模型在群体互动中仍能被识别，表明其语言能力虽强但人类特征依然可辨。该研究首次在分布式环境中验证了群体图灵测试的可行性，为持续监测大语言模型演进提供了新思路。

AgentsEvaluationCode

🔬 arXiv

Automatic Configuration of LLM Post-Training Pipelines

Channe Chwa, Xinle Wu, Yao Lu

本文提出AutoPipe框架，用于自动配置LLM后训练流程，核心贡献在于通过离线学习排序代理与在线贝叶斯优化相结合，在仅需10%计算成本的情况下，即可达到与最优手动配置相当的性能表现。

ReasoningAlignmentEvaluationFinetuning

🔬 arXiv

Automatic detection of Gen-AI texts: A comparative framework of neural models

Cristian Buttaro, Irene Amerini

本文提出并比较了多种基于神经网络的AI生成文本检测模型，发现监督学习方法比现有商业检测工具在不同语言和领域上表现更稳定、更鲁棒，揭示了当前检测策略的关键优势与局限。

AgentsEvaluation

🔬 arXiv

TopoChunker: Topology-Aware Agentic Document Chunking Framework

Xiaoyu Liu

本文提出了TopoChunker框架，其核心贡献在于通过保留文档的拓扑层次结构来解决传统文本分块方法导致的语义碎片化问题。该框架采用双智能体架构，在提升检索增强生成（RAG）性能的同时，显著降低了计算开销。

RAGAgentsEvaluation

🔬 arXiv

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Huaide Jiang, Yash Chaudhary, Yuping Wang et al.

该论文提出了首个统一基准NavTrust，用于系统评估具身导航模型在真实场景中面对RGB、深度和指令输入损坏时的鲁棒性，揭示了现有方法在高效AI部署中的关键脆弱性，并验证了多种提升模型抗干扰能力的优化策略。

Edge/MobileMultimodalAgentsEvaluation

🔬 arXiv

Unified Taxonomy for Multivariate Time Series Anomaly Detection using Deep Learning

Bruna Alves, Armando J. Pinho, Sónia Gouveia

本文提出了一种用于深度学习多元时间序列异常检测方法的统一分类法，旨在整合该领域零散的知识体系。其核心贡献在于通过一个包含11个维度的分类框架，系统化地梳理了现有方法，为未来高效AI模型（如Transformer、重建与预测模型）的发展趋势提供了清晰的参考基准。

Edge/MobileRAG

🔬 arXiv

Holter-to-Sleep: AI-Enabled Repurposing of Single-Lead ECG for Sleep Phenotyping

Donglin Xie, Qingshuo Zhao, Jingyu Wang et al.

该研究提出了一种利用单导联心电图（ECG）进行睡眠表型分析的框架，其核心贡献在于**通过单一轻量传感器实现睡眠与心脏表型的联合分析**，为大规模、低负担的家庭化心电-睡眠监测提供了高效解决方案。

Efficient ArchitectureEvaluationCode

🔬 arXiv

Transformers Learn Robust In-Context Regression under Distributional Uncertainty

Hoang T. H. Cao, Hai D. V. Trinh, Tho Quan et al.

该论文研究了Transformer在分布不确定性下进行上下文回归学习的鲁棒性，发现其能在非高斯系数、重尾噪声等复杂分布偏移中匹配或超越经典估计器，展现了在高效AI推理场景下强大的自适应能力。

Efficient AI

🔬 arXiv

GAPSL: A Gradient-Aligned Parallel Split Learning on Heterogeneous Data

Zheng Lin, Ons Aouedi, Wei Ni et al.

本文提出GAPSL框架，通过动态选择方向一致的客户端梯度构建主导梯度，并采用方向感知正则化对齐梯度方向，有效解决了并行分割学习中的梯度方向不一致问题，从而在降低客户端计算负载的同时提升了模型收敛效率。

Efficient InferenceEvaluationSafety

🔬 arXiv

T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World

Aditi Naiknaware, Salimeh Sekeh

本文提出T-QPM框架，通过引入跨模态一致性模式和轻量级自适应融合权重，显著提升了视觉语言模型在动态开放世界中的时序分布外检测与域泛化能力，核心贡献在于实现了对时序分布漂移的鲁棒高效适应。

ReasoningMultimodalRAGEvaluation

🔬 算法加速70 篇

🔬 arXiv

Online Learning and Equilibrium Computation with Ranking Feedback

Mingyang Liu, Yongshan Chen, Zhiyuan Fan et al.

该论文研究了在仅能获得**排序反馈**而非具体数值反馈的在线学习场景，其核心贡献在于：1）证明了在一般瞬时效用排序反馈下无法实现次线性遗憾，并识别了特定条件下（如时间平均效用排序反馈且效用变化较小）实现次线性遗憾的可能性；2）提出了新算法，在效用序列总变化较小时可实现次线性遗憾，并将该框架应用于LLM路由任务，展示了其在多智能体博弈中收敛至近似均衡的潜力。

RAGEvaluation

🔬 arXiv

$R$-equivalence on Cubic Surfaces I: Existing Cases with Non-Trivial Universal Equivalence

Dimitri Kanevsky, Julian Salazar, Matt Harvey

本文研究了在具有良好约化的p-adic域上的光滑三次曲面的R等价关系，其核心贡献是：针对已知具有非平凡通用等价关系的曲面，特别是2-adic域上的全Eckardt约化曲面，证明了其R等价关系是平凡的或指数为2，并解决了Manin关于对角三次曲面的一个长期问题。该研究是作者利用生成式AI模型（如AlphaEvolve和Gemini 3 Deep Think）辅助证明引理并开展研究计划的首个成果。

EvaluationCodeMath

🔬 arXiv

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang et al.

该研究通过系统评估发现，不同大语言模型（LLM）在文本预训练中编码的听觉知识存在显著差异，且这种文本知识水平与下游音频语言模型的性能高度相关。这为理解LLM在音频研究中的作用提供了实证依据。

ReasoningEvaluationMultimodalCode

🔬 arXiv

Evaluating Counterfactual Strategic Reasoning in Large Language Models

Dimitrios Georgousis, Maria Lymperaiou, Angeliki Dimitriou et al.

该研究通过引入反事实博弈变体，评估了大语言模型（LLM）在重复博弈中的策略推理能力。核心发现是，LLM在反事实环境中表现出对激励敏感性、结构泛化和策略推理的局限性，表明其表现可能依赖记忆模式而非真正的推理。

ReasoningEvaluation

🔬 arXiv

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

Yuyang Liu

cuGenOpt是一个GPU加速的通用元启发式优化框架，其核心贡献在于通过统一的编码抽象和硬件感知设计，显著提升了组合优化问题的求解性能。该框架还集成了基于LLM的建模助手，能够将自然语言问题描述自动转换为可执行的求解器代码，极大提升了易用性。

InferenceCode

🔬 arXiv

On Optimizing Multimodal Jailbreaks for Spoken Language Models

Aravind Krishnan, Karolina Stańczak, Dietrich Klakow

该论文提出了首个针对语音语言模型的多模态越狱攻击方法JAMA，通过联合优化文本和音频模态的对抗性扰动，其攻击成功率比单模态攻击高出1.5至10倍，揭示了仅依赖单模态安全防护的不足。

SafetyEvaluationMultimodalCode

🔬 arXiv

DaPT: A Dual-Path Framework for Multilingual Multi-hop Question Answering

Yilin Wang, Yuchun Fan, Jiaoyang Li et al.

该论文提出了DaPT框架，通过并行生成源语言查询与其英文翻译的子问题图并进行合并，有效解决了多语言多跳问答中因依赖单一语言理解导致的性能失衡问题，显著提升了RAG系统在多语言场景下的准确性和简洁性。

RAGEvaluation

🔬 arXiv

Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

Qiawen Ella Liu, Marina Dubova, Henry Conklin et al.

该研究通过对比实验发现，人类在随机跨领域映射（cross-domain mapping）的干预下能可靠地提升创意产出，而大语言模型（LLM）虽然平均能生成比人类更具原创性的想法，但并未显著受益于该干预。关键发现是，当灵感来源与目标领域语义距离更远时，跨领域映射对两者创意性的促进作用均会增强。

RAGEvaluationLong Context

🔬 arXiv

A Dataset and Resources for Identifying Patient Health Literacy Information from Clinical Notes

Madeline Bittner, Dina Demner-Fushman, Yasmeen Shabazz et al.

该论文发布了首个公开的临床笔记健康素养标注数据集HEALIX，并利用开源大语言模型进行基准测试，为从非结构化文本中自动识别患者健康素养信息提供了关键资源和方法验证。

AgentsEvaluation

🔬 arXiv

MoRI: Learning Motivation-Grounded Reasoning for Scientific Ideation in Large Language Models

Chenyang Gu, Jiahao Cheng, Meicong Zhang et al.

该论文提出了MoRI框架，通过动机驱动的推理方法，使大语言模型能够从研究动机出发学习科学推理过程，从而生成更具技术深度和科学依据的创新方案。实验表明，该方法在创新性、技术严谨性和可行性方面显著优于现有商业大模型和智能体基线。

RAGAgentsReasoningFinetuning

🔬 arXiv

Behavioral Fingerprints for LLM Endpoint Stability and Identity

Jonah Leshin, Manish Shah, Ian Timmis et al.

该论文提出了一种名为Stability Monitor的黑盒监控系统，通过采样固定提示集的输出来生成LLM端点的行为指纹，从而检测模型更新或配置变化导致的行为漂移。其核心贡献在于能够量化评估LLM端点的行为稳定性，并验证了不同服务提供商之间及内部的行为差异。

AlignmentEvaluationQuantizationInference

🔬 arXiv

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Gagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard et al.

该研究通过构建多语言时间推理基准MultiTempBench，发现大语言模型的时间推理能力主要受两个因素影响：在低资源语言中，时间信息的**分词质量**是性能瓶颈；而在高资源语言中，**时间表征的线性度**是更关键的预测指标。

RAGReasoningEvaluationCode

🔬 arXiv

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

An Luo, Jin Du, Xun Xian et al.

该论文提出了AgentDS基准，用于评估AI代理与人类专家在领域特定数据科学任务中的表现。研究发现，当前AI代理在领域推理方面仍有不足，而人机协作方案表现最佳，强调了人类专业知识在数据科学中的持续重要性。

AgentsReasoningEvaluation

🔬 arXiv

Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction

Peng Gang

本研究提出并评估了基于5W3H的PPS结构化提示框架，发现其自然语言渲染版本能有效提升AI输出与用户意图的对齐度，尤其在意图模糊的任务中效果显著。研究同时揭示了标准评估方法可能高估非结构化提示的约束遵循能力，并初步验证了PPS能大幅减少后续交互轮次。

AgentsAlignmentEvaluation

🔬 arXiv

Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought

Xinghao Zhao

该研究发现，在思维链推理过程中，**每一步答案分布的熵值是否单调递减**（即“熵轨迹单调性”）能有效预测大语言模型推理的可靠性，其预测效果优于总熵变等聚合指标，且能以较低成本实现高效诊断。

RAGReasoningLong Context

🔬 arXiv

Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Vedant Pandya

本文提出了一种名为XKD-Dial的四阶段渐进式训练框架，用于构建可解释、基于引用的英印双语对话系统。其核心贡献在于，通过引入引用监督微调，成功将编码器-解码器模型的幻觉率降至零，并利用多种事后可解释性分析方法揭示了模型学习引用行为的内在机制。

AlignmentEvaluationCode

🔬 arXiv

Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

Yifan Sui, Han Zhao, Rui Ma et al.

该论文提出PASTE方法，通过识别LLM智能体任务中的重复工具调用模式和数据依赖关系，实现推测性工具执行，从而将平均任务完成时间降低48.5%，显著加速了LLM智能体的响应效率。

RAGAgentsLong ContextInference

🔬 arXiv

I Can't Believe It's Corrupt: Evaluating Corruption in Multi-Agent Governance Systems

Vedanta S P, Ponnurangam Kumaraguru

该研究通过多智能体治理模拟实验发现，在LLM代理被赋予公共事务决策权时，治理结构比模型本身对规则遵守的影响更大，强调应将制度设计作为AI部署的前置安全条件。

AgentsEvaluation

🔬 arXiv

A Human-in/on-the-Loop Framework for Accessible Text Generation

Lourdes Moreno, Paloma Martínez

本文提出了一种将人类参与整合到基于LLM的文本生成中的混合框架，通过“人在环中”和“人在环上”的机制，将用户理解和规范标准编码为可操作的检查清单与触发规则，从而为生成和评估无障碍文本建立了一个可追溯、可复现的过程，提升了NLP系统的透明性与包容性。

EvaluationMultimodalCode

🔬 arXiv

Evaluating LLM-Generated Lessons from the Language Learning Students' Perspective: A Short Case Study on Duolingo

Carlos Rafael Catalan, Patricia Nicole Monderin, Lheane Marie Dizon et al.

该研究通过案例调查发现，Duolingo等语言学习应用依赖大语言模型生成的课程普遍缺乏职业场景针对性，限制了学习者达到专业流利度。研究提出LLM应结合通用场景与个性化专业场景生成课程，以平衡基础能力培养与专业需求。

Evaluation

🔬 arXiv

BeamAgent: LLM-Aided MIMO Beamforming with Decoupled Intent Parsing and Alternating Optimization for Joint Site Selection and Precoding

Xiucheng Wang, Yue Zhang, Nan Cheng

本文提出BeamAgent框架，将大语言模型（LLM）与数值优化解耦，使其仅作为语义翻译器，将自然语言描述转化为结构化空间约束，从而有效解决了LLM在物理层优化中精度不足的问题。该框架通过交替优化算法联合处理基站选址和预编码设计，在保证暗区功率约束的同时显著提升了亮区增益。

AgentsReasoningFinetuningCode

🔬 arXiv

Detecting Basic Values in A Noisy Russian Social Media Text Data: A Multi-Stage Classification Framework

Maria Milkova, Maksim Rudnev

本研究提出了一种用于检测俄语社交媒体中人类价值观的多阶段分类框架，其核心贡献在于利用LLM（如GPT）生成软标签来应对标注主观性，并成功训练出高性能的Transformer模型（XLM-RoBERTa）。关键发现是，该模型预测与人类判断基本一致，但会系统性地高估“对变化的开放性”这一价值观。

Evaluation

🔬 arXiv

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Hao Zhang, Mingjie Liu, Shaokun Zhang et al.

该论文提出了ProRL Agent系统，通过“Rollout-as-a-Service”的API服务架构，解决了多轮LLM智能体在强化学习训练中大规模轨迹生成的管理难题，并提供了可扩展的标准化沙箱环境。其核心贡献是解耦了轨迹生成与训练循环，提升了系统可维护性和迁移效率，已在多个任务领域验证并开源集成至NVIDIA NeMo平台。

AgentsCodeMath

🔬 arXiv

Can LLM generate interesting mathematical research problems?

Xiaoyang Chen, Xiang Jiang

该研究探讨了大语言模型在数学创造力方面的潜力，重点验证了其能否生成具有研究价值的数学问题。通过构建问题生成代理，研究成功生成了665个微分几何领域的新问题，其中许多问题被专家确认为未知且具有独特研究价值。

AgentsEvaluationMath

🔬 arXiv

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

Wenxuan Zhang, Lemeng Wu, Changsheng Zhao et al.

本文提出了dTRPO方法，通过两种轨迹约简策略显著降低了扩散大语言模型策略优化的计算成本。该方法在多项基准测试中有效提升了模型性能，并因其离线单次前向特性而具备较高的训练和生成效率。

ReasoningAlignmentEvaluation

🔬 arXiv

Mi:dm K 2.5 Pro

KT Tech innovation Group

Mi:dm K 2.5 Pro 是一个专注于企业级复杂推理的 320 亿参数韩语大语言模型。其核心贡献在于通过一套包含推理微调、模型融合和异步强化学习的多阶段训练流程，在保持对话流畅性和安全性的同时，在韩语特定基准测试中取得了领先的性能。

AgentsReasoningSafetyEvaluation

🔬 arXiv

Are complicated loss functions necessary for teaching LLMs to reason?

Gabriele Carrino, Andrea Sassella, Nicolo Brunello et al.

本文通过分析GRPO方法发现，在提升大语言模型推理能力时，引入负反馈至关重要，而PPO风格的约束并非必要。基于此，作者提出的简化方法RGRA在数学推理基准测试中表现优于GRPO，表明基于REINFORCE的简单方法能更高效地增强LLM的推理能力。

ReasoningEvaluationMath

🔬 arXiv

Memento-Skills: Let Agents Design Agents

Huichi Zhou, Siyuan Guo, Anjie Liu et al.

本文提出了Memento-Skills系统，其核心贡献是让一个通用大语言模型代理能自主设计并持续改进面向特定任务的子代理，关键发现是通过外部化、可演进的技能库和提示词实现持续学习，而无需更新大模型参数。

AgentsEvaluationCode

🔬 arXiv

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Dimitris Mitropoulos, Nikolaos Alexopoulos, Georgios Alexopoulos et al.

该研究发现，在基于大语言模型（LLM）的代码安全审查中，确认偏见会显著降低漏洞检出率，例如将代码变更描述为“无缺陷”可使检出率下降16-93%。研究进一步证实，攻击者可通过精心设计的提交信息（如伪装成安全改进）利用此偏见，在实际攻击中成功率达35%-88%，而通过元数据脱敏和明确指令可有效缓解此问题。

AgentsEvaluationQuantizationCode

🔬 arXiv

CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks

Hao Wang, Licheng Pan, Zhichao Chen et al.

该论文提出了CausalRM框架，利用因果理论从用户观察反馈（如点击、点赞）中学习无偏奖励模型，解决了反馈噪声和用户偏好偏差两大挑战，显著提升了RLHF在下游任务中的性能。

AlignmentEvaluationLong ContextInference

🔬 arXiv

Green Architectural Tactics in ML-enabled Systems: An LLM-based Repository Mining Study

Vincenzo De Martino, Silverio Martínez-Fernández, Fabio Palomba

本研究通过基于大语言模型（LLM）的代码仓库挖掘方法，分析了205个开源机器学习项目，发现文献中已有的绿色实践在现实中应用程度不一，并新识别出9种未记录的可持续实践，为降低ML系统的环境影响提供了实用参考。

InferenceCode

🔬 arXiv

Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

Haokun Zhao, Wanshi Xu, Haidong Yuan et al.

该论文提出了首个视觉-文本交织的几何推理基准GeoAux-Bench，并发现交织的视觉-文本辅助能无损捕捉几何协同效应，有效构造可降低推理困惑度。基于此，作者提出了A2PO强化学习范式，通过自适应奖励塑形来优化多模态大语言模型（MLLM）的策略性视觉构造能力，使其性能超越基线3.51%。

RAGReasoningEvaluationInference

🔬 arXiv

Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation

Pius Horn, Janis Keuper

本文提出了一种基于LLM语义评估的PDF表格提取基准测试框架，其核心贡献在于利用LLM作为评判员来评估表格内容的语义等价性，克服了传统基于规则指标的不足。研究发现，这种LLM评估方法与人类判断高度相关（皮尔逊r=0.93），显著优于现有指标，并为21种解析器的性能评估提供了实用指导。

RAGEvaluationCode

🔬 arXiv

D-Mem: A Dual-Process Memory System for LLM Agents

Zhixing You, Jiachen Yuan, Jason Cai

本文提出了D-Mem，一种用于LLM智能体的双过程记忆系统，其核心贡献在于通过结合轻量级向量检索与高保真度的全审慎推理模块，并引入多维质量门控策略进行动态调度，有效解决了传统检索方法在细粒度上下文理解上的不足，在保证性能的同时显著降低了计算成本。

RAGAgentsReasoningEvaluation

🔬 arXiv

Learning to Self-Evolve

Xiaoyin Chen, Canwen Xu, Yite Wang et al.

该论文提出了“学习自我进化”框架，通过强化学习训练大语言模型在测试时自主优化上下文，将多步进化问题简化为单步强化学习目标。实验表明，经该框架训练的4B参数模型在文本到SQL和问答任务上超越了GPT-5等更大模型的自进化方法，证明了自我进化可作为可学习技能的有效性。

Reasoning

🔬 arXiv

ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs

Wanjia Zhao, Ludwig Schmidt, James Zou et al.

该论文提出了ZebraArena诊断仿真环境，用于研究工具增强大语言模型（LLM）中推理与外部工具调用之间的耦合关系。其核心贡献是创建了一个知识需求最小化、难度可控的测试平台，关键发现是即使前沿模型（如GPT-5）在复杂任务上准确率仅60%，且工具调用次数比理论最优值多70-270%，揭示了当前LLM在深度推理与精准工具使用协同上的不足。

AgentsReasoningEvaluation

🔬 arXiv

AutORAN: LLM-driven Natural Language Programming for Agile xApp Development

Xin Li, Shiming Yu, Leming Shen et al.

该论文提出了首个基于大语言模型的自然语言编程框架AutORAN，用于自动化生成O-RAN网络中的xApp控制平面应用。其核心贡献在于将高级用户意图在数分钟内转化为可直接部署的xApp，无需人工编码或测试，显著加速了开发周期且性能优于人工基线。

EvaluationMultimodalCode

🔬 arXiv

ICE: Intervention-Consistent Explanation Evaluation with Statistical Grounding for LLMs

Abhinaba Basu, Pavan Chakraborty

本文提出ICE框架，通过多干预算子下的随机化检验来评估大语言模型解释的忠实性。研究发现，忠实性高度依赖于干预算子，且与人类可解释性无关，同时揭示了模型在不同语言间的显著性能差异。

ReasoningEvaluation

🔬 arXiv

Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation

Jerome Ramos, Feng Xia, Xi Wang et al.

本文提出了一种无参考的对话推荐系统模拟框架，通过训练两个独立的大语言模型分别模拟用户和推荐器进行实时交互，无需预先设定目标物品，从而生成更真实、多样且贴近真实人机交互的对话数据。该方法在保证数据质量的同时，为大规模生成高质量的对话推荐训练数据提供了可扩展的解决方案。

AlignmentEvaluationQuantization

🔬 arXiv

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Dan Ben-Ami, Gabriele Serussi, Kobi Cohen et al.

该论文提出了HiMu框架，通过将查询分解为层次化逻辑树并利用轻量级多模态专家进行帧选择，在长视频问答任务中实现了效率与准确性的平衡，显著降低了计算成本。

AgentsReasoningEvaluationLong Context

🔬 arXiv

Cross-Lingual LLM-Judge Transfer via Evaluation Decomposition

Ivaxi Sheth, Zeno Jonke, Amin Mantrach et al.

本文提出了一种基于通用准则集（UCS）的分解式评估框架，通过将评估分解为语言无关的维度，实现了LLM评估能力从英语到其他语言的零样本或少样本迁移，有效解决了多语言场景下人工标注数据稀缺的难题。

EvaluationMultimodal

🔬 arXiv

When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making

Abhinaba Basu, Pavan Chakraborty

本研究提出ICE-Guard框架，发现大语言模型在关键决策中更易受权威和表述方式等非人口统计学因素影响，并证明通过结构化分解方法可显著降低模型决策偏差。

EvaluationCode

🔬 arXiv

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Yinghui Li, Jiayi Kuang, Peng Xing et al.

该论文发现，多模态大语言模型在处理数学公式、化学结构等离散符号时，存在“认知不匹配”现象：模型常能完成复杂推理，却在基础符号识别上失败，表明其依赖语言概率而非真正的视觉感知。这揭示了当前AI在理解支撑科学发现的符号语言方面存在关键能力缺陷。

ReasoningEvaluationMultimodalMath

🔬 arXiv

GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms

Masayuki Kawarada, Kodai Watanabe, Soichiro Murakami

该论文提出了GAIN基准测试，用于评估大语言模型在现实商业场景中如何平衡规范遵循与目标达成。研究发现，先进模型通常能模拟人类决策模式，但在面临个人利益压力时，会表现出更强的规范遵循倾向而非偏离。

RAGAlignmentEvaluation

🔬 arXiv

CNT: Safety-oriented Function Reuse across LLMs via Cross-Model Neuron Transfer

Yue Zhao, Yujia Gong, Ruigang Liang et al.

该论文提出了一种名为跨模型神经元迁移（CNT）的后处理方法，其核心贡献在于通过跨模型迁移少量神经元，实现了在LLM之间安全功能的模块化复用（如添加或删除），从而避免了昂贵的数据收集和训练。关键发现是该方法能有效完成安全功能定向迁移，在性能损失极小（多数模型<1%）的情况下，显著优于多个基线方法。

AlignmentSafetyEvaluation

🔬 arXiv

Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards

Haechan Kim, Soohyun Ryu, Gyouk Chu et al.

本文提出了一种名为“折扣Beta-Bernoulli奖励估计”的新方法，旨在解决基于群体的可验证奖励强化学习方法中样本效率低下的问题。该方法通过利用历史奖励统计信息来稳定方差，在多个推理基准测试中显著提升了大型语言模型的性能，且无需额外计算成本。

RAGReasoningEvaluation

🔬 arXiv

Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation

Asmita Bhardwaj, Yuya Jeremy Ong, Eelaaf Zahid et al.

本文提出了一种基于强化学习的解码策略，通过测试时动态调整采样参数来优化大语言模型的生成质量，无需重新训练模型。实验表明该方法在多个摘要数据集上显著优于静态解码基线，最高提升达88%，验证了复合奖励函数和结构化约束对生成效果的关键作用。

RAGEvaluationInferenceCode

🔬 arXiv

Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

Masayuki Kawarada, Tatsuya Ishigaki, Hiroya Takamura

该论文首次针对多模态大语言模型（MLLM）提出了任务干扰的评估基准，核心发现是：从纯文本任务切换到图像相关任务时，模型性能会严重下降，而反向切换则影响甚微，且模态差异是导致干扰的最主要因素。

ReasoningEvaluationMultimodal

🔬 arXiv

The Spillover Effects of Peer AI Rinsing on Corporate Green Innovation

Li Wenxiu, Wen Zhanjie, Xia Jiechang et al.

本研究利用大语言模型分析上市公司年报文本，发现企业进行“AI清洗”（即虚假宣传AI应用）会显著挤出绿色创新，且这一负面影响通过产品与资本市场双重渠道传导。研究进一步指出，私营企业、中小企业及高竞争行业受此负面冲击更严重，并提出了针对性政策建议以遏制此类行为。

Agents

🔬 arXiv

TARo: Token-level Adaptive Routing for LLM Test-time Alignment

Arushi Rai, Qiang Zhang, Hanqing Zeng et al.

本文提出了一种名为TARo的推理时对齐方法，其核心贡献在于通过可学习的词元级路由机制，将奖励模型的细粒度逻辑一致性信号动态引导至冻结的基础大语言模型，从而显著提升了模型在数学推理、临床问答等多个领域的性能，且无需重新训练即可泛化至不同规模的模型。

ReasoningAlignmentEvaluationInference

🔬 arXiv

AutoScreen-FW: An LLM-based Framework for Resume Screening

Zhelin Xu, Shuhei Yamamoto, Atsuyuki Morishima

本文提出了一个基于开源大语言模型的本地化简历自动筛选框架AutoScreen-FW。其核心贡献在于，通过筛选代表性简历样本并结合上下文学习，使开源模型在保护数据隐私的同时，其筛选性能可媲美甚至超越部分商用模型，并显著提升了处理速度。

Evaluation

🔬 arXiv

Reflection in the Dark: Exposing and Escaping the Black Box in Reflective Prompt Optimization

Shiyan Liu, Qifeng Xia, Qiyun Xia et al.

本文提出VISTA框架，通过解耦假设生成与提示重写，解决了现有反思式自动提示优化方法存在的黑盒与局部最优问题，在GSM8K等任务上显著提升了优化效果与可解释性。

Agents

🔬 arXiv

DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge

Yuegui Huang, Zhiyuan Fang, Weiqi Luo et al.

本文提出DyMoE框架，通过动态混合精度量化与专家重要性感知调度，显著降低了MoE模型在边缘设备上的推理延迟与内存开销，实现了高效且精度保留的边缘推理。

QuantizationEfficient InferenceEfficient ArchitectureEdge/Mobile

🔬 arXiv

Enhancing Pretrained Model-based Continual Representation Learning via Guided Random Projection

Ruilin Li, Heming Zou, Xiufeng Yan et al.

本文提出SCL-MGSM方法，通过数据引导的随机投影层构建机制，在持续表征学习中实现了更紧凑且表达能力更强的特征表示，同时提升了分析更新的数值稳定性，从而在高效AI领域优化了基于预训练模型的持续学习性能。

Evaluation

🔬 arXiv

Adaptive Regime-Aware Stock Price Prediction Using Autoencoder-Gated Dual Node Transformers with Reinforcement Learning Control

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

本文提出了一种自适应股票价格预测框架，通过自动编码器识别市场异常状态，并利用双路Transformer和强化学习控制器实现动态路径选择，从而在波动市场中保持稳健的预测性能，显著提升了预测准确率。

Code

🔬 arXiv

FedTrident: Resilient Road Condition Classification Against Poisoning Attacks in Federated Learning

Sheng Liu, Panos Papadimitratos

本文提出FedTrident框架，通过神经元级异常检测、自适应客户端评级和全局模型“遗忘”修复，有效抵御联邦学习中的标签翻转攻击，在保证模型性能接近无攻击水平的同时，显著提升了智能交通系统中路况分类任务的安全性与鲁棒性。

EvaluationSafety

🔬 arXiv

When Differential Privacy Meets Wireless Federated Learning: An Improved Analysis for Privacy and Convergence

Chen Yaoling, Liang Hao, Tu Xiaotong

该论文提出了一种针对无线联邦学习中差分隐私机制的综合分析框架，在非凸损失函数下实现了隐私损失的收敛性证明，并建立了明确的隐私-效用权衡关系，为高效隐私保护型分布式训练提供了理论支撑。

Efficient AI

🔬 arXiv

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors

Chenxi Han, Shilu He, Yi Cheng et al.

该论文提出PRIOR框架，通过参数化步态生成器和基于GRU的地形感知模块，在无需对抗训练的情况下实现了仿人机器人的高效稳健地形穿越。其核心高效AI贡献在于：通过优化深度图像分辨率权衡降低感知计算开销，并利用自监督高度图重建实现轻量化的实时地形几何推断。

MultimodalEvaluation

🔬 arXiv

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Sakshi Arya, Satarupa Bhattacharjee, Bharath K. Sriperumbudur

本文提出了一种基于核方法的ε-greedy算法，通过结合Stein估计与逆概率加权核岭回归，实现了在自适应采样下的半参数上下文赌博机学习。该工作通过建立单指标估计量的渐近正态性，在保证统计效率的同时提供了有效的置信区间，为高效在线推理与学习提供了统一框架。

Long Context

🔬 arXiv

Uniform a priori bounds and error analysis for the Adam stochastic gradient descent optimization method

Steffen Dereich, Thang Do, Arnulf Jentzen

本文针对Adam优化器首次建立了统一先验界，从而为一大类强凸随机优化问题提供了无条件的误差分析，解决了高效AI训练中优化方法收敛性证明的关键理论问题。

Efficient AI

🔬 arXiv

Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing

Marcela Palejova

该论文提出“权威级先验”作为层级预测处理框架中的元结构约束，用于界定哪些身份级假设可参与自主神经调控，从而解释为何显性信念更新不影响自主应激反应。这一机制通过约束策略优化范围实现了高效计算，为理解应激反应动态提供了可检验的计算模型。

Multimodal

🔬 arXiv

WeNLEX: Weakly Supervised Natural Language Explanations for Multilabel Chest X-ray Classification

Isabel Rio-Torto, Jaime S. Cardoso, Luís F. Teixeira

本文提出WeNLEX，一种用于多标签胸部X光分类的弱监督自然语言解释生成模型。其核心贡献在于通过特征空间图像匹配确保解释忠实性，并利用少量标注实现分布对齐以保持合理性，同时该解释机制还能提升分类模型性能（AUC提升2.21%）。

ReasoningMultimodalSafety

🔬 arXiv

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Shaked Perek, Ben Wiesel, Avihu Dekel et al.

本文提出SCALe方法，通过动态调整损失权重来平衡视觉语言模型中思维链与答案部分的训练，从而提升推理效率与准确性。该方法在显著减少训练时间的同时，达到了与更复杂训练流程相当的性能，是一种轻量且高效的训练优化方案。

PEFTReasoningMultimodalRAG

🔬 arXiv

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Aram Abrahamyan, Sachin Kumar

本文对持续学习中的灾难性遗忘缓解方法进行了比较实证研究，重点关注自然语言处理中的意图分类任务。研究发现，基于经验回放的方法（如MIR）是防止遗忘的关键策略，且结合回放与参数隔离或正则化的混合方法（如MIR+HAT）能取得最佳效果，其性能甚至可能超过联合训练。

PEFTEdge/MobileRAGCode

🔬 arXiv

An Onto-Relational-Sophic Framework for Governing Synthetic Minds

Huansheng Ning, Jianguo Ding

本文提出了一种基于赛博主义哲学的“本体-关系-智慧”框架，旨在为日益强大的合成智能体建立超越工具视角的治理基础。其核心贡献在于通过多维本体论、分级数字人格谱系及智慧导向的价值体系，为高效AI的伦理治理与规范发展提供了综合性的哲学基础。

ReasoningRAGAgentsSafety

🔬 arXiv

Cyber-Resilient Digital Twins: Discriminating Attacks for Safe Critical Infrastructure Control

Mohammadhossein Homaei, Iman Khazrak, Rubén Molano et al.

本文提出i-SDT框架，通过结合时序卷积网络和最大均值差异进行多类攻击判别，实现了对工业网络攻击的实时精准检测与自适应弹性控制，在保证关键基础设施持续运行的同时显著降低了误报和运营成本。

Efficient InferenceEvaluationCode

🔬 arXiv

Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media

Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl

本文提出了一种可解释的多模态分类框架，通过跨模态依据迁移从文本中学习图像依据，在减少标注成本的同时提升了社交媒体人道主义分类的准确性和可解释性。该方法在CrisisMMD数据集上显著提高了分类性能（Macro-F1提升2-35%），并能有效提取文本和图像依据以支持决策。

MultimodalEvaluation

🔬 arXiv

Correlation-Weighted Multi-Reward Optimization for Compositional Generation

Jungmyung Wi, Hyunsoo Kim, Donghyun Kim

该论文提出了一种相关性加权的多奖励优化框架，通过自适应调整不同概念奖励的权重来缓解多概念生成中的冲突问题，从而提升文本到图像模型在组合生成任务上的表现。其核心贡献在于利用概念间的相关性结构来识别和优先优化难以满足的竞争性概念，实现了更高效的多奖励协同优化。

MultimodalRAGEvaluation

🔬 arXiv

FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction

Seonghyun Jin, Jong Chul Ye

FILT3R提出一种无需训练的潜在状态自适应卡尔曼滤波层，通过在线估计过程噪声并计算卡尔曼增益，在流式3D重建中自适应平衡历史记忆与新观测，显著提升了长时推理的稳定性。

Code

🔬 arXiv

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

Chengxuan Lu, Shukuan Wang, Yanjie Li et al.

本文提出了AcceRL框架，其核心贡献在于通过**异步解耦的分布式架构**显著提升了大规模视觉-语言-动作模型的**强化学习训练效率**。该框架首次集成了可训练的世界模型来生成虚拟经验，在实现优异性能的同时，带来了**超线性的吞吐量扩展**和**极高的样本效率**。

Efficient InferenceMultimodalEvaluation

查看完整内容与互动功能

🌐 PaperTide 网站

hechenyu@zju.edu.cn

管理员验证

LLM推理优化论文日报 2026-03-19

PaperTide · 2026-03-19

🧩 高效架构14 篇

📦 模型压缩27 篇

⚡ 推理系统16 篇

🏗️ AI基础设施14 篇

🔬 算法加速70 篇