Datawhale干货 实盘配资网站
作者:曾浩龙,Datawhale团队
大模型的浪潮已从 "能生成" 进入 "如何高效生成"
在过去的一年里,大语言模型(Large Language Models,LLMs)的浪潮已从 "能生成" 进入 "如何高效生成" 的深水区。推理效率不再只是大模型落地的附属议题,而是贯穿算法、系统乃至硬件全栈的关键战场。从 vLLM 的分页注意力,到自适应推测解码、Prefilling/Decoding 分离架构、大规模专家并行、KV 缓存压缩与跨节点传输,每一项创新都在重塑算力利用的极限。这篇博文汇总了一些最具代表性的大模型高效推理综述论文和博客,为想入行 LLM Inference Infra 的读者搭起一座理论与实践并行的桥梁。
整理了今年大模型推理方向最值得读的文章
与传统的 "仅阅读方法论文" 不同,本文的梳理更接近于一份行业级 "技术地图"。它全景覆盖了从算法优化(模型量化、稀疏化、解码加速)、系统调度(动态批处理、缓存管理、并行推理)到硬件协同(FPGA、内存内处理、边缘设备推理)的完整技术栈。无论您是初入领域的研究人员,还是负责系统构建的工程师或架构师,均可从中找到具备可操作性的参考路径。
展开剩余98%同时,本文揭示了高效推理技术的一些未来发展的方向,包括:低比特模型量化、推理时计算、去中心化推理、软硬件协同优化、开源且易用性高的推理引擎、多 LLM 协同与依赖调度、长上下文优化、解耦式推理架构、多模态协同推理与高效视觉语言模型(VLMs)、以及面向具身智能的高效视觉语言动作模型(VLAs)等。在大模型技术广泛应用的背景下,掌握高效的大模型推理系统设计,已成为深入大模型产业核心的关键路径。
一、面向高效的生成式大语言模型服务:从算法到系统的综述
推荐理由:
填补认知空白:将算法创新(推测解码、模型压缩等)与系统优化(vLLM 内存管理、并行调度等)两大技术流整合到统一框架,解决了此前综述只关注单一维度的局限,帮助读者建立完整认知体系。
极具实践指导价值:不止于理论罗列,深度对比了主流开源框架(FasterTransformer、vLLM、TGI、TensorRT-LLM 等)的设计取舍,明确各系统在时延/吞吐量优化上的不同策略,为工程选型提供直接依据。
降低领域门槛:用标准化术语重构了百余篇前沿论文的核心思想,使得非垂直领域研究者也能快速把握技术脉络,节省至少数周的文献调研时间,是进入该领域的 "加速器"。
前瞻性洞察:指出的 "硬件 - 算法协同设计"、"去中心化推理"、"长序列优化" 等未来方向,直指当前工业界痛点,为研究与工作提供了高价值、低重复的切入点。
填补认知空白:将算法创新(推测解码、模型压缩等)与系统优化(vLLM 内存管理、并行调度等)两大技术流整合到统一框架,解决了此前综述只关注单一维度的局限,帮助读者建立完整认知体系。
极具实践指导价值:不止于理论罗列,深度对比了主流开源框架(FasterTransformer、vLLM、TGI、TensorRT-LLM 等)的设计取舍,明确各系统在时延/吞吐量优化上的不同策略,为工程选型提供直接依据。
降低领域门槛:用标准化术语重构了百余篇前沿论文的核心思想,使得非垂直领域研究者也能快速把握技术脉络,节省至少数周的文献调研时间,是进入该领域的 "加速器"。
前瞻性洞察:指出的 "硬件 - 算法协同设计"、"去中心化推理"、"长序列优化" 等未来方向,直指当前工业界痛点,为研究与工作提供了高价值、低重复的切入点。
论文标题(英文):Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems
论文标题(中文):面向高效的生成式大语言模型服务:从算法到系统的综述
作者团队如下:
作者机构:普渡大学 & 卡内基梅隆大学
期刊信息:ACM Computing Surveys(计算机科学领域 Top 期刊)
论文来源:https://arxiv.org/abs/2302.14017实盘配资网站
论文摘要:在人工智能快速发展的浪潮中,生成式大语言模型处于技术发展的前沿,正在改变人机交互范式。然而,这些模型的高计算负载与内存需求对服务效率构成严峻挑战,在要求低时延和高吞吐量的应用场景中尤为突出。这篇综述从机器学习系统研究视角,探讨高效 LLM 推理服务方法论的迫切需求。该研究位于 AI 前沿创新与系统实践优化的关键交汇点。作者提供了深入的分析,涵盖从核心算法修改及优化到突破性系统设计的系列解决方案。综述系统梳理了高效 LLM 服务的现状与未来趋势,为研究人员和从业者提供突破 LLM 规模化部署瓶颈的重要见解,助力人工智能技术的革新发展。
「备注:作者团队来自 CMU Catalyst 实验室,该实验室由 Zhihao Jia 与 Tianqi Chen(陈天奇是 MLSys 领域的知名研究者)在 CMU 共同主持,致力于集成来自于机器学习算法、系统、硬件等多方面的优化技术,构造高效、强大的机器学习系统。此前,该实验室还推出了 FlashInfer、MLC-LLM、SpecInfer、SpotServe 等开源项目,推进 LLM 推理系统的研究和应用。如果你是机器学习领域的学习者或从业者,那么对 XGBoost、MXNet、TVM、MLC LLM 这些名字一定不会陌生。而这些赫赫有名的开源项目背后,都有指向同一个名字 —— 陈天奇。」
二、深度拆解,硬核解构,揭示 vLLM 推理系统实现高效吞吐的秘籍
推荐理由:
vLLM 是目前最受欢迎的高性能、易用的推理引擎之一,很多读者在实际部署大模型时也会用到。vllm-project 主仓库下面还有其他知名的分支仓库,比如:vllm-ascend(支持华为昇腾 NPU 推理)、aibrix(云原生大模型推理系统,为 vLLM 推理引擎提供可扩展且高性价比的控制面)等。
建议结合这篇博客一起阅读 - GitHub 总计超 77,000 Star,大模型推理框架 vLLM、SGLang 是如何炼成的:
针对 vLLM 的架构、代码和原理进行了深入的分析,这或许是关于 LLM 推理引擎与 vLLM 工作原理的最深入解读。
vLLM 是目前最受欢迎的高性能、易用的推理引擎之一,很多读者在实际部署大模型时也会用到。vllm-project 主仓库下面还有其他知名的分支仓库,比如:vllm-ascend(支持华为昇腾 NPU 推理)、aibrix(云原生大模型推理系统,为 vLLM 推理引擎提供可扩展且高性价比的控制面)等。
建议结合这篇博客一起阅读 - GitHub 总计超 77,000 Star,大模型推理框架 vLLM、SGLang 是如何炼成的:
针对 vLLM 的架构、代码和原理进行了深入的分析,这或许是关于 LLM 推理引擎与 vLLM 工作原理的最深入解读。
博客标题(英文):Inside vLLM: Anatomy of a High-Throughput LLM Inference System
博客标题(中文):vLLM 内部:剖析高吞吐量 LLM 推理系统的架构
作者如下:
作者机构:P-1 AI
博客来源:https://www.aleksagordic.com/blog/vllm
博客概要:这篇博客系统性地介绍了现代高吞吐量大语言模型推理系统的核心组件与高级特性,重点阐述目前最受欢迎的高性能、易用推理引擎之一 —— vLLM 的工作原理及其架构演进。内容从离线单 GPU 场景下的引擎核心及关键机制(如调度、分页 KV 缓存、持续批处理等)展开,逐步延伸至在线异步推理、多 GPU 协同、跨节点分布式服务等复杂场景。随后深入解析其高级特性,包括分块预填充、前缀缓存、引导/推测解码以及预填充与解码的分离等,并提供跨节点 KV 缓存传输的实现示例。文章进一步阐述了分布式部署方案,包括数据并行与张量并行的具体实现,以及通过 API 服务器实现负载均衡与实际接口调用的方法。同时,介绍了时延与吞吐量等关键性能指标的度量方法,涉及首词元响应时间(TTFT)、词元间时延(ITL)、每词元处理时间(TPOT)及端到端时延,并给出基于计算 - 访存性能的 Roofline 建模思路。最后,系统回顾了从 UniProcExecutor 到 MultiProcExecutor,再到分布式服务的架构演进路径,并展望后续系列文章将对具体子系统进行深入解析。
「备注:作者是前 Google DeepMind 和 Microsoft 的机器学习工程师 Aleksa Gordć,Aleksa 目前是 P-1 AI 联合创始人。GitHub 主页:https://github.com/gordicaleksa。这篇博客也被收录进了 vLLM 官方文档里:https://blog.vllm.ai/2025/09/05/anatomy-of-vllm.html」
三、行业落地分享:SGLang - 高效且开源的 LLM 服务框架
推荐理由:
SGLang 也是目前最受欢迎的高性能、易用的推理引擎之一,10 月下旬,大模型优秀大脑齐聚硬核开源聚会,SGLang 社区举办国内首次 Meetup:
SGLang 在分层缓存、非阻塞 / RDMA KV 传输、Prefilling/Decoding 分离架构、以及 Two-Batch Overlap 等设计下,支持大规模并发和跨模型部署,且背后有活跃的开源社区与生态(LMSYS、EAGLE 系列、XGrammar 等),便于集成与扩展。
针对 SGLang 的特性、代码和原理进行了深入的分析,帮助读者快速上手。
SGLang 也是目前最受欢迎的高性能、易用的推理引擎之一,10 月下旬,大模型优秀大脑齐聚硬核开源聚会,SGLang 社区举办国内首次 Meetup:
SGLang 在分层缓存、非阻塞 / RDMA KV 传输、Prefilling/Decoding 分离架构、以及 Two-Batch Overlap 等设计下,支持大规模并发和跨模型部署,且背后有活跃的开源社区与生态(LMSYS、EAGLE 系列、XGrammar 等),便于集成与扩展。
针对 SGLang 的特性、代码和原理进行了深入的分析,帮助读者快速上手。
博客标题(中文):行业落地分享:SGLang - 高效且开源的 LLM 服务框架
作者如下:
博客来源
博客概要:SGLang 是一款开源的高性能大模型推理引擎。在大规模 LLM 服务处理中,其在速度和吞吐量方面的表现与 DeepSeek 官方博客所报告的结果相近,已被学术界及多家知名企业与初创公司(如 XAI、NVIDIA、AMD、Microsoft、LinkedIn 等)广泛采用。在 RLHF 等策略模型相关场景中,SGLang 的高效推理能力对提升训练与部署效率尤为关键。其核心技术包括 RadixAttention机制支持高效的前缀匹配、插入与逐出操作,以及推测解码技术。通过与 EAGLE-2/3 集成,实现了显著的解码加速,速度提升范围达 1.6 倍至 2.4 倍。同时,它还支持对 DeepSeek-V3 的多词元预测。通过集成 XGrammar 的零开销约束解码功能,能够对输出语法施加严格约束。在架构层面,通过 PD 分离实现预填充与解码阶段的解耦,并利用非阻塞(non-blocking)和基于 RDMA(Remote Direct Memory Access)的 KV Cache 传输机制提升并发性能。其设计还涵盖分层缓存、请求队列与调度、GPUs 执行管理,以及 DP Dense FFN / DP Attention 等并行化策略。SGLang 开源项目由 LMSYS 孵化,并得到了大量社区贡献者的支持。
「备注:感兴趣的读者还可以了解一下 KTransformers 与 SGLang达成深度技术合作,双方推理架构融合,开发者能够直接获取全 GPU 推理与异构推理两种能力,无需手动集成和单独调用。文章链接:。」
四、驯服巨兽:高效大语言模型推理服务综述
推荐理由:
这是 2025 年较新的 "LLM 推理优化地图":覆盖了 DeepSeek-V3/R1 等最新模型,以及 2024 年出现的现代 PD 分离架构、推测解码、测试时推理扩展等前沿技术。相比早期综述,它帮你省下 1 个月以上的文献追踪时间,直接拿到当前最优解清单。
给出了清晰的 "选型决策树":把上百种优化方法按实例级(单 GPU)、集群级(多机)、新兴场景(RAG / 长序列 / MoE)分类,并点明每种方法的适用情景。搞不清该用量化、分离架构还是缓存优化?这篇论文直接告诉你 "什么场景用哪招"。
首次系统讨论了 "非性能" 硬约束:除了吞吐量和时延,还单独梳理了隐私保护(防 KV 缓存泄露)、能耗碳排、服务公平性(防止某些用户霸占资源)等工程痛点。这些内容在其他综述里零散缺失,却是工业部署的实际需要。
指明 "下一步往哪走":在结尾提出 4 个未来方向:多 LLM 协作的依赖调度、多模态服务优化、用小模型管理大模型、安全与隐私。读完后不仅能看懂现状,还能预判趋势。
这是 2025 年较新的 "LLM 推理优化地图":覆盖了 DeepSeek-V3/R1 等最新模型,以及 2024 年出现的现代 PD 分离架构、推测解码、测试时推理扩展等前沿技术。相比早期综述,它帮你省下 1 个月以上的文献追踪时间,直接拿到当前最优解清单。
给出了清晰的 "选型决策树":把上百种优化方法按实例级(单 GPU)、集群级(多机)、新兴场景(RAG / 长序列 / MoE)分类,并点明每种方法的适用情景。搞不清该用量化、分离架构还是缓存优化?这篇论文直接告诉你 "什么场景用哪招"。
首次系统讨论了 "非性能" 硬约束:除了吞吐量和时延,还单独梳理了隐私保护(防 KV 缓存泄露)、能耗碳排、服务公平性(防止某些用户霸占资源)等工程痛点。这些内容在其他综述里零散缺失,却是工业部署的实际需要。
指明 "下一步往哪走":在结尾提出 4 个未来方向:多 LLM 协作的依赖调度、多模态服务优化、用小模型管理大模型、安全与隐私。读完后不仅能看懂现状,还能预判趋势。
论文标题(英文):Taming the Titans: A Survey of Efficient LLM Inference Serving
论文标题(中文):驯服巨兽:高效大语言模型推理服务综述
作者团队如下:
作者机构:苏州大学 & 华为云
论文来源:https://arxiv.org/abs/2504.19720
GitHub 项目:https://github.com/zenrran4nlp/Awesome-LLM-Inference-Serving
论文摘要:大语言模型在生成式人工智能领域取得了显著进展,并逐渐发展成为功能复杂且多样化的系统,在各领域与应用中得到广泛采用。然而,参数量庞大导致的内存开销显著,加之多头注意力机制的高计算复杂度,对实现 LLM 推理服务的低时延与高吞吐量构成了重大挑战。近年来,突破性研究有力推动了相关领域的快速发展。论文对这些方法进行了系统综述,涵盖基础实例级方法、系统化的集群级策略、新兴场景方向及其他细分但重要的领域。在实例级,梳理了模型放置、请求调度、解码长度预测、存储管理以及解耦范式。在集群级,分析了 GPUs 集群部署、多实例 GPU 负载均衡及云服务解决方案。针对新兴场景,系统梳理了专用任务优化、模块化设计及辅助推理方法。为全面涵盖相关进展,着重探讨了若干细分但关键的领域。最后,展望了推动 LLM 推理服务领域发展的潜在研究方向。
「备注:苏州大学张民教授,国家自然科学基金杰出青年科学基金获得者(杰青),与华为云团队合著。」
五、综述大语言模型推理系统
推荐理由:
这是一篇将 LLM 推理系统 "技术丛林" 转化为 "清晰地图" 的必读综述,尤其适合需要快速建立知识体系、做出技术选型的系统设计者。
将分散在大量顶会论文中的技术(如 vLLM 的 PagedAttention、SGLang 的缓存复用、Mooncake 的分离式架构)整合为 "请求处理 - 执行优化 - 内存管理" 的统一框架,让读者能一眼看清各项技术在系统中的位置与关联,避免实践中的选型盲目性。
针对 LLM 输出长度不可预测导致的内存不确定、成本难控、调度复杂三大挑战,论文提炼出三大关键技术路径:负载预测(如学习模型预测输出长度)、自适应机制(如连续批处理动态调整)、成本降低(如量化与稀疏注意力),为系统设计提供底层逻辑支撑。
不仅深入剖析 Attention 算子(MHA/GQA/MQA)、内存管理(分页 / 驱逐 / 卸载 / 量化)等技术原理与权衡(质量 VS 效率),更对比了 2022-2025 年主流系统(vLLM、SGLang、Mooncake 和 DeepFlow)的架构优劣,明确各技术的适用边界(如推测解码适合知识检索而非创意生成),避免 "手里拿着锤子,看什么都像钉子" 式的技术滥用。
基于技术趋势分析,论文指出:分离式架构(Prefilling/Decoding 解耦)、自适应量化策略(模型与任务感知的混合精度)、弹性扩缩容(Serverless 与动态资源配比)将成为竞争焦点,为研究者和工程师指明高价值投入方向。
这是一篇将 LLM 推理系统 "技术丛林" 转化为 "清晰地图" 的必读综述,尤其适合需要快速建立知识体系、做出技术选型的系统设计者。
将分散在大量顶会论文中的技术(如 vLLM 的 PagedAttention、SGLang 的缓存复用、Mooncake 的分离式架构)整合为 "请求处理 - 执行优化 - 内存管理" 的统一框架,让读者能一眼看清各项技术在系统中的位置与关联,避免实践中的选型盲目性。
针对 LLM 输出长度不可预测导致的内存不确定、成本难控、调度复杂三大挑战,论文提炼出三大关键技术路径:负载预测(如学习模型预测输出长度)、自适应机制(如连续批处理动态调整)、成本降低(如量化与稀疏注意力),为系统设计提供底层逻辑支撑。
不仅深入剖析 Attention 算子(MHA/GQA/MQA)、内存管理(分页 / 驱逐 / 卸载 / 量化)等技术原理与权衡(质量 VS 效率),更对比了 2022-2025 年主流系统(vLLM、SGLang、Mooncake 和 DeepFlow)的架构优劣,明确各技术的适用边界(如推测解码适合知识检索而非创意生成),避免 "手里拿着锤子,看什么都像钉子" 式的技术滥用。
基于技术趋势分析,论文指出:分离式架构(Prefilling/Decoding 解耦)、自适应量化策略(模型与任务感知的混合精度)、弹性扩缩容(Serverless 与动态资源配比)将成为竞争焦点,为研究者和工程师指明高价值投入方向。
论文标题(英文):A Survey of LLM Inference Systems
论文标题(中文):综述大语言模型推理系统
作者团队如下:
作者机构:清华大学
论文来源:https://arxiv.org/abs/2506.21901
论文摘要:近年来,涌现出多种专用于大语言模型推理的系统,如vLLM、SGLang、Mooncake和 DeepFlow。与此同时,以 ChatGPT 和 DeepSeek 为代表的现象级产品也推动了 LLM 应用的快速普及。这些系统的设计主要受到 LLM 请求处理中独特的自回归特性驱动,该特性催生了多种新技术,使其能够在高吞吐、高并发的工作负载下实现高性能,并维持较高的推理质量(精度)。尽管相关技术在文献中已有广泛讨论,但尚未在完整推理系统的逻辑框架下得到系统分析,各类系统本身也缺乏深入的对比与评估。在这篇综述中,系统评估这些技术:首先从处理请求(Requests)所需的算子与算法切入,接着介绍模型优化与执行(Execution)相关技术,涵盖计算内核设计、动态批处理与请求调度;最后讨论内存管理技术,例如分页内存、数据逐出与卸载、量化以及缓存持久化。通过上述讨论,论文阐明这些技术本质上依赖于负载预测、自适应机制与成本优化,从而克服自回归生成所带来的挑战,同时达成服务级别目标。随后,进一步探讨如何将上述技术系统整合,构建单副本与多副本推理系统,其中包括资源分配更灵活的解耦推理架构,以及支持在共享硬件基础设施上部署的无服务器(Serverless)系统。最后,总结当前面临的主要挑战。
「备注:通信作者李国良老师,清华大学教授,计算机系副主任,ACM/IEEE Fellow,国家杰出青年科学基金获得者(并延续资助,杰青)。计算机体系结构领域的 "三板斧" 在 LLM 推理系统中仍能发挥重要作用:并行与 Batching、Cache 与以存换算、调度。」六、综述大语言模型高效推理
推荐理由:
将浩如烟海的优化方法首次清晰划分为数据级(输入压缩、输出重组)、模型级(结构创新、量化剪枝)、系统级(引擎优化、服务调度)三个层次。相比以往仅聚焦单一技术(如仅量化或仅服务系统)的综述,该框架让读者能直观理解不同优化手段的作用层级和协同逻辑,避免 "盲人摸象" 式研究。
在模型量化、推测解码等关键子领域,作者基于 A100 GPU 提供真实性能对比。例如,实验明确显示 W4A16 量化在解码阶段可加速 2~3 倍,但预填充阶段可能因反量化开销反而变慢 —— 这种 "双刃剑" 结论直接指导工程选型,超越纯理论总结的价值。
专门开辟章节讨论智能体框架、长上下文处理、边缘设备部署、安全 - 效率协同四大前沿场景。尤其针对长上下文(百万级 Tokens)和端侧部署等当前工业界最棘手的挑战,点出 StreamingLLM、MLC-LLM 等代表性方案,相当于一份 "LLM 部署的实战避坑指南"。
将浩如烟海的优化方法首次清晰划分为数据级(输入压缩、输出重组)、模型级(结构创新、量化剪枝)、系统级(引擎优化、服务调度)三个层次。相比以往仅聚焦单一技术(如仅量化或仅服务系统)的综述,该框架让读者能直观理解不同优化手段的作用层级和协同逻辑,避免 "盲人摸象" 式研究。
在模型量化、推测解码等关键子领域,作者基于 A100 GPU 提供真实性能对比。例如,实验明确显示 W4A16 量化在解码阶段可加速 2~3 倍,但预填充阶段可能因反量化开销反而变慢 —— 这种 "双刃剑" 结论直接指导工程选型,超越纯理论总结的价值。
专门开辟章节讨论智能体框架、长上下文处理、边缘设备部署、安全 - 效率协同四大前沿场景。尤其针对长上下文(百万级 Tokens)和端侧部署等当前工业界最棘手的挑战,点出 StreamingLLM、MLC-LLM 等代表性方案,相当于一份 "LLM 部署的实战避坑指南"。
论文标题(英文):A Survey on Efficient Inference for Large Language Models
论文标题(中文):综述大语言模型高效推理
作者团队如下:
作者机构:清华大学 & 无问芯穹 & 上海交通大学 & 北京大学
论文来源:https://arxiv.org/abs/2404.14294
论文摘要:大语言模型因其在各类任务中的卓越表现而引起广泛关注。然而,LLM 推理过程中的高昂计算与内存需求,对其在资源受限环境中的部署构成了严峻挑战。为此,工业界和研究界致力于开发提升 LLM 推理效率的技术。这篇论文对 LLM 高效推理相关文献进行了系统综述。首先,剖析了导致 LLM 推理效率低下的关键因素,包括庞大的模型规模、注意力机制的二次计算复杂度以及自回归解码特性。继而提出了一套系统化的分类框架,将现有方法归纳为数据级、模型级和系统级优化三类。此外,针对关键子领域中的代表性方法,通过对比实验进行定量分析,以揭示其特性。最后,系统总结现有研究成果,并展望了未来的重点研究方向。
「备注:通信作者汪玉老师,他是清华大学电子工程系长聘教授、系主任,无问芯穹创始人。戴国浩老师作为联合创始人和首席科学家,在 2023 年创立了无问芯穹。无问芯穹致力于大模型软硬件协同优化平台的建设。」
七、LLM 推理揭秘:综述与 Roofline 模型洞察
推荐理由:
将抽象的 LLM 推理优化转化为可量化、可操作的分析范式,尤其适合需要部署大模型但非硬件领域的研究者。
全栈整合降低认知门槛:系统梳理压缩、解码算法、系统编译、硬件优化四大层级数十种方法,并用统一模型评估其效果,避免了淹没在碎片化论文中的困境。其价值不在于罗列,而在于建立可横向对比的 "共同语言"。
开箱即用的开源工具:提供开源的 LLM-Viewer,输入模型配置和硬件参数即可生成性能报告、内存占用曲线和瓶颈分析,让研究者无需精通底层硬件就能预判部署效果,极大降低了高效落地的技术壁垒。
将抽象的 LLM 推理优化转化为可量化、可操作的分析范式,尤其适合需要部署大模型但非硬件领域的研究者。
全栈整合降低认知门槛:系统梳理压缩、解码算法、系统编译、硬件优化四大层级数十种方法,并用统一模型评估其效果,避免了淹没在碎片化论文中的困境。其价值不在于罗列,而在于建立可横向对比的 "共同语言"。
开箱即用的开源工具:提供开源的 LLM-Viewer,输入模型配置和硬件参数即可生成性能报告、内存占用曲线和瓶颈分析,让研究者无需精通底层硬件就能预判部署效果,极大降低了高效落地的技术壁垒。
论文标题(英文):LLM Inference Unveiled: Survey and Roofline Model Insights
论文标题(中文):LLM 推理揭秘:综述与 Roofline 模型洞察
作者团队如下:
作者机构:Infinigence-AI & 伊利诺伊理工学院 & 卡内基梅隆大学 & 北京大学 & Tencent AI Lab & 中科院自动化所 & 威斯康星大学麦迪逊分校 & 加州大学伯克利分校
论文来源:https://arxiv.org/abs/2402.16363
GitHub 项目:https://github.com/hahnyuan/LLM-Viewer
「备注:下面这张经典图示源自这篇论文」
八、大语言模型专用推理引擎综述:从优化与高效性的视角
推荐理由:
现有综述多聚焦单一技术(如量化、并行策略),而这是首篇从 "用户选型视角" 全方位评测 25 个开源 / 商业引擎的论文。它直接回答工程师最关心的问题:哪个引擎最适合自己的场景?通过 6 维雷达图(易用性、吞吐量、时延等)和详细硬件支持表格,把原本分散的技术信息转化为可操作的决策指南。
论文不只是罗列功能,而是系统分类了 8 大类优化技术(批处理、并行、缓存等),并明确标注每个引擎的支持情况。这种 "技术对照表" 让开发者能快速定位:如果需要连续批处理 + 前缀缓存,直接锁定 vLLM/SGLang;若要在消费级 GPU 运行,则选 PowerInfer。省去逐个测试的试错成本。
包含 GroqCloud、Fireworks AI 等新兴商业引擎的性能与定价对比,这是学术界综述少有的 "市井智慧",更实用的是,作者提供了公共 GitHub 仓库持续追踪这个快速迭代的领域,让论文从 "静态报告" 变成 "活资源",直接服务于产业界和研究者。
现有综述多聚焦单一技术(如量化、并行策略),而这是首篇从 "用户选型视角" 全方位评测 25 个开源 / 商业引擎的论文。它直接回答工程师最关心的问题:哪个引擎最适合自己的场景?通过 6 维雷达图(易用性、吞吐量、时延等)和详细硬件支持表格,把原本分散的技术信息转化为可操作的决策指南。
论文不只是罗列功能,而是系统分类了 8 大类优化技术(批处理、并行、缓存等),并明确标注每个引擎的支持情况。这种 "技术对照表" 让开发者能快速定位:如果需要连续批处理 + 前缀缓存,直接锁定 vLLM/SGLang;若要在消费级 GPU 运行,则选 PowerInfer。省去逐个测试的试错成本。
包含 GroqCloud、Fireworks AI 等新兴商业引擎的性能与定价对比,这是学术界综述少有的 "市井智慧",更实用的是,作者提供了公共 GitHub 仓库持续追踪这个快速迭代的领域,让论文从 "静态报告" 变成 "活资源",直接服务于产业界和研究者。
论文标题(英文):A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
论文标题(中文):大语言模型专用推理引擎综述:从优化与高效性的视角
作者团队如下:
作者机构:韩国电子技术研究所 & 韩国电子通信研究院
论文来源:https://arxiv.org/abs/2505.01658
GitHub 项目:https://github.com/sihyeong/Awesome-LLM-Inference-Engine
论文摘要:大语言模型已被广泛应用于聊天机器人、代码生成以及搜索引擎等场景。然而,思维链推理、复杂问题求解以及智能体服务等工作负载因其迭代调用特性,显著推高了模型推理成本。尽管现有研究采用并行计算、模型压缩与缓存机制等优化方法以控制成本,但服务场景的多元化使得优化策略的选择面临挑战。近年来,专用 LLM 推理引擎逐渐成为集成多种优化技术至服务化基础设施的核心组件。目前学术界仍缺乏对该类引擎的系统性综述研究。论文针对 25 个开源与商业推理引擎展开全面评估,从易用性、部署便捷性、通用性、扩展性,以及吞吐量与时延优化能力等维度进行深入分析。通过剖析各引擎支持的优化技术,进一步揭示了其设计目标与侧重点。同时,论文评估了开源推理引擎的生态成熟度,并针对商业解决方案,分析了其性能表现与性价比策略。最后,提出未来重点研究方向,包括对复杂 LLM 推理服务的适配能力、异构硬件支持以及安全增强机制,为研究人员与开发者在选型与设计高效 LLM 推理引擎时提供实践指导。此外,作者还提供了一个 GitHub 仓库,用于持续跟踪这个快速发展领域的动态。
「备注:来自韩国的研究团队首次系统梳理了 25 个开源与商业推理引擎的技术脉络。研究团队发现,虽然量化、并行化等技术已被广泛采用,但面对多样化的服务需求,开发者往往陷入 "选择困难"。更令人惊讶的是,某些优化技术在特定场景下反而会降低性能 —— 例如动态批处理可能使时延增加 30%,而错误的并行策略可能导致 GPU 利用率不足 50%。」
九、大语言模型推理加速:全面的硬件视角
推荐理由:
首次实现全栈硬件平台的公平量化对比:突破以往综述仅分析算法的局限,通过统一指标(tokens/s 绝对速度、tokens/J 能效)对 CPU/GPU/FPGA/ASIC/PIM 五大平台进行实测对比,直接揭示边缘设备(如 Snapdragon 8 Gen3)与数据中心 AI 芯片(如 A100)在能效上的数量级差异。
聚焦生成式 LLM 的实际部署瓶颈:针对当前主流 LLaMA/GPT 系列在 Prefilling/Decoding 两阶段的特性,明确指出 Decoding 阶段所占时间比例超过 80% 问题,所总结的量化、稀疏化、推测解码等优化方案均配有真实硬件上的性能数据,避免仿真偏差。
前瞻性指出边缘 AI 的三大趋势:基于数据论证提出多模态(2027 年文本训练数据将枯竭,需转向视觉 / 视频)、推理时计算(o1 范式使 Prefilling 占比从 1.5% 提升至 23.5%)、能效需求(机器人等场景需 > 10 tokens/J)将重新定义硬件设计,为下一代架构研究指明方向。
首次实现全栈硬件平台的公平量化对比:突破以往综述仅分析算法的局限,通过统一指标(tokens/s 绝对速度、tokens/J 能效)对 CPU/GPU/FPGA/ASIC/PIM 五大平台进行实测对比,直接揭示边缘设备(如 Snapdragon 8 Gen3)与数据中心 AI 芯片(如 A100)在能效上的数量级差异。
聚焦生成式 LLM 的实际部署瓶颈:针对当前主流 LLaMA/GPT 系列在 Prefilling/Decoding 两阶段的特性,明确指出 Decoding 阶段所占时间比例超过 80% 问题,所总结的量化、稀疏化、推测解码等优化方案均配有真实硬件上的性能数据,避免仿真偏差。
前瞻性指出边缘 AI 的三大趋势:基于数据论证提出多模态(2027 年文本训练数据将枯竭,需转向视觉 / 视频)、推理时计算(o1 范式使 Prefilling 占比从 1.5% 提升至 23.5%)、能效需求(机器人等场景需 > 10 tokens/J)将重新定义硬件设计,为下一代架构研究指明方向。
论文标题(英文):Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective
论文标题(中文):大语言模型推理加速:全面的硬件视角
作者团队如下:
作者机构:上海交通大学 & 无问芯穹 & 上海创智学院 & 清华大学
论文来源:https://arxiv.org/abs/2410.04466
GitHub 项目:https://github.com/Kimho666/LLM_Hardware_Survey
论文摘要:大语言模型(Large Language Models,LLMs)在从自然语言理解到文本生成的各个领域均展现出卓越的能力。与 BERT、DeBERTa 等非生成式大语言模型相比,GPT 系列、LLaMA 系列等生成式大语言模型凭借其更优越的算法性能,已成为当前研究的主要焦点。生成式大语言模型的发展与硬件能力的提升密切相关。各类硬件平台具备各自独特的硬件特性,有助于提升大语言模型的推理性能。因此,这篇论文系统综述了不同硬件平台上高效的生成式大语言模型推理方法。首先,系统概述了主流生成式大语言模型的算法架构,并深入探讨了其推理过程。随后,系统总结了针对 CPU、GPU、FPGA、ASIC 以及 PIM/NDP(存内计算 / 近数据处理)等不同硬件平台的各种优化方法,并给出了生成式大语言模型的推理结果。此外,作者选取硬件功耗、绝对推理速度(tokens/s)和能效(tokens/J)作为评估指标。在批处理(batch_size)大小为 1 和 8 的情况下,对不同硬件平台的推理性能进行了定性与定量比较。具体比较内容包括:相同优化方法在不同硬件平台上的性能差异、不同硬件平台间的性能对比,以及不同优化方法在相同硬件平台上的效果比较。通过综合整合软件优化方法与硬件平台特性,论文对现有推理加速工作进行了系统而全面的总结。作者指出,受大语言模型能力持续增强与边缘端应用需求日益增长的双重推动,边缘智能正呈现强劲发展态势。此外,文中指出三大发展趋势 —— 多模态技术融合、推理时计算扩展以及更高推理能效 —— 将显著提升未来边缘端人工智能系统的能力。
十、综述基于 KV 缓存管理的大语言模型加速
推荐理由:
论文将零散的 KV 缓存优化方法首次归纳为 Token 级、模型级、系统级三个清晰层次。对非垂直领域研究者来说,这就像一张 "技术地图",能快速定位任何新的 KV 缓存优化方法的所属位置,避免在大量文献中迷失。
KV 缓存是 LLM 推理时内存爆炸和时延卡顿的头号元凶。这篇综述不仅解释 "为什么慢",更提供 "怎么加速" 的全套工具箱,便于开发者能直接找到适合自己硬件配置的方案(如 PagedAttention 解决内存碎片,量化技术降低显存),无需反复试错。
区别于仅讨论理论模型的综述,论文横跨算法 - 系统 - 硬件三层:既讲如何压缩缓存(Token 选择 / 缓存量化),也讲如何在 GPU/CPU/SSD 之间调度数据,还列出真实评测基准。这对要做实际部署的工程师尤其重要,能一站式了解 "哪些方法能在我的设备上跑起来会有效果"。
论文将零散的 KV 缓存优化方法首次归纳为 Token 级、模型级、系统级三个清晰层次。对非垂直领域研究者来说,这就像一张 "技术地图",能快速定位任何新的 KV 缓存优化方法的所属位置,避免在大量文献中迷失。
KV 缓存是 LLM 推理时内存爆炸和时延卡顿的头号元凶。这篇综述不仅解释 "为什么慢",更提供 "怎么加速" 的全套工具箱,便于开发者能直接找到适合自己硬件配置的方案(如 PagedAttention 解决内存碎片,量化技术降低显存),无需反复试错。
区别于仅讨论理论模型的综述,论文横跨算法 - 系统 - 硬件三层:既讲如何压缩缓存(Token 选择 / 缓存量化),也讲如何在 GPU/CPU/SSD 之间调度数据,还列出真实评测基准。这对要做实际部署的工程师尤其重要,能一站式了解 "哪些方法能在我的设备上跑起来会有效果"。
论文标题(英文):A Survey on Large Language Model Acceleration Based on KV Cache Management
论文标题(中文):综述基于 KV 缓存管理的大语言模型加速
期刊信息:TMLR-2025 (机器学习领域高质量期刊)
作者团队如下:
作者机构:香港理工大学 & 香港科技大学 & 华中科技大学 & 香港中文大学 & 新加坡南洋理工大学
论文来源:https://arxiv.org/abs/2412.19442
GitHub 项目:https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management
论文摘要:大语言模型(Large Language Models,LLMs)凭借其强大的上下文理解与复杂推理能力,已在自然语言处理、计算机视觉及多模态任务等诸多领域引发变革。然而,LLMs 在推理过程中尤其高昂的计算与内存需求,为其在长上下文、实时应用等场景中的实际部署带来了重大挑战。键值(Key-Value,KV)缓存管理已成为加速 LLM 推理的关键优化技术。该技术旨在通过减少冗余计算并提高内存利用率来实现推理加速。这篇综述系统梳理了面向 LLM 加速的 KV 缓存管理策略,并提出一个三级分类框架:词元级、模型级与系统级优化。词元级策略涵盖 KV 缓存选择、预算分配、合并、量化及低秩分解等方法;模型级优化则聚焦于架构创新与注意力机制改进(例如稀疏注意力、混合线性注意力),以提升 KV 缓存的复用效率。系统级方法涉及内存管理、资源调度与硬件感知设计,旨在提升 KV 缓存技术在不同计算环境中的跨平台适应性。此外,论文详细总结了用于评估上述策略的文本与多模态数据集及其对应基准。通过系统化的分类法与对比分析,此研究为研究人员与从业者提供了兼具理论价值与实践意义的见解。这些成果将推动高效可扩展的 KV 缓存管理技术的演进,最终促进 LLMs 在现实场景中的规模化部署及应用落地。
「备注:陈雷老师,陈教授曾担任 VLDB 2019 PC 联合主席。目前,陈教授是 IEEE TKDE 的主编,他是长江讲座教授,基金委海外杰青,IEEE Fellow,ACM 杰出科学家,和 VLDB 基金会的执行会员。李青老师,香港理工大学电子计算学系 Chair Professor 兼系主任。他同时还是 IEEE Fellow,IEE/IET (UK) Fellow,CCF Distinguished Member 等。」
十一、综述大语言模型的模型压缩与高效推理
推荐理由:
在实际部署中(涵盖云端服务或边缘设备场景),模型压缩与高效推理是直接决定其能否成功部署应用的核心因素。该综述论文系统阐述了大语言模型的高效计算与压缩原理,并从工程实践角度介绍了相关部署与优化的实用方法与技术,能够帮助读者更快上手。
建议结合以下两篇中文博客进行模型量化
在实际部署中(涵盖云端服务或边缘设备场景),模型压缩与高效推理是直接决定其能否成功部署应用的核心因素。该综述论文系统阐述了大语言模型的高效计算与压缩原理,并从工程实践角度介绍了相关部署与优化的实用方法与技术,能够帮助读者更快上手。
建议结合以下两篇中文博客进行模型量化
论文标题(英文):Model Compression and Efficient Inference for Large Language Models: A Survey
论文标题(中文):综述大语言模型的模型压缩与高效推理
作者团队如下:
作者机构:浙江大学
论文来源:https://arxiv.org/abs/2402.09748
论文摘要:基于 Transformer 的大语言模型已经取得了巨大成功。然而,推理过程中显著的内存与计算成本,对在资源受限设备上部署大型模型构成了挑战。这篇论文从算法角度探讨大语言模型的压缩与高效推理相关方法。与小模型类似,大语言模型的压缩和加速算法仍可划分为量化、剪枝、蒸馏、紧凑架构设计以及动态网络等类别。但与小模型相比,大语言模型具有两个显著特征。第一,许多压缩算法在压缩后仍需对模型进行微调甚至重新训练;而大模型的微调或训练成本极高。因此,许多针对大模型的算法(如量化和剪枝)开始探索免调优(Tuning-free)方法。第二,大模型注重通用性与泛化能力,而非仅仅追求在单一任务上的性能。因此,许多算法(如知识蒸馏)致力于在压缩后保持模型的通用性与泛化能力。由于这两个特征在早期大模型中并不突出,作者进一步将大语言模型区分为中型模型与 “真正的” 大型模型(即参数量达到一定规模的模型,超过 10 亿)。此外,论文还介绍了一些成熟的大模型高效推理框架,这些框架支持基本的压缩或加速算法,显著简化了用户的模型部署流程。
「备注:通信作者何晓飞老师,何教授是人工智能领域的国际杰出学者,在美国芝加哥大学获得计算机科学博士学位,曾在美国雅虎研究院工作,任职研究科学家。」
十二、综述高效视觉语言模型
推荐理由:
多模态大模型是现在热门的研究方向。论文中提供了对多种视觉 - 语言模型微调、优化、边缘端部署以及联邦学习集成框架与库的对比分析表格。
针对自动驾驶、医疗影像、机器人导航、智能监控、增强现实等具体应用场景,提供了相应数据集与部署案例,助力跨领域研究人员快速确定适用的技术方案。
开源了持续更新的 GitHub 论文库,显著降低了相关领域的研究门槛。
多模态大模型是现在热门的研究方向。论文中提供了对多种视觉 - 语言模型微调、优化、边缘端部署以及联邦学习集成框架与库的对比分析表格。
针对自动驾驶、医疗影像、机器人导航、智能监控、增强现实等具体应用场景,提供了相应数据集与部署案例,助力跨领域研究人员快速确定适用的技术方案。
开源了持续更新的 GitHub 论文库,显著降低了相关领域的研究门槛。
论文标题(英文):A Survey on Efficient Vision-Language Models
论文标题(中文):综述高效视觉语言模型
作者团队如下:
作者机构:马里兰大学
论文来源:https://arxiv.org/abs/2504.09724
GitHub 项目:https://github.com/MPSC-UMBC/Efficient-Vision-Language-Models-A-Survey
论文摘要:视觉语言模型(Vision-Language Models,VLMs)通过融合视觉与文本信息,能够实现图像内容解析、视觉问答等多种应用,因而成为现代人工智能系统的关键组成部分。然而,其高计算复杂度对实时应用构成了主要挑战。为此,开发高效 VLMs的研究日益受到关注。在这篇综述中,作者回顾了面向边缘计算及资源受限环境优化 VLMs 的关键技术。进一步探讨了轻量化 VLM 架构与框架等关键技术,并系统分析了高效 VLMs 在计算效率、内存占用等维度的性能权衡。
十三、综述高效视觉 - 语言 - 动作模型
推荐理由:
视觉 - 语言 - 动作(Vision-Language-Action,VLA)模型是现在热门的研究方向。现有研究多聚焦通用 VLA 模型,而这项研究是首个专门综述高效 VLA的系统性成果。它将零散的技术创新整合为统一框架,为研究者节省大量文献调研时间,快速掌握从模型压缩到数据优化的全栈技术脉络。
论文将复杂技术归纳为 "高效模型设计 - 高效训练 - 高效数据收集" 三大支柱,并细分为多个个子方向(如用 Mamba 替代 Transformer、用扩散模型加速动作解码等)。这种分类像 "地图导航",帮助读者快速定位关键技术,降低跨领域理解门槛。
明确指出当前 VLA 模型的三大瓶颈:训练成本高(上万 GPU 小时)、数据收集难(人工遥控操作效率低)和推理时延高。综述的方法均围绕 "让大模型在机器人边缘设备上跑起来" 这一核心目标,直接回应工业界和家庭场景的实际需求。不仅总结现状,更提出前瞻方向:自适应架构(根据任务动态调整计算量)、联邦学习(多机器人协同训练)、自生成数据生态(用扩散模型合成训练数据)。这些方向为后续研究提供了高价值选题,避免重复性工作。
如果你在做机器人 AI,困惑于如何降低 VLA 模型落地成本,这篇综述能帮你快速找到适合的技术方案。
视觉 - 语言 - 动作(Vision-Language-Action,VLA)模型是现在热门的研究方向。现有研究多聚焦通用 VLA 模型,而这项研究是首个专门综述高效 VLA的系统性成果。它将零散的技术创新整合为统一框架,为研究者节省大量文献调研时间,快速掌握从模型压缩到数据优化的全栈技术脉络。
论文将复杂技术归纳为 "高效模型设计 - 高效训练 - 高效数据收集" 三大支柱,并细分为多个个子方向(如用 Mamba 替代 Transformer、用扩散模型加速动作解码等)。这种分类像 "地图导航",帮助读者快速定位关键技术,降低跨领域理解门槛。
明确指出当前 VLA 模型的三大瓶颈:训练成本高(上万 GPU 小时)、数据收集难(人工遥控操作效率低)和推理时延高。综述的方法均围绕 "让大模型在机器人边缘设备上跑起来" 这一核心目标,直接回应工业界和家庭场景的实际需求。不仅总结现状,更提出前瞻方向:自适应架构(根据任务动态调整计算量)、联邦学习(多机器人协同训练)、自生成数据生态(用扩散模型合成训练数据)。这些方向为后续研究提供了高价值选题,避免重复性工作。
如果你在做机器人 AI,困惑于如何降低 VLA 模型落地成本,这篇综述能帮你快速找到适合的技术方案。
论文标题(英文):A Survey on Efficient Vision-Language-Action Models
论文标题(中文):综述高效视觉 - 语言 - 动作模型
作者团队如下:
作者机构:同济大学 & 西南交通大学 & 电子科技大学 & 意大利特伦托大学
论文来源:https://arxiv.org/abs/2510.24795
GitHub 项目:https://github.com/YuZhaoshu/Efficient-VLAs-Survey
论文摘要:视觉 - 语言 - 动作模型(Vision-Language-Action models,VLAs)作为具身智能领域的重要前沿方向,致力于实现数字知识与物理世界交互的有效衔接。尽管这类模型已展现出卓越的通用能力,但其实际部署仍因底层大规模基座模型对计算与数据的巨大需求而面临严重制约。为应对上述挑战,论文首次对高效视觉 - 语言 - 动作模型(Efficient VLAs)在数据、模型与训练全流程中的相关研究进行了系统综述。具体而言,作者提出了一个统一的分类体系,对该领域的研究工作进行系统梳理,将现有方法归纳为三大核心方向:(1)高效模型结构设计,涵盖轻量化架构与模型压缩技术;(2)高效训练策略,以降低模型学习过程中的计算成本;(3)高效数据利用,旨在突破机器人数据采集与使用的瓶颈。通过对该体系下先进方法的系统评述,这篇综述不仅为学术界奠定了重要参考基础,还总结了典型应用场景,剖析了当前面临的核心挑战,并展望了未来研究方向。
「备注:通信作者申恒涛老师,欧洲科学院院士、国际计算机学会会士(ACM Fellow)、国际电气与电子工程师协会会士(IEEE Fellow),同济大学计算机科学与技术学院院长。」
十四、面向具身操作的高效视觉 - 语言 - 动作模型:系统综述
推荐理由:
视觉 - 语言 - 动作(Vision-Language-Action,VLA)模型是现在热门的研究方向。当前视觉 - 语言 - 动作模型虽能力强,但参数动辄数十亿,在机器人上跑不动、跑不快。综述直击这一关键矛盾,将零散研究整合成体系化解决方案,对想把 AI 机器人从实验室搬到仓库、家庭的从业者极具参考价值。
把复杂技术拆解成 "换小模型、省视觉信息、压动作数据、加速训练与推理" 四个可操作方向。每种方法都标注了优缺点,相当于提供了一份带使用说明的效率优化菜单,避免研究者盲人摸象。
不仅总结现状,更前瞻性地提出未来必答题 —— 如何实现模型与数据的协同优化、3D 感知如何不拖慢速度、动作生成怎样保持连贯。为后续研究划定重点战场,避免走弯路。
帮跨领域读者(如 AI 芯片设计者、边缘智能研究者)快速切入,找到与自身工作的结合点。此外,提供了 awesome-efficient-vla GitHub 仓库来追踪这一领域的进展。
视觉 - 语言 - 动作(Vision-Language-Action,VLA)模型是现在热门的研究方向。当前视觉 - 语言 - 动作模型虽能力强,但参数动辄数十亿,在机器人上跑不动、跑不快。综述直击这一关键矛盾,将零散研究整合成体系化解决方案,对想把 AI 机器人从实验室搬到仓库、家庭的从业者极具参考价值。
把复杂技术拆解成 "换小模型、省视觉信息、压动作数据、加速训练与推理" 四个可操作方向。每种方法都标注了优缺点,相当于提供了一份带使用说明的效率优化菜单,避免研究者盲人摸象。
不仅总结现状,更前瞻性地提出未来必答题 —— 如何实现模型与数据的协同优化、3D 感知如何不拖慢速度、动作生成怎样保持连贯。为后续研究划定重点战场,避免走弯路。
帮跨领域读者(如 AI 芯片设计者、边缘智能研究者)快速切入,找到与自身工作的结合点。此外,提供了 awesome-efficient-vla GitHub 仓库来追踪这一领域的进展。
论文标题(英文):Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey
论文标题(中文):面向具身操作的高效视觉 - 语言 - 动作模型:系统综述
作者团队如下:
在这里插入图片描述
作者机构:中科院自动化研究所 & 中国科学院大学 & AiRiA & 南京信息工程大学
论文来源:https://arxiv.org/abs/2510.17111
GitHub 项目:https://github.com/guanweifan/awesome-efficient-vla
论文摘要:视觉 - 语言 - 动作(VLA)模型将视觉 - 语言模型应用于具身操控领域,通过将自然语言指令与视觉观察映射到机器人动作的方式来实现。尽管这类模型具备基础能力,但 VLA 系统仍面临显著的计算与内存需求挑战。这些要求与边缘平台(如依赖实时性能的机载移动机械臂)的资源约束存在冲突。解决这一冲突已成为当前研究的关键课题。随着研究重心转向开发更高效、可扩展的 VLA 系统,论文系统性地回顾了提升 VLA 效率的相关方法,重点关注时延降低、内存占用缩减以及训练与推理成本优化。作者将现有解决方案划分为四个维度:模型架构、感知特征、动作生成与训练/推理策略,并归纳了每个维度中的代表性方法与核心洞察。最后,论文探讨了未来趋势与开放挑战,旨在为推进高效具身智能的发展提供研究参考。
「备注:通信作者程健老师,目前担任中国科学院自动化研究所研究员、博导,中国科学院大学岗位教授,国家高层次领军人才,中科南京人工智能创新研究院副院长。主要研究深度学习, 图像与视频内容分析、智能芯片架构设计等问题。在 IEEE TPAMI、TNNLS、TCAD、JMLR、NeurIPS、ICML、ICLR、HPCA、MICRO、CVPR、ICCV、AAAI 等高水平杂志和会议上发表学术论文 100 余篇。」
十五、长上下文语言建模综述
推荐理由:
长上下文语言模型的突破性进展将会是人工智能领域的一个关键时刻。通过打破上下文限制,这些模型有望彻底改变我们与信息交互的方式,以及人工智能在复杂、知识密集型任务中对我们的协助方式。
深入探讨了长上下文语言建模的世界。一个发人深省的问题:对于一个真正能够瞬间处理和记住数百万词元的 AI,你能设想出的最令人兴奋的应用是什么?
长上下文语言模型的突破性进展将会是人工智能领域的一个关键时刻。通过打破上下文限制,这些模型有望彻底改变我们与信息交互的方式,以及人工智能在复杂、知识密集型任务中对我们的协助方式。
深入探讨了长上下文语言建模的世界。一个发人深省的问题:对于一个真正能够瞬间处理和记住数百万词元的 AI,你能设想出的最令人兴奋的应用是什么?
论文标题(英文):A Comprehensive Survey on Long Context Language Modeling
论文标题(中文):长上下文语言建模综述
作者团队如下:
作者机构:NJU & PKU & CASIA & Alibaba & ByteDance & Tencent & Kuaishou & M-A-P
论文来源:https://arxiv.org/abs/2503.17407
GitHub 项目:https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling
论文摘要:对长上下文的高效处理,一直是自然语言处理的一个长期目标。随着长文档、对话等文本数据的日益增长,开发能够高效处理与分析大规模输入的长上下文语言模型(Long Context Language Models,LCLMs)至关重要。论文对长上下文语言模型的最新进展进行了系统性综述。综述围绕三个关键方面展开:高效能长上下文语言模型的构建,其高效训练与部署,以及模型的系统评估与分析。针对模型构建,探讨了长上下文处理的数据策略、架构设计与工作流设计。在训练与部署方面,详细分析了长上下文语言模型所需的基础设施。在评估与分析方面,阐述了长上下文理解与长文本生成的评估范式,以及模型的行为分析与机制的可解释性研究。此外,还深入探讨了现有长上下文语言模型已部署的实际应用场景,并概述了未来具有前景的研究方向。综述系统梳理了长上下文大语言模型的最新文献,旨在为研究人员与工程师提供有价值的参考。
十六、全栈 Transformer 推理优化
推荐理由:
这是一篇早期的经典论文,通过深入分析指出:Softmax、LayerNorm 等非线性操作虽仅占 1% 计算量,却可能成为 96% 的性能瓶颈。这一反直觉发现颠覆了传统 "只关注矩阵乘" 的优化思维。
从硬件架构、模型量化、稀疏化、算子调度到神经架构搜索,论文首次构建了覆盖算法 - 硬件 - 编译器的系统化优化地图。这种全栈视角能帮助研究者避免局部优化陷阱。
通过 Gemmini 加速器案例,论文证明:仅针对 CNN 优化的硬件运行 Transformer 时利用率不足 1%;而经过全栈协同设计(增大累加器、整数化近似、算子融合等),可实现 88.7 倍性能提升,让抽象理论变得具体可复现。
这是一篇早期的经典论文,通过深入分析指出:Softmax、LayerNorm 等非线性操作虽仅占 1% 计算量,却可能成为 96% 的性能瓶颈。这一反直觉发现颠覆了传统 "只关注矩阵乘" 的优化思维。
从硬件架构、模型量化、稀疏化、算子调度到神经架构搜索,论文首次构建了覆盖算法 - 硬件 - 编译器的系统化优化地图。这种全栈视角能帮助研究者避免局部优化陷阱。
通过 Gemmini 加速器案例,论文证明:仅针对 CNN 优化的硬件运行 Transformer 时利用率不足 1%;而经过全栈协同设计(增大累加器、整数化近似、算子融合等),可实现 88.7 倍性能提升,让抽象理论变得具体可复现。
论文标题(英文):Full Stack Optimization of Transformer Inference: A Survey
论文标题(中文):综述 Transformer 推理的全栈优化
会议信息:ISCA-2023(计算机体系结构顶会)
作者团队如下:
作者机构:加州大学伯克利分校 & 英伟达
论文来源:https://arxiv.org/abs/2302.14017
发布于:浙江省元鼎证券_元鼎证券登录入口_配资平台官网提示:本文来自互联网,不代表本网站观点。