2025-06-18 作者:HKUST-SENG
本文来源于:香港科技大学工学院
香港科技大学计算机科学及工程学系副教授王威教授,凭著其共同撰写的论文《SpInfer:利用低稀疏度在GPU上实现高效LLM推理》,在第20届欧洲计算机系统会议(EuroSys)上荣获最佳论文奖。研究团队开发的SpInfer框架创新性地采用先进“剪枝”技术,通过移除模型中非关键部分,显著降低GPU内存占用与计算耗时。
以下内容转载自:香港科技大学工学院
王威教授的合著论文——《SpInfer:利用低稀疏度在GPU上实现高效LLM推理》,是2025年欧洲计算机系统会议(EuroSys)从近七百篇论文选出的两篇最佳论文之一。
获奖论文由港科大、港科大(广州)及哈尔滨工业大学(深圳)合作完成,第一作者为范睿博,是港科大(广州)数据科学与分析学域博士生,由王威教授及港科大(广州)的褚晓文教授共同指导。
EuroSys是计算机系统领域的国际顶级学术会议,对论文的遴选非常严格。本届于2025年3月30日至4月3日在荷兰鹿特丹举行,共接获全球696篇投稿,当中85篇论文被录用,录用率仅为12%,其中只有两篇论文夺得最佳论文奖。
在这项开创性的工作中,王威教授及其合作者针对大语言模型(LLM)实际部署的核心难题展开研究。尽管LLM功能强大,但其庞大的计算资源需求导致在常规硬件上部署运行十分困难。研究团队开发的SpInfer框架创新性地采用先进“剪枝”技术,通过移除模型中非关键部分,显著降低GPU内存占用与计算耗时。该技术首次提出面向现代GPU优化的稀疏存储与处理机制,在保持模型性能的同时实现运算速度与内存效率的突破性提升,为LLM提供了前所未有的高性价比部署方案。值得注意的是,SpInfer是全球首个将非结构化剪枝理论成功转化为LLM推理实践效能提升的技术,标志著人工智能系统高效化研究取得重要突破。