在ACM SIGCOMM 2023上,bwin必赢软件科学与工程系共有5篇高水平论文入选。作为计算机网络系统领域历史最为悠久也是最为权威的学术会议,SIGCOMM以其严苛的标准著称,对论文的质量和数量要求极高,要求所录用的论文具有基础性贡献、领导性影响和坚实系统背景。本年度ACM SIGCOMM共有323篇投稿,录用71篇。
据悉,今年北京大学是SIGCOMM创办37届历史上,同年录用论文数量最多的高校单位(共11篇,其中bwin必赢10篇、王选计算机研究所1篇),打破了高校的记录(MIT录用10篇)和国内高校的记录(录用6篇)。同时,北大也是SIGCOMM历史上以第一作者单位同年录用论文数量最多的单位(共9篇,其中bwin必赢8篇、王选计算机研究所1篇),打破了此前的记录(录用6篇)。
软件科学与工程系本次被SIGCOMM录用的5篇论文,研究成果涵盖了多个领域,包括网络服务迁移规划、弹性异构云覆盖网络、服务器无感知作业调度、微观行为测试工具、移动网络编码多路径视频传输优化方案等。
以下是论文简要内容介绍:
一. 大规模数据中心中高效安全的网络服务迁移规划
数据中心是云计算的基础设施,其网络服务迁移任务规模大、耗时长,通常涉及数百台交换机和数万条网络连接,并且需要耗时数月的原地物理部署工作。此外,网络服务迁移需要满足复杂多样的效率和安全性限制,进一步加大网络迁移规划的挑战。论文《Klotski: Efficient and Safe Network Migration of Large Production Datacenters》提出了安全高效生成网络服务迁移规划的Klotski系统。该系统应用A*算法和领域特定的优先级智能化求解,并利用数据中心网络局部性和压缩拓扑表示加速求解过程,在满足操作限制的情况下相比已有方法达到了更高的规划效率。该系统已为Meta超过20个地区100余个数据中心提供迁移规划支持。该论文第一作者为bwin必赢2021级博士生赵怡浩(导师刘譞哲研究员)和Meta研究员张骁翔,作者包括刘譞哲研究员和金鑫副教授,约翰霍普金斯大学祝航,Meta公司张颖、汪照东、田渊栋、Alex Nikulkov、Joao Ferreira等。
二.面向视频会议场景全球部署的弹性异构云覆盖网络
成本和质量是视频会议服务的关键考量因素。视频会议服务提供商通常在选择合适网络线路来构建其基础设施时面临两难选择:便宜的公网线路会影响视频会议服务质量,然而使用专网线路会产生较大的日常运营成本。针对该问题,论文《XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale》提出了一套面向视频会议场景全球部署的弹性异构云覆盖网络XRON。XRON综合利用公网线路和专网线路实现了同时兼顾视频会议服务质量和运营成本。此外,XRON能够利用弹性云资源自适应地满足视频会议实时网络需求。目前XRON技术已经规模化部署,大面积覆盖钉钉用户。该论文第一作者为bwin必赢2022级博士生吴秉阳(导师金鑫副教授),作者包括金鑫副教授、刘譞哲研究员,阿里巴巴集团钱坤、李波、马云飞、章琦、蒋志刚、赵加雨、蔡德忠和翟恩南等。
三.服务器无感知数据分析的弹性并行调度
服务器无感知计算平台具有细粒度的资源弹性,适合运行并行任务组成的数据分析作业。现有的服务器无感知数据分析调度器的并行度配置策略未能综合考虑服务器无感知特有的优化目标(如单作业完成时间和运行成本),并且不能感知服务器内部和服务器之间不同的通信开销对优化目标的影响。针对此问题,论文《Ditto: Efficient Serverless Analytics with Elastic Parallelism》提出了支持弹性并行调度的Ditto系统。该系统基于作业各阶段的并行时间特征、阶段间数据依赖关系和可用资源分布联合优化作业的并行度配置和阶段间通信,相比传统方法达到了更低的作业完成时间,节省了运行成本。该论文第一作者为2019级本科生金超(导师金鑫副教授),作者包括北京大学金鑫副教授、刘譞哲研究员、黄罡教授、章梓立、向星雨和邹松运等。
四. 针对硬件卸载网络栈的细节测试工具
现代数据中心广泛采用硬件卸载网络栈(比如远程直接内存访问,Remote Direct Memory Access),来满足应用高吞吐量、超低延迟和低 CPU 开销的需求。为了充分利用硬件卸载网络栈的性能,用户需要深入了解它们的行为,尤其是微观行为。尽管在测试软件网络栈方面已经有了很多工作,但硬件网络栈由于其绕过内核(kernel bypass)的特性和高性能,对测试工具提出了独特的挑战。为了测试硬件网络栈的正确性和性能,论文《Understanding the Micro-Behaviors of Hardware Offloaded Network Stacks with Lumina》提出了测试工具 Lumina 。Lumina 利用可编程交换机来注入事件,从而模拟各种网络场景;开发人员可通过其用户友好的接口,开发精确的、可重现的测试。该工作使用 Lumina 测试了来自 NVIDIA 和 Intel 的四种 RDMA 网卡,发现了其中影响网络性能或误导网络操作的数个 bug,并捕获了多个未准确定义的微观行为。该工作中发现的严重 bug 已收到供应商确认并将在未来版本中进行修复。该论文第一作者为约翰霍普金斯大学余卓隆(导师金鑫副教授和Vladimir Braverman教授),第二作者为2020级本科生苏博文(导师金鑫副教授),作者包括金鑫副教授,微软研究院白巍,Google公司 Shachar Raindel和莱斯大学 Vladimir Braverman等。
五、 面向自动驾驶场景的网络编码多路径视频传输优化方案
自动驾驶场景中,除离线分析外,车辆也时常需要将高清视频实时上传至远端服务器,由服务器辅助进行决策分析。现有数据传输方案或无法适应移动互联网中波动剧烈的延迟与丢包率,从而难以保证视频连接的高吞吐率与低时延;或需要使用大量的冗余数据流量,从而难以实际部署。论文《CellFusion: Multipath Vehicle-to-cloud Video Streaming with Network Coding in the Wild》提出软硬件结合的高清视频传输解决方案CellFusion,在同时使用4G/5G网络传输数据的基础上,将网络编码方案嵌入传输层协议,结合视频应用需求检测丢失与超时数据包,并使用网络编码方案高效、低开销地进行数据重传恢复,在保证高吞吐率、低冗余数据开销的情况下显著降低了传输延时。基于真实驾驶环境的实验表明,相比于使用单条路径传输的方案与传统多路径传输方案,该方案可将数据包传输延迟的99%分位数降低71.53%,将视频卡顿率降低66.11%~80.62%,并将冗余数据开销控制在10%以内。该论文第一作者为bwin必赢2018级博士生倪蕴哲(导师为许辰人副教授),作者包括北京大学许辰人副教授,阿里巴巴集团郑智隆、 马云飞、 蔡德忠和翟恩南等。
SIGCOMM背景介绍:
第37届ACM数据通信专业组年度旗舰会议SIGCOMM 2023(37th Annual Conference of the ACM Special Interest Group on Data Communication)将于9月10日-14日在美国纽约举行。一年一度的ACM SIGCOMM重点关注计算机和数据通信网络领域,涵盖网络架构、设计、实现、运维、分析、度量和仿真等方面。SIGCOMM是计算机网络系统领域最权威的国际顶级学术会议之一,是CCF推荐的A类国际会议,每年吸引大量全球顶级学校和机构的投稿。