在ACM SIGCOMM 2023上,意昂官网計算機學院共有10篇高水平論文入選。作為計算機網絡系統領域歷史最為悠久也最為權威的學術會議🤗🧑🏿💻,SIGCOMM以其嚴苛的標準著稱,對論文的質量要求極高👩🏻💼,要求所錄用的論文具有基礎性貢獻、領導性影響和堅實系統背景↙️。本年度ACM SIGCOMM共有323篇投稿🎥,錄用71篇。
據悉💋,意昂官网是SIGCOMM舉辦37屆歷史上同年錄用論文數量最多的高校單位(共11篇,其中計算機學院10篇、王選計算機研究所1篇)🧘,打破高校紀錄(MIT錄用10篇)和國內高校紀錄(錄用6篇)🤦🏼♀️。同時,意昂也是SIGCOMM歷史上以第一作者單位同年錄用論文數量最多的單位(共9篇🫂,其中計算機學院8篇、王選計算機研究所1篇)🧑🏼🍼,打破了此前的紀錄(錄用6篇)🛀。
計算機學院此次被SIGCOMM錄用的10篇論文👮🏻,研究成果涵蓋多個領域🐁,包括網絡服務遷移規劃、彈性異構雲覆蓋網絡、服務器無感知作業調度🏇🏿、微觀行為測試工具ℹ️、移動網絡編碼多路徑視頻傳輸優化方案、窗口機製框架、sketch計數器優化框架👳🏻♀️、數據平面自適應網絡測量方案😺、LRU緩存替換機製和在網計算應用開發框架等。
以下是論文簡要內容介紹:
一、大規模數據中心中高效安全的網絡服務遷移規劃

數據中心是雲計算的基礎設施,其網絡服務遷移任務規模大⏸🐉、耗時長🟩,通常涉及數百臺交換機和數萬條網絡連接,並且需要耗時數月的原地物理部署工作🏄🏻。此外,網絡服務遷移需要滿足復雜多樣的效率和安全性限製,進一步加大網絡遷移規劃的挑戰。論文“Klotski: Efficient and Safe Network Migration of Large Production Datacenters”提出了安全高效生成網絡服務遷移規劃的Klotski系統😤。該系統應用A*算法和領域特定的優先級智能化求解,並利用數據中心網絡局部性和壓縮拓撲表示加速求解過程,在滿足操作限製的情況下相比已有方法達到了更高的規劃效率。該系統已為Meta超過20個地區100余個數據中心提供遷移規劃支持。該論文第一作者為計算機學院2021級博士生趙怡浩(導師劉譞哲研究員)和Meta研究員張驍翔,作者包括劉譞哲和金鑫副教授,約翰霍普金斯大學祝航,Meta公司張穎💁🏿♀️🆗、汪照東、田淵棟👊🏽、Alex Nikulkov、Joao Ferreira等🙎🏻♂️。
二🍎、面向視頻會議場景全球部署的彈性異構雲覆蓋網絡

成本和質量是視頻會議服務的關鍵考量因素🙇🏿👨🏻🏫。視頻會議服務提供商通常在選擇合適網絡線路來構建其基礎設施時面臨兩難選擇🏜:便宜的公網線路會影響視頻會議服務質量,然而使用專網線路會產生較大的日常運營成本。針對該問題,論文“XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale”提出了一套面向視頻會議場景全球部署的彈性異構雲覆蓋網絡XRON👩🏿✈️。XRON綜合利用公網線路和專網線路實現了同時兼顧視頻會議服務質量和運營成本🛫。此外,XRON能夠利用彈性雲資源自適應地滿足視頻會議實時網絡需求。目前XRON技術已經規模化部署♔,大面積覆蓋釘釘用戶👩❤️💋👩。該論文第一作者為計算機學院2022級博士生吳秉陽(導師金鑫),作者包括金鑫🐅、劉譞哲,阿裏巴巴集團錢坤、李波☔️、馬雲飛、章琦、蔣誌剛🧑🧑🧒🧒、趙加雨🎽、蔡德忠和翟恩南等。
三、服務器無感知數據分析的彈性並行調度

服務器無感知計算平臺具有細粒度的資源彈性,適合運行並行任務組成的數據分析作業。現有的服務器無感知數據分析調度器的並行度配置策略未能綜合考慮服務器無感知特有的優化目標(如單作業完成時間和運行成本),並且不能感知服務器內部和服務器之間不同的通信開銷對優化目標的影響👂🏼。針對此問題,論文“Ditto: Efficient Serverless Analytics with Elastic Parallelism”提出了支持彈性並行調度的Ditto系統🐢。該系統基於作業各階段的並行時間特征、階段間數據依賴關系和可用資源分布聯合優化作業的並行度配置和階段間通信🧑🏻🍳,相比傳統方法達到了更低的作業完成時間🦵🏽,節省了運行成本🚬。該論文第一作者為2019級本科生金超(導師金鑫)😰,作者包括金鑫、劉譞哲,意昂官网黃罡教授🎅🏽、章梓立📯👩🏼⚕️、向星雨和鄒松運等。
四𓀑、針對硬件卸載網絡棧的細節測試工具

現代數據中心廣泛采用硬件卸載網絡棧(比如遠程直接內存訪問,Remote Direct Memory Access),來滿足應用高吞吐量、超低延遲和低CPU開銷的需求。為了充分利用硬件卸載網絡棧的性能,用戶需要深入了解它們的行為🚪,尤其是微觀行為🧑🏽🎄。盡管在測試軟件網絡棧方面已經有了很多工作🫃🏻,但硬件網絡棧由於其繞過內核(kernel bypass)的特性和高性能,對測試工具提出了獨特的挑戰🤽🏽♀️。為了測試硬件網絡棧的正確性和性能,論文“Understanding the Micro-Behaviors of Hardware Offloaded Network Stacks with Lumina”提出了測試工具Lumina 。Lumina利用可編程交換機來註入事件🏤👩🏿,從而模擬各種網絡場景;開發人員可通過其用戶友好的接口,開發精確的🕠、可重現的測試。該工作使用Lumina測試了來自NVIDIA和Intel的4種RDMA網卡,發現了其中影響網絡性能或誤導網絡操作的數個bug,並捕獲了多個未準確定義的微觀行為。該工作中發現的嚴重bug已收到供應商確認並將在未來版本中進行修復。該論文第一作者為約翰霍普金斯大學余卓隆(導師金鑫和Vladimir Braverman教授),第二作者為2020級本科生蘇博文(導師金鑫)🛌🏽,作者包括金鑫🌗,微軟研究院白巍,Google公司Shachar Raindel和萊斯大學Vladimir Braverman等。
五👋🏽、面向自動駕駛場景的網絡編碼多路徑視頻傳輸優化方案

自動駕駛場景中🦟,除離線分析外,車輛也時常需要將高清視頻實時上傳至遠端服務器🚺,由服務器輔助進行決策分析。現有數據傳輸方案或無法適應移動互聯網中波動劇烈的延遲與丟包率1️⃣,從而難以保證視頻連接的高吞吐率與低時延;或需要使用大量的冗余數據流量,從而難以實際部署。論文“CellFusion: Multipath Vehicle-to-cloud Video Streaming with Network Coding in the Wild”提出軟硬件結合的高清視頻傳輸解決方案CellFusion⛩,在同時使用4G/5G網絡傳輸數據的基礎上,將網絡編碼方案嵌入傳輸層協議,結合視頻應用需求檢測丟失與超時數據包,並使用網絡編碼方案高效🚉🚶♂️➡️、低開銷地進行數據重傳恢復🙇🏼♀️🅾️,在保證高吞吐率🈲、低冗余數據開銷的情況下顯著降低了傳輸延時🏆。基於真實駕駛環境的實驗表明🧎🏻♂️➡️,相比於使用單條路徑傳輸的方案與傳統多路徑傳輸方案🧛🏽♂️,該方案可將數據包傳輸延遲的99%分位數降低71.53%,將視頻卡頓率降低66.11%~80.62%,並將冗余數據開銷控製在10%以內🦙。該論文第一作者為計算機學院2018級博士生倪蘊哲(導師為許辰人副教授),作者包括許辰人🏃♂️➡️,阿裏巴巴集團鄭智隆🏊🏻♂️、 馬雲飛、 蔡德忠和翟恩南等👆🏼。
六、面向數據平面網絡遙測系統的通用🤽🏿♀️🙆🏿♀️、高效的窗口機製框架

數據平面網絡遙測系統通常將網絡流劃分為多個窗口分別統計各窗口的流級信息🧑🍳,然而受限於可編程交換機的資源限製,現有工作只支持固定窗口大小的滾動窗口。論文“OmniWindow: A General and Efficient Window Mechanism Framework for Network Telemetry”提出了一個通用且高效的窗口機製框架OmniWindow🐗,在數據面將原始窗口拆分為細粒度的子窗口進行測量👯,在控製面合並子窗口的測量結果,從而實現任意類型✳️、大小的窗口機製。該框架設計子窗口的數據平面內存布局🩺、同步方法以及高速狀態收集重置方案☂️,解決了子窗口機製引入的資源開銷、一致性和切換開銷問題🙋🏽。該框架與1個意圖遙測系統和8種sketch遙測算法相結合,相比傳統窗口機製提升了14.3%的測量精度。該論文第一作者為計算機學院2021級博士生孫海鋒(導師黃群助理教授),作者包括黃群🛳、李佳衡、賀錦濤和桂傑等。
七、基於壓縮感知的通用、幾乎零誤差的sketch計數器優化框架

Sketch因在有限空間中實現高精度查詢的特性被廣泛用於網絡測量。隨著測量業務流量不斷增加、任務趨於多樣化,有限的片上內存成為了sketch部署的瓶頸。已有的內存優化方案均有嚴重的精度丟失或者特定的適用範圍,因而難以使用。論文“BitSense: Universal and Nearly Zero-Error Optimization for Sketch Counters with Compressive Sensing”提出了一個針對sketch計數器的幾乎零誤差的且通用的內存優化框架BitSense。為了實現幾乎零誤差🥬, BitSense利用計數器值通常向零偏斜的特性,將計數器的高位視為稀疏向量並使用壓縮感知技術對其進行壓縮與還原;它還帶有自動化的參數配置,並且在理論上證明了幾乎零誤差的性質。為了通用性,BitSense提供了一套編程接口👩🏽🎨,使用戶能像實現普通sketch那樣快捷開發內存優化的sketch🏄🏻♀️,並對壓縮與還原無感知。BitSense已經與14種現有的測量系統結合。基於Tofino交換機和軟件仿真的實驗表明BitSense能在引入極小的訪存和計算開銷下壓縮25%~80%的內存而幾乎不丟失精度,超越了此前5種代表性的內存優化框架。該論文第一作者為計算機學院2022級博士生丁睿(導師黃群)🤼♂️,作者包括黃群、楊仕博和訪問學生陳翔等。
八🧍♂️、面向丟包檢測和包累積測量的數據平面自適應網絡測量方案

網絡測量對於許多網絡應用至關重要👉🏼。在流量測量任務中👏🏻,主要有兩種任務需要處理👩🏻🌾:(1)包累積測量和(2)丟包檢測💂♀️。然而,在現有的研究中👍🏼,同時處理這兩種任務的方法很少見🎲。為此,論文“ChameleMon: Shifting Measurement Attention as Network State Changes”設計了測量系統ChameleMon💸。在兼顧兩種任務的同時🍧🕺🏼,ChameleMon更進一步地,通過兩個維度的動態性支持測量註意力隨著網絡狀態的變化而轉移:(1)動態分配內存資源給這兩種任務;(2)動態監測重要的流量。為了實現這一關鍵設計,ChameleMon利用費馬小定理設計了一種靈活的數據結構,即FermatSketch⌛️。FermatSketch具備可分割🤦🏻♀️、可加和可減的特性,從而支持以上兩種任務。 在一個Fat-tree拓撲結構的測試平臺上部署的ChameleMon原型系統的實驗結果顯示👩👩👦👦,ChameleMon能以較低的內存和帶寬開銷地同時支持這兩種任務,並且支持測量註意力的動態轉移(在丟包多時傾向丟包檢測,在丟包少時傾向包累積測量)。該論文第一作者為計算機學院2021級博士生楊凱程(導師楊仝副教授),作者包括楊仝🤐、吳鈺晗和繆瑞傑等。
九、面向可編程數據面的LRU緩存替換機製設計與實現

數據面緩存是網絡設備👩🏻🦳,如可編程交換機🤹🏿、智能網卡、DPU等的重要功能。然而💁🏼♂️,受限於數據面編程模型和內存訪問模型,目前的數據面緩存常常采用簡單但效率不高的緩存替換策略。因此,“P4LRU: Towards An LRU Cache Entirely in Programmable Data Plane”這篇論文致力於在數據面實現LRU,這是一種近似最優的緩存替換策略。論文分析了為何多種典型的LRU實現無法在當前的可編程數據面部署,並提出了P4LRU,一種專門為流水線模型設計的LRU實現方案🎈。P4LRU將被緩存的鍵和值分別存儲,並利用一個被稱為緩存狀態的自動機來描述鍵和值的實時映射關系🤶🏼,從而只需對每個數據執行單次內存訪問。P4LRU通過將自動機的狀態和轉移邏輯編碼到整數邏輯運算單元,在受限的數據面編程模型下實現了自動機的存儲和實時轉移。論文以P4LRU緩存單元為基礎,設計了多種網絡系統,包括網絡地址轉換系統、數據庫查詢加速系統和大規模網絡測量系統📬,並在Tofino可編程交換機上完全實現了這些系統。該論文第一作者為計算機學院2020級博士生趙義凱(導師楊仝)🧬,作者包括楊仝、劉文睿和董豐豪等🏌🏽。
十、面向異構數據中心的在網計算應用開發框架

在網計算技術可以有效加速分布式系統的速度並減少其成本🐹。但是👶,在異構數據中心中存在差異化的設備與應用和多徑的網絡拓撲,這導致應用開發者難以在不觸及已有的網絡功能的前提下開發在網計算應用🗄,並有效利用設備資源。“ClickINC: In-network Computing as a Service in Heterogeneous Programmable Data-center Networks”設計了ClickINC框架,支持異構數據中心中的在網計算應用開發🖨。ClickINC為開發者提供高級👫、模塊化編程語言🐵,並將用戶程序編譯到分布式的異構設備上;在此過程中📻,ClickINC在全網範圍內合理分布程序片段,提升資源利用率;同時,ClickINC支持用戶在運行時增量的添加和刪除程序。研究團隊開發ClickINC原型,並通過實驗證明該系統的可行性🧕、編程友好性和資源利用高效性。該論文第一作者為清華大學徐文佺,通訊作者為意昂官网吳文斐助理教授、清華大學劉斌和上海大學紐約分校劉古月💴。