當前位置:成語大全網 - 書法字典 - RPS和RFS網卡的多隊列性能調優實踐

RPS和RFS網卡的多隊列性能調優實踐

為了解決LVS ksoftirqd的CPU利用率為100%的問題,我和我的同事搜索了大量數據來分析問題,特別感謝美團技術團隊的分享,幫助我們快速理清了優化思路。最後,我們明確了如何重構RPS和RFS網卡多隊列的優化腳本。我個人認為這是每個人都可能普遍遇到的問題。本文的分析思路和解決方案可能不是最優解,歡迎大家分享自己的解決方案。

2065年7月3日438+09-初稿

閱讀原文-t

將device替換為要配置的網絡設備的名稱(例如eth0),並將rx-queue替換為要配置的接收隊列(例如rx-0)。

將該文件的值設置為rps_sock_flow_entries除以N的值,其中N是設備上接收隊列的數量。例如,如果rps_flow_entries設置為32768,並且配置了16個接收隊列,則rps_flow_cnt應設置為2048。對於單隊列設備,rps_flow_cnt的值與rps_sock_flow_entries的值相同。

從單個發送方接收的數據不會發送到多個CPU。如果從單個發送方接收的數據量大於單個CPU處理的數據量,請配置更大的幀尺寸以減少中斷數量,從而減少CPU的處理工作量。或者,考慮NIC卸載選項或更快的CPU。

考慮將numactl或taskset與RFS結合使用,將應用程序固定到特定的內核、套接字或NUMA節點。這有助於防止數據包被無序處理。

接收數據包是壹個復雜的過程,涉及許多底層技術細節,但通常需要以下步驟:

NIC收到數據包後,首先需要將數據同步到內核中,它們之間的橋梁是rx環形緩沖區。這是網卡和驅動程序* * *共享的區域。事實上,rx環形緩沖區存儲的不是實際的包數據,而是壹個描述符,它指向它的實際存儲地址。具體流程如下:

當驅動的處理速度跟不上網卡的數據包接收速度時,驅動無法分配緩沖區,網卡接收到的數據包無法及時寫入sk_buffer,就會造成堆積。當網卡的內部緩沖區已滿時,壹些數據將被丟棄,從而導致數據包丟失。這部分數據包丟失是rx_fifo_errors,它反映在/proc/net/dev中的fifo字段增長和ifconfig中的溢出索引增長中。

此時,數據包已經傳輸到sk_buffer。如前所述,這是內存中由驅動程序分配的緩沖區,由DMA寫入。這樣,數據直接寫入內存,而不依賴於CPU,這意味著內核實際上不知道內存中有新數據。那麽如何讓內核知道有新數據進來了呢?答案是中斷,它告訴內核有新數據進來了,需要稍後處理。

說到中斷,它涉及到硬中斷和軟中斷。首先,我們需要簡要了解它們的區別:

當網卡通過DMA將數據包復制到內核緩沖區sk_buffer時,網卡會立即發起硬件中斷。CPU接收後,首先進入上層,網卡中斷對應的中斷處理程序是網卡驅動程序的壹部分。然後它發起軟中斷,進入下部,開始消耗sk_buffer中的數據,並將其交給內核協議棧進行處理。

中斷可以快速及時地響應網卡數據請求,但如果數據量很大,就會產生大量的中斷請求,CPU大部分時間都會忙於處理中斷,效率非常低。為了解決這個問題,內核和驅動程序現在使用壹種稱為NAPI(新API)的方法來處理數據。其原理可以簡單理解為中斷+輪詢。當數據量很大時,在中斷後通過輪詢接收壹定數量的數據包,然後返回,以避免多次中斷。

由於接收來自外圍硬件(相對於CPU和內存)的異步信號或來自軟件的同步信號,進行相應的硬件和軟件處理;發送這樣的信號稱為中斷請求。

1 .按數字鍵1。

2.mpstat -P ALL 2

Mpstat用戶介紹和輸出參數的詳細說明-https://wsg Zao . github . io/post/mpstat/