- 論壇徽章:
- 3
|
Linux 內(nèi)核中的 GCC 特性(轉(zhuǎn))
M. Tim Jones, 顧問工程師, Emulex Corp.
2009 年 4 月 07 日
Linux® 內(nèi)核使用 GNU Compiler Collection (GCC) 套件的幾個(gè)特殊功能。這些功能包括提供快捷方式和簡(jiǎn)化以及向編譯器提供優(yōu)化提示等等。了解這些特殊的 GCC 特性,學(xué)習(xí)如何在 Linux 內(nèi)核中使用它們。
GCC 和 Linux 是出色的組合。盡管它們是獨(dú)立的軟件,但是 Linux 完全依靠 GCC 在新的體系結(jié)構(gòu)上運(yùn)行。Linux 還利用 GCC 中的特性(稱為擴(kuò)展)實(shí)現(xiàn)更多功能和優(yōu)化。本文討論一些重要的擴(kuò)展,講解如何在 Linux 內(nèi)核中使用它們。
GCC 當(dāng)前的穩(wěn)定版本(版本 4.3.2)支持 C 標(biāo)準(zhǔn)的三個(gè)版本:
* International Organization for Standardization (ISO) 最初的 C 語言標(biāo)準(zhǔn)(ISO C89 或 C90)
* 帶修正 1 的 ISO C90
* 當(dāng)前的 ISO C99(這是 GCC 使用的默認(rèn)標(biāo)準(zhǔn),本文也假設(shè)采用這種標(biāo)準(zhǔn))
注意:本文假設(shè)使用 ISO C99 標(biāo)準(zhǔn)。如果指定比 ISO C99 版本舊的標(biāo)準(zhǔn),那么可能無法使用本文描述的一些擴(kuò)展?梢栽诿钚猩鲜褂 -std 選項(xiàng)指定 GCC 使用的實(shí)際標(biāo)準(zhǔn)?梢酝ㄟ^ GCC 手冊(cè)查看哪個(gè)標(biāo)準(zhǔn)版本支持哪些擴(kuò)展(見 參考資料 中的鏈接)。
可應(yīng)用的版本
本文主要關(guān)注在 2.6.27.1 Linux 內(nèi)核和 GCC 的 4.3.2 版本中使用 GCC 擴(kuò)展。每個(gè) C 擴(kuò)展引用 Linux 內(nèi)核源代碼中的一個(gè)文件,可以在其中找到示例。
可以以幾種方式對(duì)可用的 C 擴(kuò)展進(jìn)行分類。本文把它們分為兩大類:
* 功能性 擴(kuò)展提供新功能。
* 優(yōu)化 擴(kuò)展幫助生成更高效的代碼。
功能性擴(kuò)展
先討論一些擴(kuò)展標(biāo)準(zhǔn) C 語言的 GCC 擴(kuò)展。
類型發(fā)現(xiàn)
GCC 允許通過變量的引用識(shí)別類型。這種操作支持泛型編程。在 C++、Ada 和 Java™ 語言等許多現(xiàn)代編程語言中都可以找到相似的功能。Linux 使用 typeof 構(gòu)建 min 和 max 等依賴于類型的操作。清單 1 演示如何使用 typeof 構(gòu)建一個(gè)泛型宏(見 ./linux/include/linux/kernel.h)。
清單 1. 使用 typeof 構(gòu)建一個(gè)泛型宏
#define min(x, y) ({ \
typeof(x) _min1 = (x); \
typeof(y) _min2 = (y); \
(void) (&_min1 == &_min2); \
_min1 < _min2 ? _min1 : _min2; })
范圍擴(kuò)展
GCC 支持范圍,在 C 語言的許多方面都可以使用范圍。其中之一是 switch/case 塊中的 case 語句。在復(fù)雜的條件結(jié)構(gòu)中,通常依靠嵌套的 if 語句實(shí)現(xiàn)與清單 2(見 ./linux/drivers/scsi/sd.c)相同的結(jié)果,但是清單 2 更簡(jiǎn)潔。使用 switch/case 也可以通過使用跳轉(zhuǎn)表實(shí)現(xiàn)進(jìn)行編譯器優(yōu)化。
清單 2. 在 case 語句中使用范圍
static int sd_major(int major_idx)
{
switch (major_idx) {
case 0:
return SCSI_DISK0_MAJOR;
case 1 ... 7:
return SCSI_DISK1_MAJOR + major_idx - 1;
case 8 ... 15:
return SCSI_DISK8_MAJOR + major_idx - 8;
default:
BUG();
return 0; /* shut up gcc */
}
}
還可以使用范圍進(jìn)行初始化,如下所示(見 ./linux/arch/cris/arch-v32/kernel/smp.c)。在這個(gè)示例中,spinlock_t 創(chuàng)建一個(gè)大小為 LOCK_COUNT 的數(shù)組。數(shù)組的每個(gè)元素初始化為 SPIN_LOCK_UNLOCKED 值。
/* Vector of locks used for various atomic operations */
spinlock_t cris_atomic_locks[] = { [0 ... LOCK_COUNT - 1] = SPIN_LOCK_UNLOCKED};
范圍還支持更復(fù)雜的初始化。例如,以下代碼指定數(shù)組中幾個(gè)子范圍的初始值。
int widths[] = { [0 ... 9] = 1, [10 ... 99] = 2, [100] = 3 };
零長(zhǎng)度的數(shù)組
在 C 標(biāo)準(zhǔn)中,必須定義至少一個(gè)數(shù)組元素。這個(gè)需求往往會(huì)使代碼設(shè)計(jì)復(fù)雜化。但是,GCC 支持零長(zhǎng)度數(shù)組的概念,這對(duì)于結(jié)構(gòu)定義尤其有用。這個(gè)概念與 ISO C99 中靈活的數(shù)組成員相似,但是使用不同的語法。
下面的示例在結(jié)構(gòu)的末尾聲明一個(gè)沒有成員的數(shù)組(見 ./linux/drivers/ieee1394/raw1394-private.h)。這允許結(jié)構(gòu)中的元素引用結(jié)構(gòu)實(shí)例后面緊接著的內(nèi)存。在需要數(shù)量可變的數(shù)組成員時(shí),這個(gè)特性很有用。
struct iso_block_store {
atomic_t refcount;
size_t data_size;
quadlet_t data[0];
};
判斷調(diào)用地址
在許多情況下,需要判斷給定函數(shù)的調(diào)用者。GCC 提供用于此用途的內(nèi)置函數(shù) __builtin_return_address。這個(gè)函數(shù)通常用于調(diào)試,但是它在內(nèi)核中還有許多其他用途。
如下面的代碼所示,__builtin_return_address 接收一個(gè)稱為 level 的參數(shù)。這個(gè)參數(shù)定義希望獲取返回地址的調(diào)用堆棧級(jí)別。例如,如果指定 level 為 0,那么就是請(qǐng)求當(dāng)前函數(shù)的返回地址。如果指定 level 為 1,那么就是請(qǐng)求進(jìn)行調(diào)用的函數(shù)的返回地址,依此類推。
void * __builtin_return_address( unsigned int level );
在下面的示例中(見 ./linux/kernel/softirq.c),local_bh_disable 函數(shù)在本地處理器上禁用軟中斷,從而禁止在當(dāng)前處理器上運(yùn)行 softirqs、tasklets 和 bottom halves。使用 __builtin_return_address 捕捉返回地址,以便在以后進(jìn)行跟蹤時(shí)使用這個(gè)地址。
void local_bh_disable(void)
{
__local_bh_disable((unsigned long)__builtin_return_address(0));
}
常量檢測(cè)
在編譯時(shí),可以使用 GCC 提供的一個(gè)內(nèi)置函數(shù)判斷一個(gè)值是否是常量。這種信息非常有價(jià)值,因?yàn)榭梢詷?gòu)造出能夠通過常量疊算(constant folding)優(yōu)化的表達(dá)式。__builtin_constant_p 函數(shù)用來檢測(cè)常量。
__builtin_constant_p 的原型如下所示。注意,__builtin_constant_p 并不能檢測(cè)出所有常量,因?yàn)?GCC 不容易證明某些值是否是常量。
int __builtin_constant_p( exp )
Linux 相當(dāng)頻繁地使用常量檢測(cè)。在清單 3 所示的示例中(見 ./linux/include/linux/log2.h),使用常量檢測(cè)優(yōu)化 roundup_pow_of_two 宏。如果發(fā)現(xiàn)表達(dá)式是常量,那么就使用可以優(yōu)化的常量表達(dá)式。如果表達(dá)式不是常量,就調(diào)用另一個(gè)宏函數(shù)把值向上取整到 2 的冪。
清單 3. 使用常量檢測(cè)優(yōu)化宏函數(shù)
#define roundup_pow_of_two(n) \
( \
__builtin_constant_p(n) ? ( \
(n == 1) ? 1 : \
(1UL << (ilog2((n) - 1) + 1)) \
) : \
__roundup_pow_of_two(n) \
)
函數(shù)屬性
GCC 提供許多函數(shù)級(jí)屬性,可以通過它們向編譯器提供更多數(shù)據(jù),幫助編譯器執(zhí)行優(yōu)化。本節(jié)描述與功能相關(guān)聯(lián)的一些屬性。下一節(jié)描述 影響優(yōu)化的屬性。
如清單 4 所示,屬性通過其他符號(hào)定義指定了別名?梢砸源藥椭喿x源代碼參考,了解屬性的使用方法(見 ./linux/include/linux/compiler-gcc3.h)。
清單 4. 函數(shù)屬性定義
# define __inline__ __inline__ __attribute__((always_inline))
# define __deprecated __attribute__((deprecated))
# define __attribute_used__ __attribute__((__used__))
# define __attribute_const__ __attribute__((__const__))
# define __must_check __attribute__((warn_unused_result))
清單 4 所示的定義是 GCC 中可用的一些函數(shù)屬性。它們也是在 Linux 內(nèi)核中最有用的函數(shù)屬性。下面解釋如何使用這些屬性:
* always_inline 讓 GCC 以內(nèi)聯(lián)方式處理指定的函數(shù),無論是否啟用了優(yōu)化。
* deprecated 指出函數(shù)已經(jīng)被廢棄,不應(yīng)該再使用。如果試圖使用已經(jīng)廢棄的函數(shù),就會(huì)收到警告。還可以對(duì)類型和變量應(yīng)用這個(gè)屬性,促使開發(fā)人員盡可能少使用它們。
* __used__ 告訴編譯器無論 GCC 是否發(fā)現(xiàn)這個(gè)函數(shù)的調(diào)用實(shí)例,都要使用這個(gè)函數(shù)。這對(duì)于從匯編代碼中調(diào)用 C 函數(shù)有幫助。
* __const__ 告訴編譯器某個(gè)函數(shù)是無狀態(tài)的(也就是說,它使用傳遞給它的參數(shù)生成要返回的結(jié)果)。
* warn_unused_result 讓編譯器檢查所有調(diào)用者是否都檢查函數(shù)的結(jié)果。這確保調(diào)用者適當(dāng)?shù)貦z驗(yàn)函數(shù)結(jié)果,從而能夠適當(dāng)?shù)靥幚礤e(cuò)誤。
下面是在 Linux 內(nèi)核中使用這些屬性的示例。deprecated 示例來自與體系結(jié)構(gòu)無關(guān)的內(nèi)核(./linux/kernel/resource.c),const 示例來自 IA64 內(nèi)核源代碼(./linux/arch/ia64/kernel/unwind.c)。
int __deprecated __check_region(struct resource
*parent, unsigned long start, unsigned long n)
static enum unw_register_index __attribute_const__
decode_abreg(unsigned char abreg, int memory)
優(yōu)化擴(kuò)展
現(xiàn)在,討論有助于生成更好的機(jī)器碼的一些 GCC 特性。
分支預(yù)測(cè)提示
在 Linux 內(nèi)核中最常用的優(yōu)化技術(shù)之一是 __builtin_expect。在開發(fā)人員使用有條件代碼時(shí),常常知道最可能執(zhí)行哪個(gè)分支,而哪個(gè)分支很少執(zhí)行。如果編譯器知道這種預(yù)測(cè)信息,就可以圍繞最可能執(zhí)行的分支生成最優(yōu)的代碼。
如下所示,__builtin_expect 的使用方法基于兩個(gè)宏 likely 和 unlikely(見 ./linux/include/linux/compiler.h)。
#define likely(x) __builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)
通過使用 __builtin_expect,編譯器可以做出符合提供的預(yù)測(cè)信息的指令選擇決策。這使執(zhí)行的代碼盡可能接近實(shí)際情況。它還可以改進(jìn)緩存和指令流水線。
例如,如果一個(gè)條件標(biāo)上了 “l(fā)ikely”,那么編譯器可以把代碼的 True 部分直接放在分支指令后面(這樣就不需要執(zhí)行分支指令)。通過分支指令訪問條件結(jié)構(gòu)的 False 部分,這不是最優(yōu)的方式,但是訪問它的可能性不大。按照這種方式,代碼對(duì)于最可能出現(xiàn)的情況是最優(yōu)的。
清單 5 給出一個(gè)使用 likely 和 unlikely 宏的函數(shù)(見 ./linux/net/core/datagram.c)。這個(gè)函數(shù)預(yù)測(cè) sum 變量將是零(數(shù)據(jù)包的 checksum 是有效的),而且 ip_summed 變量不等于 CHECKSUM_HW。
清單 5. likely 和 unlikely 宏的使用示例
unsigned int __skb_checksum_complete(struct sk_buff *skb)
{
unsigned int sum;
sum = (u16)csum_fold(skb_checksum(skb, 0, skb->len, skb->csum));
if (likely(!sum)) {
if (unlikely(skb->ip_summed == CHECKSUM_HW))
netdev_rx_csum_fault(skb->dev);
skb->ip_summed = CHECKSUM_UNNECESSARY;
}
return sum;
}
預(yù)抓取
另一種重要的性能改進(jìn)方法是把必需的數(shù)據(jù)緩存在接近處理器的地方。緩存可以顯著減少訪問數(shù)據(jù)花費(fèi)的時(shí)間。大多數(shù)現(xiàn)代處理器都有三類內(nèi)存:
* 一級(jí)緩存通常支持單周期訪問
* 二級(jí)緩存支持兩周期訪問
* 系統(tǒng)內(nèi)存支持更長(zhǎng)的訪問時(shí)間
為了盡可能減少訪問延時(shí)并由此提高性能,最好把數(shù)據(jù)放在最近的內(nèi)存中。手工執(zhí)行這個(gè)任務(wù)稱為預(yù)抓取。GCC 通過內(nèi)置函數(shù) __builtin_prefetch 支持?jǐn)?shù)據(jù)的手工預(yù)抓取。在需要數(shù)據(jù)之前,使用這個(gè)函數(shù)把數(shù)據(jù)放到緩存中。如下所示,__builtin_prefetch 函數(shù)接收三個(gè)參數(shù):
* 數(shù)據(jù)的地址
* rw 參數(shù),使用它指明預(yù)抓取數(shù)據(jù)是為了執(zhí)行讀操作,還是執(zhí)行寫操作
* locality 參數(shù),使用它指定在使用數(shù)據(jù)之后數(shù)據(jù)應(yīng)該留在緩存中,還是應(yīng)該清除
void __builtin_prefetch( const void *addr, int rw, int locality );
Linux 內(nèi)核經(jīng)常使用預(yù)抓取。通常是通過宏和包裝器函數(shù)使用預(yù)抓取。清單 6 是一個(gè)輔助函數(shù)示例,它使用內(nèi)置函數(shù)的包裝器(見 ./linux/include/linux/prefetch.h)。這個(gè)函數(shù)為流操作實(shí)現(xiàn)預(yù)抓取機(jī)制。使用這個(gè)函數(shù)通?梢詼p少緩存缺失和停頓,從而提高性能。
清單 6. 范圍預(yù)抓取的包裝器函數(shù)
#ifndef ARCH_HAS_PREFETCH
#define prefetch(x) __builtin_prefetch(x)
#endif
static inline void prefetch_range(void *addr, size_t len)
{
#ifdef ARCH_HAS_PREFETCH
char *cp;
char *end = addr + len;
for (cp = addr; cp < end; cp += PREFETCH_STRIDE)
prefetch(cp);
#endif
}
變量屬性
除了本文前面討論的函數(shù)屬性之外,GCC 還為變量和類型定義提供了屬性。最重要的屬性之一是 aligned 屬性,它用于在內(nèi)存中實(shí)現(xiàn)對(duì)象對(duì)齊。除了對(duì)于性能很重要之外,某些設(shè)備或硬件配置也需要對(duì)象對(duì)齊。aligned 屬性有一個(gè)參數(shù),它指定所需的對(duì)齊類型。
下面的示例用于軟件暫停(見 ./linux/arch/i386/mm/init.c)。在需要頁面對(duì)齊時(shí),定義 PAGE_SIZE 對(duì)象。
char __nosavedata swsusp_pg_dir[PAGE_SIZE]
__attribute__ ((aligned (PAGE_SIZE)));
清單 7 中的示例說明關(guān)于優(yōu)化的兩點(diǎn):
* packed 屬性打包一個(gè)結(jié)構(gòu)的元素,從而盡可能減少它們占用的空間。這意味著,如果定義一個(gè) char 變量,它占用的空間不會(huì)超過一字節(jié)(8 位)。位字段壓縮為一位,而不會(huì)占用更多存儲(chǔ)空間。
* 這段源代碼使用一個(gè) __attribute__ 聲明進(jìn)行優(yōu)化,它用逗號(hào)分隔的列表定義多個(gè)屬性。
清單 7. 結(jié)構(gòu)打包和設(shè)置多個(gè)屬性
static struct swsusp_header {
char reserved[PAGE_SIZE - 20 - sizeof(swp_entry_t)];
swp_entry_t image;
char orig_sig[10];
char sig[10];
} __attribute__((packed, aligned(PAGE_SIZE))) swsusp_header;
結(jié)束語
本文只討論了在 Linux 內(nèi)核中可以使用的幾個(gè) GCC 特性。可以通過 GNU GCC 手冊(cè)進(jìn)一步了解針對(duì) C 和 C++ 語言的所有擴(kuò)展(見 參考資料 中的鏈接)。另外,盡管 Linux 內(nèi)核經(jīng)常使用這些擴(kuò)展,但是也可以在用戶自己的應(yīng)用程序中使用它們。隨著 GCC 的發(fā)展,肯定會(huì)出現(xiàn)新的擴(kuò)展,它們會(huì)進(jìn)一步改進(jìn)性能和增加 Linux 內(nèi)核的功能。 |
|