超線程(英語:Hyper-Threading,縮寫HT[1]英特爾專有的同時多線程技術,於2002年發佈,用來改進x86微處理器執行平行計算(一次執行多個任務)的能力。超線程技術原先只應用於英特爾 Xeon 處理器中,當時稱為「Super-Threading」。之後陸續應用在Pentium 4 HT中,早期代號為Jackson。

在 HTT 的進階描述中,指令從 RAM 中取得(不同顏色的框代表四個不同行程的指令),由前端解碼和重新排序(白色框代表管線化),然後傳遞給能夠執行在同一時鐘周期內執行來自兩個不同程式的指令。
在 HTT 的進階描述中,指令從 RAM 中取得(不同顏色的框代表四個不同行程的指令),由前端解碼和重新排序(白色框代表管線化),然後傳遞給能夠執行在同一時鐘周期內執行來自兩個不同程式的指令。

通過此技術,英特爾實現在一個實體CPU中,提供兩個邏輯線程。之後的Pentium D雖不支援超線程技術,但整合了兩個實體核心,所以仍會見到兩個線程。超線程的未來發展,是提升處理器的邏輯線程。英特爾於2016年發佈的Core i7-6950X便是將10核心的處理器,加上超線程技術,使之成為20個邏輯線程的產品。

英特爾表示,超線程技術讓Pentium 4 HT處理器增加5%的裸晶面積,就可以換來15%~30%的效能提升。但實際上,在某些程式或未對多線程編譯的程式而言,超線程反而會降低效能。除此之外,超線程技術亦要作業系統的配合,普通支援多處理器技術的系統亦未必能充分發揮該技術。例如Windows 2000,英特爾並不鼓勵用戶在此系統中利用超線程。原先不支援多核心的Windows XP Home Edition卻支援超線程技術。

運作方式

每個單位時間內,一個單執行管線化的CPU只能處理一個線程作業系統:thread),以這樣的單位進行,如果想要在一單位時間內處理超過一個線程是不可能的,除非是有兩個CPU的實體單元。雙核心技術是將兩個一樣的CPU放置於一個封裝內(或直接將兩個CPU做成一個晶片),而英特爾的HT技術是在CPU內部僅複製必要的資源、讓兩個線程可同時執行;在一單位時間內處理兩個線程的工作,模擬實體雙核心、雙線程運作。

Intel自Pentium開始引入超純量亂序執行、大量的暫存器暫存器重新命名、多指令解碼器預測執行等特性;這些特性的原理是讓CPU擁有大量資源,並可以預先執行及平行執行指令,以增加指令執行效率,可是在現實中這些資源經常閒置;為了有效利用這些資源,就乾脆再增加一些資源來執行第二個線程,讓這些閒置資源可執行另一個線程,而且CPU只要增加少數資源就可以模擬成兩個線程運作。

P4處理器需多加一個Logical CPU Pointer(邏輯處理單元)。因此P4 HT的die的面積比以往的P4增大了5%。而其餘部分如ALU(整數運算單元)、FPU(浮點運算單元)、L2 Cache(二級快取)並未增加,且是共用的。

使用HT技術的CPU

 
編號SL6WK支援HT的P4 3.0G
 
虛擬的2個CPU在工作管理員中顯示出都在運轉

Pentium 4 CPU中,Northwood及其之後推出的版本內建超線程技術;而雙核心的Pentium D中也只有EE版提供HT技術。英特爾的Core 2處理器則沒有HT技術。[2]

而在2008年推出的Intel Core i7處理器又支援HT技術,在Nehalem微架構中,Hyper-Threading大舉捲土重來。Intel的Hyper-Threading(又稱同步多線程)是善用線程平行性的方法,讓單一核心在應用軟件層能執行兩個邏輯線程。超線程技術在部分型號Intel Core i3/i5/i7/i9處理器中可用。從Kaby Lake Pentium開始,定位低階的Pentium(部分型號)也支援超線程技術。

顧慮

把執行管線化的狀態,想像成流水線,資源A→資源B→資源C,來了兩條資料要計算,一條需要消耗A的100%→B的50%→C的50%,另一條一樣需要消耗A的100%→B的50%→C的50%,一條單純的(無HT)的執行管線化的資源A需要先運用100%效能把第一條運算完才能再運算下一條,但後面的資源B跟C卻都有50%效能的浪費;如果把執行管線化的資源A,變成兩個,資源B跟C依然只有一個,那這條管線化就可以變成「兩個資源A同時消耗100%效能運算兩條資料,到了資源B跟C階段時,兩條資料再各自消耗50%的效能」,即達成「不必增加一條完整的執行管線化,卻能在一樣時間運算兩條線程」。

但實際應用時,執行管線化不會都是收到這麼完美的需運算資料,可能會是需消耗「A的10%→B的70%→C的70%」+「A的30%→B的50%→C的70%」+......等多種不同效能需求的需運算資料,依照檔案的統計數字,整體能夠提升的效能約為5~15%左右,且萬一發生資源互搶的情形時,整體效能反而會下降。

要令電腦支援超線程技術,通常需作業系統和硬件的配合。晶片組需要支援具有HT技術之處理器。為此,當時的Intel推出了新的晶片組,i865PE和i875P。要充分發揮超線程的效能,用戶要使用Windows 2000之後的作業系統,而Windows XP家用版亦支援超線程技術。除了微軟的Windows外,Linux kernel 2.4.x亦開始支援該技術。軟件方面,通常優化多線程的程式都可以支援到。早期,遊戲軟件的支援是比較少。但隨着多核心技術的普及,愈來愈多遊戲軟件支援多線程的處理器。[3]

安全

2005 年 5 月,Colin Percival 演示了 Pentium 4 上的超線程可以使用基於時間的側信道攻擊來監控與其共用快取的另一個線程的主記憶體訪問模式,從而竊取密碼資訊。 這實際上不是計時攻擊,因為惡意線程只測量自己執行的時間。 對此的潛在解決方案包括處理器更改其快取逐出策略或作業系統阻止在同一物理內核上同時執行具有不同權限的線程。2018 年,OpenBSD 作業系統禁用了超線程,以避免數據可能從應用程式泄漏到其他軟件,原因是 Foreshadow/L1TF 漏洞。2019 年,一系列漏洞導致安全專家建議在所有裝置上禁用超線程。

範例:取得物理核心數與邏輯核心數

Windows API的GetLogicalProcessorInformation可取得當前電腦的物理核心數邏輯核心數:

DWORD GetProcessorCoreCount(DWORD &PhysicalProcessorCoreCount,DWORD &LogicalProcessorCoreCount )
{
	typedef BOOL(WINAPI *LPFN_GLPI)(
		PSYSTEM_LOGICAL_PROCESSOR_INFORMATION,
		PDWORD);

	LPFN_GLPI glpi = (LPFN_GLPI)GetProcAddress(GetModuleHandle(TEXT("kernel32")), "GetLogicalProcessorInformation");

	if (NULL == glpi)
		return 0;

	PSYSTEM_LOGICAL_PROCESSOR_INFORMATION buffer = NULL;
	DWORD returnLength = 0;
	 PhysicalProcessorCoreCount = 0;
	 LogicalProcessorCoreCount = 0;
	while (true)
	{
		DWORD rc = glpi(buffer, &returnLength);

		if (FALSE == rc)
		{
			if (GetLastError() == ERROR_INSUFFICIENT_BUFFER)
			{
				if (buffer)
					free(buffer);

				buffer = (PSYSTEM_LOGICAL_PROCESSOR_INFORMATION)malloc(
					returnLength);

				if (NULL == buffer)
					return 0;
			}
			else
			{
				return 0;
			}
		}
		else
		{
			break;
		}
	}

	PSYSTEM_LOGICAL_PROCESSOR_INFORMATION ptr = buffer;

	DWORD byteOffset = 0;
	while (byteOffset + sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION) <= returnLength)
	{
		switch (ptr->Relationship)
		{
		case RelationProcessorCore:
		{
			++PhysicalProcessorCoreCount;

			// count the logical processor, which is equal the count of digital 1's of ptr->ProcessorMask
			ULONG_PTR   ProcessorMask = ptr->ProcessorMask;
			while (ProcessorMask != 0)
			{
				ProcessorMask &= ProcessorMask - 1;
				LogicalProcessorCoreCount++;
			}
			break;
		}
		default:
			break;
		}
		byteOffset += sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION);
		++ptr;
	}
	free(buffer);
	return -1;
}

上述程式碼在32位元編譯時最多能列舉32個邏輯核心,在64位元編譯時最多列舉64個邏輯核心。如果超過64,應該使用 processor group.

另見

註腳

外部連結