將8 個浮點從記憶體載入到__m256 變數
您的目標是用內部變數__m256 取代浮點緩衝區[8]。以下是實現此目的的說明:
AVX2 說明:
- 使用VPMOVZXBD ymm0, [rsi] 將記憶體中的位元組零擴展為32-位整數。
- 使用 VCVTDQ2PS ymm0, ymm0 將整數轉換為浮點數。
AVX1 說明:
- 使用 VPMOVZXBD xmm0 , [rsi] 載入前四個位元組。
- 使用 VPMOVZXBD xmm1, [rsi 4] 載入接下來的四個位元組。
- 使用 VINSERTF128 將第二個加載插入到 ymm0 的高 128 位元ymm0, ymm0, xmm1, 1.
- 用VCVTDQ2PS轉換為浮點數 ymm0, ymm0.
最佳化提示:
- 對於 AVX2,請考慮使用 128 位元廣播負載和 VPMOVZXBD 來提高效能。
- 避免將 VPMOVZXBD ymm, [mem] 與內在函數一起使用,因為它可能會導致錯過優化。
- 對於 AVX1,使用 _mm_loadl_epi64 將負載折疊到 VPMOVZXBD 指令中以獲得最佳程式碼。