「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > パックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?

パックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?

2024 年 11 月 6 日に公開
ブラウズ:688

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

8 文字をメモリからパックされた単精度浮動小数点数として __m256 変数にロードする

ガウスぼかしのアルゴリズムを最適化するために、次のようにします。 float バッファの使用を __m256 組み込み変数に置き換えようとします。この質問は、このタスクに最適な命令を決定することを目的としています。

AVX2 アーキテクチャの命令:

  • PMOVZX を利用して文字を 32 ビットにゼロ拡張します256b レジスタの整数。
  • VCVTDQ2PS を使用してその場で float に変換します。
; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

追加の戦略:

  • 128 ビット ブロードキャスト ロードを使用して、上位64ビット。このアプローチは uop 数を減らし、Ryzen CPU では有益です。
  • シャッフルがすでに制限されている場合、ボトルネックになる可能性があるため、余分なシャッフル命令の使用は避けてください。

AVX1 アーキテクチャの手順:

  • 次の手順を実行します:

    VPMOVZXBD   xmm0,  [rsi]
    VPMOVZXBD   xmm1,  [rsi 4]
    VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
    VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

組み込み関数の考慮事項:

  • GCC および MSVC では、組み込み関数を使用する場合に最適なコード生成を確保するために特別な処理が必要になる場合があります。 VPMOVZXBD ymm,[mem].
  • 代わりに _mm_loadl_epi64 組み込みを使用することを検討してください。これは、GCC バージョン 9 以降の GCC で -O3 で最適な asm を実現するためにメモリ オペランドに折り畳むことができます。
  • For AVX1 のみの最適化、組み込みバージョンの作成は楽しくない作業です。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3