8 文字をメモリからパックされた単精度浮動小数点数として __m256 変数にロードする
ガウスぼかしのアルゴリズムを最適化するために、次のようにします。 float バッファの使用を __m256 組み込み変数に置き換えようとします。この質問は、このタスクに最適な命令を決定することを目的としています。
AVX2 アーキテクチャの命令:
; rsi = new_image VPMOVZXBD ymm0, [rsi] ; or SX to sign-extend (Byte to DWord) VCVTDQ2PS ymm0, ymm0 ; convert to packed foat
追加の戦略:
AVX1 アーキテクチャの手順:
次の手順を実行します:
VPMOVZXBD xmm0, [rsi] VPMOVZXBD xmm1, [rsi 4] VINSERTF128 ymm0, ymm0, xmm1, 1 ; put the 2nd load of data into the high128 of ymm0 VCVTDQ2PS ymm0, ymm0 ; convert to packed float
組み込み関数の考慮事項:
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3