Загрузка 8 символов из памяти в переменную __m256 в виде упакованных плавающих чисел одинарной точности
В попытке оптимизировать алгоритм размытия по Гауссу вы попытайтесь заменить использование буфера с плавающей запятой внутренней переменной __m256. Целью этого вопроса является определение оптимальных инструкций для этой задачи.
Инструкция для архитектуры AVX2:
; rsi = new_image VPMOVZXBD ymm0, [rsi] ; or SX to sign-extend (Byte to DWord) VCVTDQ2PS ymm0, ymm0 ; convert to packed foat
Дополнительные стратегии:
Инструкции для архитектуры AVX1:
Выполните следующие действия:
VPMOVZXBD xmm0, [rsi] VPMOVZXBD xmm1, [rsi 4] VINSERTF128 ymm0, ymm0, xmm1, 1 ; put the 2nd load of data into the high128 of ymm0 VCVTDQ2PS ymm0, ymm0 ; convert to packed float
Аспекты встроенных функций:
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3