¿Cómo cargar 8 caracteres en una variable __m256 como flotadores de precisión individuales empaquetados?

Página delantera > Programación > ¿Cómo cargar 8 caracteres en una variable __m256 como flotadores de precisión individuales empaquetados?

¿Cómo cargar 8 caracteres en una variable __m256 como flotadores de precisión individuales empaquetados?

Publicado el 2024-11-06

Navegar:943

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

Cargar 8 caracteres de la memoria en una variable __m256 como flotadores de precisión individuales empaquetados

En un esfuerzo por optimizar un algoritmo para el desenfoque gaussiano, busca reemplazar el uso de un búfer flotante con una variable intrínseca __m256. Esta pregunta tiene como objetivo determinar las instrucciones óptimas para esta tarea.

Instrucción para la arquitectura AVX2:

Utilice PMOVZX para extender cero sus caracteres a 32 bits enteros en un registro 256b.
Convertir a flotante in situ con VCVTDQ2PS.

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

Estrategias adicionales:

Considere usar una carga de transmisión de 128 bits para alimentar vpmovzxbd ymm,xmm y vpshufb ymm (_mm256_shuffle_epi8) para Alto 64 bits. Este enfoque reduce el recuento de UOP y puede ser beneficioso en las CPU Ryzen.
Evite el uso de instrucciones de reproducción aleatoria adicionales, ya que pueden convertirse en un cuello de botella cuando la reproducción aleatoria ya es una limitación.

Instrucciones para la arquitectura AVX1:

Realice los siguientes pasos:

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi 4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

Consideraciones intrínsecas:

GCC y MSVC pueden requerir un manejo especial para garantizar una generación óptima de código cuando se usan intrínsecos para VPMOVZXBD ymm,[mem].
Considere usar el intrínseco _mm_loadl_epi64 en su lugar, que se puede plegar en el operando de memoria para un ensamblaje óptimo en -O3 con GCC en las versiones 9 y posteriores de GCC.
Para Optimización exclusiva de AVX1; escribir la versión intrínseca no es un ejercicio divertido.

Último tutorial Más>

Python Metaclass Principio de trabajo y creación y personalización de clases
¿Qué son los metaclasses en Python? MetAclasses son responsables de crear objetos de clase en Python. Así como las clases crean instancias, las ...

Programación Publicado el 2025-07-14
Async void vs. async tarea en ASP.NET: ¿Por qué el método de async void a veces arroja excepciones?
comprensión de la distinción entre la tarea async void y async en asp.net en aplicaciones ASP.NET, la programación asíncrona juega un papel cr...

Programación Publicado el 2025-07-14
¿Cómo analizar los números en notación exponencial usando decimal.parse ()?
analizando un número de la notación exponencial cuando intenta analizar una cadena expresada en notación exponencial usando decimal.parse (&qu...

Programación Publicado el 2025-07-14
¿Cuándo cierra una aplicación web GO la conexión de la base de datos?
Administración de conexiones de base de datos en aplicaciones web GO en aplicaciones web simples Go que utilizan bases de datos como PostgreSQL,...

Programación Publicado el 2025-07-14
¿Estará realmente el despertar falso en Java?
Los despertar espurios en java: realidad o mito? El concepto de despertar espurios en la sincronización de Java ha sido un tema de discusión dur...

Programación Publicado el 2025-07-14
¿Puede CSS localizar elementos HTML basados en cualquier valor de atributo?
dirigido a elementos HTML con cualquier valor de atributo en css en css, es posible dirigir elementos basados en atributos específicos, como s...

Programación Publicado el 2025-07-14
¿Cómo evitar fugas de memoria al cortar el lenguaje GO?
Memory Leak in Go Slices Entender las filtraciones de memoria en cortes GO puede ser un desafío. Este artículo tiene como objetivo proporciona...

Programación Publicado el 2025-07-14
¿Cómo se extraen un elemento aleatorio de una matriz en PHP?
Selección aleatoria de una matriz en php, la obtención de un elemento aleatorio de una matriz se puede lograr con facilidad. Considere la siguie...

Programación Publicado el 2025-07-14
El método de la base de datos MySQL no es necesario para descargar la misma instancia
copiando una base de datos MySQL en la misma instancia sin verting copiando una base de datos en la misma instancia de MySQL se puede hacer si...

Programación Publicado el 2025-07-14
¿Cómo detectar eficientemente las matrices vacías en PHP?
Comprobando el vacío de la matriz en php una matriz vacía se puede determinar en PHP a través de varios enfoques. Si la necesidad es verificar...

Programación Publicado el 2025-07-14
¿Cómo implementar una función hash genérica para tuplas en colecciones desordenadas?
Función hash genérica para tuplas en colecciones no ordenadas los contenedores std :: unordened_map y std :: unordened_set proporcionan una mi...

Programación Publicado el 2025-07-14
Método de JavaScript para calcular el número de días entre dos fechas
cómo calcular la diferencia entre las fechas en javascript como intenta determinar la diferencia entre dos fechas en JavaScript, considere est...

Programación Publicado el 2025-07-14
Método de corriente efectiva para cadenas de Java que no son vacías y no son nulas
Compre 1.6 y más tarde, el método isEtimty () proporciona una forma concisa de verificar el vacío: if (str! = Null &&! Str.isEmEmEmEnty () o...

Programación Publicado el 2025-07-14
¿Cómo implementar eventos personalizados usando el patrón de observación en Java?
creando eventos personalizados en java Los eventos personalizables son indispensables en muchos escenarios de programación, lo que permite que l...

Programación Publicado el 2025-07-14
¿Cómo analizar las matrices JSON en ir usando el paquete `JSON`?
Parsing Json Matray en Go con el paquete JSON Problema: ¿Cómo puede analizar una cadena JSON que representa una matriz en ir usando el paque...

Programación Publicado el 2025-07-14

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo