implementación de logaritm vectorial eficiente en avx2
el objetivo es implementar una versión vectorizada eficiente de la función log2 para 4 números de doble precisión utilizando avx2, comparable al rendimiento de __M256d _mm256 de SVML (__m256d a) pero disponible en otros compiladores.
en el enfoque de implementación
La estrategia común para log2 (a) implica calcular la suma del exponente y el log2 de la Mantissa, que tiene un rango limitado de 1.0 a 2.0. Esto nos permite usar una aproximación polinomial para el log2 de la Mantissa.
Latency:
El hardware moderno tiene largas latencias de instrucciones. Para optimizar el rendimiento, podemos usar esquemas de evaluación polinomial más rápidos, como el esquema de Estrin, que permite la ejecución paralela de términos polinomiales.
que explota FMA:
la instrucción Fused-Multiply-Agry (FMA) es altamente eficiente. Al emplear FMA en nuestra implementación, podemos acelerar el proceso de evaluación polinomial.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3