avx2
에서 효율적인 벡터화 된 로그가 구현
(__m256d a) 그러나 다른 컴파일러에서 사용할 수 있습니다.
구현 접근 방식조합 :
계산 된 지수와 mantissa의 log2의 다항식 근사치를 추가하여 최종 log2 결과를 얻습니다. 정확도는 단일 고차 다항식 대신 두 개의 다항식의 비율을 사용할 수 있습니다. 이 기술은 반올림 오차를 줄이고 높은 정밀도를 유지합니다.
또한 입력 값이 양수이고 유한 한 것으로 알려진 경우 언더 플로, 오버플로 또는 거절 값에 대한 검사를 건너 뛸 수 있습니다. 이 최적화는 구현 속도를 크게 높일 수 있습니다.
성능 고려 사항
명령 대기 시간 : 현대 하드웨어는 오랫동안 지시 대기 시간이 있습니다. 성능을 최적화하기 위해, 우리는 다항식 용어의 병렬 실행을 허용하는 Estrin의 체계와 같은 빠른 다항식 평가 체계를 사용할 수 있습니다.
fma :
가용성 다중 정보 (FMA) 교육은 매우 효율적입니다. 구현에서 FMA를 사용함으로써, 우리는 다항식 평가 프로세스를 가속화 할 수 있습니다.
특정 범위의 Mantissa 값에 비해 매우 높은 정확도를 달성 할 수 있습니다.
기존 구현과 비교
제안 된 구현은 AVX2 지원으로 모든 플랫폼에서 사용할 수있는 빠르고 효율적인 벡터 로그 2 기능을 제공하는 것을 목표로합니다. 다른 컴파일러에서도 사용할 수있는 동안 Intel Compilers의 SVML 구현과 비교할 수있는 고성능을 목표로합니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3