"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > AVX2를 사용하여 벡터 화 로그 함수의 효율적인 구현을위한 팁

AVX2를 사용하여 벡터 화 로그 함수의 효율적인 구현을위한 팁

2025-04-21에 게시되었습니다
검색:535

How Can We Efficiently Implement a Vectorized Logarithm Function Using AVX2?

avx2

에서 효율적인 벡터화 된 로그가 구현

(__m256d a) 그러나 다른 컴파일러에서 사용할 수 있습니다.

구현 접근 방식
  • [a)에 대한 일반적인 전략은 Mantissa의 계산을 계산하는 것입니다. 이를 통해 Mantissa의 Log2에 대한 다항식 근사치를 사용할 수 있습니다. [0.5, 1.0)의 범위로 조정하십시오. 이것은 우리가 사용하는 다항식 근사가 더 정확할 수 있도록합니다.
  • 다항식 근사치 :
조정 된 mantissa의 log2를 계산하기 위해 다항식 근사치를 사용합니다. 우리는 시리즈 확장 또는 최소 기술을 사용하여 다항식을 장착 할 수 있습니다.

조합 :

계산 된 지수와 mantissa의 log2의 다항식 근사치를 추가하여 최종 log2 결과를 얻습니다. 정확도는 단일 고차 다항식 대신 두 개의 다항식의 비율을 사용할 수 있습니다. 이 기술은 반올림 오차를 줄이고 높은 정밀도를 유지합니다.

또한 입력 값이 양수이고 유한 한 것으로 알려진 경우 언더 플로, 오버플로 또는 거절 값에 대한 검사를 건너 뛸 수 있습니다. 이 최적화는 구현 속도를 크게 높일 수 있습니다.

성능 고려 사항

How Can We Efficiently Implement a Vectorized Logarithm Function Using AVX2?

명령 대기 시간 : 현대 하드웨어는 오랫동안 지시 대기 시간이 있습니다. 성능을 최적화하기 위해, 우리는 다항식 용어의 병렬 실행을 허용하는 Estrin의 체계와 같은 빠른 다항식 평가 체계를 사용할 수 있습니다.

fma :

가용성 다중 정보 (FMA) 교육은 매우 효율적입니다. 구현에서 FMA를 사용함으로써, 우리는 다항식 평가 프로세스를 가속화 할 수 있습니다.

특정 범위의 Mantissa 값에 비해 매우 높은 정확도를 달성 할 수 있습니다.

기존 구현과 비교

제안 된 구현은 AVX2 지원으로 모든 플랫폼에서 사용할 수있는 빠르고 효율적인 벡터 로그 2 기능을 제공하는 것을 목표로합니다. 다른 컴파일러에서도 사용할 수있는 동안 Intel Compilers의 SVML 구현과 비교할 수있는 고성능을 목표로합니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3