__m256 변수에 8개의 문자를 압축된 단일 정밀도 부동 소수점으로 로드하는 방법은 무엇입니까?

첫 장 > 프로그램 작성 > __m256 변수에 8개의 문자를 압축된 단일 정밀도 부동 소수점으로 로드하는 방법은 무엇입니까?

__m256 변수에 8개의 문자를 압축된 단일 정밀도 부동 소수점으로 로드하는 방법은 무엇입니까?

2024-11-06에 게시됨

검색:823

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

메모리에서 8개의 문자를 압축된 단일 정밀도 부동 소수점으로 __m256 변수에 로드

가우시안 블러에 대한 알고리즘을 최적화하려는 노력의 일환으로 부동 버퍼의 사용을 __m256 내장 변수로 대체하려고 합니다. 이 질문은 이 작업에 대한 최적의 지침을 결정하는 것을 목표로 합니다.

AVX2 아키텍처에 대한 지침:

PMOVZX를 활용하여 문자를 32비트로 0 확장 256b 레지스터의 정수.
다음을 사용하여 부동 소수점으로 변환합니다. VCVTDQ2PS.

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

추가 전략:

128비트 브로드캐스트 로드를 사용하여 vpmovzxbd ymm,xmm 및 vpshufb ymm(_mm256_shuffle_epi8)을 피드하는 것을 고려하십시오. 높은 64비트. 이 접근 방식은 uop 수를 줄이고 Ryzen CPU에 도움이 될 수 있습니다.
셔플링이 이미 제한 사항일 때 병목 현상이 발생할 수 있으므로 추가 셔플 명령을 사용하지 마십시오.

AVX1 아키텍처에 대한 지침:

다음을 수행합니다. 단계:

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi 4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

내장 고려 사항:

GCC 및 MSVC에서는 내장 함수를 사용할 때 최적의 코드 생성을 보장하기 위해 특별한 처리가 필요할 수 있습니다. VPMOVZXBD ymm,[mem].
_mm_loadl_epi64 내장 함수 사용을 고려하세요. 대신 GCC 버전 9 이상에서 GCC를 사용하여 -O3에서 최적의 asm을 위해 메모리 피연산자로 접을 수 있습니다.
AVX1 전용 최적화의 경우 내장 버전을 작성하는 것은 재미없는 연습입니다.

최신 튜토리얼 더>

이메일 야수 길들이기: 받은편지함 관리에서 AI 기반 모험
받은 편지함이 응답한 모든 사람에게 두 개의 새 이메일을 돋보이게 하는 디지털 Hydra처럼 느껴본 적이 있습니까? ?? 기술에 열광하는 동료 여러분, 저는 비밀 무기인 인공 지능으로 이 괴물을 상대하기로 결정했습니다! ??️ 유레카 순간 이렇게 생각해 ...

프로그램 작성 2024-11-06에 게시됨
Go가 스마트 계약 개발의 새로운 경쟁자인 이유
블록체인 생태계는 분산 원장 기술의 잠재력을 확장하는 혁신적인 솔루션과 플랫폼을 도입하면서 빠르게 발전했습니다. 이러한 혁신의 핵심에는 중개자 없이 자동으로 계약을 시행하는 자체 실행 프로그램인 스마트 계약이 있습니다. 전통적으로 Solidity는 스마트 계약, 특히 ...

프로그램 작성 2024-11-06에 게시됨
스레드가 완료될 때까지 tkinter GUI의 응답성을 유지하는 방법은 무엇입니까?
스레드가 완료되기를 기다리는 동안 tkinter GUI 정지/중지Python에서 tkinter GUI 툴킷으로 작업할 때 발생하는 일반적인 문제 특정 작업을 수행할 때 인터페이스가 정지되거나 정지됩니다. 이는 메인 이벤트 루프 내에서 스레드 결합과 같은 차단 작업을 사...

프로그램 작성 2024-11-06에 게시됨
C와 C++에서 조건 연산자의 동작을 구별하는 것은 무엇입니까?
조건 연산자: C와 C 차이점 분석프로그래밍 영역에서 조건 연산자(?:)는 표현식을 평가하고 결과에 따라 특정 값을 반환하는 간결한 방법입니다. 이 연산자는 C와 C 모두에서 유사하게 작동하지만 코드 실행에 영향을 줄 수 있는 미묘한 차이가 나타납니다.C: L값에 대한...

프로그램 작성 2024-11-06에 게시됨
Java의 문자열에 문자가 있는지 효율적으로 확인하는 방법은 무엇입니까?
효율적인 문자열 문자 검증Java에서 일반적인 작업은 특정 문자가 문자열 내에 나타나는지 확인하는 것입니다. 기존 접근 방식에는 문자열을 반복하는 작업이 포함되지만, indexOf()를 활용하는 효율적인 대안은 반복이 필요하지 않습니다.IndexOf()는 문자열을 문자...

프로그램 작성 2024-11-06에 게시됨
PHP를 사용하여 이미지에 워터마크를 어떻게 추가할 수 있나요?
PHP를 사용하여 이미지에 워터마크 추가사용자가 이미지를 업로드할 수 있는 웹사이트에서 작업하는 경우 다음을 추가해야 할 수도 있습니다. 무단 사용으로부터 이미지를 보호하기 위해 해당 이미지에 워터마크를 추가합니다. 워터마크를 추가하면 업로드된 모든 이미지에 로고나 브...

프로그램 작성 2024-11-06에 게시됨
Tensorflow 디버깅 출력을 억제하는 방법은 무엇입니까?
Tensorflow 디버깅 정보 억제Tensorflow는 초기화 시 로드된 라이브러리 및 검색된 장치를 포함하여 터미널에 디버깅 정보를 표시할 수 있습니다. 이 정보는 디버깅 목적에 유용할 수 있지만 콘솔을 복잡하게 만들고 중요한 메시지를 추적하기 어렵게 만들 수도 있...

프로그램 작성 2024-11-06에 게시됨
내 MySQL 쿼리가 인덱싱을 활용하고 있는지 어떻게 확인할 수 있나요?
MySQL 인덱싱 성능 식별MySQL 쿼리를 최적화할 때는 인덱싱 효과를 평가하는 것이 중요합니다.인덱싱 성능 지표 가져오기쿼리가 인덱스를 사용하는지 확인하려면 다음 쿼리를 실행하세요.EXPLAIN EXTENDED SELECT col1, col2, col3, COUNT...

프로그램 작성 2024-11-06에 게시됨
WAMP/MySQL에서 오류 메시지의 언어를 변경하는 방법은 무엇입니까?
WAMP/MySQL의 언어 오류많은 사용자가 WAMP/MySQL의 오류가 올바른 언어로 표시되지 않는 문제에 직면했습니다. 이 문제는 WAMP를 여러 번 재설치하고 수많은 리소스를 검색한 후에도 지속됩니다.이 문제를 해결하려면 my.ini 파일을 수정해야 합니다.my....

프로그램 작성 2024-11-06에 게시됨
항목 - null이 아닌 빈 컬렉션이나 배열을 반환합니다.
null을 반환하지 않음: 빈 컬렉션이나 배열 대신 null을 반환하는 메서드에는 예외를 방지하기 위해 추가 클라이언트 처리가 필요합니다. null 관련 문제: 클라이언트는 중복 검사를 추가해야 합니다(null을 확인하려는 경우). 이러한 검사에서 누락된 부분은 눈에...

프로그램 작성 2024-11-06에 게시됨
노드 JS || 익스프레스 js || 무니세카르 우다발라파티(Munisekhar Udavalapati)
Express js 간단한 Express JS 애플리케이션 작성 npm 초기화 npm 익스프레스 설치 const express=require('expreass'); const app=express(); app.use('/',(req,res,next)=>{ ...

프로그램 작성 2024-11-06에 게시됨
재귀 또는 균형 그룹 없이 중첩된 괄호를 일치시킬 수 있습니까?
재귀 또는 균형 그룹 없이 중첩 괄호 일치정규 표현식을 사용하여 중첩 괄호 일치는 특히 재귀가 발생하는 Java와 같은 언어에서 어려울 수 있습니다. 및 균형 조정 그룹은 지원되지 않습니다. 다행스럽게도 전방 참조를 사용하여 이 제한을 극복하는 것이 실제로 가능합니다....

프로그램 작성 2024-11-06에 게시됨
TDD 방법론과 PostgreSQL을 사용하여 Django로 완전한 블로그 앱을 구축하기 위한 가이드(부분 보안 사용자 인증)
Welcome back, everyone! In the previous part, we established a secure user registration process for our Django blog application. However, after succes...

프로그램 작성 2024-11-06에 게시됨
더 나은 CSS를 작성하는 방법
웹사이트 스타일링을 위한 더 나은 CSS를 작성하려면 먼저 반응형 디자인, 코드 유지 관리 및 확장 가능, 성능이라는 세 가지를 배워야 합니다. 반응형 디자인은 웹사이트가 가능한 모든 화면 크기에서 완벽하게 보이고 작동하는지 확인하는 것입니다. 화면 크기의 수가 계속 ...

프로그램 작성 2024-11-06에 게시됨
JavaScript 초강력 잠금 해제: 변수의 마법
오늘부터 프로그래밍의 세계를 만나보세요. 초능력을 가진 세상. 네, 정확하게 읽으셨습니다. 초능력이군요. 초능력이 아니라면 그것은 무엇입니까? JavaScript를 사용하면 사물을 날고, 움직이고, 사라지게 하고, 색상을 변경하고, 몇 마일 떨어진 곳에서 친구를 볼 수...

프로그램 작성 2024-11-06에 게시됨