Pandas 열 생성 시 np.Vectorize()가 df.apply()보다 빠른 이유는 무엇입니까?

첫 장 > 프로그램 작성 > Pandas 열 생성 시 np.Vectorize()가 df.apply()보다 빠른 이유는 무엇입니까?

Pandas 열 생성 시 np.Vectorize()가 df.apply()보다 빠른 이유는 무엇입니까?

2024-11-08에 게시됨

검색:368

Why is np.vectorize() Faster than df.apply() for Pandas Column Creation?

Pandas 적용과 np.Vectorize의 성능 비교

np.Vectorize()가 df보다 훨씬 빠를 수 있다는 것이 관찰되었습니다. Pandas DataFrame의 기존 열을 기반으로 새 열을 생성할 때 apply()를 사용합니다. 관찰된 성능 차이는 이 두 가지 방법이 사용하는 기본 메커니즘에서 비롯됩니다.

df.apply() 대 Python 수준 루프

df.apply()는 본질적으로 다음을 생성합니다. DataFrame의 각 행을 반복하는 Python 수준 루프입니다. 제공된 벤치마크에서 볼 수 있듯이 목록 이해 및 지도와 같은 Python 수준 루프는 모두 실제 벡터화된 계산에 비해 상대적으로 느립니다.

np.Vectorize() 대 df.apply()

np.Vectorize()는 사용자 정의 함수를 범용 함수(ufunc)로 변환합니다. Ufuncs는 고도로 최적화되어 있으며 C 기반 코드와 최적화된 알고리즘을 활용하여 NumPy 배열에서 요소별 작업을 수행할 수 있습니다. 이는 Pandas 시리즈 객체에서 작동하고 추가 오버헤드를 발생시키는 df.apply()와 대조됩니다.

진정한 벡터화: 최적의 성능

정말 효율적인 열 생성 , NumPy 내에서 벡터화된 계산을 적극 권장합니다. numpy.where와 같은 작업과 df["A"] / df["B"]를 사용한 직접적인 요소별 분할은 매우 빠르며 루프와 관련된 오버헤드를 방지합니다.

Numba 최적화

효율성을 더욱 높이기 위해 Python 함수를 최적화된 C 코드로 변환하는 컴파일러인 Numba를 사용하여 루프를 더욱 최적화할 수 있습니다. Numba는 실행 시간을 마이크로초 단위로 줄여 df.apply() 및 np.Vectorize()보다 훨씬 뛰어난 성능을 제공합니다.

결론

np.Vectorize()는 다음을 제공할 수 있습니다. df.apply()에 비해 약간 개선되었지만 NumPy의 벡터화된 계산을 대체하는 것은 아닙니다. 최대 성능을 달성하려면 Pandas DataFrames에서 새 열을 생성하기 위해 NumPy 내에서 Numba 최적화 또는 직접 벡터화 작업을 활용하세요.

최신 튜토리얼 더>

고유 ID를 유지하고 중복 이름을 처리하면서 PHP에서 두 개의 연관 배열을 어떻게 결합합니까?
PHP에서 연관 배열 결합PHP에서는 두 개의 연관 배열을 단일 배열로 결합하는 것이 일반적인 작업입니다. 다음 요청을 고려하십시오.문제 설명:제공된 코드는 두 개의 연관 배열 $array1 및 $array2를 정의합니다. 목표는 두 배열의 모든 키-값 쌍을 통합하는 ...

프로그램 작성 2024년 12월 26일에 게시됨
$데이터를 삽입할 때 \"일반 오류: 2006 MySQL 서버가 사라졌습니다\"를 수정하는 방법은 무엇입니까?$
데이터를 삽입할 때 \"일반 오류: 2006 MySQL 서버가 사라졌습니다\"를 수정하는 방법은 무엇입니까?
레코드를 삽입하는 동안 "일반 오류: 2006 MySQL 서버가 사라졌습니다"를 해결하는 방법소개:MySQL 데이터베이스에 데이터를 삽입하면 "일반 오류: 2006 MySQL 서버가 사라졌습니다."라는 오류가 발생할 수 있습니다. 이...

프로그램 작성 2024년 12월 26일에 게시됨
Bootstrap 4 Beta의 열 오프셋은 어떻게 되었나요?
Bootstrap 4 베타: 열 오프셋 제거 및 복원Bootstrap 4는 베타 1 릴리스에서 열 오프셋 방식에 중요한 변경 사항을 도입했습니다. 열이 오프셋되었습니다. 그러나 후속 베타 2 릴리스에서는 이러한 변경 사항이 취소되었습니다.offset-md-*에서 ml-...

프로그램 작성 2024년 12월 26일에 게시됨
MySQL을 사용하여 오늘 생일을 가진 사용자를 어떻게 찾을 수 있습니까?
MySQL을 사용하여 오늘 생일을 가진 사용자를 식별하는 방법MySQL을 사용하여 오늘이 사용자의 생일인지 확인하려면 생일이 일치하는 모든 행을 찾는 것이 포함됩니다. 오늘 날짜. 이는 UNIX 타임스탬프로 저장된 생일을 오늘 날짜와 비교하는 간단한 MySQL 쿼리를 ...

프로그램 작성 2024년 12월 26일에 게시됨
실시간 통신을 위해 Go에서 WebSocket 사용
채팅 애플리케이션, 실시간 알림, 협업 도구 등 실시간 업데이트가 필요한 앱을 구축하려면 기존 HTTP보다 더 빠르고 대화형인 통신 방법이 필요합니다. 이것이 바로 WebSockets가 필요한 곳입니다! 오늘은 Go에서 WebSocket을 사용하여 애플리케이션에 실시간...

프로그램 작성 2024년 12월 26일에 게시됨
`if` 문 너머: 명시적 `bool` 변환이 있는 유형을 형변환 없이 사용할 수 있는 다른 곳은 어디입니까?
형변환 없이 허용되는 bool로의 상황별 변환귀하의 클래스는 bool로의 명시적 변환을 정의하여 해당 인스턴스 't'를 조건문에서 직접 사용할 수 있도록 합니다. 그러나 이 명시적인 변환은 다음과 같은 질문을 제기합니다. 캐스트 없이 't'...

프로그램 작성 2024년 12월 26일에 게시됨
$macOS의 Django에서 \"부적절하게 구성됨: MySQLdb 모듈 로드 오류\"를 수정하는 방법은 무엇입니까?$
macOS의 Django에서 \"부적절하게 구성됨: MySQLdb 모듈 로드 오류\"를 수정하는 방법은 무엇입니까?
MySQL이 잘못 구성됨: 상대 경로 문제Django에서 python prepare.py runserver를 실행할 때 다음 오류가 발생할 수 있습니다:ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Libra...

프로그램 작성 2024년 12월 26일에 게시됨
PHP에서 모든 유형의 스마트 따옴표를 변환하는 방법은 무엇입니까?
PHP에서 모든 유형의 스마트 따옴표 변환스마트 따옴표는 일반 곧은 따옴표(' 및 ") 대신 사용되는 인쇄 표시입니다. 보다 세련되고 그러나 소프트웨어 응용 프로그램이 서로 다른 유형의 둥근 인용문을 변환하는 데 어려움을 겪어 불일치가 발생하는 경우가 ...

프로그램 작성 2024년 12월 26일에 게시됨
JavaScript 배열을 반복하는 다른 방법은 무엇입니까?
JavaScript를 사용하여 배열 반복배열 요소를 반복하는 것은 JavaScript에서 일반적인 작업입니다. 여러 가지 접근 방식이 있으며 각 접근 방식에는 고유한 장점과 한계가 있습니다. 다음 옵션을 살펴보겠습니다.배열1. for-of 루프(ES2015 )이 루프는...

프로그램 작성 2024년 12월 26일에 게시됨
Python에서 Selenium WebDriver 실행을 효율적으로 일시 중지하는 방법은 무엇입니까?
Selenium WebDriver의 대기 및 조건문질문: Python에서 밀리초 동안 Selenium WebDriver 실행을 일시 중지하려면 어떻게 해야 합니까?답변: time.sleep() 함수는 지정된 초 동안 실행을 일시 중지하는 데 사용할 수 있지만 일반적으로...

프로그램 작성 2024년 12월 26일에 게시됨
C++ 할당 연산자는 가상이어야 합니까?
C의 가상 할당 연산자와 필수 사항 할당 연산자는 C에서 가상으로 정의될 수 있지만 필수 요구 사항은 아닙니다. 그러나 이 가상 선언은 가상의 필요성과 다른 연산자도 가상으로 만들 수 있는지에 대한 의문을 제기합니다.가상 할당 연산자의 사례할당 연산자 본질적으로 가상이...

프로그램 작성 2024년 12월 26일에 게시됨
JavaScript의 Let과 Var: 범위와 사용법의 차이점은 무엇입니까?
JavaScript의 Let 대 Var: 범위 및 임시 데드존 이해하기ECMAScript 6에 도입된 let 문은 개발자들 사이에 혼란을 불러일으켰습니다. , 특히 기존 var 키워드와 어떻게 다른지 살펴보겠습니다. 이 기사에서는 범위 지정 규칙과 최상의 사용 사례를 ...

프로그램 작성 2024년 12월 26일에 게시됨
JavaScript를 사용하여 큰따옴표 안의 쉼표를 무시하고 문자열을 쉼표로 분할하는 방법은 무엇입니까?
JavaScript를 사용하여 큰따옴표 안의 쉼표를 무시하고 쉼표로 문자열 분할double을 유지하면서 문자열을 쉼표로 분할하는 문제를 해결하려면 -따옴표가 있는 세그먼트를 사용하면 JavaScript에서 정규식을 활용할 수 있습니다. 방법은 다음과 같습니다.var s...

프로그램 작성 2024년 12월 26일에 게시됨
느낌표(!)는 JavaScript 함수 표현식에서 어떤 역할을 합니까?
함수 표현식에서 느낌표의 목적 공개JavaScript에서 코드를 실행할 때 느낌표(!)가 앞에 나타납니다. 함수는 몇 가지 질문을 제기할 수 있습니다. 구문에서의 기능과 역할을 자세히 살펴보겠습니다.JavaScript의 구문은 "function foo() {}...

프로그램 작성 2024년 12월 26일에 게시됨
Go에서 프로그래밍 방식으로 파일 그룹 ID(GID)에 액세스하는 방법은 무엇입니까?
Go에서 파일 그룹 ID(GID)에 액세스Go에서 os.Stat() 함수는 시스템을 포함한 파일 정보를 검색합니다. -특정 속성. 이 정보는 syscall.Sys 인터페이스에 저장됩니다. 인터페이스를 직접 인쇄하면 GID가 표시되지만 프로그래밍 방식으로 액세스하면 문제...

프로그램 작성 2024년 12월 26일에 게시됨