Pandas는 reindex(), apply() 및 map()을 포함하여 데이터 필터링을 위한 다양한 메서드를 제공합니다. . 그러나 여러 필터를 적용하면 효율성이 문제가 됩니다.
최적화된 필터링을 위해서는 부울 인덱싱 활용을 고려하세요. Pandas와 Numpy는 모두 불필요한 복사본을 생성하지 않고 기본 데이터 배열에서 직접 작동하는 부울 인덱싱을 지원합니다.
다음은 부울 인덱싱의 예입니다.
df.loc[df['col1'] >= 1, 'col1']
이 표현식은 열의 값이 있는 행만 포함하는 Pandas 시리즈를 반환합니다. 'col1'은 1보다 크거나 같습니다.
여러 필터를 적용하려면 논리 연산자 '&'(AND) 및 '|'를 사용하세요. (또는). 예를 들어:
df[(df['col1'] >= 1) & (df['col1'] <=1 )]
이 표현식은 'col1' 열의 값이 1에서 1 사이인 행만 포함하는 DataFrame을 반환합니다.
For 도우미 함수인 경우 DataFrame을 사용하고 부울 시리즈를 반환하는 함수 정의를 고려하면 논리 연산자를 사용하여 여러 필터를 결합할 수 있습니다.
def b(x, col, op, n):
return op(x[col],n)
def f(x, *b):
return x[(np.logical_and(*b))]
Pandas 0.13에는 복잡한 필터링 조건을 표현하는 보다 효율적인 방법을 제공하는 query() 메서드가 도입되었습니다. 유효한 열 식별자를 가정하고 다음 코드는 여러 조건에 따라 DataFrame df를 필터링합니다.
df.query('col1 <= 1 & 1 <= col1')
요약하면 부울 인덱싱은 불필요한 복사본을 생성하지 않고 Pandas DataFrames 또는 Series에 여러 필터를 적용하는 효율적인 방법을 제공합니다. 확장된 기능을 위해 논리 연산자와 도우미 함수를 사용하여 여러 필터를 결합합니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3