데이터 분석 시나리오에서는 결과 범위를 좁히기 위해 여러 필터를 적용하는 것이 중요한 경우가 많습니다. 이 문서의 목표는 Pandas 데이터 개체에 대한 여러 비교 작업을 연결하는 효율적인 접근 방식을 다루는 것입니다.
목표는 관계 연산자 사전을 처리하고 이를 특정 Pandas에 추가로 적용하는 것입니다. Series 또는 DataFrame으로 인해 필터링된 데이터 세트가 생성됩니다. 이 작업을 수행하려면 특히 대규모 데이터 세트를 처리할 때 불필요한 데이터 복사를 최소화해야 합니다.
Pandas는 부울 인덱싱을 사용하여 데이터를 필터링하는 매우 효율적인 메커니즘을 제공합니다. 부울 인덱싱에는 논리적 조건을 생성한 다음 이러한 조건을 사용하여 데이터를 인덱싱하는 작업이 포함됩니다. 다음 예를 고려하십시오.
df.loc[df['col1'] >= 1, 'col1']
이 코드 줄은 DataFrame df의 모든 행을 선택합니다. 'col1' 열의 값이 1보다 크거나 같습니다. 결과는 필터링된 값을 포함하는 새로운 Series 개체입니다.
여러 필터를 적용하려면 & (및) 및 | (또는). 예를 들면 다음과 같습니다.
df[(df['col1'] >= 1) & (df['col1'] <= 1)]
이 작업은 행을 필터링합니다. 'col1'은 1보다 크거나 같고 1보다 작거나 같습니다.
여러 필터를 적용하는 프로세스를 단순화하기 위해 도우미 함수를 만들 수 있습니다.
def b(x, col, op, n):
return op(x[col], n)
def f(x, *b):
return x[(np.logical_and(*b))]
b 함수는 주어진 열과 연산자에 대한 부울 조건을 생성하는 반면, f는 DataFrame 또는 Series에 여러 부울 조건을 적용합니다.
이러한 기능을 사용하기 위해 필터 기준 사전을 제공할 수 있습니다.
filters = {'>=': [1], 'b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
filtered_df = f(df, b1, b2)
이 코드는 DataFrame df의 'col1' 열에 필터를 적용하고 필터링된 결과가 포함된 새 DataFrame을 반환합니다.
향상된 기능
Pandas 0.13에는 문자열 표현식을 사용하여 필터를 적용하는 편리한 방법을 제공하는 쿼리 메서드가 도입되었습니다. 유효한 열 식별자의 경우 다음 코드가 가능해집니다.
df.query('col1 이 줄은 우리와 동일한 필터링을 달성합니다. 이전 예에서는 보다 간결한 구문을 사용했습니다.
부울 인덱싱 및 도우미 함수를 활용하여 Pandas 데이터 프레임 및 시리즈에 여러 필터를 효율적으로 적용할 수 있습니다. 이 접근 방식은 특히 대규모 데이터 세트로 작업할 때 데이터 복사를 최소화하고 성능을 향상시킵니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3