대용량 데이터 프레임을 처리하려고 할 때 흔히 발생하는 장애물은 무서운 메모리 오류입니다. 효과적인 솔루션 중 하나는 데이터프레임을 더 작고 관리 가능한 덩어리로 나누는 것입니다. 이 전략은 메모리 소비를 줄일 뿐만 아니라 효율적인 처리를 촉진합니다.
이를 달성하기 위해 목록 이해 또는 NumPy array_split 함수를 활용할 수 있습니다.
n = 200000 # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]
list_df = np.array_split(df, math.ceil(len(df) / n))
개별 청크를 검색할 수 있습니다. 사용:
list_df[0]
list_df[1]
...
청크를 단일 데이터프레임으로 재조립하려면 pd.concat:
# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)
AcctName 값으로 데이터 프레임을 분할하려면 다음과 같이 groupby 메서드를 사용합니다.
list_df = []
for n, g in df.groupby('AcctName'):
list_df.append(g)
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3