Ao tentar processar dataframes superdimensionados, um obstáculo comum é o temido erro de memória. Uma solução eficaz é dividir o dataframe em pedaços menores e gerenciáveis. Essa estratégia não apenas reduz o consumo de memória, mas também facilita o processamento eficiente.
Para conseguir isso, podemos aproveitar a compreensão de lista ou a função array_split NumPy.
n = 200000 # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]
list_df = np.array_split(df, math.ceil(len(df) / n))
Pedaços individuais podem então ser recuperados usando:
list_df[0]
list_df[1]
...
Para remontar os pedaços em um único dataframe, empregue pd.concat:
# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)
Para dividir o dataframe por valores AcctName, utilize o método groupby:
list_df = []
for n, g in df.groupby('AcctName'):
list_df.append(g)
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3