将 Pandas DataFrame 字符串条目分解(拆分)为单独的行
在 Pandas 中,一个常见的要求是将逗号分隔的值拆分为文本字符串列并为每个条目创建一个新行。这可以通过各种方法来实现。
使用Series.explode()或DataFrame.explode()
对于Pandas版本0.25.0及以上版本,Series. explode() 和 DataFrame.explode() 方法提供了一种类似于 CSV 的爆炸方式columns:
对于单列:
df.explode('column_name')
对于多列:
df.explode(['column1', 'column2']) # Pandas 1.3.0
通用向量化函数
下面提供了一种适用于普通列和列表列的更通用的向量化方法:
def explode(df, lst_cols, fill_value='', preserve_index=False): # Convert CSV string columns to list columns for col in lst_cols: df[col] = df[col].str.split(',') # Extract all non-list columns idx_cols = df.columns.difference(lst_cols) # Calculate list lengths lens = df[lst_cols[0]].str.len() # Create exploded DataFrame result = (pd.DataFrame({ col: np.repeat(df[col].values, lens) for col in idx_cols }, index=np.repeat(df.index.values, lens)) .assign(**{col: np.concatenate(df.loc[lens>0, col].values) for col in lst_cols})) # Handle empty list rows if (lens == 0).any(): result = result.append(df.loc[lens==0, idx_cols], sort=False).fillna(fill_value) # Revert index order and reset index if requested result = result.sort_index() if not preserve_index: result = result.reset_index(drop=True) return result
应用程序
CSV 列:
df['var1'] = df['var1'].str.split(',')
多个列表列:
explode(df, ['num', 'text'], fill_value='')
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3