如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？

首页 > 编程 > 如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？

如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？

发布于2024-12-25

How to Explode (Split) Pandas DataFrame String Entries into Separate Rows?

将 Pandas DataFrame 字符串条目分解（拆分）为单独的行

在 Pandas 中，一个常见的要求是将逗号分隔的值拆分为文本字符串列并为每个条目创建一个新行。这可以通过各种方法来实现。

使用Series.explode()或DataFrame.explode()

对于Pandas版本0.25.0及以上版本，Series. explode() 和 DataFrame.explode() 方法提供了一种类似于 CSV 的爆炸方式columns:

对于单列：

df.explode('column_name')

对于多列：

df.explode(['column1', 'column2'])  # Pandas 1.3.0

通用向量化函数

下面提供了一种适用于普通列和列表列的更通用的向量化方法：

def explode(df, lst_cols, fill_value='', preserve_index=False):
    # Convert CSV string columns to list columns
    for col in lst_cols:
        df[col] = df[col].str.split(',')

    # Extract all non-list columns
    idx_cols = df.columns.difference(lst_cols)

    # Calculate list lengths
    lens = df[lst_cols[0]].str.len()

    # Create exploded DataFrame
    result = (pd.DataFrame({
        col: np.repeat(df[col].values, lens)
        for col in idx_cols
    }, index=np.repeat(df.index.values, lens))
        .assign(**{col: np.concatenate(df.loc[lens>0, col].values)
                    for col in lst_cols}))

    # Handle empty list rows
    if (lens == 0).any():
        result = result.append(df.loc[lens==0, idx_cols], sort=False).fillna(fill_value)

    # Revert index order and reset index if requested
    result = result.sort_index()
    if not preserve_index:
        result = result.reset_index(drop=True)

    return result

应用程序

CSV 列：

df['var1'] = df['var1'].str.split(',')

多个列表列：

explode(df, ['num', 'text'], fill_value='')

最新教程更多>

哪种在JavaScript中声明多个变量的方法更可维护？
在JavaScript中声明多个变量：探索两个方法在JavaScript中，开发人员经常遇到需要声明多个变量的需要。对此的两种常见方法是：在单独的行上声明每个变量：当涉及性能时，这两种方法本质上都是等效的。但是，可维护性可能会有所不同。第一个方法被认为更易于维护。每个声明都是其自己的语句，使其...

编程发布于2025-04-09
$\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”$
\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”
答案：在大多数现代编译器中，while（1）和（1）和（;;）之间没有性能差异。编译器： perl： 1 输入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

编程发布于2025-04-09
如何使用组在MySQL中旋转数据？
在关系数据库中使用mySQL组使用mySQL组进行查询结果，在关系数据库中使用MySQL组，转移数据的数据是指重新排列的行和列的重排以增强数据可视化。在这里，我们面对一个共同的挑战：使用组的组将数据从基于行的基于列的转换为基于列。 Let's consider the following ...

编程发布于2025-04-09
How Can I Handle UTF-8 Filenames in PHP's Filesystem Functions?
在PHP的Filesystem functions中处理UTF-8 FileNames 在使用PHP的MKDIR函数中含有UTF-8字符的文件很多flusf-8字符时，您可能会在Windows Explorer中遇到comploreer grounder grounder grounder gro...

编程发布于2025-04-09
为什么我在Silverlight Linq查询中获得“无法找到查询模式的实现”错误？
查询模式实现缺失：解决“无法找到”错误在银光应用程序中，尝试使用LINQ建立错误的数据库连接的尝试，无法找到以查询模式的实现。”当省略LINQ名称空间或查询类型缺少IEnumerable 实现时，通常会发生此错误。解决问题来验证该类型的质量是至关重要的。在此特定实例中，tblpersoon可能需...

编程发布于2025-04-09
如何简化PHP中的JSON解析以获取多维阵列？
php 试图在PHP中解析JSON数据的JSON可能具有挑战性，尤其是在处理多维数组时。要简化过程，建议将JSON作为数组而不是对象解析。执行此操作，将JSON_DECODE函数与第二个参数设置为true：[&&&&& && &&&&& json = JSON = JSON_DECODE（$ j...

编程发布于2025-04-09
PHP阵列键值异常：了解07和08的好奇情况
PHP数组键值问题，使用07&08 在给定数月的数组中，键值07和08呈现令人困惑的行为时，就会出现一个不寻常的问题。运行print_r（$月）返回意外结果：键“ 07”丢失，而键“ 08”分配给了9月的值。此问题源于PHP对领先零的解释。当一个数字带有0（例如07或08）的前缀时，PHP将其...

编程发布于2025-04-09
版本5.6.5之前，使用current_timestamp与时间戳列的current_timestamp与时间戳列有什么限制？
在时间戳列上使用current_timestamp或MySQL版本中的current_timestamp或在5.6.5 此限制源于遗留实现的关注，这些限制需要对当前的_timestamp功能进行特定的实现。创建表`foo`（ `Productid` int（10）unsigned not n...

编程发布于2025-04-09
如何配置Pytesseract以使用数字输出的单位数字识别？
Pytesseract OCR具有单位数字识别和仅数字约束在pytesseract的上下文中，在配置tesseract以识别单位数字和限制单个数字和限制输出对数字可能会提出质疑。 To address this issue, we delve into the specifics of Te...

编程发布于2025-04-09
如何使用Python有效地以相反顺序读取大型文件？
在python 反向行读取器生成器 == ord（'\ n'）：缓冲区=缓冲区[：-1] 剩余_size- = buf_size lines = buffer.split（'\ n'....

编程发布于2025-04-09
如何使用PHP从XML文件中有效地检索属性值？
从php PHP陷入困境。使用simplexmlelement :: attributes（）函数提供了简单的解决方案。此函数可访问对XML元素作为关联数组的属性： - > attributes（）为$ attributeName => $ attributeValue）{ echo ...

编程发布于2025-04-09
如何将来自三个MySQL表的数据组合到新表中？
mysql：从三个表和列的新表创建新表答案：为了实现这一目标，您可以利用一个3-way Join。选择p。*，d.content作为年龄来自人为p的人加入d.person_id = p.id上的d的详细信息加入T.Id = d.detail_id的分类法其中t.taxonomy =...

编程发布于2025-04-09
如何使用Python理解有效地创建字典？
在python中，词典综合提供了一种生成新词典的简洁方法。尽管它们与列表综合相似，但存在一些显着差异。与问题所暗示的不同，您无法为钥匙创建字典理解。您必须明确指定键和值。 For example:d = {n: n**2 for n in range(5)}This creates a dicti...

编程发布于2025-04-09
如何使用不同数量列的联合数据库表？
合并列数不同的表当尝试合并列数不同的数据库表时，可能会遇到挑战。一种直接的方法是在列数较少的表中，为缺失的列追加空值。例如，考虑两个表，表 A 和表 B，其中表 A 的列数多于表 B。为了合并这些表，同时处理表 B 中缺失的列，请按照以下步骤操作：确定表 B 中缺失的列，并将它们添加到表的末...

编程发布于2025-04-09
eval（）vs. ast.literal_eval（）：对于用户输入，哪个Python函数更安全？
称量（）和ast.literal_eval（）中的Python Security 在使用用户输入时，必须优先确保安全性。强大的Python功能Eval（）通常是作为潜在解决方案而出现的，但担心其潜在风险。 This article delves into the differences betwee...

编程发布于2025-04-09