”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 如何从Python字符串中删除不可打印的字符?

如何从Python字符串中删除不可打印的字符?

发布于2024-11-09
浏览:294

How to Remove Non-Printable Characters from Strings in Python?

从 Python 中的字符串中剥离不可打印的字符

与 Perl 相比,Python 缺乏 POSIX 正则表达式类,因此很难检测并使用正则表达式删除不可打印的字符。

那么,如何在 Python 中实现此目的?

一种方法是利用 unicodedata 模块。 unicodedata.category 函数将 Unicode 字符分为各种类别。例如,分类为 Cc(控制)的字符代表不可打印的字符。

利用这些知识,您可以构建匹配所有控制字符的自定义字符类:

import unicodedata
import re
import sys

all_chars = (chr(i) for i in range(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)

此函数有效地从输入字符串中去除所有不可打印的 ASCII 字符。

或者,您可以使用 Python 的内置 string.printable 方法过滤掉不可打印的字符。但是,此方法不包括 Unicode 字符,因此可能不适合所有用例。

要处理 Unicode 字符,您可以在正则表达式中扩展字符类,如下所示:

control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))

此扩展字符类包含基本控制字符以及常见的非字符-可打印的Unicode字符。

通过相应修改remove_control_chars函数,可以成功处理ASCII和Unicode不可打印字符。

版本声明 本文转载于:1729551315如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 除了“if”语句之外:还有哪些地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    除了“if”语句之外:还有哪些地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    无需强制转换即可上下文转换为 bool您的类定义了对 bool 的显式转换,使您能够在条件语句中直接使用其实例“t”。然而,这种显式转换提出了一个问题:“t”在哪里可以在不进行强制转换的情况下用作 bool?上下文转换场景C 标准指定了四种值可以根据上下文转换为 bool 的主要场景:语句:if、w...
    编程 发布于2024-11-09
  • 如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    MySQL配置不正确:相对路径的问题在Django中运行python manage.py runserver时,可能会遇到以下错误:ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Library/Python/2.7/site-...
    编程 发布于2024-11-09
  • Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta:列偏移的删除和恢复Bootstrap 4 在其 Beta 1 版本中引入了重大更改柱子偏移了。然而,随着 Beta 2 的后续发布,这些变化已经逆转。从 offset-md-* 到 ml-auto在 Bootstrap 4 Beta 1 中, offset-md-*...
    编程 发布于2024-11-09
  • 如何从 ASP.NET Core Web API 控制器返回文件?
    如何从 ASP.NET Core Web API 控制器返回文件?
    在 ASP.NET Core Web API 中处理文件下载尝试从 ASP.NET Web API 控制器返回文件时,您可能会遇到以下问题:响应被视为 JSON。要解决此问题,了解在 ASP.NET Core 中下载文件的正确方法至关重要。要在 ASP.NET Core Web API 中返回文件,...
    编程 发布于2024-11-09
  • 如何防止 Pandas 在保存 CSV 时添加索引列?
    如何防止 Pandas 在保存 CSV 时添加索引列?
    避免使用 Pandas 保存的 CSV 中的索引列使用 Pandas 进行修改后保存 csv 文件时,默认行为是包含索引列。为了避免这种情况,可以在使用 to_csv() 方法时将索引参数设置为 False。为了详细说明,请考虑以下命令序列:pd.read_csv('C:/Path/to/file....
    编程 发布于2024-11-09
  • 大批
    大批
    方法是可以在对象上调用的 fns 数组是对象,因此它们在 JS 中也有方法。 slice(begin):将数组的一部分提取到新数组中,而不改变原始数组。 let arr = ['a','b','c','d','e']; // Usecase: Extract till index p...
    编程 发布于2024-11-09
  • 如何将移动站点限制为横向并禁用自动旋转?
    如何将移动站点限制为横向并禁用自动旋转?
    增强移动网站体验:强制横向方向并禁用自动旋转在设计移动响应能力时,某些方向可能会对用户产生重大影响经验。此问题寻求一种解决方案,将移动网站限制为横向并禁用自动旋转。CSS 解决方案实现此目的的一种方法是通过 CSS 媒体查询。通过为横向和纵向创建单独的样式表,您可以根据设备的方向控制站点的行为方式。...
    编程 发布于2024-11-09
  • Mac OS X 上的 Python 项目创建
    Mac OS X 上的 Python 项目创建
    介绍 PyFabricate 是一款 Mac OS X 应用程序,可简化 Python 项目的创建。 自从我创作它以来,显然它是我认为 Python 项目应该是什么样子的一个固执己见的版本。 此外,我还有一个特定的工具集,可以用来编写 Python Mac OS X 应用程序。...
    编程 发布于2024-11-09
  • 如何修复 PHP 中的“尝试获取非对象的属性”错误?
    如何修复 PHP 中的“尝试获取非对象的属性”错误?
    解决 PHP 中的“尝试获取非对象的属性”错误使用 PHP 时,您可能会遇到错误“尝试获取非对象的属性”获得非物体的财产。”当尝试访问尚未正确初始化或为 null 的对象的属性时,通常会发生此错误。在提供的代码的情况下,问题在于从数据库获取侧菜单数据。 mysql_fetch_object() 函数...
    编程 发布于2024-11-09
  • ## 如何修改 Python 源代码,同时保留格式和注释?
    ## 如何修改 Python 源代码,同时保留格式和注释?
    使用 AST 修改 Python 源代码解析、修改和写回 Python 源代码对于突变测试等任务来说是一项很有价值的任务。虽然标准 Python 模块提供了解析和编译代码的方法,但它们缺乏修改和重写源代码的能力。为了满足这一需求,一些库提供了解决方案:lib2to3: 由 Pythscope 和 2...
    编程 发布于2024-11-09
  • 如何使用 JavaScript 根据另一个下拉列表中的选择填充一个下拉列表?
    如何使用 JavaScript 根据另一个下拉列表中的选择填充一个下拉列表?
    使用 JavaScript 根据另一个下拉列表中的选择填充一个下拉列表当面临根据另一个下拉列表中的选择动态更新一个下拉列表中的选项的任务时,它是对于避免不必要的复杂性(例如数据库查询)至关重要。让我们探索一个简单的基于 JavaScript 的解决方案,无需 AJAX 调用即可完成此任务。为了说明此...
    编程 发布于2024-11-09
  • 如何从具有不同数组长度的字典创建 Pandas DataFrame?
    如何从具有不同数组长度的字典创建 Pandas DataFrame?
    从条目长度不均匀的字典创建 DataFrame在 Python 中,可以从每个条目保存一个 Numpy 数组的字典创建 DataFrame。然而,当条目之间的数组长度不同时,就会出现挑战。默认情况下,Pandas 需要统一长度的数组,从而导致类似“ValueError: arrays must al...
    编程 发布于2024-11-09
  • 在 Go 中使用 WebSocket 进行实时通信
    在 Go 中使用 WebSocket 进行实时通信
    构建需要实时更新的应用程序(例如聊天应用程序、实时通知或协作工具)需要一种比传统 HTTP 更快、更具交互性的通信方法。这就是 WebSockets 发挥作用的地方!今天,我们将探讨如何在 Go 中使用 WebSocket,以便您可以向应用程序添加实时功能。 在这篇文章中,我们将介绍: WebSoc...
    编程 发布于2024-11-09
  • 为什么在 Java 中使用相同的种子时会得到相同的随机数?
    为什么在 Java 中使用相同的种子时会得到相同的随机数?
    具有固定种子的Java随机数:为什么输出相同?在您的代码中,您定义了一种使用以下命令生成随机数的方法指定的种子。但是,您会注意到,当您提供相同的种子时,所有 100 个生成的数字都是相同的。此行为是预期的,因为在 Random 构造函数中使用相同的种子会产生可预测的数字序列。种子是初始化随机数生成器...
    编程 发布于2024-11-09
  • jQuery Chaining 如何简化开发并提高代码效率?
    jQuery Chaining 如何简化开发并提高代码效率?
    理解 jQuery 中的对象和方法链接在 jQuery 中,链接允许在单个语句中串联多个 jQuery 方法。这使开发人员能够简化代码并轻松执行复杂的操作。链接的基本原理涉及每个 jQuery 方法的返回值。当调用 jQuery 方法时,它通常返回一个表示所选元素的 jQuery 对象。这允许在同一...
    编程 发布于2024-11-09

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3