如何从Python字符串中删除不可打印的字符？

首页 > 编程 > 如何从Python字符串中删除不可打印的字符？

如何从Python字符串中删除不可打印的字符？

发布于2024-11-09

How to Remove Non-Printable Characters from Strings in Python?

从 Python 中的字符串中剥离不可打印的字符

与 Perl 相比，Python 缺乏 POSIX 正则表达式类，因此很难检测并使用正则表达式删除不可打印的字符。

那么，如何在 Python 中实现此目的？

一种方法是利用 unicodedata 模块。 unicodedata.category 函数将 Unicode 字符分为各种类别。例如，分类为 Cc（控制）的字符代表不可打印的字符。

利用这些知识，您可以构建匹配所有控制字符的自定义字符类：

import unicodedata
import re
import sys

all_chars = (chr(i) for i in range(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)

此函数有效地从输入字符串中去除所有不可打印的 ASCII 字符。

或者，您可以使用 Python 的内置 string.printable 方法过滤掉不可打印的字符。但是，此方法不包括 Unicode 字符，因此可能不适合所有用例。

要处理 Unicode 字符，您可以在正则表达式中扩展字符类，如下所示：

control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))

此扩展字符类包含基本控制字符以及常见的非字符-可打印的Unicode字符。

通过相应修改remove_control_chars函数，可以成功处理ASCII和Unicode不可打印字符。

版本声明本文转载于：1729551315如有侵犯，请联系[email protected]删除

最新教程更多>

同实例无需转储复制MySQL数据库方法
在同一实例上复制一个MySQL数据库而无需转储在同一mySQL实例上复制数据库，而无需创建InterMediate sqql script。以下方法为传统的转储和IMPORT过程提供了更简单的替代方法。直接管道数据 MySQL手动概述了一种允许将mysqldump直接输出到MySQL clie...

编程发布于2025-07-09
如何使用Python理解有效地创建字典？
在python中，词典综合提供了一种生成新词典的简洁方法。尽管它们与列表综合相似，但存在一些显着差异。与问题所暗示的不同，您无法为钥匙创建字典理解。您必须明确指定键和值。 For example:d = {n: n**2 for n in range(5)}This creates a dicti...

编程发布于2025-07-09
Java为何无法创建泛型数组？
通用阵列创建错误 arrayList [2]; JAVA报告了“通用数组创建”错误。为什么不允许这样做？答案：Create an Auxiliary Class:public static ArrayList<myObject>[] a = new ArrayList<myO...

编程发布于2025-07-09
为什么不````''{margin：0; }`始终删除CSS中的最高边距？
在CSS 问题：不正确的代码：全球范围将所有余量重置为零，如提供的代码所建议的，可能会导致意外的副作用。解决特定的保证金问题是更建议的。例如，在提供的示例中，将以下代码添加到CSS中，将解决余量问题： body H1 { 保证金顶：-40px; } 此方法更精确，避免了由全局保证金重置引...

编程发布于2025-07-09
如何将PANDAS DataFrame列转换为DateTime格式并按日期过滤？
将pandas dataframe列转换为dateTime格式示例：使用column（mycol）包含以下格式的以下dataframe，以自定义格式：}）指定的格式参数匹配给定的字符串格式。转换后，MyCol列现在将包含DateTime对象。 date oped filtering > = p...

编程发布于2025-07-09
Go语言垃圾回收如何处理切片内存？
Garbage Collection in Go Slices: A Detailed AnalysisIn Go, a slice is a dynamic array that references an underlying array.使用切片时，了解垃圾收集行为至关重要，以避免潜在的内存泄...

编程发布于2025-07-09
在PHP中如何高效检测空数组？
在PHP 中检查一个空数组可以通过各种方法在PHP中确定一个空数组。如果需要验证任何数组元素的存在，则PHP的松散键入允许对数组本身进行直接评估：一种更严格的方法涉及使用count（）函数： if（count（count（$ playerList）=== 0）{ //列表为空。 } 对...

编程发布于2025-07-09
切换到MySQLi后CodeIgniter连接MySQL数据库失败原因
Unable to Connect to MySQL Database: Troubleshooting Error MessageWhen attempting to switch from the MySQL driver to the MySQLi driver in CodeIgniter,...

编程发布于2025-07-09
Java数组中元素位置查找技巧
在Java数组中检索元素的位置利用Java的反射API将数组转换为列表中，允许您使用indexof方法。（primitives）（链接到Mishax的解决方案）用于排序阵列的数组此方法此方法返回元素的索引，如果发现了元素的索引，或一个负值，指示应放置元素的插入点。

编程发布于2025-07-09
查找当前执行JavaScript的脚本元素方法
如何引用当前执行脚本的脚本元素在某些方案中理解问题在某些方案中，开发人员可能需要将其他脚本动态加载其他脚本。但是，如果Head Element尚未完全渲染，则使用document.getElementsbytagname（'head'）[0] .appendChild（v）的常规方...

编程发布于2025-07-09
$在Ubuntu/linux上安装mysql-python时，如何修复\“ mysql_config \”错误？$
在Ubuntu/linux上安装mysql-python时，如何修复\“ mysql_config \”错误？
mysql-python安装错误：“ mysql_config找不到”“ 由于缺少MySQL开发库而出现此错误。解决此问题，建议在Ubuntu上使用该分发的存储库。使用以下命令安装Python-MysqldB： sudo apt-get安装python-mysqldb sudo pip in...

编程发布于2025-07-09
如何在Java的全屏独家模式下处理用户输入？
Handling User Input in Full Screen Exclusive Mode in JavaIntroductionWhen running a Java application in full screen exclusive mode, the usual event ha...

编程发布于2025-07-09
如何使用PHP将斑点（图像）正确插入MySQL？
essue VALUES('$this->image_id','file_get_contents($tmp_image)')";This code builds a string in PHP, but the function call ...

编程发布于2025-07-09
PHP与C++函数重载处理的区别
作为经验丰富的C开发人员脱离谜题，您可能会遇到功能超载的概念。这个概念虽然在C中普遍，但在PHP中构成了独特的挑战。让我们深入研究PHP功能过载的复杂性，并探索其提供的可能性。在PHP中理解php的方法在PHP中，函数超载的概念（如C等语言）不存在。函数签名仅由其名称定义，而与他们的参数列表无关。...

编程发布于2025-07-09
如何使用Depimal.parse（）中的指数表示法中的数字？
在尝试使用Decimal.parse（“ 1.2345e-02”中的指数符号表示法表示的字符串时，您可能会遇到错误。这是因为默认解析方法无法识别指数符号。成功解析这样的字符串，您需要明确指定它代表浮点数。您可以使用numbersTyles.Float样式进行此操作，如下所示：[&& && && ...

编程发布于2025-07-09