Cómo manejar pares sustitutos en códigos Unicode de Python
En Python, los pares sustitutos se utilizan para representar caracteres Unicode más allá del plano multilingüe básico (BMP ). Estos pares constan de dos puntos de código sustituto que se utilizan para codificar un único carácter Unicode.
Al trabajar con cadenas Unicode de Python que contienen pares sustitutos, es posible que encuentre errores relacionados con la codificación sustituta. Estos errores ocurren porque Python maneja pares sustitutos de manera diferente según el contexto.
Manejo de pares sustitutos
Para convertir un par sustituto en una cadena normal, tiene varias opciones:
Utilice el módulo json:
Codificar y decodificar con el método encode():
Ejemplo:
emoji = "This is \ud83d\ude4f, an emoji."
encoded = emoji.encode("utf-16")
decoded = encoded.decode("utf-16")
print(decoded) # Output: "This is ?, an emoji."
Si encuentra un error al codificar o decodificar, puede usar el controlador de errores de paso sustituto para ignorar el sustituto par.codificado = emoji.encode("utf-16", "surrogatepass") decodificado = codificado.decode ("utf-16") print(decodificado) # Salida: "?"
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3