en Spark, agregando una columna constante a un marcador de datos con un valor específico para cada fila se puede lograr usando varios métodos.
desde pyspark.sql.functions import lit df.withColumn ('new_column', lit (10))
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))para columnas más complejas, funciones como Array, Map y Struct se pueden usar para construir los valores de columna deseados:
de pyspark.sql.function df.withcolumn ("some_array", array (encendido (1), encendido (2), encendido (3)))) df.withColumn ("some_map", map (lit ("key1"), lit (1), lit ("key2"), lit (2)))
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))typedlit (chispa 2.2)
org.apache.spark.sql.functions.typedlit df.withcolumn ("some_array", typedlit (seq (1, 2, 3)))) df.withColumn ("some_struct", typedlit (("foo", 1, 0.3)))
import org.apache.spark.sql.functions.typedLit df.withColumn("some_array", typedLit(Seq(1, 2, 3))) df.withColumn("some_struct", typedLit(("foo", 1, 0.3)))
from pyspark.sql.functions import udf, lit def add_ten(row): return 10 add_ten_udf = udf(add_ten, IntegerType()) df.withColumn('new_column', add_ten_udf(lit(1.0)))
Los valores constantes también se pueden pasar como argumentos a UDFS o funciones SQL usando las mismas construcciones.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3