¿Cómo extraer texto de elementos HTML con clases específicas en matrices planas usando PHP DOM?

Página delantera > Programación > ¿Cómo extraer texto de elementos HTML con clases específicas en matrices planas usando PHP DOM?

¿Cómo extraer texto de elementos HTML con clases específicas en matrices planas usando PHP DOM?

Publicado el 2025-02-06

Navegar:676

How to Extract Text from HTML Elements with Specific Classes into Flat Arrays using PHP DOM?

Extracción de texto plano de elementos con una clase designada usando php dom

El texto de elementos HTML específicos es una tarea común en el desarrollo web. PHP DOM proporciona herramientas robustas para analizar HTML y acceder a su contenido. Este artículo aborda un requisito específico para extraer texto de elementos con una clase nominada en dos matrices planas.

problema

dado el contenido HTML que contiene texto distribuido entre múltiples elementos P con Alterando los nombres de clases, la tarea es guardar el texto en dos matrices: una para encabezados y otro para contenido. Por ejemplo, dado el siguiente html:

Chapter 1

This is chapter 1

necesitamos obtener el siguiente resultado:

$heading = ['Chapter 1', 'Chapter 2', 'Chapter 3'];
$content = ['This is chapter 1', 'This is chapter 2', 'This is chapter 3'];

Solution

para lograr esta extracción usando PHP DOM, empleamos domdocumento y domxpath. La solución implica los siguientes pasos:

Cargue el html en un objeto DomDocument:

$dom = new DOMDocument();
$dom->loadHTML($test);

crea un objeto domxPath para realizar xpaths:

$xpath = new DOMXPath($dom);

use parsetoArray () Función para extraer texto de elementos con clase especificada:

$heading = parseToArray($xpath, 'Heading1-H');
$content = parseToArray($xpath, 'Normal-H');

en la función pardoArray ():

realiza una consulta XPath para la clase designada.
itera a través de los nodos coincidentes y extrae su contenido de texto.
almacena el texto extraído en una matriz, que se devuelve.

aquí está el código PHP completo:

query($xpathquery);

    $resultarray = [];
    foreach ($elements as $element) {
        $nodes = $element->childNodes;
        foreach ($nodes as $node) {
            $resultarray[] = $node->nodeValue;
        }
    }

    return $resultarray;
}

$test = 
    Chapter 1


    This is chapter 1


    Chapter 2


    This is chapter 2


    Chapter 3


    This is chapter 3

HTML;

$dom = new DOMDocument();
$dom->loadHTML($test);
$xpath = new DOMXPath($dom);
$heading = parseToArray($xpath, 'Heading1-H');
$content = parseToArray($xpath, 'Normal-H');

var_dump($heading);
echo "
";
var_dump($content);
echo "
";

Este enfoque utiliza el poder de PHP DOM y XPath para extraer eficientemente el texto de los documentos HTML, lo que permite una manipulación de contenido más compleja y dirigida.

Último tutorial Más>

¿Cómo puedo manejar los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP?
manejando los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP al crear carpetas que contienen caracteres UTF-8 utiliz...

Programación Publicado el 2025-04-07
¿Cómo combinar datos de tres tablas MySQL en una nueva tabla?
mysql: creando una nueva tabla de datos y columnas de tres tablas pregunta: ¿cómo puedo crear una nueva tabla que combine los datos selecci...

Programación Publicado el 2025-04-07
¿Por qué cesan la ejecución de JavaScript cuando se usa el botón de retroceso de Firefox?
Problema de historial de navegación: JavaScript deja de ejecutar después de usar el botón de retroceso de Firefox Los usuarios de Firefox pued...

Programación Publicado el 2025-04-07
¿Se pueden apilar múltiples elementos adhesivos uno encima del otro en CSS puro?
¿Es posible tener múltiples elementos pegajosos apilados uno encima del otro en CSS puro? El comportamiento deseado se puede ver Aquí: https...

Programación Publicado el 2025-04-07
¿Cómo convertir una columna Pandas DataFrame a formato de fecha y hora de filtrar por fecha?
transformar la columna Pandas DataFrame en formato de Datetime escenario: datos dentro de un marco de datos PANDAS a menudo existe en varios...

Programación Publicado el 2025-04-07
¿Cómo mostrar correctamente la fecha y hora actuales en el formato "DD/MM/YYYY HH: MM: SS.SS" en Java?
cómo mostrar la fecha y la hora actuales en "dd/mm/aa radica en el uso de diferentes instancias de SimpleFormat con diferentes patrones de f...

Programación Publicado el 2025-04-07
Fit de objeto: la cubierta falla en IE y Edge, ¿cómo solucionar?
Object-Fit: la portada falla en IE y Edge, ¿cómo solucionar? utilizando objeto-fit: cover; en CSS para mantener la altura de imagen consistent...

Programación Publicado el 2025-04-07
$¿Por qué recibo un error de \ "clase \ 'Ziparchive \' no encontrado \" después de instalar Archive_Zip en mi servidor Linux?$
¿Por qué recibo un error de \ "clase \ 'Ziparchive \' no encontrado \" después de instalar Archive_Zip en mi servidor Linux?
class 'Ziparchive' no encontrado Error al instalar Archive_Zip en Linux Server Sytom: cuando intentan ejecutar un script que utiliza...

Programación Publicado el 2025-04-07
¿Cómo omitir los bloques de sitios web con las solicitudes de Python y los agentes de usuarios falsos?
cómo simular el comportamiento del navegador con las solicitudes de Python y los agentes de usuario falsos La biblioteca de solicitudes de Pyt...

Programación Publicado el 2025-04-07
¿Puedes usar CSS para la salida de la consola de color en Chrome y Firefox?
que muestra los colores en la console JavaScript es posible usar la consola de Chrome para mostrar texto coloreado, como rojo para errores, na...

Programación Publicado el 2025-04-07
¿Cómo crear una animación CSS suave de izquierda-derecha para un DIV dentro de su contenedor?
animación CSS genérica para el movimiento de derecha izquierda En este artículo, exploraremos la creación de una animación genérica de CSS par...

Programación Publicado el 2025-04-07
¿Por qué no aparece mi imagen de fondo CSS?
Solución de problemas: css La imagen de fondo que no aparece ha encontrado un problema en el que su imagen de fondo no se carga a pesar de las...

Programación Publicado el 2025-04-07
$¿Cómo resolver el error \ "Uso no válido de la función de grupo \" en MySQL al encontrar el recuento máximo?$
¿Cómo resolver el error \ "Uso no válido de la función de grupo \" en MySQL al encontrar el recuento máximo?
cómo recuperar el recuento máximo usando mysql en mysql, puede que pueda un problema al intentar encontrar el recuento máximo de valores agrup...

Programación Publicado el 2025-04-07
¿Cómo puedo leer eficientemente un archivo grande en orden inverso usando Python?
leyendo un archivo en orden inverso en python si está trabajando con un archivo grande y necesita leer su contenido desde la última línea hast...

Programación Publicado el 2025-04-07
¿Cómo establecer dinámicamente las claves en los objetos JavaScript?
cómo crear una clave dinámica para una variable de objeto JavaScript al intentar crear una clave dinámica para un objeto JavaScript, usando esta...

Programación Publicado el 2025-04-07

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo