Introducción
DOMDocument, una clase de PHP, ofrece un enfoque conveniente para el análisis y manipulación de documentos HTML. Sin embargo, al intentar conservar etiquetas HTML mientras extraen contenido, los usuarios pueden encontrar dificultades. Este artículo profundiza en el concepto subyacente de DOM y propone soluciones para abordar este desafío.
Comprensión de DOM y nodos
DOMDocument representa documentos HTML como árboles jerárquicos de nodos. Cada nodo puede tener nodos secundarios, formando una estructura compleja. Es fundamental reconocer que los elementos HTML, junto con sus atributos y contenido de texto, se representan como nodos dentro de un documento DOM.
Resolución del problema de conservación de etiquetas
El contenido proporcionado El código recupera con éxito el nodo DIV con la identificación "showContent". Sin embargo, sólo recupera el contenido de texto dentro del DIV, excluyendo las etiquetas HTML. Esto se debe a que el código utiliza $tag->nodeValue, que extrae únicamente el texto en lugar de los nodos reales.
Solución: atravesar nodos
Para conservar los nodos HTML, debe recorrer los nodos secundarios de su nodo de destino. El siguiente código muestra este enfoque:
$dom = new DOMDocument(); @$dom->loadHTML($html); $xpath = new DOMXPath($dom); $tags = $xpath->query('.//div[@id="showContent"]'); foreach ($tags as $tag) { echo $dom->saveXML($tag); echo '
'; }
Recuperar información específica de HTML
Si necesita información específica del documento HTML, como enlaces de la tabla, puede modificar la consulta XPath para seleccionar el nodos apropiados. Por ejemplo:
foreach ($div->getElementsByTagName('a') as $link) { echo $dom->saveXML($link); }
Recursos adicionales
Para obtener más ayuda sobre cómo trabajar con DOMDocument, consulte los siguientes recursos:
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3