Как извлечь текст из HTML -элементов с определенными классами в плоские массивы с помощью PHP DOM?

титульная страница > программирование > Как извлечь текст из HTML -элементов с определенными классами в плоские массивы с помощью PHP DOM?

Как извлечь текст из HTML -элементов с определенными классами в плоские массивы с помощью PHP DOM?

Опубликовано в 2025-02-06

Просматривать:793

How to Extract Text from HTML Elements with Specific Classes into Flat Arrays using PHP DOM?

Извлечение плоского текста из элементов с назначенным классом с использованием PHP Dom

Извлечение текста из конкретных элементов HTML является общей задачей в веб -разработке. PHP DOM предоставляет надежные инструменты для анализа HTML и доступа к его содержимому. В этой статье рассматривается конкретное требование для извлечения текста из элементов с номинированным классом в два плоских массива. Чередующиеся имена классов, задача состоит в том, чтобы сохранить текст в два массива: один для заголовков и один для контента. Например, учитывая следующий html:

Глава 1

это глава 1

нам нужно получить следующий вывод:

$ heading = ['Глава 1', 'Глава 2', 'Глава 3']; $ content = ['this is is wate 1', 'это глава 2', 'это глава 3'];

Chapter 1

This is chapter 1

solution

$heading = ['Chapter 1', 'Chapter 2', 'Chapter 3'];
$content = ['This is chapter 1', 'This is chapter 2', 'This is chapter 3'];

загрузить HTML в объект Domdocument:

$ dom = new Domdocument (); $ dom-> loadhtml ($ test);

создать объект domxpath для выполнения xpaths:

$dom = new DOMDocument();
$dom->loadHTML($test);

Использовать функцию ParsetOarray () для извлечения текста из элементов с указанным классом:

$xpath = new DOMXPath($dom);

он выполняет запрос xpath для назначенного класса.

итерация через соответствующие узлы и извлекает их текстовое содержимое.

$heading = parseToArray($xpath, 'Heading1-H');
$content = parseToArray($xpath, 'Normal-H');

Этот подход использует силу PHP DOM и XPath для эффективного извлечения текста из HTML -документов, что позволяет получить более сложные и целевые манипуляции содержимого.

]

Последний учебник Более>