Извлечение плоского текста из элементов с назначенным классом с использованием PHP Dom
Извлечение текста из конкретных элементов HTML является общей задачей в веб -разработке. PHP DOM предоставляет надежные инструменты для анализа HTML и доступа к его содержимому. В этой статье рассматривается конкретное требование для извлечения текста из элементов с номинированным классом в два плоских массива. Чередующиеся имена классов, задача состоит в том, чтобы сохранить текст в два массива: один для заголовков и один для контента. Например, учитывая следующий html:
Глава 1
это глава 1
нам нужно получить следующий вывод:$ heading = ['Глава 1', 'Глава 2', 'Глава 3']; $ content = ['this is is wate 1', 'это глава 2', 'это глава 3'];
solutionChapter 1
This is chapter 1
$heading = ['Chapter 1', 'Chapter 2', 'Chapter 3']; $content = ['This is chapter 1', 'This is chapter 2', 'This is chapter 3'];
загрузить HTML в объект Domdocument:
$ dom = new Domdocument (); $ dom-> loadhtml ($ test);
$dom = new DOMDocument(); $dom->loadHTML($test);Использовать функцию ParsetOarray () для извлечения текста из элементов с указанным классом:
$xpath = new DOMXPath($dom);
$heading = parseToArray($xpath, 'Heading1-H'); $content = parseToArray($xpath, 'Normal-H');
Этот подход использует силу PHP DOM и XPath для эффективного извлечения текста из HTML -документов, что позволяет получить более сложные и целевые манипуляции содержимого.
]Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3