, как эффективно удалить пунктуацию с помощью Pandas
проблема:
, когда предварительно обработанный текст Данные, важно удалить пунктуацию, чтобы подготовить ее к анализу. Эта задача включает в себя идентификацию и фильтрацию любого символа, определенного как пунктуация. В таких функциях, как Pandas 'str.replace может быть вычислительно дорогим. Это становится особенно важным при работе с сотнями тысяч записей.
1. Regex.sub:
использует субботную функцию из библиотеки RE с предварительно скомпилированным шаблоном regex. Этот метод предлагает значительное улучшение производительности по сравнению с Str.replace.
2. str.TransLate:
использует функцию Python Str.TransLate, которая реализована в C и известно своей скоростью. Процесс включает преобразование входных строк в одну большую строку, применяя перевод для удаления пунктуации, а затем разделение результата для восстановления исходных строк.
3. Другие соображения:
обработка NANS: Список методов понимания, таких как regex.sub, не работают с NANS. Вам нужно обрабатывать с ними отдельно, идентифицируя их индексы и применив замену только к не нулевым значениям.
dataFrames:
, чтобы применить эти методы для целых DataFrames, вы можете сплотить значения и выполните замену на сплющенном массиве, прежде чем изменить его обратно к исходной форме.анализ производительности:
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3