挑戰:
這個問題在處理大型文本數據集時探索了str.replace的幾種性能替代方案: 1。 REGEX.SUB:
使用預編譯的Regex模式從RE庫中使用SUB函數。此方法對str.replace進行了重大的性能改進。2。 str.translate:利用python的str.translate函數,該功能以c實現並以其速度聞名。該過程涉及將輸入字符串轉換為一個大字符串,應用轉換以刪除標點符號,然後將結果分開以重建原始字符串。 3。其他注意事項:
列表理解方法(如Regex.sub)不與NAN一起使用。您需要通過識別其索引並僅將替換應用於非零值來分別處理它們。
dataframes:將這些方法應用於整個數據幀,您可以將值弄平。並在將其重塑為原始形狀之前對扁平陣列執行替換。 性能分析:
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3