」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 Node.js 流進行高效能資料處理

使用 Node.js 流進行高效能資料處理

發佈於2024-11-09
瀏覽:765

Efficient Data Handling with Node.js Streams

在本文中,我们将深入研究 Node.js Streams 并了解它们如何帮助高效处理大量数据。流提供了一种处理大型数据集的优雅方式,例如读取大型文件、通过网络传输数据或处理实时信息。与一次性读取或写入整个数据的传统 I/O 操作不同,流将数据分解为可管理的块并逐块处理它们,从而实现高效的内存使用。

在本文中,我们将介绍:

  1. 什么是 Node.js Streams?
  2. Node.js 中不同类型的流。
  3. 如何创建和使用流。
  4. 流的真实用例。
  5. 使用流的优点。

什么是 Node.js 流?

Node.js 中的 stream 是连续的数据流。流对于处理 I/O 密集型任务特别有用,例如读取文件、通过网络通信或与数据库交互。流无需等待整个操作完成,而是可以分块处理数据。

流的主要特点:

  • 事件驱动:流构建在 Node.js 的事件驱动架构之上,允许在数据可用时立即处理数据。
  • 内存高效:流将数据分成块并逐块处理,减少系统的内存负载。
  • 非阻塞:Node.js 流可以异步处理大数据,而不会阻塞主事件循环。

Node.js 中的流类型

Node.js提供了四种类型的流:

  1. 可读流:可以从中读取数据的流。
  2. 可写流:可以写入数据的流。
  3. 双工流:可读可写的流(例如网络套接字)。
  4. 转换流:在读取或写入时修改或转换数据的流(例如,压缩或解压缩文件)。

使用 Node.js 流

让我们通过示例探索每种类型的流。

3.1 可读流

可读流允许您逐段读取数据,这对于处理大文件或实时数据源很有用。


const fs = require('fs');

// Create a readable stream from a large file
const readableStream = fs.createReadStream('largeFile.txt', {
    encoding: 'utf8',
    highWaterMark: 16 * 1024 // 16 KB chunk size
});

readableStream.on('data', (chunk) => {
    console.log('New chunk received:', chunk);
});

readableStream.on('end', () => {
    console.log('Reading file completed');
});


  • 在此示例中,createReadStream 方法以 16 KB 的块读取文件。
  • 每个块一旦可用就会立即处理,而不是等待整个文件加载到内存中。
  • 结束事件标志着读取过程的完成。

3.2 可写流

可写流用于将数据增量写入目的地,例如文件或网络套接字。


const fs = require('fs');

// Create a writable stream to write data to a file
const writableStream = fs.createWriteStream('output.txt');

writableStream.write('Hello, world!\n');
writableStream.write('Writing data chunk by chunk.\n');

// End the stream and close the file
writableStream.end(() => {
    console.log('File writing completed');
});


  • write 以增量方式将数据发送到文件。
  • 结束函数表示不再写入数据并关闭流。

3.3 双工流

一个双工流可以读写数据。一个常见的例子是 TCP 套接字,它可以同时发送和接收数据。


const net = require('net');

// Create a duplex stream (a simple echo server)
const server = net.createServer((socket) => {
    socket.on('data', (data) => {
        console.log('Received:', data.toString());
        // Echo the data back to the client
        socket.write(`Echo: ${data}`);
    });

    socket.on('end', () => {
        console.log('Connection closed');
    });
});

server.listen(8080, () => {
    console.log('Server listening on port 8080');
});


  • 此示例创建一个基本的回显服务器,用于从客户端读取传入数据并将其发送回。
  • 当需要双向通信时(例如在网络协议中),双工流非常方便。

3.4 变换流

A 转换流是一种特殊类型的双工流,它在数据通过时修改数据。一个常见的用例是文件压缩。


const fs = require('fs');
const zlib = require('zlib');

// Create a readable stream for a file and a writable stream for the output file
const readable = fs.createReadStream('input.txt');
const writable = fs.createWriteStream('input.txt.gz');

// Create a transform stream that compresses the file
const gzip = zlib.createGzip();

// Pipe the readable stream into the transform stream, then into the writable stream
readable.pipe(gzip).pipe(writable);

writable.on('finish', () => {
    console.log('File successfully compressed');
});


  • 管道方法用于将数据流从一个流引导到另一个流。
  • 在本例中,文件被读取,使用 Gzip 压缩,然后写入新文件。

流的实际用例

4.1 处理大文件

处理大文件(例如日志或媒体)时,将整个文件加载到内存中效率低下,并且可能会导致性能问题。流使您能够增量读取或写入大文件,从而减少内存负载。

例子:

  • 用例:流式传输视频或音频文件的媒体播放器。
  • 解决方案:使用流可确保播放器一次仅加载数据块,从而提高播放性能并减少缓冲。

4.2 实时数据处理

聊天服务器或实时仪表板等实时应用程序需要在数据到达时对其进行处理。流提供了一种有效处理这些数据、减少延迟的方法。

例子:

  • 用例:股票价格监控仪表板。
  • 解决方案:流允许服务器实时处理传入的股票价格并将更新推送到用户界面。

4.3 文件压缩与解压

压缩是流的另一个常见用例。您可以使用转换流动态压缩数据,而不是将整个文件加载到内存中。

例子:

  • 用例:在保存大文件之前压缩它们的备份系统。
  • 解决方案:流允许增量读取和压缩文件,从而节省时间并减少内存占用。

使用流的优点

  1. 内存效率:流处理数据块,从而最大限度地减少处理大文件或数据集所需的内存。
  2. 提高性能:增量处理数据减少了加载和处理大量信息所需的时间。
  3. 非阻塞 I/O:流利用 Node.js 的异步架构,允许服务器在处理数据的同时处理其他任务。
  4. 实时数据处理:流允许实时通信,非常适合需要低延迟数据传输的 Web 应用程序。
  5. 灵活性:流可以组合、管道传输和转换,使其成为复杂数据处理管道的强大工具。

结论

Node.js 流提供了一种灵活高效的方式来处理大量数据,无论您是读取文件、处理网络请求还是执行实时操作。通过将数据分解为可管理的块,流允许您处理大型数据集,而不会耗尽系统内存。

在下一篇文章中,我们将探讨 NGINX 及其在提供静态内容、负载平衡以及在 Node.js 应用程序中充当反向代理方面的作用。我们还将讨论如何集成 SSL 和加密以增强安全性。

版本聲明 本文轉載於:https://dev.to/imsushant12/efficient-data-handling-with-nodejs-streams-4483?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 如何在 Go (Gorilla) 中向特定客戶端發送有針對性的 Websocket 更新?
    如何在 Go (Gorilla) 中向特定客戶端發送有針對性的 Websocket 更新?
    在Go (Gorilla) 中向特定客戶端發送Websocket 更新儘管是Go 新手,但您尋求有關實現Websocket 通信的指導您的預輸入項目。您已嘗試利用 Gorilla 的 GitHub 儲存庫中的範例,但在理解如何識別特定客戶端並針對 websocket 更新進行定位方面遇到了挑戰。 要...
    程式設計 發佈於2024-11-09
  • 大批
    大批
    方法是可以在物件上呼叫的 fns 數組是對象,因此它們在 JS 中也有方法。 slice(begin):將陣列的一部分提取到新數組中,而不改變原始數組。 let arr = ['a','b','c','d','e']; // Usecase: Extract till index ...
    程式設計 發佈於2024-11-09
  • 使用swoole作為基於ESP6的腳本可程式控制器的雲端物聯網閘道框架
    使用swoole作為基於ESP6的腳本可程式控制器的雲端物聯網閘道框架
    腳本可程式控制器的本機功能基本上已完成,開始實現遠端相關功能。 遠端系統整體架構如下: 使用ESP8266的SDK實作tcp伺服器和tcp客戶端。 在tcp伺服器的基礎上編寫http協議解析程式碼,設計簡單的http伺服器,處理與瀏覽器的資料交互,包括內建網頁的下載,並使用ajax技術獲取狀態並...
    程式設計 發佈於2024-11-09
  • Bootstrap 4 Beta 中的列偏移發生了什麼事?
    Bootstrap 4 Beta 中的列偏移發生了什麼事?
    Bootstrap 4 Beta:列偏移的刪除和恢復Bootstrap 4 在其Beta 1 版本中引入了重大更改柱子偏移了。然而,隨著 Beta 2 的後續發布,這些變化已經逆轉。 從 offset-md-* 到 ml-auto在 Bootstrap 4 Beta 1 中, offset-md-*...
    程式設計 發佈於2024-11-09
  • 為什麼在 Java 的 Random 類別中設定種子會傳回相同的數字?
    為什麼在 Java 的 Random 類別中設定種子會傳回相同的數字?
    Java隨機數產生:為什麼設定種子會回傳相同的數字? 儘管將Random類別的種子設定為特定值,但隨機數產生器始終會傳回相同的數字。讓我們探討一下可能導致此問題的原因。 了解 Random 類別和種子初始化Java Random 類別旨在產生偽隨機數。預設情況下,它使用其內部時鐘作為種子值,使其產生...
    程式設計 發佈於2024-11-09
  • 在 Go 中使用 WebSocket 進行即時通信
    在 Go 中使用 WebSocket 進行即時通信
    构建需要实时更新的应用程序(例如聊天应用程序、实时通知或协作工具)需要一种比传统 HTTP 更快、更具交互性的通信方法。这就是 WebSockets 发挥作用的地方!今天,我们将探讨如何在 Go 中使用 WebSocket,以便您可以向应用程序添加实时功能。 在这篇文章中,我们将介绍: WebSoc...
    程式設計 發佈於2024-11-09
  • 如何克服使用反射設定結構體欄位值時 SetCan() 總是傳回 False 的問題?
    如何克服使用反射設定結構體欄位值時 SetCan() 總是傳回 False 的問題?
    使用結構體的 SetString 探索反射反射提供了動態操作 Go 結構的強大工具。在此範例中,我們在嘗試使用反射來設定結構體欄位的值時遇到一個常見問題:CanSet() 始終傳回 false。這種障礙阻止了字段修改,使我們陷入困境。 識別陷阱提供的程式碼片段突顯了兩個基本錯誤:傳遞值而非指標: ...
    程式設計 發佈於2024-11-09
  • 為什麼 MySQL 中帶有子查詢的「IN」查詢很慢,如何提升效能?
    為什麼 MySQL 中帶有子查詢的「IN」查詢很慢,如何提升效能?
    MySQL 中帶有子查詢的緩慢「IN」查詢當使用子查詢時,使用「IN」運算子的MySQL查詢可能會表現出顯著的效能下降檢索「IN」子句的值很複雜。在這種情況下,用明確值取代子查詢結果會顯著縮短執行時間。 要了解此行為的原因,需要注意的是,每次評估「IN」查詢時,MySQL 都會執行子查詢。在提供的範...
    程式設計 發佈於2024-11-09
  • 如何使用WinAPI取得螢幕解析度?
    如何使用WinAPI取得螢幕解析度?
    使用 WinAPI 取得螢幕解析度在 WinAPI 中,存在多個函數來決定目前螢幕解析度。適當的選擇取決於具體要求。 檢索顯示尺寸檢索顯示尺寸檢索顯示尺寸 主監視器:使用GetSystemMetrics(SM_CXSCREEN) 和GetSystemMetrics( SM_CYCYSEN) 取得主顯...
    程式設計 發佈於2024-11-09
  • 如何修復透過 Gmail REST API 發送電子郵件時出現的「400 錯誤請求 + 失敗前提條件」錯誤?
    如何修復透過 Gmail REST API 發送電子郵件時出現的「400 錯誤請求 + 失敗前提條件」錯誤?
    Gmail REST API:解決“400 Bad Request Failed Precondition”錯誤嘗試使用Gmail REST API 與伺服器發送電子郵件時-到伺服器授權時,您可能會遇到一條錯誤訊息,指出「400 Bad Request Failed Precondition」。此錯...
    程式設計 發佈於2024-11-09
  • 如何使用 LOAD XML 和 XML_LOAD() 將缺少 ID 列的 XML 檔案匯入 MySQL?
    如何使用 LOAD XML 和 XML_LOAD() 將缺少 ID 列的 XML 檔案匯入 MySQL?
    使用XML_LOAD() 函數將XML 檔案匯入MySQL在這種情況下,您在嘗試使用下列命令將XML 檔案匯入MySQL 資料庫表時遇到錯誤載入XML 指令。出現此問題的原因是表中的欄位數與 XML 檔案中的值不匹配,且表中多了一個自動遞增 id 欄位。 要解決此錯誤,您可以指定要使用 LOAD X...
    程式設計 發佈於2024-11-09
  • C++ 物件的記憶體是如何組織的?
    C++ 物件的記憶體是如何組織的?
    C 物件的記憶體佈局動態轉換和重新解釋操作通常涉及操作物件記憶體指標。讓我們深入研究 C 如何在記憶體中組織對象,以便更好地理解這些操作。 根據 C 標準,類別或結構中非靜態資料成員的記憶體佈局主要由它們的宣告順序決定。具有相同存取說明符的成員按其聲明的順序排序。 除了成員變數之外,物件還為以下物件...
    程式設計 發佈於2024-11-09
  • 時間數據系列:故事的其餘部分
    時間數據系列:故事的其餘部分
    Time Data Series: The Rest of the Story - AdatoSystems It’s been a while since I wrote about PHP Zmanim – the work I’ve done with it and the ...
    程式設計 發佈於2024-11-09
  • 如何在 PyCharm 中輕鬆管理 Django 專案的環境變數?
    如何在 PyCharm 中輕鬆管理 Django 專案的環境變數?
    在PyCharm 中設定環境變數在處理依賴環境變數的專案時,擁有方便的方法直接在開發環境中管理這些設定至關重要。在本指南中,我們將示範如何在 PyCharm 中輕鬆設定環境變量,而無需求助於手動配置或 bash 檔案。 具體來說,我們將重點放在為Django 專案設定以下環境變數:DATABASE_...
    程式設計 發佈於2024-11-09
  • 如何修復 Windows 上的「pip install」存取被拒絕錯誤?
    如何修復 Windows 上的「pip install」存取被拒絕錯誤?
    克服Windows 上的「pip install」存取被拒絕錯誤使用pip 安裝可能是一項簡單的任務,但有時您可能會遇到存取錯誤在Windows 上出現拒絕錯誤,即使以管理員身分執行命令提示字元或PowerShell 也是如此。 此錯誤通常表現為:WindowsError: [Error 5] Ac...
    程式設計 發佈於2024-11-09

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3