Warum Sie verteiltes Computing für reales maschinelles Lernen benötigen

Titelseite > Programmierung > Warum Sie verteiltes Computing für reales maschinelles Lernen benötigen

Warum Sie verteiltes Computing für reales maschinelles Lernen benötigen

Veröffentlicht am 08.11.2024

Durchsuche:670

Why You Need Distributed Computing for Real-World Machine Learning

Und wie PySpark Ihnen dabei helfen kann, riesige Datensätze wie ein Profi zu verarbeiten

Frameworks für maschinelles Lernen wie PyTorch und TensorFlow eignen sich hervorragend zum Erstellen von Modellen. Die Realität ist jedoch, dass Sie bei realen Projekten, bei denen es um riesige Datensätze geht, mehr als nur ein gutes Modell benötigen. Sie benötigen eine Möglichkeit, all diese Daten effizient zu verarbeiten und zu verwalten. Hier kommt verteiltes Computing wie PySpark ins Spiel, um den Tag zu retten.

Lassen Sie uns erläutern, warum der Umgang mit Big Data beim realen maschinellen Lernen bedeutet, über PyTorch und TensorFlow hinauszugehen, und wie PySpark Ihnen dabei hilft, dorthin zu gelangen.
Das eigentliche Problem: Big Data
Die meisten ML-Beispiele, die Sie online sehen, verwenden kleine, überschaubare Datensätze. Sie können das Ganze in Ihrem Speicher speichern, damit herumspielen und in wenigen Minuten ein Modell trainieren. Aber in realen Szenarien – wie der Erkennung von Kreditkartenbetrug, Empfehlungssystemen oder Finanzprognosen – haben Sie es mit Millionen oder sogar Milliarden von Zeilen zu tun. Plötzlich kann Ihr Laptop oder Server damit nicht mehr umgehen.

Wenn Sie versuchen, alle Daten auf einmal in PyTorch oder TensorFlow zu laden, wird es kaputt gehen. Diese Frameworks sind für das Modelltraining konzipiert und nicht für den effizienten Umgang mit großen Datenmengen. Hier kommt der verteilten Datenverarbeitung eine entscheidende Bedeutung zu.
Warum PyTorch und TensorFlow nicht ausreichen
PyTorch und TensorFlow eignen sich hervorragend zum Erstellen und Optimieren von Modellen, sind jedoch bei der Bewältigung umfangreicher Datenaufgaben unzureichend. Zwei Hauptprobleme:

Speicherüberlastung: Sie laden den gesamten Datensatz vor dem Training in den Speicher. Das funktioniert für kleine Datensätze, aber wenn Sie Terabytes an Daten haben, ist das Spiel vorbei.
Keine verteilte Datenverarbeitung: PyTorch und TensorFlow sind nicht für die verteilte Datenverarbeitung ausgelegt. Wenn Sie riesige Datenmengen haben, die auf mehrere Maschinen verteilt sind, helfen sie nicht wirklich.

Hier glänzt PySpark. Es ist darauf ausgelegt, mit verteilten Daten zu arbeiten, diese effizient auf mehreren Computern zu verarbeiten und gleichzeitig riesige Datensätze zu verarbeiten, ohne dass Ihr System abstürzt.

Beispiel aus der Praxis: Erkennung von Kreditkartenbetrug mit PySpark
Schauen wir uns ein Beispiel an. Angenommen, Sie arbeiten an einem Betrugserkennungssystem, das Kreditkartentransaktionsdaten verwendet. In diesem Fall verwenden wir einen beliebten Datensatz von Kaggle. Es enthält über 284.000 Transaktionen, von denen weniger als 1 % betrügerisch sind.

Schritt 1: PySpark in Google Colab einrichten
Wir verwenden hierfür Google Colab, da wir damit PySpark mit minimalem Setup ausführen können.

!pip install pyspark

Als nächstes importieren Sie die erforderlichen Bibliotheken und starten eine Spark-Sitzung.

import os
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, udf
from pyspark.ml.feature import VectorAssembler, StringIndexer, MinMaxScaler
from pyspark.ml.classification import RandomForestClassifier, GBTClassifier
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
from pyspark.ml.linalg import Vectors
import numpy as np
from pyspark.sql.types import FloatType

eine Pyspark-Sitzung starten

spark = SparkSession.builder \
    .appName("FraudDetectionImproved") \
    .master("local[*]") \
    .config("spark.executorEnv.PYTHONHASHSEED", "0") \
    .getOrCreate()

Schritt 2: Daten laden und vorbereiten

data = spark.read.csv('creditcard.csv', header=True, inferSchema=True)
data = data.orderBy("Time")  # Ensure data is sorted by time
data.show(5)
data.describe().show()

# Check for missing values in each column
data.select([sum(col(c).isNull().cast("int")).alias(c) for c in data.columns]).show()

# Prepare the feature columns
feature_columns = data.columns
feature_columns.remove("Class")  # Removing "Class" column as it is our label

# Assemble features into a single vector
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")
data = assembler.transform(data)
data.select("features", "Class").show(5)

# Split data into train (60%), test (20%), and unseen (20%)
train_data, temp_data = data.randomSplit([0.6, 0.4], seed=42)
test_data, unseen_data = temp_data.randomSplit([0.5, 0.5], seed=42)

# Print class distribution in each dataset
print("Train Data:")
train_data.groupBy("Class").count().show()

print("Test and parameter optimisation Data:")
test_data.groupBy("Class").count().show()

print("Unseen Data:")
unseen_data.groupBy("Class").count().show()

Schritt 3: Modell initialisieren

# Initialize RandomForestClassifier
rf = RandomForestClassifier(labelCol="Class", featuresCol="features", probabilityCol="probability")

# Create ParamGrid for Cross Validation
paramGrid = ParamGridBuilder() \
    .addGrid(rf.numTrees, [10, 20 ]) \
    .addGrid(rf.maxDepth, [5, 10]) \
    .build()

# Create 5-fold CrossValidator
crossval = CrossValidator(estimator=rf,
                          estimatorParamMaps=paramGrid,
                          evaluator=BinaryClassificationEvaluator(labelCol="Class", metricName="areaUnderROC"),
                          numFolds=5)

Schritt 4: Anpassen, Kreuzvalidierung durchführen und den besten Parametersatz auswählen

# Run cross-validation, and choose the best set of parameters
rf_model = crossval.fit(train_data)

# Make predictions on test data
predictions_rf = rf_model.transform(test_data)

# Evaluate Random Forest Model
binary_evaluator = BinaryClassificationEvaluator(labelCol="Class", rawPredictionCol="rawPrediction", metricName="areaUnderROC")
pr_evaluator = BinaryClassificationEvaluator(labelCol="Class", rawPredictionCol="rawPrediction", metricName="areaUnderPR")

auc_rf = binary_evaluator.evaluate(predictions_rf)
auprc_rf = pr_evaluator.evaluate(predictions_rf)
print(f"Random Forest - AUC: {auc_rf:.4f}, AUPRC: {auprc_rf:.4f}")

# UDF to extract positive probability from probability vector
extract_prob = udf(lambda prob: float(prob[1]), FloatType())
predictions_rf = predictions_rf.withColumn("positive_probability", extract_prob(col("probability")))

Schritt 5 Funktion zur Berechnung von Präzision, Rückruf und F1-Score

# Function to calculate precision, recall, and F1-score
def calculate_metrics(predictions):
    tp = predictions.filter((col("Class") == 1) & (col("prediction") == 1)).count()
    fp = predictions.filter((col("Class") == 0) & (col("prediction") == 1)).count()
    fn = predictions.filter((col("Class") == 1) & (col("prediction") == 0)).count()

    precision = tp / (tp   fp) if (tp   fp) != 0 else 0
    recall = tp / (tp   fn) if (tp   fn) != 0 else 0
    f1_score = (2 * precision * recall) / (precision   recall) if (precision   recall) != 0 else 0

    return precision, recall, f1_score

Schritt 6: Finden Sie den besten Schwellenwert für das Modell

# Find the best threshold for the model
best_threshold = 0.5
best_f1 = 0
for threshold in np.arange(0.1, 0.9, 0.1):
    thresholded_predictions = predictions_rf.withColumn("prediction", (col("positive_probability") > threshold).cast("double"))
    precision, recall, f1 = calculate_metrics(thresholded_predictions)

    if f1 > best_f1:
        best_f1 = f1
        best_threshold = threshold

print(f"Best threshold: {best_threshold}, Best F1-score: {best_f1:.4f}")

Schritt 7: Auswertung anhand unsichtbarer Daten

# Evaluate on unseen data
predictions_unseen = rf_model.transform(unseen_data)
auc_unseen = binary_evaluator.evaluate(predictions_unseen)
print(f"Unseen Data - AUC: {auc_unseen:.4f}")

precision, recall, f1 = calculate_metrics(predictions_unseen)
print(f"Unseen Data - Precision: {precision:.4f}, Recall: {recall:.4f}, F1-score: {f1:.4f}")

area_under_roc = binary_evaluator.evaluate(predictions_unseen)
area_under_pr = pr_evaluator.evaluate(predictions_unseen)
print(f"Unseen Data - AUC: {area_under_roc:.4f}, AUPRC: {area_under_pr:.4f}")

ERGEBNISSE

Best threshold: 0.30000000000000004, Best F1-score: 0.9062
Unseen Data - AUC: 0.9384
Unseen Data - Precision: 0.9655, Recall: 0.7568, F1-score: 0.8485
Unseen Data - AUC: 0.9423, AUPRC: 0.8618

Sie können dieses Modell dann speichern (wenige KB) und es überall in der Pyspark-Pipeline verwenden

rf_model.save()

Hier erfahren Sie, warum PySpark beim Umgang mit großen Datensätzen in realen maschinellen Lernaufgaben einen großen Unterschied macht:

Es lässt sich leicht skalieren: PySpark kann Aufgaben über Cluster verteilen, sodass Sie Terabytes an Daten verarbeiten können, ohne dass Ihnen der Arbeitsspeicher ausgeht.
Datenverarbeitung im laufenden Betrieb: PySpark muss nicht den gesamten Datensatz in den Speicher laden. Es verarbeitet die Daten nach Bedarf, was es deutlich effizienter macht.
Schnelleres Modelltraining: Mit verteiltem Computing können Sie Modelle schneller trainieren, indem Sie die Rechenlast auf mehrere Maschinen verteilen.
Abschließende Gedanken
PyTorch und TensorFlow sind fantastische Werkzeuge zum Erstellen von Modellen für maschinelles Lernen, aber für reale, groß angelegte Aufgaben benötigen Sie mehr. Durch verteiltes Computing mit PySpark können Sie große Datensätze effizient verarbeiten, Daten in Echtzeit verarbeiten und Ihre Pipelines für maschinelles Lernen skalieren.

Wenn Sie also das nächste Mal mit riesigen Datenmengen arbeiten – sei es Betrugserkennung, Empfehlungssysteme oder Finanzanalysen –, sollten Sie PySpark verwenden, um Ihr Projekt auf die nächste Stufe zu heben.

Den vollständigen Code und die Ergebnisse finden Sie in diesem Notebook. :
https://colab.research.google.com/drive/1W9naxNZirirLRodSEnHAUWevYd5LH8D4?authuser=5#scrollTo=odmodmqKcY23

Ich bin Swapnil, hinterlassen Sie gerne Ihre Kommentare, Ergebnisse und Ideen, oder pingen Sie mich an – [email protected] für Daten, Software-Entwickler-Auftritte und Jobs

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/femtyfem/why-you-need-distributed-computing-for-real-world-machine-learning-17oo?1 Bei Verstößen wenden Sie sich bitte an Study_golang@163 .com, um es zu löschen

Neuestes Tutorial Mehr>

Wie extrahieren Sie ein zufälliges Element aus einem Array in PHP?
zufällige Auswahl aus einem Array In PHP kann ein zufälliger Element aus einem Array mit Leichtigkeit erreicht werden. Betrachten Sie das folgen...

Programmierung Gepostet am 2025-04-12
Wie kann man eine generische Hash -Funktion für Tupel in ungeordneten Sammlungen implementieren?
generische Hash -Funktion für Tupel in nicht ordnungsgemäßen Sammlungen Die std :: unbestrahlte_Map und std :: unconded_set Container bieten e...

Programmierung Gepostet am 2025-04-12
Wie entferte ich anonyme JavaScript -Ereignishandler sauber?
entfernen anonymer Ereignis -Hörer Hinzufügen von anonymen Ereignishörern zu Elementen bieten Flexibilität und Einfachheit, aber wenn es Zeit is...

Programmierung Gepostet am 2025-04-12
Warum zeigt keine Firefox -Bilder mithilfe der CSS `Content` -Eigenschaft an?
Bilder mit Inhalts -URL in Firefox Es wurde ein Problem aufgenommen, an dem bestimmte Browser, speziell Firefox, nicht in den Verweisen der In...

Programmierung Gepostet am 2025-04-12
Wie kann ich die letzte Zeile für jede eindeutige Kennung in PostgreSQL effizient abrufen?
postgresql: Extrahieren der letzten Zeile für jede eindeutige Kennung In Postgresql können Sie Situationen begegnen, in denen Sie die Informat...

Programmierung Gepostet am 2025-04-12
Warum wird die Anfrage nicht nach dem Erfassen von Eingaben in PHP trotz gültiger Code erfasst?
adressieren nach Anfrage Fehlfunktion in php in dem vorgestellten Code -Snippet: action='' Die Intented -In -Intented -Aufnahme. Die Ausg...

Programmierung Gepostet am 2025-04-12
Warum gibt es Streifen in meinem linearen Gradientenhintergrund und wie kann ich sie beheben?
die Hintergrundstreifen aus linearem Gradienten Beim Einsatz der Linear-Gradient-Eigenschaft für einen Hintergrund können Sie auffällige Strei...

Programmierung Gepostet am 2025-04-12
Python Read CSV -Datei UnicodEdeCodeError Ultimate Lösung
unicode dekodieren Fehler in der CSV-Datei Reading Wenn versucht wird, eine CSV-Datei mit dem integrierten CSV-Modul zu lesen, können Sie eine...

Programmierung Gepostet am 2025-04-12
Wie beheben Sie die Diskrepanzen für Modulpfade in Go -Mod mithilfe der Richtlinie Ersetzen?
überwinden Modulpfad -Diskrepanz in go mod Wenn GO mod verwendet wird, ist es möglich, auf einen Konflikt zu begegnen, bei dem ein Drittanbiet...

Programmierung Gepostet am 2025-04-12
$Warum bekomme ich nach der Installation von Archive_zip auf meinem Linux -Server eine "Klasse" ziparchive \ 'nicht gefunden?$
Warum bekomme ich nach der Installation von Archive_zip auf meinem Linux -Server eine "Klasse" ziparchive \ 'nicht gefunden?
class 'ziparchive' kein Fehler gefunden, während Archive_zip auf Linux Server Symptom installiert wird: beim Versuch, ein Skript zu ...

Programmierung Gepostet am 2025-04-12
Wie füge ich Blobs (Bilder) mithilfe von PHP richtig in MySQL ein?
Fügen Sie Blobs in mySQL -Datenbanken mit php beim Versuch, ein Bild in einer MySQL -Datenbank zu speichern, auf eine auf ein Bild zu speiche...

Programmierung Gepostet am 2025-04-12
Wie erfasst und streamen Sie Stdout in Echtzeit für die Ausführung von Chatbot -Befehl?
Das Problem liegt im traditionellen Ansatz, der alle Stdout sammelt und es als einzige Antwort zurückgibt. Um dies zu überwinden, brauchen wir e...

Programmierung Gepostet am 2025-04-12
Wie sende ich eine Roh Postanforderung mit Curl in PHP?
Wie sende ich eine rohe Postanfrage mit curl in php in php, curl ist eine beliebte Bibliothek für das Senden von HTTP -Anfragen. In diesem Art...

Programmierung Gepostet am 2025-04-12
Wie sendet Android Postdaten an PHP Server?
So senden Sie Postdaten um Postdaten in Android zu senden, gibt es mehrere Ansätze: 1. Apache httpclient (veraltet) httpclient httpcli...

Programmierung Gepostet am 2025-04-12
Wie umgeht ich Website -Blöcke mit Pythons Anfragen und gefälschten Benutzeragenten?
wie man das Browserverhalten mit Pythons Anfragen und gefälschten Benutzeragenten simuliert Python's Anfragen sind ein mächtiges Tool, um ...

Programmierung Gepostet am 2025-04-12

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel