BigQuery 및 XGBoost 통합: 이진 분류를 위한 Jupyter Notebook 튜토리얼

첫 장 > 프로그램 작성 > BigQuery 및 XGBoost 통합: 이진 분류를 위한 Jupyter Notebook 튜토리얼

BigQuery 및 XGBoost 통합: 이진 분류를 위한 Jupyter Notebook 튜토리얼

2024-11-01에 게시됨

검색:490

BigQuery and XGBoost Integration: A Jupyter Notebook Tutorial for Binary Classification

소개

표 형식 데이터에 대한 이진 분류 모델을 선택하면서 저는 빠르고 비딥 러닝 모델인 GBDT(Gradient Boosting Decision Trees)를 빠르게 시험해 보기로 결정했습니다. 이 문서에서는 BigQuery를 데이터 소스로 사용하고 모델링을 위해 XGBoost 알고리즘을 사용하여 Jupyter Notebook 스크립트를 만드는 과정을 설명합니다.

완전한 스크립트

설명 없이 바로 스크립트로 넘어가고 싶은 분들을 위해 여기 있습니다. 프로젝트에 맞게 project_name,dataset_name, table_name을 조정해주세요.

import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import precision_score, recall_score, f1_score, log_loss
from google.cloud import bigquery

# Function to load data from BigQuery
def load_data_from_bigquery(query):
    client = bigquery.Client()
    query_job = client.query(query)
    df = query_job.to_dataframe()
    return df

def compute_metrics(labels, predictions, prediction_probs):
    precision = precision_score(labels, predictions, average='macro')
    recall = recall_score(labels, predictions, average='macro')
    f1 = f1_score(labels, predictions, average='macro')
    loss = log_loss(labels, prediction_probs)
    return {
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'loss': loss
    }

# Query in BigQuery
query = """
SELECT *
FROM `..`
"""

# Loading data
df = load_data_from_bigquery(query)

# Target data
y = df["reaction"]

# Input data
X = df.drop(columns=["reaction"], axis=1)

# Splitting data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1)

# Training the XGBoost model
model = xgb.XGBClassifier(eval_metric='logloss')

# Setting the parameter grid
param_grid = {
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'subsample': [0.8, 0.9, 1.0]
}

# Initializing GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1)

# Executing the grid search
grid_search.fit(X_train, y_train)

# Displaying the best parameters
print("Best parameters:", grid_search.best_params_)

# Model with the best parameters
best_model = grid_search.best_estimator_

# Predictions on validation data
val_predictions = best_model.predict(X_val)
val_prediction_probs = best_model.predict_proba(X_val)

# Predictions on training data
train_predictions = best_model.predict(X_train)
train_prediction_probs = best_model.predict_proba(X_train)

# Evaluating the model (validation data)
val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs)
print("Optimized Validation Metrics:", val_metrics)

# Evaluating the model (training data)
train_metrics = compute_metrics(y_train, train_predictions, train_prediction_probs)
print("Optimized Training Metrics:", train_metrics)

설명

BigQuery에서 데이터 로드

이전에는 데이터가 CSV 파일로 Cloud Storage에 저장되었지만 느린 데이터 로드로 인해 학습 프로세스의 효율성이 저하되어 더 빠른 데이터 처리를 위해 BigQuery로 전환하게 되었습니다.

BigQuery 클라이언트 설정

from google.cloud import bigquery
client = bigquery.Client()

이 코드는 환경 변수 또는 Google Cloud SDK를 통해 설정할 수 있는 Google Cloud 사용자 인증 정보를 사용하여 BigQuery 클라이언트를 초기화합니다.

데이터 쿼리 및 로드

def load_data_from_bigquery(query):
    query_job = client.query(query)
    df = query_job.to_dataframe()
    return df

이 함수는 SQL 쿼리를 실행하고 그 결과를 Pandas의 DataFrame으로 반환하므로 효율적인 데이터 처리가 가능합니다.

XGBoost를 사용하여 모델 훈련

XGBoost는 경사 부스팅을 활용한 고성능 기계 학습 알고리즘으로 분류 및 회귀 문제에 널리 사용됩니다.

https://arxiv.org/pdf/1603.02754

모델 초기화

import xgboost as xgb
model = xgb.XGBClassifier(eval_metric='logloss')

여기서 XGBClassifier 클래스는 로그 손실을 평가 지표로 사용하여 인스턴스화됩니다.

데이터 분할

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1)

이 기능은 데이터를 훈련 세트와 검증 세트로 분할하는데, 이는 모델 성능을 테스트하고 과적합을 방지하는 데 중요합니다.

매개변수 최적화

from sklearn.model_selection import GridSearchCV
param_grid = {
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'subsample': [0.8, 0.9, 1.0]
}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1)
grid_search.fit(X_train, y_train)

GridSearchCV는 모델에 가장 적합한 매개변수 조합을 찾기 위해 교차 검증을 수행합니다.

모델 평가

모델의 성능은 검증 데이터세트의 정밀도, 재현율, F1 점수, 로그 손실을 사용하여 평가됩니다.

def compute_metrics(labels, predictions, prediction_probs):
    from sklearn.metrics import precision_score, recall_score, f1_score, log_loss
    return {
        'precision': precision_score(labels, predictions, average='macro'),
        'recall': recall_score(labels, predictions, average='macro'),
        'f1': f1_score(labels, predictions, average='macro'),
        'loss': log_loss(labels, prediction_probs)
    }
val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs)
print("Optimized Validation Metrics:", val_metrics)

출력 결과

노트북을 실행하면 최상의 매개변수와 모델 평가 측정항목을 보여주는 다음 출력을 얻게 됩니다.

Best parameters: {'learning_rate': 0.2, 'max_depth': 5, 'n_estimators': 300, 'subsample': 0.9}
Optimized Validation Metrics: {'precision': 0.8919952583956949, 'recall': 0.753797304483842, 'f1': 0.8078981867164722, 'loss': 0.014006406471894417}
Optimized Training Metrics: {'precision': 0.8969556573175115, 'recall': 0.7681976753444204, 'f1': 0.8199353049298048, 'loss': 0.012475375680566196}

추가 정보

Google Cloud Storage를 데이터 소스로 사용

어떤 경우에는 BigQuery보다 Google Cloud Storage에서 데이터를 로드하는 것이 더 적절할 수 있습니다. 다음 함수는 Cloud Storage에서 CSV 파일을 읽고 이를 Pandas의 DataFrame으로 반환하며, load_data_from_bigquery 함수와 상호 교환적으로 사용할 수 있습니다.

from google.cloud import storage

def load_data_from_gcs(bucket_name, file_path):
    client = storage.Client()
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(file_path)
    data = blob.download_as_text()
    df = pd.read_csv(io.StringIO(data), encoding='utf-8')
    return df

사용 예:

bucket_name = ''
file_path = ''

df = load_data_from_gcs(bucket_name, file_path)

LightGBM으로 모델 훈련

XGBoost 대신 LightGBM을 사용하려면 동일한 설정에서 XGBClassifier를 LGBMClassifier로 간단히 교체하면 됩니다.

import lightgbm as lgb
model = lgb.LGBMClassifier()

결론

향후 기사에서는 학습에 BigQuery ML(BQML)을 사용하는 방법을 다룰 예정입니다.

릴리스 선언문 이 기사는 https://dev.to/suzuki0430/bigquery-and-xgboost-integration-a-jupyter-notebook-tutorial-for-binary-classification-1ocb?1에서 복제됩니다.1 침해가 있는 경우에는 Study_golang에 문의하세요. @163.com 삭제

최신 튜토리얼 더>

Java 오버로딩이 반환 유형을 기반으로 할 수 없는 이유는 무엇입니까?
Java의 반환 유형 오버로딩: 비호환성Java의 다각적인 능력에도 불구하고 언어는 함수 오버로딩과 관련하여 제한을 제기합니다. 반환 유형을 변경하는 것만으로도 가능합니다. 이로 인해 Java가 왜 그러한 오버로드를 금지하는가라는 일반적인 질문이 제기되었습니다.답은 오...

프로그램 작성 2024-11-08에 게시됨
강력한 비밀번호 생성기
내가 만든 이 펜을 확인해 보세요!

프로그램 작성 2024-11-08에 게시됨
Angular 및 15의 개선
1) inject를 사용하여 생성자 없이 Angular 14에 서비스를 주입합니다. 이전에는 모든 서비스를 주입하려면 생성자가 있는 클래스가 항상 필요했습니다. class MyClass { constructor(private myService: MyService) ...

프로그램 작성 2024-11-08에 게시됨
객체 지향 프로그래밍: DSA를 마스터하기 위한 첫 번째 단계
Imagine you're walking through a bustling factory. You see different machines, each designed for a specific purpose, working together to create a fina...

프로그램 작성 2024-11-08에 게시됨
$Android에서 \"java.lang.String 유형의 값을 JSONObject로 변환할 수 없습니다\" 오류를 수정하는 방법은 무엇입니까?$
Android에서 \"java.lang.String 유형의 값을 JSONObject로 변환할 수 없습니다\" 오류를 수정하는 방법은 무엇입니까?
"java.lang.String 유형의 값 \u003cbr\u003e를 JSONObject로 변환할 수 없습니다." 오류 문제 해결Android 애플리케이션에서 , JSON 구문 분석과 관련된 오류가 발생했습니다. 특히 다음 예외가 표시됩니다.org....

프로그램 작성 2024-11-08에 게시됨
JavaScript에서 강제 새로 고침을 강제하고 캐싱 문제를 방지하는 방법은 무엇입니까?
JavaScript 캐싱 문제 해결: JavaScript로 캐시 지우기새 JavaScript 코드를 배포할 때 최신 업데이트가 반영되지 않아 답답합니다. 이 문제는 캐시된 브라우저 응답으로 인해 자주 발생합니다. 이 문제를 해결하기 위해 JavaScript 함수 win...

프로그램 작성 2024-11-08에 게시됨
Inflect를 사용하여 Python에서 정수를 단어로 변환하는 방법은 무엇입니까?
Python에서 정수를 단어로 변환숫자 값을 해당 단어 표현으로 변환하는 것은 Python에서 어려운 작업일 수 있습니다. 이 기사에서는 inflect 패키지를 사용하여 간단한 솔루션을 탐색합니다.딜레마:제공된 예제에서는 노래 "99 Bottles of Bee...

프로그램 작성 2024-11-08에 게시됨
응답 본문을 닫으면 Go HTTP 클라이언트에서 연결 재사용이 실제로 활성화됩니까?
Go HTTP 클라이언트 연결 재사용: 일반적인 오해Go HTTP 클라이언트는 기본적으로 연결을 재사용하도록 설계되어 효율적인 네트워크 활용을 제공합니다. 그러나 특정 시나리오에서는 연결 재사용에 대한 오해로 이어질 수 있습니다.원래 쿼리: 무한 연결 생성주어진 코드에...

프로그램 작성 2024-11-08에 게시됨
Python 함수에서 표준 출력 및 오류 스트림을 동적으로 리디렉션하는 방법은 무엇입니까?
Python의 상황별 스트림 리디렉션표준 출력 및 오류 스트림(stdout 및 stderr) 리디렉션은 많은 시나리오에서 유용한 것으로 입증되었습니다. 그러나 함수가 이러한 스트림에 대한 내부 참조를 보유할 때 기존 방법은 부족한 경우가 많습니다.동적 솔루션이 필요함s...

프로그램 작성 2024-11-08에 게시됨
Java에서 파일이나 폴더의 크기를 어떻게 효율적으로 계산합니까?
Java에서 파일 또는 폴더 크기 가져오기파일 또는 폴더 크기를 검색하는 것은 파일 작업 시 일반적인 작업입니다. 자바에서. 효과적으로 수행할 수 있는 방법은 다음과 같습니다.파일 크기 가져오기파일 크기를 가져오려면 java.io에서 length() 메소드를 사용할 수...

프로그램 작성 2024-11-08에 게시됨
변수 파트-04
মনে করুন আপনি চা খাবেন। না, চা না। কফিই খান। প্রোগ্রামার হচ্ছেন কফি তো খেতেন পারেন। কফিকে প্রোগ্রামারদের সঙ্গি বললে ভুল হবে না । যাই হোক। এখন কফি তৈর...

프로그램 작성 2024-11-08에 게시됨
React를 시작했을 때 알았더라면 좋았을 것들
3년간의 React 개발에서 얻은 교훈 처음 React에 뛰어들었을 때, 판도라의 상자를 여는 듯한 느낌이 들었습니다. 배울 것이 너무 많았고, 그 과정에서 "아하!"라는 말을 많이 접하게 되었습니다. 순간. React 여정에서 몇 가지 과속 방지턱을...

프로그램 작성 2024-11-08에 게시됨
Golang에서 타이핑 속도 테스트 CLI 애플리케이션 작성
그 제목에 대해 오랫동안 생각해야 했나요?... 이제 그 문제를 해결했으니 멋진 코드를 작성해 보겠습니다. :) 펌프 브레이크 ? 삐걱삐걱.... 오늘 우리가 만들려고 하는 것에 대해 약간 소개하겠습니다. 제목이 명확하지 않은 경우 golang에서 타이핑 속도를 계...

프로그램 작성 2024-11-08에 게시됨
내 부트스트랩 모달이 작동하지 않는 이유는 무엇입니까? ($(...).modal은 함수가 아닙니다)
TypeError: $(...).modal은 Bootstrap Modal의 함수가 아닙니다. Bootstrap 모달을 HTML에 동적으로 삽입하고 jQuery를 사용하여 트리거합니다. 문제를 자세히 살펴보겠습니다.오류는 "$().modal" 함수가 j...

프로그램 작성 2024-11-08에 게시됨
PHP에서 재귀 익명 함수를 만드는 방법은 무엇입니까?
재귀적인 익명 PHP 함수 생성PHP에서 재귀적인 익명 함수를 생성하는 것이 유리할 수 있습니다. 아래 코드는 함수를 참조로 전달하여 이를 수행하는 방법을 보여줍니다.$factorial = function( $n ) use ( &$factorial ) {...

프로그램 작성 2024-11-08에 게시됨