GitLab CI/CD および SFTP 統合のための Terraform を使用した Lambda の実装、Go の S Databricks

表紙 > プログラミング > GitLab CI/CD および SFTP 統合のための Terraform を使用した Lambda の実装、Go の S Databricks

GitLab CI/CD および SFTP 統合のための Terraform を使用した Lambda の実装、Go の S Databricks

2024 年 11 月 8 日に公開

ブラウズ：834

Implementando uma Lambda com GitLab CI/CD e Terraform para Integração SFTP, S Databricks em Go

Databricks のプロセス自動化によるコスト削減

クライアントで、Databricks で実行されるプロセスのコストを削減する必要がありました。 Databricks が担当した機能の 1 つは、さまざまな SFTP からファイルを収集し、それらを解凍してデータレイクに配置することでした。

データワークフローの自動化は、最新のデータエンジニアリングにおいて重要なコンポーネントです。この記事では、GitLab CI/CD と Terraform を使用して、Go アプリケーションが SFTP サーバーに接続し、ファイルを収集して Amazon S3 に保存し、最終的に Databricks でジョブをトリガーできるようにする AWS Lambda 関数を作成する方法を説明します。このエンドツーエンドのプロセスは、効率的なデータ統合と自動化に依存するシステムにとって不可欠です。

この記事に必要なもの

プロジェクトのリポジトリを持つ GitLab アカウント。
Lambda、S3、および IAM リソースを作成する権限を持つ AWS アカウント。
ジョブを作成して実行する権限を持つ Databricks アカウント。
Go、Terraform、GitLab CI/CD の基礎知識。

ステップ 1: Go アプリケーションの準備

まず、SFTP サーバーに接続してファイルを収集する Go アプリケーションを作成します。 SFTP 接続を確立するには github.com/pkg/sftp などのパッケージを使用し、AWS S3 サービスと対話するには github.com/aws/aws-sdk-go などのパッケージを使用します。

package main

import (
 "fmt"
 "log"
 "os"
 "path/filepath"

 "github.com/pkg/sftp"
 "golang.org/x/crypto/ssh"
 "github.com/aws/aws-sdk-go/aws"
 "github.com/aws/aws-sdk-go/aws/session"
 "github.com/aws/aws-sdk-go/service/s3/s3manager"
)

func main() {
 // Configuração do cliente SFTP
 user := "seu_usuario_sftp"
 pass := "sua_senha_sftp"
 host := "endereco_sftp:22"
 config := &ssh.ClientConfig{
  User: user,
  Auth: []ssh.AuthMethod{
   ssh.Password(pass),
  },
  HostKeyCallback: ssh.InsecureIgnoreHostKey(),
 }

 // Conectar ao servidor SFTP
 conn, err := ssh.Dial("tcp", host, config)
 if err != nil {
  log.Fatal(err)
 }
 client, err := sftp.NewClient(conn)
 if err != nil {
  log.Fatal(err)
 }
 defer client.Close()

 // Baixar arquivos do SFTP
 remoteFilePath := "/path/to/remote/file"
 localDir := "/path/to/local/dir"
 localFilePath := filepath.Join(localDir, filepath.Base(remoteFilePath))
 dstFile, err := os.Create(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer dstFile.Close()

 srcFile, err := client.Open(remoteFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer srcFile.Close()

 if _, err := srcFile.WriteTo(dstFile); err != nil {
  log.Fatal(err)
 }

 fmt.Println("Arquivo baixado com sucesso:", localFilePath)

 // Configuração do cliente S3
 sess := session.Must(session.NewSession(&aws.Config{
  Region: aws.String("us-west-2"),
 }))
 uploader := s3manager.NewUploader(sess)

 // Carregar arquivo para o S3
 file, err := os.Open(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer file.Close()

 _, err = uploader.Upload(&s3manager.UploadInput{
  Bucket: aws.String("seu-bucket-s3"),
  Key:    aws.String(filepath.Base(localFilePath)),
  Body:   file,
 })
 if err != nil {
  log.Fatal("Falha ao carregar arquivo para o S3:", err)
 }

 fmt.Println("Arquivo carregado com sucesso no S3")
}

ステップ 2: Terraform の構成

Terraform は、Lambda 関数と必要なリソースを AWS にプロビジョニングするために使用されます。 Lambda 関数、IAM ポリシー、S3 バケットの作成に必要な設定を含む main.tf ファイルを作成します。

provider "aws" {
  region = "us-east-1"
}

resource "aws_iam_role" "lambda_execution_role" {
  name = "lambda_execution_role"

  assume_role_policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = "sts:AssumeRole",
        Effect = "Allow",
        Principal = {
          Service = "lambda.amazonaws.com"
        },
      },
    ]
  })
}

resource "aws_iam_policy" "lambda_policy" {
  name        = "lambda_policy"
  description = "A policy that allows a lambda function to access S3 and SFTP resources"

  policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = [
          "s3:ListBucket",
          "s3:GetObject",
          "s3:PutObject",
        ],
        Effect = "Allow",
        Resource = [
          "arn:aws:s3:::seu-bucket-s3",
          "arn:aws:s3:::seu-bucket-s3/*",
        ],
      },
    ]
  })
}

resource "aws_iam_role_policy_attachment" "lambda_policy_attachment" {
  role       = aws_iam_role.lambda_execution_role.name
  policy_arn = aws_iam_policy.lambda_policy.arn
}

resource "aws_lambda_function" "sftp_lambda" {
  function_name = "sftp_lambda_function"

  s3_bucket = "seu-bucket-s3-com-codigo-lambda"
  s3_key    = "sftp-lambda.zip"

  handler = "main"
  runtime = "go1.x"

  role = aws_iam_role.lambda_execution_role.arn

  environment {
    variables = {
      SFTP_HOST     = "endereco_sftp",
      SFTP_USER     = "seu_usuario_sftp",
      SFTP_PASSWORD = "sua_senha_sftp",
      S3_BUCKET     = "seu-bucket-s3",
    }
  }
}

resource "aws_s3_bucket" "s3_bucket" {
  bucket = "seu-bucket-s3"
  acl    = "private"
}

ステップ 3: GitLab CI/CD の構成

GitLab で、.gitlab-ci.yml ファイルに CI/CD パイプラインを定義します。このパイプラインには、Go アプリケーションをテストするステップ、Terraform を実行してインフラストラクチャをプロビジョニングするステップ、および必要に応じてクリーンアップのステップを含める必要があります。

stages:
  - test
  - build
  - deploy

variables:
  S3_BUCKET: "seu-bucket-s3"
  AWS_DEFAULT_REGION: "us-east-1"
  TF_VERSION: "1.0.0"

before_script:
  - 'which ssh-agent || ( apt-get update -y && apt-get install openssh-client -y )'
  - eval $(ssh-agent -s)
  - echo "$PRIVATE_KEY" | tr -d '\r' | ssh-add -
  - mkdir -p ~/.ssh
  - chmod 700 ~/.ssh
  - ssh-keyscan -H 'endereco_sftp' >> ~/.ssh/known_hosts

test:
  stage: test
  image: golang:1.18
  script:
    - go test -v ./...

build:
  stage: build
  image: golang:1.18
  script:
    - go build -o myapp
    - zip -r sftp-lambda.zip myapp
  artifacts:
    paths:
      - sftp-lambda.zip
  only:
    - master

deploy:
  stage: deploy
  image: hashicorp/terraform:$TF_VERSION
  script:
    - terraform init
    - terraform apply -auto-approve
  only:
    - master
  environment:
    name: production

ステップ 4: Databricks との統合

ファイルを S3 にアップロードした後、Lambda 関数は Databricks でジョブをトリガーする必要があります。これは、Databricks API を使用して既存のジョブを起動することで実行できます。

package main

import (
 "bytes"
 "encoding/json"
 "fmt"
 "net/http"
)

// Estrutura para a requisição de iniciar um job no Databricks
type DatabricksJobRequest struct {
 JobID int `json:"job_id"`
}

// Função para acionar um job no Databricks
func triggerDatabricksJob(databricksInstance string, token string, jobID int) error {
 url := fmt.Sprintf("https://%s/api/2.0/jobs/run-now", databricksInstance)
 requestBody, _ := json.Marshal(DatabricksJobRequest{JobID: jobID})
 req, err := http.NewRequest("POST", url, bytes.NewBuffer(requestBody))
 if err != nil {
  return err
 }

 req.Header.Set("Content-Type", "application/json")
 req.Header.Set("Authorization", fmt.Sprintf("Bearer %s", token))

 client := &http.Client{}
 resp, err := client.Do(req)
 if err != nil {
  return err
 }
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
  return fmt.Errorf("Failed to trigger Databricks job, status code: %d", resp.StatusCode)
 }

 return nil
}

func main() {
 // ... (código existente para conectar ao SFTP e carregar no S3)

 // Substitua pelos seus valores reais
 databricksInstance := "your-databricks-instance"
 databricksToken := "your-databricks-token"
 databricksJobID := 123 // ID do job que você deseja acionar

 // Acionar o job no Databricks após o upload para o S3
 err := triggerDatabricksJob(databricksInstance, databricksToken, databricksJobID)
 if err != nil {
  log.Fatal("Erro ao acionar o job do Databricks:", err)
 }

 fmt.Println("Job do Databricks acionado com sucesso")
}

ステップ 5: パイプラインの実行

パイプラインを実行するためにコードを GitLab リポジトリにプッシュします。すべての手順が正常に完了し、Lambda 関数が動作し、S3 および Databricks と正しく対話していることを確認します。

完全なコードと .gitlab-ci.yml ファイルを設定したら、次の手順に従ってパイプラインを実行できます。

コードを GitLab リポジトリにプッシュします。

  git add .
  git commit -m "Adiciona função Lambda para integração SFTP, S3 e Databricks"
  git push origin master

git add .
git commit -m "Adiciona função Lambda para integração SFTP, S3 e Databricks"
git push origin master
´´´

GitLab CI/CD は新しいコミットを検出し、パイプラインを自動的に開始します。
リポジトリの CI/CD セクションにアクセスして、GitLab でパイプラインの実行を追跡します。
すべての段階が成功すると、Lambda 関数がデプロイされ、使用できるようになります。

アクセストークンや秘密キーなどの機密情報を保存するには、GitLab CI/CD で環境変数を構成する必要があることに注意してください。これは、GitLab プロジェクトの [設定] > [CI/CD] > [変数] セクションで行うことができます。

また、Databricks トークンにジョブをトリガーするために必要な権限があること、および指定された ID でジョブが存在することを確認してください。

結論

GitLab CI/CD、Terraform、AWS Lambda などのツールを使用すると、データエンジニアリングタスクの自動化を大幅に簡素化できます。この記事で説明する手順に従うことで、Go の効率性とシンプルさを備えた SFTP、S3、Databricks 間のデータ収集と統合を自動化する堅牢なシステムを作成できます。このアプローチにより、次のような問題に対処する準備が整います。大規模なデータ統合の課題。

私の連絡先:

LinkedIn - エアトンリラジュニア

iMasters - エアトンリラジュニア

aws #lambda #terraform #gitlab #ci_cd #go #databricks #dataengineering #automation

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/airton_lirajunior_2ddebd/implementando-uma-lambda-com-gitlab-cicd-e-terraform-para-integracao-sftp-s3-e-databricks-em-go-5hc0? 1 権利侵害がある場合は、[email protected] に連絡して削除してください。

最新のチュートリアルもっと>

画像などの Lazyload スクリプト
近年の HTML の最も優れた改良点の 1 つは、画像 (iframe も含む) に追加できる、ブラウザーにビューポートに表示されるまで画像を表示します。 <img src="/images/your-image.png" loading="lazy"> 非常にシンプルで、非常に...

プログラミング 2024 年 11 月 8 日に公開
なぜ `std::optional` には参照型の特殊化が欠けているのでしょうか?
質問: std::optional に参照型の特殊化がないことを調べる標準 C では、 std::optional はコンテナを提供します。値を保持するか、値が存在しないことを示します。ただし、Boost の対応するものとは異なり、std::optional には参照型の特殊化が欠けており、ユーザー...

プログラミング 2024 年 11 月 8 日に公開
JavaScript の正規表現が機能しないのはなぜですか
JavaScript RegEx Not Working?コードは正規表現を使用して日付形式の正当性をチェックしますが、常に false を返します。問題は正規表現の構築にあります。文字列から正規表現を初期化しているため、パターン内のバックスラッシュ (\) を二重引用符で囲む必要があります。これは...

プログラミング 2024 年 11 月 8 日に公開
MySQL データベースをプレーンテキスト (CSV) バックアップにダンプするにはどうすればよいですか?
SQL を使用した MySQL データベースのプレーンテキスト (CSV) バックアップへのダンプ主に MySQL 用に設計された形式でデータを出力する mysqldump を使用する代わりに、代替方法を利用できます。ユニバーサル CSV バックアップを作成します。TSV エクスポート:タブ区切りを...

プログラミング 2024 年 11 月 8 日に公開
Android でアクティビティを終了してユーザーがスムーズにログアウトできるようにする方法
問題の理解: Android でのアクティビティの終了ユーザーのログアウトプロセスをスムーズに行うには、次の時点で以前のアクティビティをすべて終了することが重要です。ログアウトボタンがクリックされました。これにより、画面が残ってログイン手順が妨げられるのを防ぎます。 FLAG_ACTIVITY フ...

プログラミング 2024 年 11 月 8 日に公開
Ubuntu 16.04 で Go をインストール中に「root が所有していない 1000:0」エラーが発生するのはなぜですか?
Go インストール時の「root が所有していない」エラーのトラブルシューティングUbuntu 16.04 に Go をインストールしようとすると、エラーメッセージが表示される場合があります「root 所有の 1000:0 はやめてください。」この問題は、システムルートディレクトリの所有者が間...

プログラミング 2024 年 11 月 8 日に公開
PHP でタイムゾーンのドロップダウンリストを生成するにはどうすればよいですか?
PHP でタイムゾーンのドロップダウンリストを生成するウェブサイトに日付を表示する場合、ユーザーが希望のタイムゾーンを指定できるようにすることが重要です。これにより、日付が現地時間で正しく表示されるようになります。ここでは、PHP でタイムゾーンのドロップダウンリストを生成する 3 つの方法...

プログラミング 2024 年 11 月 8 日に公開
WordPress AJAX 呼び出しが 0 を返すのはなぜですか?
WordPress での Ajax 呼び出し: 出力の問題のトラブルシューティングAjax 呼び出しは出力として常に 0 を返し、原因について困惑しています。この問題を修正するには、次の点を考慮してください。WordPress のグローバル ajaxurl 変数:WordPress は、AJAX 呼...

プログラミング 2024 年 11 月 8 日に公開
Laravel のドメイン駆動設計 (DDD) の簡単なガイド
Laravel プロジェクトが成長するにつれて、物事が少し手に負えなくなり始めていると感じたことはありますか?コントローラーは肥大化し、モデルは過剰な機能を実行し始め、コードベースは突然、何か月も整理しようと思っていた引き出しのようなものになってしまいます。ここで、ドメイン駆動設計 (DDD) が介...

プログラミング 2024 年 11 月 8 日に公開
Net/Http パッケージをインポートするときにデッドロック検出が無効になるのはなぜですか?
このコードではデッドロックエラーが返されないのはなぜですか?提供されたコードは net/http パッケージをインポートし、実行するゴルーチンを初期化します。バックグラウンドポーリング。これにより、デッドロック検出機能が誤って無効になり、予想されるデッドロックエラーが返されなくなります。この動作...

プログラミング 2024 年 11 月 8 日に公開
Gorm を使用してクエリ結果を構造体にマップする方法: デフォルト値と空の配列の処理?
gorm を使用してクエリ結果を構造体に取得するクエリの結果をスキャンして構造体に取り込む場合は、次の点に従うことが重要です。 gorm の命名規則に従って、フィールドが適切にマッピングされるようにします。クエリの結果がデフォルト値または空の配列になる場合は、次のオプションを検討してください:パブリ...

プログラミング 2024 年 11 月 8 日に公開
主キーまたは一意制約を使用しない DB 内の行を更新/挿入します
プログラマーとしての 7 年間のキャリアの中で、私はほとんどの場合 ORM を介して SQL を操作してきました。私が特に便利だと思う Laravel の Eloquent ORM の機能の 1 つは、その updateOrInsert() メソッドです: DB::table('posts') ...

プログラミング 2024 年 11 月 8 日に公開
PHP で配列マージ演算子 + を使用する場合は?
演算子による配列の連結: 公開PHP では、演算子を使用して 2 つの配列を結合できます。ただし、以下のコードスニペットに示されているように、このメソッドが予期しない動作をする場合があります。 $array = array('アイテム 2'); var_dump($array);$...

プログラミング 2024 年 11 月 8 日に公開
JavaScript のメモリ管理とガベージコレクション
JavaScript アプリケーションが成長するにつれて、パフォーマンスの最適化が不可欠になります。重要な側面の 1 つは、メモリを効率的に管理することです。 JavaScript の自動ガベージコレクション (GC) は役に立ちますが、その仕組みとメモリリークを回避する方法を理解することで、ア...

プログラミング 2024 年 11 月 8 日に公開
Zustand のソースコードでの Object.assign() の使用法。
この記事では、Zustand のソースコードで Object.assign() がどのように使用されているかを理解します。上記のコードスニペットは vanilla.ts からのものです。状態を設定すると、Object.assign が状態オブジェクトの更新に使用されます。ま...

プログラミング 2024 年 11 月 8 日に公開