Previsão de música do Tensorflow

Primeira página > Programação > Previsão de música do Tensorflow

Previsão de música do Tensorflow

Publicado em 2024-11-08

Navegar:658

Tensorflow music prediction

Neste artigo, mostro como usar o tensorflow para prever um estilo de música.
No meu exemplo, comparo techno e música clássica.

Você pode encontrar o código no meu github:
https://github.com/victordalet/sound_to_partition

I - Conjunto de dados

Para a primeira etapa, você precisa criar uma pasta de conjunto de dados e dentro adicionar uma pasta para estilo de música, por exemplo, eu adiciono uma pasta techno e uma pasta clássica na qual coloco minha música wav.

II - Trem

Eu crio um arquivo de trem, com os argumentos max_epochs para serem concluídos.

Modifique as classes no construtor que correspondem ao seu diretório na pasta do conjunto de dados.

No método de carregamento e processamento, recupero o arquivo wav de um diretório diferente e obtenho o espectrograma.

Para fins de treinamento, eu uso as convoluções e o modelo Keras.

import os
import sys
from typing import List

import librosa
import numpy as np
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical
from tensorflow.image import resize



class Train:

    def __init__(self):
        self.X_train = None
        self.X_test = None
        self.y_train = None
        self.y_test = None
        self.data_dir: str = 'dataset'
        self.classes: List[str] = ['techno','classic']
        self.max_epochs: int = int(sys.argv[1])

    @staticmethod
    def load_and_preprocess_data(data_dir, classes, target_shape=(128, 128)):
        data = []
        labels = []

        for i, class_name in enumerate(classes):
            class_dir = os.path.join(data_dir, class_name)
            for filename in os.listdir(class_dir):
                if filename.endswith('.wav'):
                    file_path = os.path.join(class_dir, filename)
                    audio_data, sample_rate = librosa.load(file_path, sr=None)
                    mel_spectrogram = librosa.feature.melspectrogram(y=audio_data, sr=sample_rate)
                    mel_spectrogram = resize(np.expand_dims(mel_spectrogram, axis=-1), target_shape)
                    data.append(mel_spectrogram)
                    labels.append(i)

        return np.array(data), np.array(labels)

    def create_model(self):
        data, labels = self.load_and_preprocess_data(self.data_dir, self.classes)
        labels = to_categorical(labels, num_classes=len(self.classes))  # Convert labels to one-hot encoding
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(data, labels, test_size=0.2,
                                                                                random_state=42)

        input_shape = self.X_train[0].shape
        input_layer = Input(shape=input_shape)
        x = Conv2D(32, (3, 3), activation='relu')(input_layer)
        x = MaxPooling2D((2, 2))(x)
        x = Conv2D(64, (3, 3), activation='relu')(x)
        x = MaxPooling2D((2, 2))(x)
        x = Flatten()(x)
        x = Dense(64, activation='relu')(x)
        output_layer = Dense(len(self.classes), activation='softmax')(x)
        self.model = Model(input_layer, output_layer)

        self.model.compile(optimizer=Adam(learning_rate=0.001), loss='categorical_crossentropy', metrics=['accuracy'])

    def train_model(self):
        self.model.fit(self.X_train, self.y_train, epochs=self.max_epochs, batch_size=32,
                       validation_data=(self.X_test, self.y_test))
        test_accuracy = self.model.evaluate(self.X_test, self.y_test, verbose=0)
        print(test_accuracy[1])

    def save_model(self):
        self.model.save('weight.h5')


if __name__ == '__main__':
    train = Train()
    train.create_model()
    train.train_model()
    train.save_model()

III - Teste

Para testar e usar o modelo, criei esta classe para recuperar o peso e prever o estilo da música.

Não se esqueça de adicionar as classes certas ao construtor.

from typing import List

import librosa
import numpy as np
from tensorflow.keras.models import load_model
from tensorflow.image import resize
import tensorflow as tf



class Test:

    def __init__(self, audio_file_path: str):
        self.model = load_model('weight.h5')
        self.target_shape = (128, 128)
        self.classes: List[str] = ['techno','classic']
        self.audio_file_path: str = audio_file_path

    def test_audio(self, file_path, model):
        audio_data, sample_rate = librosa.load(file_path, sr=None)
        mel_spectrogram = librosa.feature.melspectrogram(y=audio_data, sr=sample_rate)
        mel_spectrogram = resize(np.expand_dims(mel_spectrogram, axis=-1), self.target_shape)
        mel_spectrogram = tf.reshape(mel_spectrogram, (1,)   self.target_shape   (1,))

        predictions = model.predict(mel_spectrogram)

        class_probabilities = predictions[0]

        predicted_class_index = np.argmax(class_probabilities)

        return class_probabilities, predicted_class_index

    def test(self):
        class_probabilities, predicted_class_index = self.test_audio(self.audio_file_path, self.model)

        for i, class_label in enumerate(self.classes):
            probability = class_probabilities[i]
            print(f'Class: {class_label}, Probability: {probability:.4f}')

        predicted_class = self.classes[predicted_class_index]
        accuracy = class_probabilities[predicted_class_index]
        print(f'The audio is classified as: {predicted_class}')
        print(f'Accuracy: {accuracy:.4f}')

Declaração de lançamento Este artigo está reproduzido em: https://dev.to/victordalet/tensorflow-music-prediction-4i6f?1 Se houver alguma infração, entre em contato com [email protected] para excluí-la

Tutorial mais recente Mais>

Implementando uma Lambda com GitLab CI/CD e Terraform para Integração SFTP, S Databricks em Go
Reduzindo Custos com Automação de Processos no Databricks Tive uma necessidade em um cliente de reduzir o custo de processos que rodavam no D...

Programação Publicado em 2024-11-08
Por que meu servidor GoLang não oferece vídeos MP4 grandes?
GoLang HTTP Webserver servindo vídeo MP4DesafioUm servidor web foi criado usando GoLang que serve HTML/JS/CSS e imagens. Quando o servidor tentou forn...

Programação Publicado em 2024-11-08
Como redirecionar uma página da Web e enviar dados POST com PHP sem usar formulários HTML?
Redirecionando e enviando dados POST com PHPNesta questão, encontramos um desafio único: como redirecionar uma página da web e enviar dados via o méto...

Programação Publicado em 2024-11-08
Como lidar com falhas de autorização durante envios de formulários JSF?
Falhas de autorização durante envios de formulários JSF: uma análise abrangenteAo implementar mecanismos de autorização personalizados em aplicativos ...

Programação Publicado em 2024-11-08
Como você pode gerenciar com eficiência vários arquivos JavaScript e CSS para obter o desempenho ideal da página?
Gerenciamento de vários arquivos JavaScript e CSS: práticas recomendadasOrganizar uma infinidade de arquivos JavaScript e CSS pode representar um desa...

Programação Publicado em 2024-11-08
Minha experiência de entrevista no Amazon SDE – 4 de maio
Minha experiência de entrevista no Amazon SDE – maio de 2024 Em maio de 2024, tive a oportunidade de fazer uma entrevista para uma função de ...

Programação Publicado em 2024-11-08
Como enviar várias imagens em uma solicitação cURL POST?
Usando matrizes em solicitações cURL POSTNa tentativa de enviar uma matriz de imagens usando cURL, os usuários podem encontrar problemas onde apenas o...

Programação Publicado em 2024-11-08
Por que os dados do Axios POST não estão acessíveis em $ _POST?
Parâmetros de postagem do Axios não lidos por $_POSTVocê está postando dados em um endpoint PHP usando Axios e espera acessá-los em $ _POST ou $_REQUE...

Programação Publicado em 2024-11-08
## Expressões construtoras em JPQL: usar ou não usar?
Expressões de construtor em JPQL: uma prática benéfica ou problemática?JPQL fornece a capacidade de criar novos objetos dentro de instruções select us...

Programação Publicado em 2024-11-08
Protótipo
É um dos padrões de design criacional. Usado para criar cópias duplicadas/superficiais de um determinado objeto. Este padrão é útil quando a criação d...

Programação Publicado em 2024-11-08
Variáveis Python: regras de nomenclatura e inferência de tipo explicadas
Python é uma linguagem de programação amplamente usada, conhecida por sua simplicidade e legibilidade. Compreender como as variáveis funcionam é fun...

Programação Publicado em 2024-11-08
Como adicionar com eficiência várias colunas a um DataFrame do Pandas simultaneamente?
Adicionando várias colunas a um DataFrame do Pandas simultaneamenteNa manipulação de dados do Pandas, adicionar com eficiência várias novas colunas a ...

Programação Publicado em 2024-11-08
De desenvolvedor a arquiteto sênior: uma história de sucesso de conhecimento técnico e dedicação
Uma história verdadeira de um desenvolvedor promovido como arquiteto sênior Um desenvolvedor Java EE qualificado com apenas 4 anos de experiência, ing...

Programação Publicado em 2024-11-08
Como adicionar elementos condicionalmente a um array associativo no PHP 8.1?
Adição de elemento de array condicionalEm PHP, a tarefa de adicionar condicionalmente um elemento a um array associativo pode ser um desafio. Por exem...

Programação Publicado em 2024-11-08
Das máquinas de escrever aos pixels: uma jornada com CMYK, RGB e construção de um visualizador de cores
Quando eu era criança, publiquei um fanzine sobre quadrinhos. Isso foi muito antes de eu ter um computador – ele foi criado usando máquina de escrever...

Programação Publicado em 2024-11-08

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo