Criar bot de bate-papo - JO PARIS 4 - Programação

Primeira página > Programação > Criar bot de bate-papo - JO PARIS 4

Criar bot de bate-papo - JO PARIS 4

Publicado em 31/08/2024

Navegar:997

Create chat bot - JO PARIS 4

Neste artigo, mostro como criar um bot de bate-papo simples com tensorflow.

Para os dados, uso um conjunto de dados kaggle do PARIS JO JO 2024 para obter frases na fase de treinamento.

Você pode obter o código final em meu github: https://github.com/victordalet/Kaggle_análise/tree/feat/paris_2024_olympics

I – Conjunto de dados de bot de bate-papo padrão

Um conjunto de dados tensorflow em bots de bate-papo tem esta aparência.
Podemos encontrar uma tag, um padrão e as diversas respostas.
Nosso objetivo será adicionar as diferentes sequências do conjunto de dados de apostas JO e adicioná-las a um arquivo como este.

{
  "intents": [
    {
      "tag": "google",
      "patterns": [
        "google",
        "search",
        "internet"
      ],
      "responses": [
        "Redirecting to Google..."
      ]
    },

II - Tratamento de dados

Eu li um conjunto de dados de bot de bate-papo no json padrão e no csv do JO e dividi e processei para adicionar a frase no json

import json


class CreateDataset:
    def __init__(self):
        self.json_path = 'data.json'
        self.csv_path = '../paris-2024-faq.csv'
        with open(self.json_path) as file:
            self.dataset = json.load(file)
        f = open(self.csv_path, 'r')
        dataset_split = f.read().split(";")
        question = False
        for data in dataset_split:
            if question:
                question = False
                self.dataset["intents"][-1]["responses"].append(data)

            if "?" in data:
                question = True
                self.dataset["intents"].append({
                    "tag": "",
                    "patterns": [
                        data
                    ],
                    "responses": [
                    ]
                })
        with open(self.json_path, 'w') as f:
            json.dump(self.dataset, f)

III – Treinamento

Para fins de treinamento, editei um exemplo de tensorflow.
Se você pegar meu código para executá-lo, adicione no primeiro argumento o número de épocas que você deseja.
Crie um diretório de salvamento onde seu modelo irá, e adicione dentro dos arquivos classes.pkl e words.pkl que estão no github como no início deste artigo.

import random
import json
import pickle
import numpy as np
import sys

import nltk
from nltk.stem import WordNetLemmatizer

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import SGD


class Train:
    words: list
    classes: list
    documents: list
    ignore_letters: list
    training: list
    output_empty: list
    train_x: list
    train_y: list
    model: Sequential
    epochs: int

    def __init__(self):
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = []
        self.classes = []
        self.documents = []
        self.training = []
        self.ignore_letters = ['?', '!']
        self.epochs = int(sys.argv[1])

    def run(self):
        self.download_nltk_data()
        self.load_training_data()
        self.prepare_training_data()
        self.build_neural_network()
        self.train()

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def load_training_data(self):
        for intent in self.intents['intents']:
            for pattern in intent['patterns']:
                word_list = nltk.word_tokenize(pattern)
                self.words.extend(word_list)
                self.documents.append((word_list, intent['tag']))
                if intent['tag'] not in self.classes:
                    self.classes.append(intent['tag'])

    def prepare_training_data(self):
        self.words = [self.lemmatizer.lemmatize(word)
                      for word in self.words
                      if word not in self.ignore_letters]

        self.words = sorted(set(self.words))
        self.classes = sorted(set(self.classes))
        pickle.dump(self.words, open('saves/words.pkl', 'wb'))
        pickle.dump(self.classes, open('saves/classes.pkl', 'wb'))

        self.output_empty = [0] * len(self.classes)
        for document in self.documents:
            bag = []
            word_patterns = document[0]
            word_patterns = [self.lemmatizer.lemmatize(word.lower())
                             for word in word_patterns]
            for word in self.words:
                bag.append(1) if word in word_patterns else bag.append(0)

            output_row = list(self.output_empty)
            output_row[self.classes.index(document[1])] = 1
            self.training.append([bag, output_row])

        random.shuffle(self.training)
        self.training = np.array(self.training)

        self.train_x = list(self.training[:, 0])
        self.train_y = list(self.training[:, 1])

    def build_neural_network(self):
        self.model = Sequential()
        self.model.add(Dense(128, input_shape=(len(self.train_x[0]),),
                             activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(64, activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(len(self.train_y[0]), activation='softmax'))

        sgd = SGD(lr=0.01, momentum=0.9, nesterov=True)
        self.model.compile(loss='categorical_crossentropy',
                           optimizer=sgd,
                           metrics=['accuracy'])

    def train(self):
        self.model.fit(np.array(self.train_x),
                       np.array(self.train_y),
                       epochs=self.epochs,
                       batch_size=5,
                       verbose=1)
        self.model.save('saves/chatbot_model.model')


if __name__ == "__main__":
    Train().run()

IV - Teste

Eu crio uma classe ChatBot, com um método de teste que recebe uma mensagem aleatória.
Você pode usar o método get_response para adicionar este chatbot ao seu aplicativo, por exemplo, eu o chamo em um dos meus projetos em uma API flask para ter meu chatbot em um site.

import random
import json
import pickle
import numpy as np

import nltk
from nltk.stem import WordNetLemmatizer
from tensorflow.keras.models import load_model


class ChatBot:
    lemmatizer: WordNetLemmatizer
    intents: dict
    words: list
    classes: list
    model: load_model
    ERROR_THRESHOLD = 0.25

    def __init__(self):
        self.download_nltk_data()
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = pickle.load(open('saves/words.pkl', 'rb'))
        self.classes = pickle.load(open('saves/classes.pkl', 'rb'))
        self.model = load_model('saves/chatbot_model.model')

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def clean_up_sentence(self, sentence):
        sentence_words = nltk.word_tokenize(sentence)
        sentence_words = [self.lemmatizer.lemmatize(word)
                          for word in sentence_words]
        return sentence_words

    def bag_of_words(self, sentence):
        sentence_words = self.clean_up_sentence(sentence)
        bag = [0] * len(self.words)
        for w in sentence_words:
            for i, word in enumerate(self.words):
                if word == w:
                    bag[i] = 1
        return np.array(bag)

    def predict_class(self, sentence):
        bow = self.bag_of_words(sentence)
        res = self.model.predict(np.array([bow]))[0]
        results = [[i, r]
                   for i, r in enumerate(res)
                   if r > self.ERROR_THRESHOLD]
        results.sort(key=lambda x: x[1], reverse=True)
        return_list = []
        for r in results:
            return_list.append({'intent': self.classes[r[0]],
                                'probability': str(r[1])})
        return return_list

    def get_response(self, intents_list):
        intents_json = self.intents
        tag = intents_list[0]['intent']
        list_of_intents = intents_json['intents']
        for i in list_of_intents:
            if i['tag'] == tag:
                result = random.choice(i['responses'])
                break
        return result

    def test(self):
        while True:
            message = input("")
            ints = self.predict_class(message)
            res = self.get_response(ints)
            print(res)

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/victordalet/create-chat-bot-jo-paris-2024-4dnf?1 Se houver alguma violação, entre em contato com [email protected] para excluí-la

Tutorial mais recente Mais>

Como posso substituir com eficiência várias substringas em uma string java?
substituindo várias substâncias em uma string com eficiência em java quando confrontado com a necessidade de substituir várias substringas den...

Programação Postado em 2025-04-18
Quando usar "tente" em vez de "se" para detectar valores variáveis no python?
usando "Try" vs. "se" para testar o valor da variável no python no python, há situações em que você pode precisar verificar ...

Programação Postado em 2025-04-18
Como posso unindo tabelas de banco de dados com diferentes números de colunas?
tabelas combinadas com diferentes colunas ] pode encontrar desafios ao tentar mesclar tabelas de banco de dados com colunas diferentes. Uma man...

Programação Postado em 2025-04-18
Como posso personalizar otimizações de compilação no compilador Go?
personalizando otimizações de compilação no Go Compiler O processo de compilação padrão em Go segue uma estratégia de otimização específica. N...

Programação Postado em 2025-04-18
Qual é o papel real de `JavaScript: void (0)` nas páginas da web?
desbloqueando o enigma de "javascript: void (0)" javascript, uma linguagem de programação ubíqua usada extensivamente no desenvolvim...

Programação Postado em 2025-04-18
$Por que estou recebendo um erro "Class \ 'Ziparchive \' não encontrado \" depois de instalar o Archive_zip no meu servidor Linux?$
Por que estou recebendo um erro "Class \ 'Ziparchive \' não encontrado \" depois de instalar o Archive_zip no meu servidor Linux?
classe 'ziparchive' não encontrou erro ao instalar Archive_zip no servidor Linux sintoma: quando o script de script que utiliza o zi...

Programação Postado em 2025-04-18
Posso migrar minha criptografia de McRypt para OpenSSL e descriptografar dados criptografados por McRypt usando o OpenSSL?
Atualizando minha biblioteca de criptografia de McRypt para OpenSSL posso atualizar minha biblioteca de criptografia de McHRPT para openssl? N...

Programação Postado em 2025-04-18
Maneira eficiente do Python de remover tags html do texto
removendo tags html em python para uma representação textual intocada manipular respostas html geralmente envolve a extração de texto relevant...

Programação Postado em 2025-04-18
Variedade
Os métodos são FNs que podem ser chamados em objetos Matrizes são objetos, portanto, eles também têm métodos no JS. Flice (Begin): Extra...

Programação Postado em 2025-04-18
Como redirecionar vários tipos de usuários (alunos, professores e administradores) para suas respectivas atividades em um aplicativo Firebase?
RED: Como redirecionar vários tipos de usuário para as respectivas atividades compreender o problema e um aplicativo de votamento de que é...

Programação Postado em 2025-04-18
Como enviar uma solicitação de postagem bruta com o CURL no PHP?
como enviar uma solicitação de postagem bruta usando o CURL em php em php, o CURL é uma biblioteca popular para enviar http requests. Este art...

Programação Postado em 2025-04-18
Como localizar a imagem de fundo CSS da direita?
posicionar a imagem de fundo da direita com css no reino do desenvolvimento da web, geralmente é desejável posicionar com precisão imagens de ...

Programação Postado em 2025-04-18
Você pode usar o CSS para colorir a saída do console no Chrome e no Firefox?
exibindo cores no javascript Console é possível usar o console do Chrome para exibir texto colorido, como vermelho para erros, laranja para al...

Programação Postado em 2025-04-18
PHP Iniciante: deve ler para iniciantes
Este trecho de php & mysql: Novice to ninja, 7ª edição apresenta conceitos fundamentais de PHP. Abordaremos a natureza do lado do servidor do PHP,...

Programação Postado em 2025-04-18
Implementando um método de barra de texto que alinham à esquerda em todos os navegadores
] ] alinhamento de texto em linhas inclinadas Background alcançando o texto alinhado à esquerda em uma linha inclinada pode representar um desafi...

Programação Postado em 2025-04-18

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo