Créer un chatbot - JO PARIS 4 - La programmation

Page de garde > La programmation > Créer un chatbot - JO PARIS 4

Créer un chatbot - JO PARIS 4

Publié le 2024-08-31

Parcourir:631

Create chat bot - JO PARIS 4

Dans cet article, je montre comment créer un chatbot simple avec Tensorflow.

Pour les données, j'utilise un jeu de données kaggle de PARIS JO JO 2024 pour obtenir des phrases au stade de l'entraînement.

Vous pouvez obtenir le code d'arrivée dans mon github : https://github.com/victordalet/Kaggle_analysis/tree/feat/paris_2024_olympics

I - Ensemble de données de chatbot par défaut

Un ensemble de données Tensorflow sur les chatbots ressemble à ceci.
On peut trouver une balise, un modèle et les différentes réponses.
Notre objectif sera d'ajouter les différentes séquences de l'ensemble de données de paris JO et de les ajouter à un fichier comme celui-ci.

{
  "intents": [
    {
      "tag": "google",
      "patterns": [
        "google",
        "search",
        "internet"
      ],
      "responses": [
        "Redirecting to Google..."
      ]
    },

II - Traitement des données

J'ai lu un ensemble de données de chat bot dans le json par défaut et le csv de JO, je l'ai divisé et traité pour ajouter la phrase dans le json

import json


class CreateDataset:
    def __init__(self):
        self.json_path = 'data.json'
        self.csv_path = '../paris-2024-faq.csv'
        with open(self.json_path) as file:
            self.dataset = json.load(file)
        f = open(self.csv_path, 'r')
        dataset_split = f.read().split(";")
        question = False
        for data in dataset_split:
            if question:
                question = False
                self.dataset["intents"][-1]["responses"].append(data)

            if "?" in data:
                question = True
                self.dataset["intents"].append({
                    "tag": "",
                    "patterns": [
                        data
                    ],
                    "responses": [
                    ]
                })
        with open(self.json_path, 'w') as f:
            json.dump(self.dataset, f)

III - Formation

À des fins de formation, j'ai édité un exemple de tensorflow.
Si vous prenez mon code pour l'exécuter, ajoutez dans le premier argument le nombre d'époques souhaitées.
Créez un répertoire de sauvegarde dans lequel ira votre modèle et ajoutez-y les fichiers classes.pkl etwords.pkl qui se trouvent dans le github comme au début de cet article.

import random
import json
import pickle
import numpy as np
import sys

import nltk
from nltk.stem import WordNetLemmatizer

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import SGD


class Train:
    words: list
    classes: list
    documents: list
    ignore_letters: list
    training: list
    output_empty: list
    train_x: list
    train_y: list
    model: Sequential
    epochs: int

    def __init__(self):
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = []
        self.classes = []
        self.documents = []
        self.training = []
        self.ignore_letters = ['?', '!']
        self.epochs = int(sys.argv[1])

    def run(self):
        self.download_nltk_data()
        self.load_training_data()
        self.prepare_training_data()
        self.build_neural_network()
        self.train()

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def load_training_data(self):
        for intent in self.intents['intents']:
            for pattern in intent['patterns']:
                word_list = nltk.word_tokenize(pattern)
                self.words.extend(word_list)
                self.documents.append((word_list, intent['tag']))
                if intent['tag'] not in self.classes:
                    self.classes.append(intent['tag'])

    def prepare_training_data(self):
        self.words = [self.lemmatizer.lemmatize(word)
                      for word in self.words
                      if word not in self.ignore_letters]

        self.words = sorted(set(self.words))
        self.classes = sorted(set(self.classes))
        pickle.dump(self.words, open('saves/words.pkl', 'wb'))
        pickle.dump(self.classes, open('saves/classes.pkl', 'wb'))

        self.output_empty = [0] * len(self.classes)
        for document in self.documents:
            bag = []
            word_patterns = document[0]
            word_patterns = [self.lemmatizer.lemmatize(word.lower())
                             for word in word_patterns]
            for word in self.words:
                bag.append(1) if word in word_patterns else bag.append(0)

            output_row = list(self.output_empty)
            output_row[self.classes.index(document[1])] = 1
            self.training.append([bag, output_row])

        random.shuffle(self.training)
        self.training = np.array(self.training)

        self.train_x = list(self.training[:, 0])
        self.train_y = list(self.training[:, 1])

    def build_neural_network(self):
        self.model = Sequential()
        self.model.add(Dense(128, input_shape=(len(self.train_x[0]),),
                             activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(64, activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(len(self.train_y[0]), activation='softmax'))

        sgd = SGD(lr=0.01, momentum=0.9, nesterov=True)
        self.model.compile(loss='categorical_crossentropy',
                           optimizer=sgd,
                           metrics=['accuracy'])

    def train(self):
        self.model.fit(np.array(self.train_x),
                       np.array(self.train_y),
                       epochs=self.epochs,
                       batch_size=5,
                       verbose=1)
        self.model.save('saves/chatbot_model.model')


if __name__ == "__main__":
    Train().run()

IV-Essai

Je crée une classe ChatBot, avec une méthode de test qui prend un message aléatoire.
Vous pouvez utiliser la méthode get_response pour ajouter ce chatbot à votre application, par exemple je l'appelle dans un de mes projets dans une API flask pour avoir mon chatbot dans un site web.

import random
import json
import pickle
import numpy as np

import nltk
from nltk.stem import WordNetLemmatizer
from tensorflow.keras.models import load_model


class ChatBot:
    lemmatizer: WordNetLemmatizer
    intents: dict
    words: list
    classes: list
    model: load_model
    ERROR_THRESHOLD = 0.25

    def __init__(self):
        self.download_nltk_data()
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = pickle.load(open('saves/words.pkl', 'rb'))
        self.classes = pickle.load(open('saves/classes.pkl', 'rb'))
        self.model = load_model('saves/chatbot_model.model')

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def clean_up_sentence(self, sentence):
        sentence_words = nltk.word_tokenize(sentence)
        sentence_words = [self.lemmatizer.lemmatize(word)
                          for word in sentence_words]
        return sentence_words

    def bag_of_words(self, sentence):
        sentence_words = self.clean_up_sentence(sentence)
        bag = [0] * len(self.words)
        for w in sentence_words:
            for i, word in enumerate(self.words):
                if word == w:
                    bag[i] = 1
        return np.array(bag)

    def predict_class(self, sentence):
        bow = self.bag_of_words(sentence)
        res = self.model.predict(np.array([bow]))[0]
        results = [[i, r]
                   for i, r in enumerate(res)
                   if r > self.ERROR_THRESHOLD]
        results.sort(key=lambda x: x[1], reverse=True)
        return_list = []
        for r in results:
            return_list.append({'intent': self.classes[r[0]],
                                'probability': str(r[1])})
        return return_list

    def get_response(self, intents_list):
        intents_json = self.intents
        tag = intents_list[0]['intent']
        list_of_intents = intents_json['intents']
        for i in list_of_intents:
            if i['tag'] == tag:
                result = random.choice(i['responses'])
                break
        return result

    def test(self):
        while True:
            message = input("")
            ints = self.predict_class(message)
            res = self.get_response(ints)
            print(res)

Déclaration de sortie Cet article est reproduit sur : https://dev.to/victordalet/create-chat-bot-jo-paris-2024-4dnf?1 En cas de contrefaçon, veuillez contacter [email protected] pour le supprimer

Dernier tutoriel Plus>

Pourquoi Microsoft Visual C ++ ne parvient pas à implémenter correctement l'instanciation du modèle biphasé?
Le mystère de l'instanciation du modèle deux phases "Broken" dans Microsoft Visual C Instruction Problème: Les utilisateurs ex...

La programmation Publié le 2025-03-12
UTF-8 vs Latin-1: Le secret du codage des personnages!
distinguant utf-8 et latin1 Lors de l'encodage, deux choix prominents émergent: utf-8 et latin1. Au milieu de leurs applications, une ques...

La programmation Publié le 2025-03-12
Tableau
Les méthodes sont des fns qui peuvent être appelés sur des objets Les tableaux sont des objets, donc ils ont également des méthodes en js. ...

La programmation Publié le 2025-03-12
Partie SQL Injection Series: Explication détaillée des techniques avancées d'injection SQL
Auteur: Trix cyrus outil de pentiSting waymap: cliquez ici TrixSec GitHub: cliquez ici TrixSec Telegram: cliquez ici Exploits d...

La programmation Publié le 2025-03-12
Pourquoi Pytz montre-t-il des décalages de fuseau horaire inattendus initialement?
Dicontenance du fuseau horaire avec pytz Certains flammes de temps présentent des décalages particuliers lorsqu'ils sont initialement obte...

La programmation Publié le 2025-03-12
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-03-12
Comment pouvons-nous sécuriser les téléchargements de fichiers contre du contenu malveillant?
Les préoccupations de sécurité avec les téléchargements de fichiers Le téléchargement de fichiers sur un serveur peut présenter des risques de...

La programmation Publié le 2025-03-12
Comment supprimer les ruptures de ligne des chaînes en utilisant des expressions régulières en JavaScript?
Suppression des ruptures de ligne des chaînes Dans ce scénario de code, l'objectif est d'éliminer les ruptures de ligne d'une chaîne...

La programmation Publié le 2025-03-12
Pourquoi l'exécution de JavaScript cesse-t-elle lors de l'utilisation du bouton Firefox Retour?
Problème d'histoire de la navigation: JavaScript cesse d'exécuter après avoir utilisé le bouton de retour de Firefox Les utilisateurs ...

La programmation Publié le 2025-03-12
Comment insérer correctement les blobs (images) dans MySQL à l'aide de PHP?
Insérez des blobs dans les bases de données MySQL avec PHP Lorsque vous essayez de stocker une image dans une base de données MySQL, vous pou...

La programmation Publié le 2025-03-12
Puis-je migrer mon cryptage de McRypt à OpenSSL et décrypter les données cryptées McRypt à l'aide d'OpenSSL?
Mise à niveau de ma bibliothèque de chiffrement de McRypt à OpenSSL Puis-je mettre à niveau ma bibliothèque de cryptage à partir de McRypt à O...

La programmation Publié le 2025-03-12
JS et bases
Guide d'un débutant sur les principes fondamentaux de javascript et de programmation javascript (js) est un langage de programmation puiss...

La programmation Publié le 2025-03-12
Y a-t-il une différence de performance entre l'utilisation d'une boucle for-out et un itérateur pour la traversée de collecte en Java?
pour chaque boucle vs iterator: efficacité dans la collection Traversal introduction Lorsque vous traversez une collection dans Java, le c...

La programmation Publié le 2025-03-12
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-03-12
Explication détaillée de la méthode d'acquisition d'éléments aléatoires Java Hashset / LinkedHashset
Trouver un élément aléatoire dans un ensemble Dans la programmation, il peut être utile de sélectionner un élément aléatoire dans une collection...

La programmation Publié le 2025-03-12

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article