Создать чат-бота - JO PARIS 4 - программирование

титульная страница > программирование > Создать чат-бота - JO PARIS 4

Создать чат-бота - JO PARIS 4

Опубликовано 31 августа 2024 г.

Просматривать:132

Create chat bot - JO PARIS 4

В этой статье я покажу, как создать простого чат-бота с помощью tensorflow.

Для получения данных я использую набор данных Kaggle из PARIS JO JO 2024, чтобы получать предложения на этапе обучения.

Вы можете получить код завершения в моем github: https://github.com/victordalet/Kaggle_anaанализ/tree/feat/paris_2024_olympics

I — набор данных чат-бота по умолчанию.

Набор данных тензорного потока для чат-ботов выглядит так.
Мы можем найти тег, шаблон и различные ответы.
Нашей целью будет добавить различные последовательности из набора данных ставок JO и добавить их в такой файл.

{
  "intents": [
    {
      "tag": "google",
      "patterns": [
        "google",
        "search",
        "internet"
      ],
      "responses": [
        "Redirecting to Google..."
      ]
    },

II - Обработка данных

Я прочитал набор данных чат-бота в формате JSON по умолчанию и в формате CSV JO, разделил и обработал его, чтобы добавить предложение в JSON

import json


class CreateDataset:
    def __init__(self):
        self.json_path = 'data.json'
        self.csv_path = '../paris-2024-faq.csv'
        with open(self.json_path) as file:
            self.dataset = json.load(file)
        f = open(self.csv_path, 'r')
        dataset_split = f.read().split(";")
        question = False
        for data in dataset_split:
            if question:
                question = False
                self.dataset["intents"][-1]["responses"].append(data)

            if "?" in data:
                question = True
                self.dataset["intents"].append({
                    "tag": "",
                    "patterns": [
                        data
                    ],
                    "responses": [
                    ]
                })
        with open(self.json_path, 'w') as f:
            json.dump(self.dataset, f)

III – Обучение

В целях обучения я отредактировал пример тензорного потока.
Если вы воспользуетесь моим кодом для его запуска, добавьте в первый аргумент необходимое количество эпох.
Создайте каталог для сохранения вашей модели и добавьте в него файлы groups.pkl иwords.pkl, которые находятся в GitHub, как показано в начале этой статьи.

import random
import json
import pickle
import numpy as np
import sys

import nltk
from nltk.stem import WordNetLemmatizer

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import SGD


class Train:
    words: list
    classes: list
    documents: list
    ignore_letters: list
    training: list
    output_empty: list
    train_x: list
    train_y: list
    model: Sequential
    epochs: int

    def __init__(self):
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = []
        self.classes = []
        self.documents = []
        self.training = []
        self.ignore_letters = ['?', '!']
        self.epochs = int(sys.argv[1])

    def run(self):
        self.download_nltk_data()
        self.load_training_data()
        self.prepare_training_data()
        self.build_neural_network()
        self.train()

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def load_training_data(self):
        for intent in self.intents['intents']:
            for pattern in intent['patterns']:
                word_list = nltk.word_tokenize(pattern)
                self.words.extend(word_list)
                self.documents.append((word_list, intent['tag']))
                if intent['tag'] not in self.classes:
                    self.classes.append(intent['tag'])

    def prepare_training_data(self):
        self.words = [self.lemmatizer.lemmatize(word)
                      for word in self.words
                      if word not in self.ignore_letters]

        self.words = sorted(set(self.words))
        self.classes = sorted(set(self.classes))
        pickle.dump(self.words, open('saves/words.pkl', 'wb'))
        pickle.dump(self.classes, open('saves/classes.pkl', 'wb'))

        self.output_empty = [0] * len(self.classes)
        for document in self.documents:
            bag = []
            word_patterns = document[0]
            word_patterns = [self.lemmatizer.lemmatize(word.lower())
                             for word in word_patterns]
            for word in self.words:
                bag.append(1) if word in word_patterns else bag.append(0)

            output_row = list(self.output_empty)
            output_row[self.classes.index(document[1])] = 1
            self.training.append([bag, output_row])

        random.shuffle(self.training)
        self.training = np.array(self.training)

        self.train_x = list(self.training[:, 0])
        self.train_y = list(self.training[:, 1])

    def build_neural_network(self):
        self.model = Sequential()
        self.model.add(Dense(128, input_shape=(len(self.train_x[0]),),
                             activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(64, activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(len(self.train_y[0]), activation='softmax'))

        sgd = SGD(lr=0.01, momentum=0.9, nesterov=True)
        self.model.compile(loss='categorical_crossentropy',
                           optimizer=sgd,
                           metrics=['accuracy'])

    def train(self):
        self.model.fit(np.array(self.train_x),
                       np.array(self.train_y),
                       epochs=self.epochs,
                       batch_size=5,
                       verbose=1)
        self.model.save('saves/chatbot_model.model')


if __name__ == "__main__":
    Train().run()

IV – Тест

Я создаю класс ChatBot с тестовым методом, который принимает случайное сообщение.
Вы можете использовать метод get_response, чтобы добавить этого чат-бота в свое приложение, например, я вызываю его в одном из своих проектов в API-интерфейсе Flask, чтобы разместить моего чат-бота на веб-сайте.

import random
import json
import pickle
import numpy as np

import nltk
from nltk.stem import WordNetLemmatizer
from tensorflow.keras.models import load_model


class ChatBot:
    lemmatizer: WordNetLemmatizer
    intents: dict
    words: list
    classes: list
    model: load_model
    ERROR_THRESHOLD = 0.25

    def __init__(self):
        self.download_nltk_data()
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = pickle.load(open('saves/words.pkl', 'rb'))
        self.classes = pickle.load(open('saves/classes.pkl', 'rb'))
        self.model = load_model('saves/chatbot_model.model')

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def clean_up_sentence(self, sentence):
        sentence_words = nltk.word_tokenize(sentence)
        sentence_words = [self.lemmatizer.lemmatize(word)
                          for word in sentence_words]
        return sentence_words

    def bag_of_words(self, sentence):
        sentence_words = self.clean_up_sentence(sentence)
        bag = [0] * len(self.words)
        for w in sentence_words:
            for i, word in enumerate(self.words):
                if word == w:
                    bag[i] = 1
        return np.array(bag)

    def predict_class(self, sentence):
        bow = self.bag_of_words(sentence)
        res = self.model.predict(np.array([bow]))[0]
        results = [[i, r]
                   for i, r in enumerate(res)
                   if r > self.ERROR_THRESHOLD]
        results.sort(key=lambda x: x[1], reverse=True)
        return_list = []
        for r in results:
            return_list.append({'intent': self.classes[r[0]],
                                'probability': str(r[1])})
        return return_list

    def get_response(self, intents_list):
        intents_json = self.intents
        tag = intents_list[0]['intent']
        list_of_intents = intents_json['intents']
        for i in list_of_intents:
            if i['tag'] == tag:
                result = random.choice(i['responses'])
                break
        return result

    def test(self):
        while True:
            message = input("")
            ints = self.predict_class(message)
            res = self.get_response(ints)
            print(res)

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/victordalet/create-chat-bot-jo-paris-2024-4dnf?1 Если есть какие-либо нарушения, свяжитесь с [email protected], чтобы удалить ее.

Последний учебник Более>

Python Read File CSV UnicoDedeCodeError Ultimate Solution
ошибка декодирования Unicod Не могу декодировать байты В позиции 2-3: усеченная \ uxxxxxxxxxxxx эта ошибка возникает, когда путь к файлу CSV со...

программирование Опубликовано в 2025-03-13
Как найти строки SQL, содержащие определенные слова?
строка в SQL, которая содержит строку конкретных слов ] вопрос: вам нужен SQL -запрос, который возвращает строки в таблице со всеми указанными ...

программирование Опубликовано в 2025-03-13
Как я могу эффективно заменить несколько подстроков в строке Java?
заменить несколько подстроков в строку эффективно в Java , когда сталкивается с необходимостью заменить несколько подстроков в строке, это зама...

программирование Опубликовано в 2025-03-13
Почему Firefox отображает изображения, используя свойство CSS `content`?
отображение изображений с URL содержимого в Firefox возникала проблема, где некоторые браузеры, в частности, Firefox, не отображаются изображе...

программирование Опубликовано в 2025-03-13
Laravel Mix vs Vite: почему Laravel переключается на Vite
Asset Bundling является основной частью современной веб -разработки, помогая оптимизировать и управлять CSS, JavaScript и другими ресурсами. В тече...

программирование Опубликовано в 2025-03-13
Как вы можете использовать группу по поводу данных в MySQL?
pivoting Query Results с использованием группы MySQL by В реляционной базе данных, поворот данных относится к перегруппированию строк и столбц...

программирование Опубликовано в 2025-03-13
Альбионская языческая крепость: подробное местоположение + Руководство по разведке
Key Takeaways ] Учебное пособие предоставляет полное введение в процесс регистрации PayPal, сосредоточенное на процессах передачи данных платеже...

программирование Опубликовано в 2025-03-13
Как преодолеть ограничения переопределения функций PHP?
преодоление ограничений переосмысления функции PHP в PHP, определение функции с одним и тем же именем несколько раз-нет-нет. Попытка сделать э...

программирование Опубликовано в 2025-03-13
Объект: обложка не удается в IE и Edge, как исправить?
object-fit: cover не удастся в IE и Edge, как исправить? В CSS для поддержания постоянной высоты изображения работает беспрепятственно через брау...

программирование Опубликовано в 2025-03-13
Подробное объяснение метода операции LINQ Полное внешнее соединение
linq - полное внешнее соединение ] вопрос: Как выполнить полное соединение между двумя списками объектов на основе общих полей ключей, гарантируя...

программирование Опубликовано в 2025-03-13
Почему мое фоновое изображение CSS появляется?
Устранение неисправностей: CSS Фоновое изображение не отображается Вы столкнулись с проблемой, где ваше фоновое изображение не загружается, не...

программирование Опубликовано в 2025-03-13
Как разрешить расходы на путь модуля в Go Mod с помощью директивы «Заменить»?
Распространение пути преодоления модуля в Go Mod При использовании MOD можно столкнуться с конфликтом, где 3 -й пакет импортирует другой пакет...

программирование Опубликовано в 2025-03-13
Легко строить строки запросов для System.net.httpclient Get запросов
system.net.httpclient Query Метод строительства строки для GET запрос ]] вопрос: System.net.httpclient не имеет API для непосредственного добав...

программирование Опубликовано в 2025-03-13
Может ли Iframe содержимое переполнить свою родительскую рамку в современных браузерах?
может переполнить его родительский кадр в современных браузерах? , у вас могут быть элементы пользовательского интерфейса в IFRAME, который тре...

программирование Опубликовано в 2025-03-13
$\ "В то время как (1) против (;;): Оптимизация компилятора исключает различия в производительности? \"$
\ "В то время как (1) против (;;): Оптимизация компилятора исключает различия в производительности? \"
while (1) vs. for (;;;): существует ли разница в скорости? ] Вопрос: . Использование (1) вместо (;) петли? Компиляторы: ] perl: как (1)...

программирование Опубликовано в 2025-03-13