채팅봇 만들기 - JO PARIS 4 - 프로그램 작성

첫 장 > 프로그램 작성 > 채팅봇 만들기 - JO PARIS 4

채팅봇 만들기 - JO PARIS 4

2024-08-31에 게시됨

검색:343

Create chat bot - JO PARIS 4

이 글에서는 텐서플로우를 사용하여 간단한 채팅 봇을 만드는 방법을 보여줍니다.

데이터로는 PARIS JO JO 2024의 Kaggle 데이터세트를 사용하여 훈련 단계에서 문장을 구했습니다.

내 github에서 종료 코드를 얻을 수 있습니다: https://github.com/victordalet/Kaggle_analytic/tree/feat/paris_2024_olympics

I - 기본 채팅 봇 데이터 세트

채팅봇의 텐서플로우 데이터세트는 다음과 같습니다.
태그, 패턴, 다양한 응답을 찾을 수 있습니다.
우리의 목표는 JO 베팅 데이터 세트의 다양한 시퀀스를 추가하고 이를 다음과 같은 파일에 추가하는 것입니다.

{
  "intents": [
    {
      "tag": "google",
      "patterns": [
        "google",
        "search",
        "internet"
      ],
      "responses": [
        "Redirecting to Google..."
      ]
    },

II - 데이터 처리

기본 json과 JO의 csv에서 채팅봇 데이터세트를 읽고 이를 분할하고 처리하여 json에 문장을 추가했습니다.

import json


class CreateDataset:
    def __init__(self):
        self.json_path = 'data.json'
        self.csv_path = '../paris-2024-faq.csv'
        with open(self.json_path) as file:
            self.dataset = json.load(file)
        f = open(self.csv_path, 'r')
        dataset_split = f.read().split(";")
        question = False
        for data in dataset_split:
            if question:
                question = False
                self.dataset["intents"][-1]["responses"].append(data)

            if "?" in data:
                question = True
                self.dataset["intents"].append({
                    "tag": "",
                    "patterns": [
                        data
                    ],
                    "responses": [
                    ]
                })
        with open(self.json_path, 'w') as f:
            json.dump(self.dataset, f)

III - 훈련

교육 목적으로 텐서플로우 예시를 편집했습니다.
내 코드를 사용하여 실행하려면 첫 번째 인수에 원하는 에포크 수를 추가하세요.
모델이 들어갈 저장 디렉터리를 만들고 이 글의 시작 부분과 같이 github에 있는 class.pkl 및 word.pkl 파일을 추가하세요.

import random
import json
import pickle
import numpy as np
import sys

import nltk
from nltk.stem import WordNetLemmatizer

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import SGD


class Train:
    words: list
    classes: list
    documents: list
    ignore_letters: list
    training: list
    output_empty: list
    train_x: list
    train_y: list
    model: Sequential
    epochs: int

    def __init__(self):
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = []
        self.classes = []
        self.documents = []
        self.training = []
        self.ignore_letters = ['?', '!']
        self.epochs = int(sys.argv[1])

    def run(self):
        self.download_nltk_data()
        self.load_training_data()
        self.prepare_training_data()
        self.build_neural_network()
        self.train()

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def load_training_data(self):
        for intent in self.intents['intents']:
            for pattern in intent['patterns']:
                word_list = nltk.word_tokenize(pattern)
                self.words.extend(word_list)
                self.documents.append((word_list, intent['tag']))
                if intent['tag'] not in self.classes:
                    self.classes.append(intent['tag'])

    def prepare_training_data(self):
        self.words = [self.lemmatizer.lemmatize(word)
                      for word in self.words
                      if word not in self.ignore_letters]

        self.words = sorted(set(self.words))
        self.classes = sorted(set(self.classes))
        pickle.dump(self.words, open('saves/words.pkl', 'wb'))
        pickle.dump(self.classes, open('saves/classes.pkl', 'wb'))

        self.output_empty = [0] * len(self.classes)
        for document in self.documents:
            bag = []
            word_patterns = document[0]
            word_patterns = [self.lemmatizer.lemmatize(word.lower())
                             for word in word_patterns]
            for word in self.words:
                bag.append(1) if word in word_patterns else bag.append(0)

            output_row = list(self.output_empty)
            output_row[self.classes.index(document[1])] = 1
            self.training.append([bag, output_row])

        random.shuffle(self.training)
        self.training = np.array(self.training)

        self.train_x = list(self.training[:, 0])
        self.train_y = list(self.training[:, 1])

    def build_neural_network(self):
        self.model = Sequential()
        self.model.add(Dense(128, input_shape=(len(self.train_x[0]),),
                             activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(64, activation='relu'))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(len(self.train_y[0]), activation='softmax'))

        sgd = SGD(lr=0.01, momentum=0.9, nesterov=True)
        self.model.compile(loss='categorical_crossentropy',
                           optimizer=sgd,
                           metrics=['accuracy'])

    def train(self):
        self.model.fit(np.array(self.train_x),
                       np.array(self.train_y),
                       epochs=self.epochs,
                       batch_size=5,
                       verbose=1)
        self.model.save('saves/chatbot_model.model')


if __name__ == "__main__":
    Train().run()

IV - 테스트

임의의 메시지를 받는 테스트 메서드를 사용하여 ChatBot 클래스를 만듭니다.
get_response 메소드를 사용하여 이 챗봇을 애플리케이션에 추가할 수 있습니다. 예를 들어 웹사이트에 챗봇을 두기 위해 플라스크 API의 내 프로젝트 중 하나에서 이를 호출합니다.

import random
import json
import pickle
import numpy as np

import nltk
from nltk.stem import WordNetLemmatizer
from tensorflow.keras.models import load_model


class ChatBot:
    lemmatizer: WordNetLemmatizer
    intents: dict
    words: list
    classes: list
    model: load_model
    ERROR_THRESHOLD = 0.25

    def __init__(self):
        self.download_nltk_data()
        self.lemmatizer = WordNetLemmatizer()
        self.intents = json.loads(open('data.json').read())
        self.words = pickle.load(open('saves/words.pkl', 'rb'))
        self.classes = pickle.load(open('saves/classes.pkl', 'rb'))
        self.model = load_model('saves/chatbot_model.model')

    @staticmethod
    def download_nltk_data():
        nltk.download('punkt')
        nltk.download('wordnet')

    def clean_up_sentence(self, sentence):
        sentence_words = nltk.word_tokenize(sentence)
        sentence_words = [self.lemmatizer.lemmatize(word)
                          for word in sentence_words]
        return sentence_words

    def bag_of_words(self, sentence):
        sentence_words = self.clean_up_sentence(sentence)
        bag = [0] * len(self.words)
        for w in sentence_words:
            for i, word in enumerate(self.words):
                if word == w:
                    bag[i] = 1
        return np.array(bag)

    def predict_class(self, sentence):
        bow = self.bag_of_words(sentence)
        res = self.model.predict(np.array([bow]))[0]
        results = [[i, r]
                   for i, r in enumerate(res)
                   if r > self.ERROR_THRESHOLD]
        results.sort(key=lambda x: x[1], reverse=True)
        return_list = []
        for r in results:
            return_list.append({'intent': self.classes[r[0]],
                                'probability': str(r[1])})
        return return_list

    def get_response(self, intents_list):
        intents_json = self.intents
        tag = intents_list[0]['intent']
        list_of_intents = intents_json['intents']
        for i in list_of_intents:
            if i['tag'] == tag:
                result = random.choice(i['responses'])
                break
        return result

    def test(self):
        while True:
            message = input("")
            ints = self.predict_class(message)
            res = self.get_response(ints)
            print(res)

릴리스 선언문 이 글은 https://dev.to/victordalet/create-chat-bot-jo-paris-2024-4dnf?1에서 복제됩니다.1 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.

최신 튜토리얼 더>

MySQL을 사용하여 오늘 생일을 가진 사용자를 어떻게 찾을 수 있습니까?
MySQL을 사용하여 오늘 생일을 가진 사용자를 식별하는 방법MySQL을 사용하여 오늘이 사용자의 생일인지 확인하려면 생일이 일치하는 모든 행을 찾는 것이 포함됩니다. 오늘 날짜. 이는 UNIX 타임스탬프로 저장된 생일을 오늘 날짜와 비교하는 간단한 MySQL 쿼리를 ...

프로그램 작성 2024년 12월 27일에 게시됨
`if` 문 너머: 명시적 `bool` 변환이 있는 유형을 형변환 없이 사용할 수 있는 다른 곳은 어디입니까?
형변환 없이 허용되는 bool로의 상황별 변환귀하의 클래스는 bool로의 명시적 변환을 정의하여 해당 인스턴스 't'를 조건문에서 직접 사용할 수 있도록 합니다. 그러나 이 명시적인 변환은 다음과 같은 질문을 제기합니다. 캐스트 없이 't'...

프로그램 작성 2024년 12월 27일에 게시됨
고유 ID를 유지하고 중복 이름을 처리하면서 PHP에서 두 개의 연관 배열을 어떻게 결합합니까?
PHP에서 연관 배열 결합PHP에서는 두 개의 연관 배열을 단일 배열로 결합하는 것이 일반적인 작업입니다. 다음 요청을 고려하십시오.문제 설명:제공된 코드는 두 개의 연관 배열 $array1 및 $array2를 정의합니다. 목표는 두 배열의 모든 키-값 쌍을 통합하는 ...

프로그램 작성 2024년 12월 27일에 게시됨
$데이터를 삽입할 때 \"일반 오류: 2006 MySQL 서버가 사라졌습니다\"를 수정하는 방법은 무엇입니까?$
데이터를 삽입할 때 \"일반 오류: 2006 MySQL 서버가 사라졌습니다\"를 수정하는 방법은 무엇입니까?
레코드를 삽입하는 동안 "일반 오류: 2006 MySQL 서버가 사라졌습니다"를 해결하는 방법소개:MySQL 데이터베이스에 데이터를 삽입하면 "일반 오류: 2006 MySQL 서버가 사라졌습니다."라는 오류가 발생할 수 있습니다. 이...

프로그램 작성 2024년 12월 27일에 게시됨
실시간 통신을 위해 Go에서 WebSocket 사용
채팅 애플리케이션, 실시간 알림, 협업 도구 등 실시간 업데이트가 필요한 앱을 구축하려면 기존 HTTP보다 더 빠르고 대화형인 통신 방법이 필요합니다. 이것이 바로 WebSockets가 필요한 곳입니다! 오늘은 Go에서 WebSocket을 사용하여 애플리케이션에 실시간...

프로그램 작성 2024년 12월 27일에 게시됨
$macOS의 Django에서 \"부적절하게 구성됨: MySQLdb 모듈 로드 오류\"를 수정하는 방법은 무엇입니까?$
macOS의 Django에서 \"부적절하게 구성됨: MySQLdb 모듈 로드 오류\"를 수정하는 방법은 무엇입니까?
MySQL이 잘못 구성됨: 상대 경로 문제Django에서 python prepare.py runserver를 실행할 때 다음 오류가 발생할 수 있습니다:ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Libra...

프로그램 작성 2024년 12월 26일에 게시됨
Bootstrap 4 베타의 열 오프셋은 어떻게 되었나요?
Bootstrap 4 베타: 열 오프셋 제거 및 복원Bootstrap 4는 베타 1 릴리스에서 열 오프셋 방식에 중요한 변경 사항을 도입했습니다. 열이 오프셋되었습니다. 그러나 후속 베타 2 릴리스에서는 이러한 변경 사항이 취소되었습니다.offset-md-*에서 ml-...

프로그램 작성 2024년 12월 26일에 게시됨
C 및 C++에서 함수 서명의 배열 길이를 무시하는 이유는 무엇입니까?
C 및 C의 함수에 배열 전달 질문:C와 C를 수행하는 이유 C 컴파일러는 int dis(char a[1])와 같은 함수 시그니처에서 배열 길이 선언을 허용합니다. 적용됩니까?답변:C 및 C에서 함수에 배열을 전달하는 데 사용되는 구문은 첫 번째 요소에 대한 포인터 전...

프로그램 작성 2024년 12월 26일에 게시됨
자동 완성 검색을 개선하기 위해 MySQL에서 악센트를 제거하려면 어떻게 해야 합니까?
효율적인 자동 완성 검색을 위해 MySQL에서 악센트 제거대량의 지명 데이터베이스를 관리할 때는 정확성과 효율성을 보장하는 것이 중요합니다. 데이터 검색. 장소 이름의 악센트는 자동 완성 기능을 사용할 때 문제가 될 수 있습니다. 이 문제를 해결하려면 다음과 같은 자연...

프로그램 작성 2024년 12월 26일에 게시됨
MySQL에서 복합 외래 키를 구현하는 방법은 무엇입니까?
SQL에서 복합 외래 키 구현일반적인 데이터베이스 설계 중 하나는 복합 키를 사용하여 테이블 간의 관계를 설정하는 것입니다. 복합 키는 테이블의 레코드를 고유하게 식별하는 여러 열의 조합입니다. 이 시나리오에는 튜토리얼의 복합 고유 키를 그룹의 필드에 연결해야 하는 튜...

프로그램 작성 2024년 12월 26일에 게시됨
내 JComponent가 Java의 배경 이미지 뒤에 숨겨져 있는 이유는 무엇입니까?
배경 이미지로 숨겨진 JComponent 디버깅Java 애플리케이션에서 JLabels와 같은 JComponent로 작업할 때 적절한 동작을 보장하는 것이 중요합니다. 그리고 가시성. 구성 요소가 배경 이미지 뒤에 숨겨져 있는 문제가 발생하는 경우 다음 접근 방식을 고려...

프로그램 작성 2024년 12월 26일에 게시됨
PHP에서 모든 유형의 스마트 따옴표를 변환하는 방법은 무엇입니까?
PHP에서 모든 유형의 스마트 따옴표 변환스마트 따옴표는 일반 곧은 따옴표(' 및 ") 대신 사용되는 인쇄 표시입니다. 보다 세련되고 그러나 소프트웨어 응용 프로그램이 서로 다른 유형의 둥근 인용문을 변환하는 데 어려움을 겪어 불일치가 발생하는 경우가 ...

프로그램 작성 2024년 12월 26일에 게시됨
JavaScript 배열을 반복하는 다른 방법은 무엇입니까?
JavaScript를 사용하여 배열 반복배열 요소를 반복하는 것은 JavaScript에서 일반적인 작업입니다. 여러 가지 접근 방식이 있으며 각 접근 방식에는 고유한 장점과 한계가 있습니다. 다음 옵션을 살펴보겠습니다.배열1. for-of 루프(ES2015 )이 루프는...

프로그램 작성 2024년 12월 26일에 게시됨
Python에서 Selenium WebDriver 실행을 효율적으로 일시 중지하는 방법은 무엇입니까?
Selenium WebDriver의 대기 및 조건문질문: Python에서 밀리초 동안 Selenium WebDriver 실행을 일시 중지하려면 어떻게 해야 합니까?답변: time.sleep() 함수는 지정된 초 동안 실행을 일시 중지하는 데 사용할 수 있지만 일반적으로...

프로그램 작성 2024년 12월 26일에 게시됨
C++ 할당 연산자는 가상이어야 합니까?
C의 가상 할당 연산자와 필수 사항 할당 연산자는 C에서 가상으로 정의될 수 있지만 필수 요구 사항은 아닙니다. 그러나 이 가상 선언은 가상의 필요성과 다른 연산자도 가상으로 만들 수 있는지에 대한 의문을 제기합니다.가상 할당 연산자의 사례할당 연산자 본질적으로 가상이...

프로그램 작성 2024년 12월 26일에 게시됨