"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Python에서 메타 검색 엔진 구축: 단계별 가이드

Python에서 메타 검색 엔진 구축: 단계별 가이드

2024-08-28에 게시됨
검색:908

Building a Meta Search Engine in Python: A Step-by-Step Guide오늘날의 디지털 시대에는 정보가 풍부하지만 올바른 데이터를 찾는 것이 어려울 수 있습니다. 메타 검색 엔진은 여러 검색 엔진의 결과를 집계하여 사용 가능한 정보에 대한 보다 포괄적인 보기를 제공합니다. 이 블로그 게시물에서는 오류 처리, 속도 제한 및 개인 정보 보호 기능을 갖춘 Python으로 간단한 메타 검색 엔진을 구축하는 과정을 안내합니다.

메타 검색 엔진이란 무엇입니까?

메타 검색 엔진은 색인된 페이지의 자체 데이터베이스를 유지하지 않습니다. 대신 사용자 쿼리를 여러 검색 엔진에 보내고 결과를 수집하여 통합된 형식으로 표시합니다. 이 접근 방식을 통해 사용자는 각 엔진을 개별적으로 검색하지 않고도 더 광범위한 정보에 액세스할 수 있습니다.

전제 조건

이 튜토리얼을 따르려면 다음이 필요합니다.

  • 컴퓨터에 Python이 설치되어 있습니다(Python 3.6 이상 권장).
  • Python 프로그래밍에 대한 기본 지식.
  • Bing Search용 API 키(무료 등급에 등록할 수 있음).

1단계: 환경 설정

먼저 필요한 라이브러리가 설치되어 있는지 확인하세요. HTTP 요청을 만들기 위해 요청을 사용하고 JSON 데이터를 처리하기 위해 json을 사용할 것입니다.

pip를 사용하여 요청 라이브러리를 설치할 수 있습니다:

pip install requests

2단계: 검색 엔진 정의

meta_search_engine.py라는 새 Python 파일을 만들고 쿼리하려는 검색 엔진을 정의하여 시작하세요. 이 예에서는 DuckDuckGo와 Bing을 사용하겠습니다.

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

3단계: 쿼리 기능 구현

다음으로 검색 엔진에 쿼리하고 결과를 검색하는 함수를 만듭니다. 또한 네트워크 문제를 적절하게 관리하기 위해 오류 처리 기능을 구현할 예정입니다.

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

4단계: 속도 제한 구현

API 비율 제한에 도달하는 것을 방지하기 위해 time.sleep()을 사용하여 간단한 비율 제한기를 구현하겠습니다.

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)  # Wait before making the next request
    return search(query)

5단계: 개인 정보 보호 기능 추가

사용자 개인정보 보호를 강화하기 위해 사용자 쿼리 기록을 방지하고 결과를 일시적으로 저장하는 캐싱 메커니즘을 구현할 예정입니다.

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

6단계: 중복 제거

독특한 결과를 보장하기 위해 URL을 기반으로 중복을 제거하는 기능을 구현할 예정입니다.

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

7단계: 결과 표시

검색 결과를 사용자에게 친숙한 형식으로 표시하는 기능을 만듭니다.

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

8단계: 주요 기능

마지막으로 모든 것을 메타 검색 엔진을 실행하는 기본 기능에 통합합니다.

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

완전한 코드

메타 검색 엔진의 전체 코드는 다음과 같습니다.

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)
    return search(query)

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

결론

축하해요! Python으로 간단하면서도 기능적인 메타 검색 엔진을 구축했습니다. 이 프로젝트는 여러 소스의 검색 결과를 집계하는 방법을 보여줄 뿐만 아니라 오류 처리, 속도 제한 및 사용자 개인정보 보호의 중요성도 강조합니다. 더 많은 검색 엔진을 추가하거나, 웹 인터페이스를 구현하거나, 향상된 결과 순위를 위해 기계 학습을 통합하여 이 엔진을 더욱 향상시킬 수 있습니다. 즐거운 코딩하세요!

릴리스 선언문 이 기사는 https://dev.to/thisisanshgupta/building-a-meta-search-engine-in-python-a-step-by-step-guide-1jb8?1에 재현되어 있습니다. 침해가 있는 경우, 문의: Study_golang@163 .comdelete
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3