Python에서 메타 검색 엔진 구축: 단계별 가이드

첫 장 > 프로그램 작성 > Python에서 메타 검색 엔진 구축: 단계별 가이드

Python에서 메타 검색 엔진 구축: 단계별 가이드

2024-08-28에 게시됨

검색:816

Building a Meta Search Engine in Python: A Step-by-Step Guide 오늘날의 디지털 시대에는 정보가 풍부하지만 올바른 데이터를 찾는 것이 어려울 수 있습니다. 메타 검색 엔진은 여러 검색 엔진의 결과를 집계하여 사용 가능한 정보에 대한 보다 포괄적인 보기를 제공합니다. 이 블로그 게시물에서는 오류 처리, 속도 제한 및 개인 정보 보호 기능을 갖춘 Python으로 간단한 메타 검색 엔진을 구축하는 과정을 안내합니다.

메타 검색 엔진이란 무엇입니까?

메타 검색 엔진은 색인된 페이지의 자체 데이터베이스를 유지하지 않습니다. 대신 사용자 쿼리를 여러 검색 엔진에 보내고 결과를 수집하여 통합된 형식으로 표시합니다. 이 접근 방식을 통해 사용자는 각 엔진을 개별적으로 검색하지 않고도 더 광범위한 정보에 액세스할 수 있습니다.

전제 조건

이 튜토리얼을 따르려면 다음이 필요합니다.

컴퓨터에 Python이 설치되어 있습니다(Python 3.6 이상 권장).
Python 프로그래밍에 대한 기본 지식.
Bing Search용 API 키(무료 등급에 등록할 수 있음).

1단계: 환경 설정

먼저 필요한 라이브러리가 설치되어 있는지 확인하세요. HTTP 요청을 만들기 위해 요청을 사용하고 JSON 데이터를 처리하기 위해 json을 사용할 것입니다.

pip를 사용하여 요청 라이브러리를 설치할 수 있습니다:

pip install requests

2단계: 검색 엔진 정의

meta_search_engine.py라는 새 Python 파일을 만들고 쿼리하려는 검색 엔진을 정의하여 시작하세요. 이 예에서는 DuckDuckGo와 Bing을 사용하겠습니다.

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

3단계: 쿼리 기능 구현

다음으로 검색 엔진에 쿼리하고 결과를 검색하는 함수를 만듭니다. 또한 네트워크 문제를 적절하게 관리하기 위해 오류 처리 기능을 구현할 예정입니다.

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

4단계: 속도 제한 구현

API 비율 제한에 도달하는 것을 방지하기 위해 time.sleep()을 사용하여 간단한 비율 제한기를 구현하겠습니다.

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)  # Wait before making the next request
    return search(query)

5단계: 개인 정보 보호 기능 추가

사용자 개인정보 보호를 강화하기 위해 사용자 쿼리 기록을 방지하고 결과를 일시적으로 저장하는 캐싱 메커니즘을 구현할 예정입니다.

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

6단계: 중복 제거

독특한 결과를 보장하기 위해 URL을 기반으로 중복을 제거하는 기능을 구현할 예정입니다.

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

7단계: 결과 표시

검색 결과를 사용자에게 친숙한 형식으로 표시하는 기능을 만듭니다.

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

8단계: 주요 기능

마지막으로 모든 것을 메타 검색 엔진을 실행하는 기본 기능에 통합합니다.

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

완전한 코드

메타 검색 엔진의 전체 코드는 다음과 같습니다.

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)
    return search(query)

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

결론

축하해요! Python으로 간단하면서도 기능적인 메타 검색 엔진을 구축했습니다. 이 프로젝트는 여러 소스의 검색 결과를 집계하는 방법을 보여줄 뿐만 아니라 오류 처리, 속도 제한 및 사용자 개인정보 보호의 중요성도 강조합니다. 더 많은 검색 엔진을 추가하거나, 웹 인터페이스를 구현하거나, 향상된 결과 순위를 위해 기계 학습을 통합하여 이 엔진을 더욱 향상시킬 수 있습니다. 즐거운 코딩하세요!

릴리스 선언문 이 기사는 https://dev.to/thisisanshgupta/building-a-meta-search-engine-in-python-a-step-by-step-guide-1jb8?1에 재현되어 있습니다. 침해가 있는 경우, 문의: Study_golang@163 .comdelete

최신 튜토리얼 더>

입력 : "경고 : mysqli_query ()는 왜 매개 변수 1이 mysqli, 주어진 리소스"오류가 발생하고이를 수정하는 방법을 기대 하는가? 출력 : 오류를 해결하는 분석 및 수정 방법 "경고 : MySQLI_QUERY () 매개 변수는 리소스 대신 MySQLI 여야합니다."
mysqli_query () mysqli_query ()는 매개 변수 1이 mysqli, 리소스가 주어진 리소스, mysqli_query () 함수를 사용하여 mysql query를 실행하려고 시도 할 때 "경고 : mysqli_query (...

프로그램 작성 2025-04-28에 게시되었습니다
PostgreSQL의 각 고유 식별자에 대한 마지막 행을 효율적으로 검색하는 방법은 무엇입니까?
postgresql : 각각의 고유 식별자에 대한 마지막 행을 추출하는 select distinct on (id) id, date, another_info from the_table order by id, date desc; id ...

프로그램 작성 2025-04-28에 게시되었습니다
$PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?$
PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?
return $ a * $ b; } 그러나 PHP 도구 벨트에는 숨겨진 보석이 있습니다. runkit_function_rename () runkit_function_rename ( 'this', 'that'); run...

프로그램 작성 2025-04-28에 게시되었습니다
regex를 사용하여 PHP에서 괄호 안에서 텍스트를 추출하는 방법
$ fullstring = "이 (텍스트)을 제외한 모든 것을 무시하는 것"; $ start = strpos ( ', $ fullstring); $ fullString); $ shortstring = substr ($ fulls...

프로그램 작성 2025-04-28에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-04-28에 게시되었습니다
MySQL 오류 #1089 : 잘못된 접두사 키를 얻는 이유는 무엇입니까?
오류 설명 [#1089- 잘못된 접두사 키 "는 테이블에서 열에 프리픽스 키를 만들려고 시도 할 때 나타날 수 있습니다. 접두사 키는 특정 접두사 길이의 문자열 열 길이를 색인화하도록 설계되었으며, 접두사를 더 빠르게 검색 할 수 있습니...

프로그램 작성 2025-04-28에 게시되었습니다
FormData ()로 여러 파일 업로드를 처리하려면 어떻게해야합니까?
); 그러나이 코드는 첫 번째 선택된 파일 만 처리합니다. 파일 : var files = document.getElementById ( 'filetOUpload'). 파일; for (var x = 0; x

프로그램 작성 2025-04-28에 게시되었습니다
Spring Security 4.1 이상에서 CORS 문제를 해결하기위한 안내서
Spring Security 4.1 이후 Cors 지원을 활성화하기위한보다 간단한 접근 방식이 있습니다. webmvcconfigureradapter { @override public void addcorsmappings (corsregistry Registry) {...

프로그램 작성 2025-04-28에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-04-28에 게시되었습니다
JavaScript 객체에서 키를 동적으로 설정하는 방법은 무엇입니까?
jsobj = 'example'1; jsObj['key' i] = 'example' 1; 배열은 특수한 유형의 객체입니다. 그것들은 숫자 특성 (인치) + 1의 수를 반영하는 길이 속성을 유지합니다. 이 특별한 동작은 표준 객체에...

프로그램 작성 2025-04-28에 게시되었습니다
선형 구배 배경에 줄무늬가있는 이유는 무엇이며 어떻게 고칠 수 있습니까?
수직 지향적 구배의 경우, 신체 요소의 마진은 HTML 요소로 전파되어 8px 키가 큰 영역을 초래합니다. 그 후, 선형 등급은이 전체 높이에 걸쳐 확장되어 반복 패턴을 생성합니다. 솔루션 : 이 문제를 해결하기 위해 신체 요소에 충분한 높이가 있는지...

프로그램 작성 2025-04-28에 게시되었습니다
PHP를 사용하여 Blob (이미지)을 MySQL에 올바르게 삽입하는 방법은 무엇입니까?
문제 $ sql = "삽입 ImagesTore (imageId, image) 값 ( '$ this- & gt; image_id', 'file_get_contents ($ tmp_image)'; 결과적으로 실제 이...

프로그램 작성 2025-04-28에 게시되었습니다
크롬에서 상자 텍스트를 선택하는 방법은 무엇입니까?
초기 시도 한 가지 일반적인 접근 방식은 다음과 같습니다. 주) & lt;/옵션 & gt; & lt; 옵션> select .lt {text-align : center; } <option value=""&a...

프로그램 작성 2025-04-28에 게시되었습니다
Firefox Back 버튼을 사용할 때 JavaScript 실행이 중단되는 이유는 무엇입니까?
원인 및 솔루션 : 이 동작은 브라우저 캐싱 자바 스크립트 리소스에 의해 발생합니다. 이 문제를 해결하고 후속 페이지 방문에서 스크립트가 실행되도록하기 위해 Firefox 사용자는 Window.onload 이벤트에서 호출되도록 빈 기능을 설정해야합니다. ...

프로그램 작성 2025-04-28에 게시되었습니다
열의 열이 다른 데이터베이스 테이블을 어떻게 통합하려면 어떻게해야합니까?
다른 열이있는 결합 테이블 ] 는 데이터베이스 테이블을 다른 열로 병합하려고 할 때 도전에 직면 할 수 있습니다. 간단한 방법은 열이 적은 테이블의 누락 된 열에 null 값을 추가하는 것입니다. 예를 들어, 표 B보다 더 많은 열이있는 두 개의 테이블,...

프로그램 작성 2025-04-28에 게시되었습니다