오늘날의 디지털 시대에는 정보가 풍부하지만 올바른 데이터를 찾는 것이 어려울 수 있습니다. 메타 검색 엔진은 여러 검색 엔진의 결과를 집계하여 사용 가능한 정보에 대한 보다 포괄적인 보기를 제공합니다. 이 블로그 게시물에서는 오류 처리, 속도 제한 및 개인 정보 보호 기능을 갖춘 Python으로 간단한 메타 검색 엔진을 구축하는 과정을 안내합니다.
메타 검색 엔진은 색인된 페이지의 자체 데이터베이스를 유지하지 않습니다. 대신 사용자 쿼리를 여러 검색 엔진에 보내고 결과를 수집하여 통합된 형식으로 표시합니다. 이 접근 방식을 통해 사용자는 각 엔진을 개별적으로 검색하지 않고도 더 광범위한 정보에 액세스할 수 있습니다.
이 튜토리얼을 따르려면 다음이 필요합니다.
먼저 필요한 라이브러리가 설치되어 있는지 확인하세요. HTTP 요청을 만들기 위해 요청을 사용하고 JSON 데이터를 처리하기 위해 json을 사용할 것입니다.
pip를 사용하여 요청 라이브러리를 설치할 수 있습니다:
pip install requests
meta_search_engine.py라는 새 Python 파일을 만들고 쿼리하려는 검색 엔진을 정의하여 시작하세요. 이 예에서는 DuckDuckGo와 Bing을 사용하겠습니다.
import requests import json import os import time # Define your search engines SEARCH_ENGINES = { "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json", "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10", } BING_API_KEY = "YOUR_BING_API_KEY" # Replace with your Bing API Key
다음으로 검색 엔진에 쿼리하고 결과를 검색하는 함수를 만듭니다. 또한 네트워크 문제를 적절하게 관리하기 위해 오류 처리 기능을 구현할 예정입니다.
def search(query): results = [] # Query DuckDuckGo ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query) try: response = requests.get(ddg_url) response.raise_for_status() # Raise an error for bad responses data = response.json() for item in data.get("RelatedTopics", []): if 'Text' in item and 'FirstURL' in item: results.append({ 'title': item['Text'], 'url': item['FirstURL'] }) except requests.exceptions.RequestException as e: print(f"Error querying DuckDuckGo: {e}") # Query Bing bing_url = SEARCH_ENGINES["Bing"].format(query) headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY} try: response = requests.get(bing_url, headers=headers) response.raise_for_status() # Raise an error for bad responses data = response.json() for item in data.get("webPages", {}).get("value", []): results.append({ 'title': item['name'], 'url': item['url'] }) except requests.exceptions.RequestException as e: print(f"Error querying Bing: {e}") return results
API 비율 제한에 도달하는 것을 방지하기 위해 time.sleep()을 사용하여 간단한 비율 제한기를 구현하겠습니다.
# Rate limit settings RATE_LIMIT = 1 # seconds between requests def rate_limited_search(query): time.sleep(RATE_LIMIT) # Wait before making the next request return search(query)
사용자 개인정보 보호를 강화하기 위해 사용자 쿼리 기록을 방지하고 결과를 일시적으로 저장하는 캐싱 메커니즘을 구현할 예정입니다.
CACHE_FILE = 'cache.json' def load_cache(): if os.path.exists(CACHE_FILE): with open(CACHE_FILE, 'r') as f: return json.load(f) return {} def save_cache(results): with open(CACHE_FILE, 'w') as f: json.dump(results, f) def search_with_cache(query): cache = load_cache() if query in cache: print("Returning cached results.") return cache[query] results = rate_limited_search(query) save_cache({query: results}) return results
독특한 결과를 보장하기 위해 URL을 기반으로 중복을 제거하는 기능을 구현할 예정입니다.
def remove_duplicates(results): seen = set() unique_results = [] for result in results: if result['url'] not in seen: seen.add(result['url']) unique_results.append(result) return unique_results
검색 결과를 사용자에게 친숙한 형식으로 표시하는 기능을 만듭니다.
def display_results(results): for idx, result in enumerate(results, start=1): print(f"{idx}. {result['title']}\n {result['url']}\n")
마지막으로 모든 것을 메타 검색 엔진을 실행하는 기본 기능에 통합합니다.
def main(): query = input("Enter your search query: ") results = search_with_cache(query) unique_results = remove_duplicates(results) display_results(unique_results) if __name__ == "__main__": main()
메타 검색 엔진의 전체 코드는 다음과 같습니다.
import requests import json import os import time # Define your search engines SEARCH_ENGINES = { "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json", "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10", } BING_API_KEY = "YOUR_BING_API_KEY" # Replace with your Bing API Key # Rate limit settings RATE_LIMIT = 1 # seconds between requests def search(query): results = [] # Query DuckDuckGo ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query) try: response = requests.get(ddg_url) response.raise_for_status() data = response.json() for item in data.get("RelatedTopics", []): if 'Text' in item and 'FirstURL' in item: results.append({ 'title': item['Text'], 'url': item['FirstURL'] }) except requests.exceptions.RequestException as e: print(f"Error querying DuckDuckGo: {e}") # Query Bing bing_url = SEARCH_ENGINES["Bing"].format(query) headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY} try: response = requests.get(bing_url, headers=headers) response.raise_for_status() data = response.json() for item in data.get("webPages", {}).get("value", []): results.append({ 'title': item['name'], 'url': item['url'] }) except requests.exceptions.RequestException as e: print(f"Error querying Bing: {e}") return results def rate_limited_search(query): time.sleep(RATE_LIMIT) return search(query) CACHE_FILE = 'cache.json' def load_cache(): if os.path.exists(CACHE_FILE): with open(CACHE_FILE, 'r') as f: return json.load(f) return {} def save_cache(results): with open(CACHE_FILE, 'w') as f: json.dump(results, f) def search_with_cache(query): cache = load_cache() if query in cache: print("Returning cached results.") return cache[query] results = rate_limited_search(query) save_cache({query: results}) return results def remove_duplicates(results): seen = set() unique_results = [] for result in results: if result['url'] not in seen: seen.add(result['url']) unique_results.append(result) return unique_results def display_results(results): for idx, result in enumerate(results, start=1): print(f"{idx}. {result['title']}\n {result['url']}\n") def main(): query = input("Enter your search query: ") results = search_with_cache(query) unique_results = remove_duplicates(results) display_results(unique_results) if __name__ == "__main__": main()
축하해요! Python으로 간단하면서도 기능적인 메타 검색 엔진을 구축했습니다. 이 프로젝트는 여러 소스의 검색 결과를 집계하는 방법을 보여줄 뿐만 아니라 오류 처리, 속도 제한 및 사용자 개인정보 보호의 중요성도 강조합니다. 더 많은 검색 엔진을 추가하거나, 웹 인터페이스를 구현하거나, 향상된 결과 순위를 위해 기계 학습을 통합하여 이 엔진을 더욱 향상시킬 수 있습니다. 즐거운 코딩하세요!
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3