Python でメタ検索エンジンを構築する: ステップバイステップ ガイド

表紙 > プログラミング > Python でメタ検索エンジンを構築する: ステップバイステップガイド

Python でメタ検索エンジンを構築する: ステップバイステップガイド

2024 年 8 月 28 日に公開

ブラウズ：957

Building a Meta Search Engine in Python: A Step-by-Step Guide 今日のデジタル時代には情報が豊富ですが、適切なデータを見つけるのが難しい場合があります。メタ検索エンジンは、複数の検索エンジンからの結果を集約し、利用可能な情報のより包括的なビューを提供します。このブログ投稿では、エラー処理、レート制限、プライバシー機能を備えたシンプルなメタ検索エンジンを Python で構築するプロセスを順を追って説明します。

メタ検索エンジンとは何ですか?

メタ検索エンジンは、インデックス付きページの独自のデータベースを維持しません。代わりに、ユーザーのクエリを複数の検索エンジンに送信し、結果を収集し、統一された形式で表示します。このアプローチにより、ユーザーは各エンジンを個別に検索することなく、より広範囲の情報にアクセスできるようになります。

前提条件

このチュートリアルを進めるには、次のものが必要です:

マシンにインストールされている Python (できれば Python 3.6 以降)。
Python プログラミングの基礎知識。
Bing Search の API キー (無料枠にサインアップできます)。

ステップ 1: 環境をセットアップする

まず、必要なライブラリがインストールされていることを確認してください。 HTTP リクエストの作成にはリクエストを使用し、JSON データの処理には json を使用します。

pip:
を使用してリクエストライブラリをインストールできます。

pip install requests

ステップ 2: 検索エンジンを定義する

meta_search_engine.py という名前の新しい Python ファイルを作成し、クエリを実行する検索エンジンを定義することから始めます。この例では、DuckDuckGo と Bing を使用します。

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

ステップ 3: クエリ関数を実装する

次に、検索エンジンにクエリを実行して結果を取得する関数を作成します。また、ネットワークの問題を適切に管理するためのエラー処理も実装します。

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

ステップ 4: レート制限を実装する

API レート制限に達しないように、time.sleep() を使用して単純なレートリミッターを実装します。

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)  # Wait before making the next request
    return search(query)

ステップ 5: プライバシー機能を追加する

ユーザーのプライバシーを強化するために、ユーザーのクエリのログ記録を回避し、結果を一時的に保存するキャッシュメカニズムを実装します。

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

ステップ 6: 重複を削除する

結果が一意であることを保証するために、URL に基づいて重複を削除する関数を実装します。

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

ステップ 7: 結果の表示

検索結果をわかりやすい形式で表示する関数を作成します。

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

ステップ 8: メイン関数

最後に、メタ検索エンジンを実行する main 関数にすべてを統合します。

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

完全なコード

メタ検索エンジンの完全なコードは次のとおりです:

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)
    return search(query)

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

結論

おめでとう！シンプルでありながら機能的なメタ検索エンジンを Python で構築しました。このプロジェクトは、複数のソースからの検索結果を集約する方法を示すだけでなく、エラー処理、レート制限、およびユーザーのプライバシーの重要性も強調します。検索エンジンを追加したり、Web インターフェイスを実装したり、結果ランキングを向上させるために機械学習を統合したりすることで、このエンジンをさらに強化できます。コーディングを楽しんでください!

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/thisisanshgupta/building-a-meta-search-engine-in-python-a-step-by-step-guide-1jb8?1 侵害がある場合は、 Study_golang@163 .comdelete に連絡してください

最新のチュートリアルもっと>

プログラムを終了する前に、C ++のヒープ割り当てを明示的に削除する必要がありますか？
プログラム出口にもかかわらず、Cでの明示的な削除次の例を考慮してください。 a* a = new a（）; a-> dosomething（）; a; 0を返します。 } この例では、「削除」ステートメントは、「a」ポインターに割り当てられたヒープメモ...

プログラミング 2025-04-29に投稿されました
JavaのPNGファイルに軸とタグを追加する方法は？
java 既存のPNG画像に軸とラベルを追加するaxesとラベルを注釈する方法は挑戦的です。エラーや矛盾につながる可能性のある変更を試みるのではなく、チャート作成プロセス中に注釈を統合することをお勧めします。次の例は、カスタマイズされた注釈を使用してカスタムチャートを作成する方法を示...

プログラミング 2025-04-29に投稿されました
CSSフォント属性が定義されていないときに、JavaScriptで実際のレンダリングされたフォントを取得するにはどうすればよいですか？
css javascript object.style.fontfamily and object.style.style.style.style.styles fort not not not not not not not not not not not not not not ...

プログラミング 2025-04-29に投稿されました
「JSON」パッケージを使用してGOでJSONアレイを解析する方法は？
json arrays in jsonパッケージ問題：次のGOコードを検討してください：タイプjsontype struct { 配列[]文字列 } func main（）{ datajson：= `[" 1 "、" 2 "...

プログラミング 2025-04-29に投稿されました
ubuntu 12.04 mysqlローカル接続エラー修正ガイド

プログラミング 2025-04-29に投稿されました
ケース非感受性文字列を作成する方法：コンストラクターまたは静的工場法？
java文字列：「string s = new String（ "Silly"） "を指す指をJavaプログラミングの世界に進出しながら、文字列オブジェクトの適切な作成に関してクエリが現れます。懸念は、「新しい文字列（...）」の呼び出しの代わりにリテラル...

プログラミング 2025-04-29に投稿されました
マスターPython Coroutines：強力な同時アプリケーションのためのカスタム非同期ツールを作成する
PythonのCoroutinesは、非同期コードを作成するための強力なツールです。彼らは、同時の操作の処理方法に革命をもたらし、スケーラブルで効率的なアプリケーションの構築を容易にしました。私はコルーチンとの仕事に多くの時間を費やしましたが、カスタムの非同期プリミティブの作成に関する洞察を...

プログラミング 2025-04-29に投稿されました
Firefoxバックボタンを使用すると、JavaScriptの実行が停止するのはなぜですか？
navigational Historyの問題：JavaScriptは、Firefoxバックボタンを使用した後に実行を停止しますユーザーは、JavaScriptスクリプトが以前の訪問ページを介して回復したときに実行されない問題に遭遇する可能性があります。この問題は、ChromeやInt...

プログラミング 2025-04-29に投稿されました
jQueryを使用して「：After」pseudo-elementのCSS属性を効果的に変更するにはどうすればよいですか？
jQueryにおける擬似要素の制限を理解する： "after" after "selector in web開発のように、「擬似要素のような」：後の「擬似要素」：後の視覚的拡張を追加することができます。ただし、jQueryを使用してこれらの要素にアクセス...

プログラミング 2025-04-29に投稿されました
Pythonを使用して、大きなファイルを逆の順序で効率的に読み取るにはどうすればよいですか？
Python でファイルを逆順序で読み取る必要があり、最後の行から最初の行までの内容を読み取る必要がある場合、Pythonの組み込み機能は適切ではないかもしれません。このタスクに取り組むための効率的なソリューションは次のとおりです。バッファベースのアプローチを使用してパフォーマンスを最...

プログラミング 2025-04-29に投稿されました
SQL Serverがテーブルを削除する前に外部キーの制約を見つける方法は？
sql serverのテーブル削除前に外部キーの制約を識別多数の依存関係を備えたテーブルを削除する前に、関連するすべての外部キーの制約を識別することが不可欠です。 SQL Serverはこれを達成するためのいくつかの方法を提供します。 sp_fkeysストアドプロシージャを利用しま...

プログラミング 2025-04-29に投稿されました
C ++の関数またはコンストラクターパラメーターとして排他的なポインターを渡す方法は？
コンストラクターと機能のパラメーターとしてユニークなポインターを管理するユニークなポインター（ unique_ptr この方法は、関数/オブジェクトへの一意のポインターの所有権を転送します。ポインターの内容は関数に移動し、操作後に元のポインターが空になります。：next（std ::...

プログラミング 2025-04-29に投稿されました
Async void vs. asyncタスクのasp.net：Async voidメソッドが例外を投げることがあるのはなぜですか？
ASP.NETにおける非同期voidと非同期タスクの区別を理解するは、ASP.NETアプリケーションで、非同期プログラミングはパフォーマンスと応答性を高める上で重要な役割を果たします。ただし、Async voidと非同期タスクメソッドの重要な違いを誤解すると、予期しないエラーが発生する...

プログラミング 2025-04-29に投稿されました
Go Webアプリケーションはいつデータベース接続を閉じますか？
Go Webアプリケーションのデータベース接続の管理 PostgreSQLなどのデータベースを使用する単純なGO Webアプリケーションで、データベース接続の閉鎖のタイミングが考慮されます。これは、無期限に実行されるアプリケーションでこれをいつ、どのように処理するかを深く掘り下げます。 f...

プログラミング 2025-04-29に投稿されました
JavaScriptに他の要素の後に要素を挿入する方法は？
javascript 既存のノードの後に要素を挿入する要素を挿入することは、JavaScriptの一般的な操作です。ただし、InsertBefore（）メソッドがありますが、参照ノードの前にのみ要素を追加できます。その後要素を挿入するには、別のアプローチが必要です。ブレークダウン：...

プログラミング 2025-04-29に投稿されました