Créer un méta-moteur de recherche en Python : un guide étape par étape

Page de garde > La programmation > Créer un méta-moteur de recherche en Python : un guide étape par étape

Créer un méta-moteur de recherche en Python : un guide étape par étape

Publié le 2024-08-28

Parcourir:210

Building a Meta Search Engine in Python: A Step-by-Step Guide À l’ère numérique d’aujourd’hui, les informations sont abondantes, mais trouver les bonnes données peut être un défi. Un métamoteur de recherche regroupe les résultats de plusieurs moteurs de recherche, offrant une vue plus complète des informations disponibles. Dans cet article de blog, nous expliquerons le processus de création d'un méta-moteur de recherche simple en Python, doté de fonctionnalités de gestion des erreurs, de limitation de débit et de confidentialité.

Qu’est-ce qu’un métamoteur de recherche ?

Un métamoteur de recherche ne gère pas sa propre base de données de pages indexées. Au lieu de cela, il envoie les requêtes des utilisateurs à plusieurs moteurs de recherche, collecte les résultats et les présente dans un format unifié. Cette approche permet aux utilisateurs d'accéder à un plus large éventail d'informations sans avoir à rechercher chaque moteur individuellement.

Conditions préalables

Pour suivre ce didacticiel, vous aurez besoin de :

Python installé sur votre machine (de préférence Python 3.6 ou supérieur).
Connaissance de base de la programmation Python.
Une clé API pour Bing Search (vous pouvez vous inscrire pour un niveau gratuit).

Étape 1 : Configurez votre environnement

Tout d’abord, assurez-vous que les bibliothèques nécessaires sont installées. Nous utiliserons des requêtes pour effectuer des requêtes HTTP et json pour gérer les données JSON.

Vous pouvez installer la bibliothèque de requêtes en utilisant pip :

pip install requests

Étape 2 : définissez vos moteurs de recherche

Créez un nouveau fichier Python nommé meta_search_engine.py et commencez par définir les moteurs de recherche que vous souhaitez interroger. Pour cet exemple, nous utiliserons DuckDuckGo et Bing.

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

Étape 3 : implémenter la fonction de requête

Ensuite, créez une fonction pour interroger les moteurs de recherche et récupérer les résultats. Nous mettrons également en œuvre la gestion des erreurs pour gérer les problèmes de réseau avec élégance.

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()  # Raise an error for bad responses
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

Étape 4 : implémenter la limitation du débit

Pour éviter d'atteindre les limites de débit de l'API, nous allons implémenter un simple limiteur de débit à l'aide de time.sleep().

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)  # Wait before making the next request
    return search(query)

Étape 5 : ajouter des fonctionnalités de confidentialité

Pour améliorer la confidentialité des utilisateurs, nous éviterons de consigner les requêtes des utilisateurs et mettrons en œuvre un mécanisme de mise en cache pour stocker temporairement les résultats.

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

Étape 6 : Supprimer les doublons

Pour garantir l'unicité des résultats, nous mettrons en œuvre une fonction permettant de supprimer les doublons en fonction de l'URL.

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

Étape 7 : Afficher les résultats

Créez une fonction pour afficher les résultats de la recherche dans un format convivial.

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

Étape 8 : Fonction principale

Enfin, intégrez le tout dans une fonction principale qui exécute le méta-moteur de recherche.

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

Code complet

Voici le code complet de votre méta-moteur de recherche :

import requests
import json
import os
import time

# Define your search engines
SEARCH_ENGINES = {
    "DuckDuckGo": "https://api.duckduckgo.com/?q={}&format=json",
    "Bing": "https://api.bing.microsoft.com/v7.0/search?q={}&count=10",
}

BING_API_KEY = "YOUR_BING_API_KEY"  # Replace with your Bing API Key

# Rate limit settings
RATE_LIMIT = 1  # seconds between requests

def search(query):
    results = []

    # Query DuckDuckGo
    ddg_url = SEARCH_ENGINES["DuckDuckGo"].format(query)
    try:
        response = requests.get(ddg_url)
        response.raise_for_status()
        data = response.json()
        for item in data.get("RelatedTopics", []):
            if 'Text' in item and 'FirstURL' in item:
                results.append({
                    'title': item['Text'],
                    'url': item['FirstURL']
                })
    except requests.exceptions.RequestException as e:
        print(f"Error querying DuckDuckGo: {e}")

    # Query Bing
    bing_url = SEARCH_ENGINES["Bing"].format(query)
    headers = {"Ocp-Apim-Subscription-Key": BING_API_KEY}
    try:
        response = requests.get(bing_url, headers=headers)
        response.raise_for_status()
        data = response.json()
        for item in data.get("webPages", {}).get("value", []):
            results.append({
                'title': item['name'],
                'url': item['url']
            })
    except requests.exceptions.RequestException as e:
        print(f"Error querying Bing: {e}")

    return results

def rate_limited_search(query):
    time.sleep(RATE_LIMIT)
    return search(query)

CACHE_FILE = 'cache.json'

def load_cache():
    if os.path.exists(CACHE_FILE):
        with open(CACHE_FILE, 'r') as f:
            return json.load(f)
    return {}

def save_cache(results):
    with open(CACHE_FILE, 'w') as f:
        json.dump(results, f)

def search_with_cache(query):
    cache = load_cache()
    if query in cache:
        print("Returning cached results.")
        return cache[query]

    results = rate_limited_search(query)
    save_cache({query: results})
    return results

def remove_duplicates(results):
    seen = set()
    unique_results = []
    for result in results:
        if result['url'] not in seen:
            seen.add(result['url'])
            unique_results.append(result)
    return unique_results

def display_results(results):
    for idx, result in enumerate(results, start=1):
        print(f"{idx}. {result['title']}\n   {result['url']}\n")

def main():
    query = input("Enter your search query: ")
    results = search_with_cache(query)
    unique_results = remove_duplicates(results)
    display_results(unique_results)

if __name__ == "__main__":
    main()

Conclusion

Félicitations! Vous avez créé un méta-moteur de recherche simple mais fonctionnel en Python. Ce projet montre non seulement comment agréger les résultats de recherche provenant de plusieurs sources, mais souligne également l'importance de la gestion des erreurs, de la limitation du débit et de la confidentialité des utilisateurs. Vous pouvez encore améliorer ce moteur en ajoutant davantage de moteurs de recherche, en implémentant une interface Web ou même en intégrant l'apprentissage automatique pour un meilleur classement des résultats. Bon codage !

Déclaration de sortie Cet article est reproduit sur : https://dev.to/thisisanshgupta/building-a-meta-search-engine-in-python-a-step-by-step-guide-1jb8?1 En cas de violation, veuillez contacter study_golang@163 .comdelete

Dernier tutoriel Plus>

Pourquoi DateTime :: Modify de PHP («+ 1 mois») produit-il des résultats inattendus?
Modification des mois avec PHP DateTime: Découvrir le comportement prévu Lorsque vous travaillez avec la classe DateTime de Php, l'ajout o...

La programmation Publié le 2025-04-28
Comment analyser les tableaux JSON en Go en utilisant le package «JSON»?
analyser les tableaux json dans Go avec le package json Problème: Comment pouvez-vous analyser une chaîne JSON représentant un Array dans Go...

La programmation Publié le 2025-04-28
La différence entre le traitement de la surcharge de la fonction PHP et C ++
PHP Fonction surcharge: démêler l'énigme d'une perspective C en tant que développeur C a chevronné s'aventurant dans le domaine de P...

La programmation Publié le 2025-04-28
Comment insérer efficacement les données dans plusieurs tables MySQL dans une seule transaction?
insérer MySql dans plusieurs tables Tenter d'insérer des données dans plusieurs tables avec une seule requête MySQL peut donner des résult...

La programmation Publié le 2025-04-28
Comment localiser l'image d'arrière-plan CSS à droite?
Positionner l'image d'arrière-plan de la droite avec css Dans le domaine du développement Web, il est souvent souhaitable de positionn...

La programmation Publié le 2025-04-28
Comment puis-je sélectionner par programmation tout le texte dans un clic div sur la souris?
Sélection du texte div sur la souris Cliquez sur Question Étant donné un élément div avec du contenu de texte, comment l'utilisateur peut-...

La programmation Publié le 2025-04-28
FIT OBJET: la couverture échoue dans IE et Edge, comment réparer?
objet-fit: la couverture échoue dans IE et Edge, comment corriger? Utilisation d'objet-fit: couverture; Dans CSS pour maintenir la hauteur...

La programmation Publié le 2025-04-28
Comment puis-je concaténer en toute sécurité le texte et les valeurs lors de la construction de requêtes SQL dans GO?
Concaténation du texte et des valeurs dans go sql requêtes Lors de la construction d'une requête SQL de texte dans GO, il y a certaines rè...

La programmation Publié le 2025-04-28
Méthode PHP simplexml Analyse XML avec un colon d'espace de noms
Analyse xml avec des colons d'espace de noms dans php simplexml Rencontre des difficultés lors de l'analyse des balises contenant des ...

La programmation Publié le 2025-04-28
Comment convertir une colonne Pandas DataFrame au format DateTime et filtrer par date?
Transformer la colonne Pandas DataFrame au format DateTime Scénario: Données dans un Pandas DataFrame existait souvent sous divers formats, ...

La programmation Publié le 2025-04-28
Pourquoi est-ce que je reçois une erreur "Je n'ai pas trouvé d'implémentation du modèle de requête" dans ma requête Silverlight Linq?
Absence d'implémentation du modèle de requête: Résolution "n'a pas pu trouver" Erreurs dans une application Silverlight, une...

La programmation Publié le 2025-04-28
Comment créer une animation CSS à gauche à gauche en douceur pour une div dans son conteneur?
Animation CSS générique pour le mouvement gauche-droit Dans cet article, nous explorerons la création d'une animation CSS générique pour d...

La programmation Publié le 2025-04-28
Comment extraire un élément aléatoire d'un tableau en PHP?
sélection aléatoire à partir d'un tableau en php, l'obtention d'un élément aléatoire à partir d'un tableau peut être accompli av...

La programmation Publié le 2025-04-28
Comment analyser les nombres en notation exponentielle à l'aide de décimal.parse ()?
analysant un nombre à partir de la notation exponentielle Lorsque vous tentez d'analyser une chaîne exprimée en notation exponentielle en ...

La programmation Publié le 2025-04-28
Analyse du langage fortement tapé CSS
L'une des façons de classer un langage de programmation est de la force ou de la manière faible. Ici, «tapé» signifie si les variables sont connu...

La programmation Publié le 2025-04-28

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article