Moteur de recherche

Il y a plus de mille ans, les saints Cyrille et Méthode ont commis une erreur stratégique en utilisant les lettres grecques comme base de l'alphabet russe. L'une de ses conséquences les plus graves - la nécessité de perdre du temps à changer de registre du clavier - s'est manifestée il y a seulement quelques décennies, lorsque l'informatique a été inventée. Un autre point, beaucoup moins important, est la nécessité de rédiger un chapitre séparé sur la recherche dans les documents en langue russe.

Essayons d'en savoir plus sur l'origine de l'écriture russe, en utilisant cette fois le moteur de recherche Rambler. Dans la section «Evaluations» du chapitre 1, nous avons déjà parlé de Rambler en tant qu'évaluation des sites russes. Dans cette section, il serait approprié de dire que Rambler n’est pas seulement une note, mais plutôt une note, qu’un index automatique, à peu près la même chose que Aport. En effet, sur la page principale de Rambler tout en haut se trouvent un champ de recherche et un bouton de recherche! envoyer une demande.

Pour trouver des documents décrivant la création de l'écriture russe, il est sage d'entrer les mots «histoire», «russe», «écriture» dans le champ de recherche, entourez les mots saisis de guillemets pour rechercher la phrase et cliquez sur le bouton Rechercher! Fragment de résultats de recherche.

Comme vous pouvez le constater, déjà le premier (sur 234 documents trouvés), à en juger par son titre, ainsi que le début indiqué par Rambler, la date du dernier changement (le 18 mai 2005) et la taille (150 Ko) correspondent pleinement à nos attentes. Peut-être que les 233 pages restantes parlent de l’écriture russe. Mais le poids est-il un document? Manque-t-il quelque chose d'important? Pour répondre correctement à ces questions, vous devez connaître la langue demandée par Rambler.

Bien que nous sachions que Rambler cherche une phrase, lorsque les mots du champ de recherche sont encadrés de guillemets. Il est important de comprendre que les mots qui composent la phrase, Rambler, reste inchangé. Rambler trouvera des documents contenant l'expression «histoire de l'écriture russe», mais ne trouvera pas l'expression «histoire de l'écriture russe». Pour rechercher toutes les formes grammaticales de mots, il est nécessaire de les libérer des guillemets en tapant «Cyril», «Méthode», «Russe», «Écriture» dans le champ de recherche.

Par cette demande, Rambler trouve déjà 4229 sites et plus de 34 000 documents. Fragment de résultats de recherche. Comme vous pouvez le constater, le Rambler a souligné en caractères gras les mots «russe», «écrit», c’est-à-dire qu’aucune distinction n’est faite entre les mots «russe» et «russe»; toutes les formes grammaticales sont considérées, en un mot. Mais il est nécessaire de mettre le mot entre guillemets, et le Rambler cherchera exactement ce qui est indiqué. À la demande suivante, on trouvera des documents où figurent les mots «russe», «écrit» et toute forme grammaticale des mots «Cyril» (par exemple, «Cyril») et «Méthode»:

Cyril Methodius "Russe" "écriture"

Par défaut, Rambler recherche les documents contenant tous les mots séparés par des espaces. Mais presque tous les moteurs de recherche modernes essaient de deviner ce que le chercheur voulait dire. Il est donc préférable de dire explicitement à Rambler ce qu’il doit faire. Si vous avez besoin de trouver tous les mots, l'opérateur logique AND est placé entre eux. À la demande suivante, des documents seront trouvés où les deux mots sont (en tenant compte de leur variabilité):

Cyril et Méthode

Mais si vous avez besoin de trouver un mot parmi plusieurs, utilisez l'opérateur OU, par exemple:

(OU alphabet alphabétique OU alphabet) ET russe ET "Kirill" ET "méthode"

Cette requête signifie que nous recherchons des pages où les mots «Cyril», «Méthode» sont nécessairement une des formes grammaticales du mot «russe» et l’un des mots suivants: «écriture», «alphabet», «alphabet» (compte tenu de leur variabilité grammaticale). ) Dans le dernier exemple, les mots "Cyrill" et "Methodius" sont écrits avec une lettre minuscule, car le Rambler, de toute façon, avant de passer à son index, convertit les majuscules en minuscules.

Outre les opérateurs AND et OR, il existe également un opérateur NOT dans Rambler, qui vous permet de rechercher des documents dans lesquels il n'y a pas de mot (phrase) spécifié. Sur la requête suivante, on trouvera des pages où figurent les mots «histoire», «russe», «écriture» (en tenant compte de leur variabilité grammaticale), mais il n'y a pas de mot «Cyril»: ​​l'histoire ET du russe ET écrit PAS le Cyrille

Avec l'opérateur NOT, vous pouvez effectuer des requêtes très complexes, par exemple: l'historique de AND AND NOT en russe (Cyril OR Methodius)

Cette demande ordonne au Rambleur de rechercher les pages contenant les trois mots reliés par l'opérateur AND, mais pas un mot «Cyril» ni un mot «Méthode». Vous pouvez comprendre cela avec l'aide d'une telle requête au moteur de recherche:

Cyril OU Méthode


Dans ce cas, il y aurait des documents contenant soit le mot «Cyril», soit le mot «Méthode», soit les deux. Bien entendu, tous les documents indexés par le moteur de recherche peuvent être divisés en deux parties: la première répond à la demande de Cyril OR Methodius, la seconde ne le fait pas. Ainsi, l'opérateur NOT commande simplement au moteur de recherche d'afficher cette seconde partie. Évidemment, dans cette partie, les pages sont rassemblées dans lesquelles il n'y a ni le mot «Cyril» ni le mot «Méthode».

Il nous reste à nous familiariser avec le mode de recherche avancée, qui peut être configuré en cliquant sur le lien Recherche avancée situé sous le bouton Rechercher!. Demande de pacuiiipeHHoro vide.

Dans le champ de recherche, vous pouvez entrer des mots associés à des opérateurs logiques (dans ce cas, tous les mots doivent être cochés dans le groupe Mots de recherche), ou vous pouvez simplement indiquer si au moins un des mots sélectionnés est recherché ou exact (phase. Vous pouvez spécifier où aller. rechercher - dans les documents eux-mêmes, dans les titres (titre) ou dans le texte des liens. Vous pouvez limiter la distance entre les mots; cela ne remplace évidemment pas la recherche d'expressions, mais peut parfois aider. Vous pouvez rechercher uniquement sur certains sites (rechercher des documents uniquement Doc peut rechercher certains types de documents, en spécifiant la langue du document et le format du document créés au cours d'une période donnée (date du document). Enfin, vous pouvez trier les pages non seulement en fonction de leur pertinence par rapport à la requête (pertinence), mais également par date, ainsi que pour rechercher des documents ne contenant pas d'indication spécifiée. mots (Exclure les documents contenant les mots suivants).

La plupart des utilisateurs de la communauté Internet commencent leur journée de travail avec des moteurs de recherche, où ils essaient de trouver les informations dont ils ont besoin et de résoudre leurs problèmes. Malheureusement, les moteurs de recherche sont souvent incapables d'interpréter les ressources avec précision et équité. En conséquence, les sites situés au début de la recherche sont souvent "loin" du problème à résoudre. Dans le même temps, les ressources qui représentent des avantages réels vont au-delà de la recherche.

La raison de cette situation est simple et réside dans la technologie permettant d’obtenir et de présenter les résultats par les moteurs de recherche. Il faut comprendre que le principal problème est l’absence de règles claires, accessibles et accessibles à tous. Plus les algorithmes de formation d'index de recherche (une sorte de boîte noire) sont incertains, moins les moteurs de recherche reflètent le processus de formation d'informations réelles. Et par conséquent, moins le niveau de confiance dans les résultats de recherche des moteurs de recherche sera faible.

Paradoxalement, ce n’est pas la faute des moteurs de recherche, car ils sont obligés de cacher les règles de construction des index de recherche. C’est la faute de la technologie elle-même pour organiser la recherche. La technologie des moteurs de recherche est essentiellement destinée aux utilisateurs passifs. Vous devez enregistrer uniquement le site, alors tout fera le robot de recherche. Il va scanner la ressource page par page, en essayant d'analyser le contenu de chacune d'elles. La complexité de l'utilisateur est minimale, ce qui permet d'utiliser différentes techniques pour "tromper" des robots de recherche à faible coût en moyens et en forces. Dans un tel schéma de travail, les moteurs de recherche doivent modifier les algorithmes et les règles pour indexer les ressources et créer un index de recherche.

Bien sûr, la plupart des utilisateurs ont utilisé, apprécié et utiliseront les moteurs de recherche classiques. C'est simple, pratique et commun. C'est comme une habitude d'utiliser les moteurs de recherche.

  Informations générales sur les moteurs de recherche

Moteur de recherche   - c'est un logiciel qui donne accès à une collection d'informations semi-structurées. Orientation vers des données semi-structurées, c'est-à-dire les données qui ne peuvent pas être représentées sous forme de table relationnelle distinguent un moteur de recherche d'un SGBD.

Dans cette définition d’un moteur de recherche, des informations de différents types sont impliquées, à savoir: texte, audio, vidéo, images, etc. Cependant, il convient de noter que ce sont les données textuelles qui sont idéales pour décrire toutes les fonctionnalités d'un moteur de recherche, car Les algorithmes de recherche d'informations multimédias sont principalement basés sur des algorithmes de recherche de texte.

La tâche principale du moteur de recherche - minimise le temps passé par l'utilisateur à rechercher les informations de demande pertinentes. La pertinence est l’un des concepts les plus subjectifs et les plus complexes de la science de la recherche d’informations. Le plus souvent, ils parlent de pertinence du point de vue de l'utilisateur, puis "demander des informations pertinentes" "et" les informations dont l'utilisateur a besoin "" est la même chose. Il s'agit de la pertinence dont nous parlons dans cette section. La question est de savoir quelles informations l'utilisateur jugera nécessaires. Dans certaines circonstances, les informations pertinentes peuvent être définies comme toutes les informations de la base de données pertinentes pour la demande. Par exemple, si un utilisateur doit tout savoir sur une entreprise en particulier, il souhaite trouver tous les documents mentionnant cette entreprise. Dans d'autres circonstances, les informations pertinentes sont uniquement des informations suffisantes pour effectuer une tâche utilisateur spécifique, par exemple, trouver une réponse à une question spécifique. Si, dans ce dernier cas, les résultats de la recherche contiennent beaucoup de données redondantes, c.-à-d. données pertinentes pour la requête, mais non nécessaires à l'exécution de cette tâche, la sélection des informations nécessaires / pertinentes demandera plus de temps à l'utilisateur.

Ainsi, traditionnellement, un moteur de recherche applique deux caractéristiques principales:   exactitude et complétude ou plutôt leur dépendance. Chaque fois qu'un utilisateur définit une requête sur le système, initialisant ainsi la recherche, tous les documents de la collection du moteur de recherche sont divisés en quatre parties. La précision détermine un aspect de la recherche, à savoir la capacité du moteur de recherche à minimiser le temps nécessaire à l'utilisateur pour rechercher des informations pertinentes pour une requête donnée. Bien que la complétude détermine un autre aspect - la capacité du système à trouver des informations pertinentes pour une requête donnée. Vous pouvez choisir la ou les requêtes optimales, lorsque chaque document trouvé sera pertinent et chaque document pertinent sera trouvé.

Les moteurs de recherche utilisant Internet jouent un rôle très important. Il y a tellement d'informations sur Internet que sa recherche se transforme déjà en tâche distincte et prend beaucoup de temps. Les moteurs de recherche fournissent des milliers de liens vers une requête au lieu de plusieurs pages où les informations nécessaires sont réellement disponibles. Les utilisateurs d’Internet réalisant les avantages que leur offre la possibilité d’analyser des données spatiales ont besoin d’un outil permettant une recherche rapide et pratique et un accès à des images numériques du terrain et autres informations spatiales, concentrés dans de nombreuses organisations gouvernementales, commerciales et universitaires.

Un peu d'histoire ...

Moteur de recherche (moteur de recherche, moteur de recherche)   - un site Web spécial où l'utilisateur peut recevoir des liens vers des sites correspondant à cette demande.

En règle générale, le travail d’un moteur de recherche comprend deux étapes. Le premier est un programme spécial (robot de recherche) ou une personne collecte des informations à partir de pages Web et les indexe. Lorsqu'un utilisateur spécifie une requête, la recherche est basée sur un index précédemment construit. Le résultat de la recherche est ce que l'on appelle les résultats de la recherche - une liste de liens vers des documents (pages Web) correspondant à la requête.

La plupart des moteurs de recherche recherchent des informations sur des sites Internet, mais il existe également des moteurs de recherche pouvant rechercher des fichiers sur des serveurs FTP, des documents, ainsi que des informations sur des réseaux internes, etc. Récemment, un nouveau type de moteurs de recherche basé sur la technologie RSS est apparu.

Le travail du moteur de recherche est basé sur le travail du "moteur de recherche". Les principaux critères de qualité du moteur de recherche sont la pertinence, l’exhaustivité de la base de données et la prise en compte de la morphologie de la langue.

Les moteurs de recherche les plus populaires en Russie aujourd'hui sont Google, Yandex et Rambler.

Le premier moteur de recherche a été Wandex, un site Web qui n’existait plus, qui a été créé par Matthew Gray du Massachusetts Institute of Technology en 1993. Un peu plus tard, le moteur de recherche Aliweb apparaît, qui existe toujours. Le premier moteur de recherche en texte intégral a été WebCrawler, lancé en 1994. Contrairement à ses prédécesseurs, il permettait aux utilisateurs de rechercher n’importe quel mot-clé sur n’importe quelle page Web, car il est devenu la norme dans tous les principaux moteurs de recherche. En outre, il s’agissait du premier moteur de recherche connu dans le monde entier. Lycos, développé à l’Université Carnegie Mellon, a été lancé.

Le développement des moteurs de recherche russes a commencé en 1996 avec l'avènement d'une extension morphologique du moteur de recherche Altavista et le lancement des moteurs de recherche russes originaux Rambler et Aport. Bientôt, en 1997, le moteur de recherche Yandex a été ouvert.

Il existe aujourd'hui dans le monde plusieurs centaines de moteurs de recherche différents par leur spécialisation, leurs capacités et leurs techniques de recherche.

Nouvelles

  • 20/ 12/ 2005

    TOKYO, 20 décembre - RIA Novosti, Andrei Fesyun. Le Japon développera son propre moteur de recherche pour Internet, contrairement au système américain de plus en plus populaire de Google.

    Selon Fumihiro Kajikawa, employé du département de la politique d'information du ministère de l'Économie, du Commerce et de l'Industrie, un groupe de recherche sera mis en place avec la participation de représentants de vingt universités et entreprises du secteur de l'électronique.

      "Nous n'avons pas l'intention de concurrencer Google ou Yahoo, mais nous envisageons de créer un système unique destiné exclusivement au Japon", a déclaré Kajikawa. Selon ses informations, le système sera principalement conçu pour rechercher des images, en particulier des photos.

    Un porte-parole du ministère a déclaré que le groupe tiendrait la première réunion vendredi prochain. Un rapport intérimaire sur ses activités serait soumis au ministère en mars, et le dernier en juillet prochain.

  • 09.2005
      G.I. Ruzaykin
      PC World :: Fil d'actualité

    En route vers un espace d’information global, les problèmes de recherche d’informations sur le Web sont particulièrement aigus. Cela devient évident dans le contexte des avancées technologiques dans le développement d'Internet, en particulier en ce qui concerne la fourniture d'informations à l'utilisateur (c'est-à-dire la vitesse de transfert des données, leur volume et leur qualité). C'est pourquoi les messages sur le développement de technologies et de produits logiciels permettant de rechercher des informations sont si importants sur le marché des technologies de l'information.

    DVYGUN (www.dvygun.com) a annoncé la publication d'une nouvelle version du système de recherche personnelle gratuite DVYGUN Smart Search 2.5.2.5 Beta, qui permet d'effectuer une recherche en texte intégral dans des tableaux de documents, des courriels, des fichiers multimédias, des pages Web de visites et des informations de contact. stocké sur le PC de l'utilisateur.

    Dans le même temps, le programme DVYGUN Smart Search recherche les types d’informations suivants (fichiers):

    • courriels et pièces jointes Outlook / Outlook Express
    • fichiers PDF, MS Word, MS Excel, RTF, HTML et texte;
    • archives de données ZIP, RAR, GZIP, CAB, etc.
    • images, musique et fichiers vidéo;
    • pages Web visitées, favoris d'Internet Explorer;
    • contacts du carnet d'adresses sous Windows et Outlook.

    La récupération des données peut être effectuée pour tous les types, ainsi que pour les favoris. Une réduction supplémentaire de la zone de recherche est effectuée en spécifiant les paramètres de recherche. Par exemple, pour les fichiers, ils peuvent être «Nom de fichier», «Dossier», «Taille» et «Date de modification». Le classement des documents trouvés est effectué en fonction du niveau de conformité avec la requête de recherche. Pour les requêtes commentées, la proximité contextuelle des mots est prise en compte. Ainsi, chaque document trouvé est affiché dans les résultats de la recherche avec une citation contextuelle, ce qui, dans la plupart des cas, accélère la compréhension de son contenu.

    Pour organiser une recherche instantanée, DVYGUN Smart Search effectue un traitement de données primaire afin de créer une base de données spéciale (index) sur laquelle cette recherche est effectuée. Voici quelques caractéristiques de l’implémentation de cette fonction dans ce programme: la recherche et l’indexation peuvent se faire en même temps, il n’est pas nécessaire d’attendre la fin de l’indexation pour lancer la recherche; l’index est mis à jour en mode "arrière-plan", le programme surveille en permanence les actions de l’utilisateur, de sorte que les données modifiées et nouvelles soient immédiatement incluses dans l’index, c.-à-d. les résultats de la recherche sont mis à jour; en cas de ressources système insuffisantes, le processus d'indexation est arrêté pour éviter de ralentir l'ordinateur de l'utilisateur.

    Comme le notent les développeurs de DVYGUN Smart Search, le fait de vérifier la présence et la qualité des signes de recherche dans leurs programmes (mise à jour instantanée de l'index, détermination de la pertinence des résultats, réglage, vitesse d'indexation et prise en charge de la morphologie de la langue russe) la place devant les moteurs de recherche renommés tels que Google, Yahoo, Microsoft, Copernic et Blinkx. Aucun concurrent ne satisfait pleinement aux exigences relatives à la présence et à la qualité de ces fonctionnalités. Le programme DVYGUN Smart Search effectue une indexation à une vitesse de 5 Go / h et un traitement morphologique des mots en russe et en ukrainien. Malheureusement, aucun des moteurs de recherche nationaux et ukrainiens n'est capable d'indexer aussi rapidement. Toutefois, cette version de DVYGUN Smart Search comporte un petit nombre de formats de fichier traités: vous pouvez résoudre le problème en achetant les filtres appropriés ou en les développant vous-même.

    Le développement des moteurs de recherche existants est attesté par un message de Yandex (http://company.yandex.ru/news/2005/0628) indiquant que la nouvelle version du programme Yandex.Server, exécutant toutes les versions populaires de Windows et Unix , a commencé à fonctionner plus vite. Cela a élargi le groupe de produits pour la recherche d'informations en texte intégral et a accéléré le traitement des documents une fois et demie. Le nombre de types de documents traités est augmenté: désormais, les formats .txt, .doc, .rtf, .html, .xml et .pdf, .xls, .ppt et .swf sont également pris en charge. La vitesse d’indexation des fichiers est également passée de 25 à 40 Mo / s.

    Pour les utilisateurs qui sont importants pour gérer la conception des résultats de recherche, le package de livraison de la nouvelle version de ce programme est offert à un prix presque 2 fois inférieur à ce qu'il était auparavant - seulement pour 170 $. En outre, il existe des éditions de ce programme pour les propriétaires de sites Standard + et Professional + fonctionnalités avancées.

    Selon la représentation russe de CONVERA (www.convera.su), l’année prochaine, ses efforts en Russie viseront à promouvoir le nouveau moteur de recherche Excalibur et à développer une version localisée du programme RetriewalWare 8.2. Il implémentera des fonctions standard telles que l'extraction d'entités du texte (dans la première version, elles incluent les noms géographiques, les noms propres, les heures, les devises, les dates, les numéros de téléphone, les numéros de cartes de crédit et de voiture, ainsi que les connexions entre eux), les adaptateurs pour Websphere, portail Sharepoint, Documentum, nouveaux progiciels Lotus, Windchill et Teamlink.

    À l’automne de cette année, Excalibur apparaîtra en Russie. La différence la plus importante entre ce produit et d’autres moteurs de recherche mondiaux similaires réside dans la spécification du volume d’informations pertinentes proposé à la suite de la recherche. Une telle efficacité est possible grâce aux 12 millions de taxonomies intégrées au programme, grâce auxquelles les informations sont traitées sur demande. Lors du traitement d'une demande, son concept taxonomique (domaine) est déterminé, de sorte que toutes les informations sont divisées en deux groupes - pertinents et non pertinents pour la demande. Dans le même temps, les résultats de la requête peuvent être présentés sous forme de tableaux, d’images graphiques, de textes et de liens d’information, c.-à-d. la réponse devient l'affichage de l'essence de la demande et de ses liens dans l'ensemble des documents proposés à la suite de la recherche.

  • 23 mars 1998
      Nouveau moteur de recherche Internet

    Le nouveau catalogue de serveurs de recherche Newman Search sur les technologies de l'information a été lancé. Newman Search combine les avantages de "iskalok" et de répertoires simultanément. Toutes les sources pour lesquelles la recherche est faite sont regroupées par thèmes "Presse informatique", "Actualités", "Entreprises informatiques", etc. Les utilisateurs peuvent limiter la recherche aux sections pertinentes, ce qui réduit considérablement le "bruit d'information" et le temps passé par le document souhaité.

    Le thème des sites Web dans Newman Search se limite exclusivement aux ordinateurs, à Internet et aux technologies de l’information. La préférence est donnée aux sources originales et aux sites contenant des informations systématisées (documentation, descriptions, tests, prix, opinions, actualités, communiqués de presse).

    Newman Search se distingue par l'indexation rapide quotidienne des serveurs - avec une période allant de 1 jour (pour la section «Actualités») à 7 jours (pour les sites Web de sociétés de commerce en informatique). Alors que dans les moteurs de recherche conventionnels, il est nécessaire d'attendre des mois de mises à jour des informations.

    La recherche est effectuée en tenant compte de la morphologie de la langue russe et de la terminologie informatique. Par exemple, si vous recherchez "HDD", les mots "HDD", "WINCHESTER", "HARD DISK", "HDD", etc. seront effectivement recherchés.

    Les statistiques ouvertes sur les transitions constituent une sorte d'évaluation des sites Web informatiques en fonction de leur caractère informatif. De plus, la notation est maintenue séparément pour chaque section du type "Actualités", "Entreprises informatiques", etc.

  Moteur de recherche Yandex

Histoire du moteur de recherche Yandex

L’histoire de la société "Yandex" a débuté en 1990 avec le développement du logiciel de recherche de la société "Arcadia".

En 1993, Arcadia est devenue une division de CompTek. En 1993-1994, les technologies logicielles ont été considérablement améliorées grâce à la coopération avec le laboratoire de Yu. D. Apresyan (Institut pour les problèmes de transmission de l'information, RAS).

À l'été 1996, les développeurs de moteurs de gestion et de recherche CompTek ont ​​conclu que le développement de la technologie elle-même était plus important et plus intéressant que la création de produits d'application basés sur la recherche. Les études de marché ont montré que les technologies de recherche étaient rapides et prometteuses.

Le mot "Yandex" est venu quelques années avant l'un des développeurs principaux et les plus anciens du moteur de recherche. "Yandex" signifie "Language Index" ou, s'il est en anglais, "Yandex" - "Yet Another Indexer".

Officiellement, le moteur de recherche Yandex.Ru a été annoncé le 23 septembre 1997 lors du salon Softool. À ce moment-là, les principales caractéristiques distinctives de Yandex.Ru consistaient à vérifier le caractère unique des documents (à l'exception des copies codées différemment), ainsi que les propriétés clés du moteur de recherche Yandex, à savoir: prise en compte de la morphologie de la langue russe (y compris la recherche par forme exacte du mot), recherche avec considération la phrase exacte) et un algorithme soigneusement mis au point pour évaluer la pertinence (faire correspondre une réponse à une requête), en tenant compte non seulement du nombre de mots de requête trouvés dans le texte, mais également du mot "contraste" (sa fréquence relative). pour ce document), la distance entre les mots et la position du mot dans le document.

En novembre 1997, une requête en langage naturel a été implémentée. On peut désormais accéder à Yandex.Ru simplement "en russe" en demandant de longues requêtes, par exemple: "où acheter un ordinateur", "des produits génétiquement modifiés" ou des "codes de communication téléphonique internationale" et recevoir des réponses précises. La longueur moyenne de la requête dans Yandex.Ru est maintenant de 2,7 mots. En 1997, c'était 1,2 mots, puis les utilisateurs des moteurs de recherche étaient habitués au style télégraphique.

En 1998, Yandex.Ru a eu l’occasion de "trouver un document similaire", une liste des serveurs trouvés, de rechercher dans une plage de dates donnée et de trier les résultats de la recherche par date du dernier changement.

En 1999, Yandex a lancé un nouveau robot de recherche permettant d'optimiser et d'accélérer l'exploration des sites Runet. Le nouveau robot a permis de fournir aux utilisateurs de nouvelles fonctionnalités - recherche dans différentes zones du texte (titres, liens, annotations, adresses, légendes des images), restriction de la recherche à un groupe de sites, recherche par liens et images, ainsi que la mise en évidence de documents en russe. Une recherche est apparue dans les catégories du catalogue et pour la première fois dans RuNet, le concept "d'index de citation" a été introduit.

En 2000, la société "Yandex" a été formée. Yandex a été créé par les actionnaires de CompTek, la société qui a longtemps développé et développé le projet Yandex. La société ru-Net Holdings a investi 5 280 000 dollars et a reçu une participation de 35,72% dans la nouvelle société. Les actionnaires incluent également la direction et les principaux développeurs de moteurs de recherche. Le directeur général est devenu Arkady Volozh.

Tous les droits sur la marque Yandex et le site Web www.yandex.ru, ainsi que sur la technologie de recherche Yandex et la famille de produits logiciels du même nom, ont été transférés à la nouvelle société. En outre, le projet récemment lancé www.narod.ru a été transféré à Yandex.

Gestion de l'indexation dans le moteur de recherche Yandex

Les autorisations et les interdictions d'indexation sont extraites du fichier robots.txt. Yandex prend en charge les balises META, NOINDEX et extension non standard robots.txt - Host directive. Les autorisations et les interdictions d'indexation sont prises par tous les moteurs de recherche à partir du fichier robots.txt situé dans le répertoire racine du serveur. L'interdiction d'indexer un certain nombre de pages peut résulter, par exemple, du souhait de ne pas indexer les mêmes documents dans des codages différents. Plus le serveur est petit, plus le robot le contourne rapidement. Par conséquent, il est souhaitable d’interdire dans le fichier robots.txt tous les documents qu’il n’a pas de sens d’indexer.

Le moteur de recherche Yandex prend en charge l'extension non standard Robot.txt - Directive de l'hôte. L'argument de la directive Host est un nom de domaine (un nom d'hôte valide, pas une adresse IP) avec un numéro de port (80 par défaut), séparés par un signe deux-points. Si aucun site n’est spécifié comme argument pour Host, cela signifie la présence de la directive Disallow: /, c’est-à-dire interdiction complète de l'indexation (s'il existe au moins une directive hôte valide dans le groupe).

Cette extension non standard permet au moteur de recherche de vous aider à choisir le bon miroir pour l'indexation. En fait, la directive Host indique le miroir principal du site, tandis que l'indexation de tous les autres miroirs est interdite.

Pour être compatible avec les robots ne respectant pas totalement le standard robots.txt, la directive Host doit être ajoutée au groupe commençant par l'entrée User-Agent, immédiatement après les entrées Disallow.

Le moteur de recherche Yandex analyse et suit les instructions de la balise META Robots. Pour interdire l’indexation de certaines parties du texte, elles peuvent être marquées.

Ajout de pages dans le moteur de recherche Yandex

Le quotidien Yandex analyse des centaines de milliers de pages Web à la recherche de modifications ou de nouveaux liens. Les propriétaires de ressources peuvent ajouter leur propre site en remplissant le formulaire AddURL. Le quotidien Yandex analyse des centaines de milliers de pages Web à la recherche de modifications ou de nouveaux liens. Les propriétaires de ressources peuvent ajouter leur propre site en remplissant le formulaire AddURL.

Yandex indexe le réseau russe pour que les serveurs des domaines su, ru, am, z, by, ge, kg, kz, md, ua, uz soient entrés dans le moteur de recherche. Les autres serveurs ne sont entrés que si le texte en russe est trouvé sur eux ou si les propriétaires des ressources ont convaincu l'administration du moteur de recherche que leur serveur intéressait les utilisateurs d'Internet en russe (cela se fait généralement en écrivant à [email protégé]).

Les pages apparaissent généralement dans la base de données de recherche une semaine après leur affichage ou leur modification. Les nouvelles pages ajoutées à la base de données à l'aide d'AddURL apparaîtront plus rapidement (si elles se trouvent dans la partie russe du réseau et ne nécessitent pas de vérification manuelle).

Le moteur de recherche Yandex est en texte intégral, c’est-à-dire que seuls les mots écrits sur les pages des sites entrent dans son index (et deviennent interrogeables).

Dans la liste des résultats de la recherche, après l'adresse de la page, un texte est affiché, qui consiste en un titre (balise title), une description (meta name = "Description" content = "" balise) ou le début du document (en l'absence d'une telle balise) et des contextes - fragments de texte émery contenant mots de requête.

Indexation dans le moteur de recherche Yandex

Lorsque Yandex détecte une nouvelle page ou une page modifiée, il l’indexe. Dans le processus de cette page est divisée en éléments, dont le contenu est enregistré dans l'index. Lorsque Yandex détecte une nouvelle page ou une page modifiée, il l’indexe. Au cours du processus, la page est divisée en éléments (texte, en-têtes, légendes d'images, liens, etc.), dont le contenu est enregistré dans l'index. Ceci prend en compte la position des mots, c'est-à-dire leur position dans le document ou dans son élément. Le document lui-même n'est pas stocké dans la base de données.

Yandex indexe les pages par leurs vraies adresses. Cela signifie que s'il y a une redirection sur la page, le robot la considérera comme un lien vers une nouvelle adresse et la placera dans la file d'attente pour l'indexation.

Conformément à la norme de protocole HTTP, Yandex, ayant reçu dans l'en-tête de la réponse l'information indiquant que l'URL donnée est une redirection (codes 3xx), s'ajoute à la liste des adresses pour analyser l'URL à laquelle la redirection mène. Si la redirection était constante (code 301) ou si la directive meta-refresh a été rencontrée sur la page, l'ancienne URL sera exclue de la liste de contournement.

Le robot Yandex enregistre la date de la dernière analyse de chaque page, la date à laquelle elle a été modifiée (envoyée par le serveur Web) et la date de la dernière modification apportée à la base de données de recherche (la date d'indexation). Il optimise la traversée du réseau afin de visiter plus souvent les serveurs les plus modifiés. Le robot Yandex fonctionne automatiquement et la réindexation a lieu toutes les deux ou trois semaines.

Les modifications apportées aux pages déjà indexées sont vérifiées par le robot Yandex lors de leur prochaine visite sur le site. Le robot a son propre horaire et ne peut pas être modifié.

Yandex indexe l'ensemble du document: texte, titre, légendes d'images, description (description), mots-clés et autres informations.

Le robot Yandex contourne les pages "dynamiques" et les traite exactement de la même manière que les pages "statiques". Le robot de recherche Yandex en plus du HTML standard, des index: formats de fichiers PDF, DOC, RTF et Flash.

Dupliquer   - il s'agit du même texte, sous une douzaine d'adresses différentes, en fonction, par exemple, de la méthode de navigation sur le site. Les sites avec un grand nombre de doublons sont impitoyablement nettoyés de temps en temps.

Sites miroirs

Le miroir   - copie partielle ou complète du site. La présence de ressources en double est nécessaire pour les propriétaires de sites très fréquentés afin d'accroître la fiabilité et la disponibilité de leurs services.

Un grand nombre de miroirs lit les bases de données des moteurs de recherche et conduit à l’apparition de doublons dans les résultats de la recherche. Par conséquent, lorsque le robot Yandex détecte plusieurs miroirs de site, il sélectionne l'un d'entre eux comme principal, le reste de l'index est supprimé. Par défaut, le robot choisit le miroir principal en fonction de ses propres considérations. Et généralement pas ce que le propriétaire de la ressource aimerait voir.

Vous pouvez prendre un certain nombre de mesures vous permettant de sélectionner le site souhaité comme miroir principal.

Tout d'abord, vous pouvez supprimer les miroirs mineurs du site.

Deuxièmement, sur tous les miroirs, en plus de celui qui doit être choisi comme principal, placez un fichier robots.txt qui interdit complètement l'indexation de sites. Ou mettez les miroirs robots.txt avec la directive Host.

Troisièmement, placez une balise sur les pages principales des miroirs non principaux interdisant leur indexation et leur exploration par des liens.

Quatrièmement, modifiez le code des pages principales sur les miroirs mineurs afin que tous (ou presque tous) les liens les plus profonds dans le site soient absolus et conduisent au miroir principal.

Si l’un des conseils ci-dessus est mis en œuvre, le miroir principal sera automatiquement modifié à mesure que le robot de recherche Yandex sera ignoré.

Méthodes du moteur de recherche Yandex

Le moteur de recherche Yandex contient dans son index pour chaque mot du texte un numéro de document, des phrases, des mots dans une phrase et le poids de chaque mot. Le robot de recherche Yandex indexe les pages et, sur la base des informations les concernant, forme un index de recherche.

Toutes ces informations sont utilisées lors de la recherche. Pour chaque requête, des phrases sont recherchées (et obtiennent un rang supérieur) qui correspondent exactement à la requête, puis des phrases contenant tous les mots de la requête, etc. La position relative des mots joue un rôle important. Ainsi, par exemple, si une requête de quatre mots n'a pas de réponse exacte dans la base de données, les phrases contenant trois mots de la requête dans lesquels les mots sont exactement dans le même ordre que dans la requête seront classées ci-dessus. Cela permet de résoudre un problème de recherche typique - rechercher un document sur "une citation inexacte".

  Moteur de recherche Rambler

L'histoire du moteur de recherche Rambler

L'histoire du moteur de recherche Rambler commence en 1991 dans la ville de Pushchino, dans la région de Moscou. C'est là qu'un groupe de personnes partageant les mêmes idées a créé la société Stack. Il dirigeait la société "Stek" Sergey Lysakov. La société était engagée dans les réseaux locaux et la connexion Internet.

Déjà en 1996, Sergey Lysakov et le programmeur Dmitry Kryukov avaient décidé de développer le premier moteur de recherche russe pour Internet. Dmitry Kryukov a proposé le nom du projet - Rambler. En traduction, Rambler signifie "vagabond, vagabond", ce qui est conforme au principe de fonctionnement du robot du moteur de recherche.

Le 26 septembre 2006, le domaine rambler.ru a été enregistré et le 8 octobre déjà, la société Stack a activé le système. Au printemps 1997, le "Top 100" de Rambler apparaît - un classificateur de notation, qui évalue la popularité des ressources russes sur la base de données objectives.

En juin 2003, la société a lancé une nouvelle version du moteur de recherche, qui diffère de la précédente par deux paramètres principaux: la vitesse de recherche a considérablement augmenté en raison de la nouvelle architecture système, l'index de recherche est mis à jour plusieurs fois par jour.

Pour ceux qui savent exactement ce qu'il cherche et ne veut pas passer plus de temps, une version spéciale et concise de la recherche Rambler sur r0.ru a été ouverte (ou, comme on dit, Arnold).

Le mécanisme des associations de Rambler

Lorsqu'une personne effectue une série de requêtes consécutives dans le moteur de recherche Rambler, ces mots et expressions deviennent interconnectés - associations Rambler. Les utilisateurs de Rambler peuvent accéder au mécanisme d’association Rambler.   Associations Rambler   - il s'agit de demandes liées de manière thématique (associative) à la demande de l'utilisateur initial. Lorsqu'une personne effectue une série de requêtes consécutives dans le moteur de recherche Rambler, ces mots et expressions sont interconnectés. Et une telle séquence crée des associations Rambler. En fait, ce concept est "Nous recherchons également."

D'une part, en utilisant le mécanisme d'association Rambler, un utilisateur peut rapidement affiner ou développer sa requête. D'autre part, une chaîne d'associations typiques révèle les faiblesses de la demande initiale, son ambiguïté, son «flou». En conséquence, le visiteur du moteur de recherche Rambler apprend à poser des questions correctement, sans perdre de temps, c’est-à-dire qu’il a recours à «l’intelligence collective».

Le mécanisme des associations «Nous recherchons également» est intéressant pour quiconque veut voir ce que pensent des milliers et des milliers de visiteurs du réseau. C'est un outil de recherche et une source d'informations précieuses pour les linguistes et les webmasters.

Gestion de l'indexation dans le moteur de recherche Rambler

Vous pouvez limiter l'indexation des pages de ressources par le système de recherche Rambler via le fichier robots.txt ou le balise META "Robots". Le robot du moteur de recherche Rambler s'appelle "StackRambler". C’est lui qui télécharge les documents postés sur Internet, y trouve des liens vers d’autres documents, les télécharge à nouveau, etc. Robot StackRambler analyse le fichier robots.txt et limite l'analyse de la ressource, conformément à ses instructions. Grâce à robots.txt, vous pouvez refuser l'accès à certains répertoires et / ou fichiers.

Limitez le plus possible le balayage du robot Rambler du moteur de recherche de pages de numérisation au moyen de la balise META "Robots". La balise contrôle l'indexation d'une page Web spécifique. Dans ce cas, les robots peuvent interdire non seulement l'indexation du document lui-même, mais également le passage par les liens qu'il contient.

Ajout de pages dans le moteur de recherche Rambler

Le robot Rambler explore le Web à travers des liens et trouve ainsi de nouvelles ressources. Vous pouvez remplir le formulaire d'inscription. Le robot Rambler visite uniquement les sites situés dans les domaines nationaux ru, .su, .ua, .by, .kz, .kg, .uz, .ge. Si le site est situé dans l'une des autres zones de domaine (par exemple, en .com, .net ou .org ou dans d'autres domaines nationaux), les robots Rambler ne visiteront pas par défaut les pages de ces ressources. Pour ajouter de telles ressources d’intérêt aux utilisateurs russophones, vous devez contacter l’administrateur du système de recherche Rambler pour connaître le nombre de celles numérisées.

Le robot Rambler explore le Web à travers des liens et trouve ainsi de nouvelles ressources pour l'indexation. Vous pouvez également remplir le formulaire d'inscription dans le moteur de recherche Rambler. Les champs de ce formulaire - "Nom du site" et "Description" ne sont pas utilisés pour la recherche. Ils sont uniquement destinés à être lus par les éditeurs et sont utilisés dans les bases de données internes de Rambler.

Le robot analyse les pages du site dans les jours qui suivent l’enregistrement (ou la recherche d’une ressource). Parallèlement, il contourne immédiatement le site à une certaine profondeur (analyse les pages référencées par la page enregistrée). Les pages téléchargées par le robot apparaissent dans la base de recherche avec un certain retard. La réindexation des documents reçus est effectuée environ toutes les deux semaines.

Indexation du moteur de recherche Rambler

Lors de l'indexation du moteur de recherche, Rambler prend en compte uniquement les informations que l'utilisateur peut voir sur la page. Les concepts de base et les mots clés du site doivent figurer dans les balises HTML suivantes (par ordre d'importance): titre h1 ... h4 b, fort, u Plus le mot apparaît souvent dans ces champs, plus le moteur de recherche de Rambler sera lié à Ce document est plus proche du haut de la liste des résultats de la recherche.

La taille maximale du document pour les robots Rambler est de 200 kilo-octets. Les documents plus grands sont tronqués à la valeur spécifiée.

Le programme d'indexation gère les redirections (redirections), mais uniquement si la redirection est effectuée dans domain.ru ou dans les domaines de certains pays de la CEI.

Rambler traite toutes les pages "dynamiques" avec des noms tels que * .asp *, * .php *, * .pl *, * / cgi-bin / *, etc. pour les sites que vous visitez (selon top100), ainsi que pour les sites contenant des informations uniques utiles aux utilisateurs du moteur de recherche. Pour les autres sites, seule une partie de ces pages est traitée.

Les fragments HTML étiquetés avec Rambler ne sont pas indexés.

Le moteur de recherche Rambler est capable d'extraire des liens d'objets Flash et peut donc gérer des sites basés sur la technologie Flash. Cependant, les textes des objets flash ne sont pas encore indexés.

L'indexation ne prend en compte que les informations que l'utilisateur peut voir sur la page.

Les champs masqués et tous les autres champs sauf lorsque les sites d'indexation sont ignorés. Il en va de même pour les commentaires dans le code HTML du site. De même, n'utilisez pas de texte invisible dans lequel la couleur de police correspond à la couleur d'arrière-plan.

La recherche prend en compte Top100. Le robot spécial Rambler ajoute deux fois par jour de nouvelles pages à tous les sites participant au classement et place un compteur sur leurs pages dans la base de données du moteur de recherche. Après avoir modifié les informations du classement de la note au Royaume-Uni, sa mise à jour dans le système de recherche a lieu dans un ou deux jours. Si le site est enregistré dans Top100, il sera disponible pour certaines demandes, même si les informations ont été supprimées de la base de données d'index.

La recherche prend en compte les informations obtenues du classement Top100 du Rambler, si le site y est enregistré. Le numéro indique la date de réception de ces informations. Les informations sur Top100 sont mises à jour presque tous les jours.

  Moteur de recherche

L'histoire du moteur de recherche Aport

La présentation officielle de "Aport" a eu lieu le 11 novembre 1997. À ce moment-là, les premiers millions de documents situés sur 10 000 serveurs étaient indexés dans sa base de données. Le créateur du moteur de recherche Aport est Agama, un développeur de logiciels pour les plates-formes Windows. Il convient de noter qu'Aport a été créé et continue de fonctionner sous le contrôle du système d'exploitation Windows (contrairement à la plupart des moteurs de recherche). Le développement linguistique de "Agama" a été utilisé lors de la création du moteur de recherche Aport, dans lequel, au moment de sa création, la morphologie des mots était prise en compte et l'orthographe de la requête était effectuée à la demande du client.

Pour la première fois, le système de recherche Aport a été présenté en février 1996 lors de la conférence de presse d'Agama sur l'ouverture du club russe. Initialement, le moteur de recherche Aport recherchait uniquement le site russia.agama.com.

La présentation officielle du moteur de recherche "Aport" n’a eu lieu que le 11 novembre 1997. À ce moment-là, les premiers millions de documents situés sur 10 000 serveurs étaient indexés dans la base de données Aport.

Les principales caractéristiques de la première version de Uport étaient la traduction en anglais de la requête et des résultats de la recherche, et inversement, ainsi que la reconstruction de toutes les pages indexées à partir de leur propre base de données.

En novembre 1998, le système de recherche "Aport" a été acquis par un citoyen israélien, Joseph Avchuk (avec la préservation des marques "Aport" et "Agama"). Le montant réel de la transaction était de 55 000 dollars.

En octobre 1999, un système de recherche fondamentalement nouveau "Aport 2000" a été présenté lors d'expositions informatiques des deux côtés de l'océan, entièrement intégré à AtRus (maintenant appelé "Catalogue-Aport").

  "Aport 2000" a été le premier moteur de recherche russe, construit sur la base de la publication des résultats pour des sites individuels. Pour diviser les ressources en sites, des informations sont utilisées selon lesquelles «Aport» est fourni par le catalogue AtRus ou des informations entrées dans «Aport» par les propriétaires des ressources.

Aport 2000 a été le premier moteur de recherche russe à implémenter les deux technologies de base du moteur de recherche américain Google. Comptabilisation du grade de page (page rank), qui caractérise sa popularité. La valeur de classement est calculée par le nombre de liens vers la ressource à partir d'Internet externe. Le poids d'un lien provenant d'un site populaire est supérieur à celui d'un lien provenant d'un site moins populaire; Les liens contenant des mots de requête ont plus de poids que, par exemple, le mot "ici". Traitement de la demande avec l'analyse des balises de page HTML. Par exemple, le texte entre les balises h2 a une priorité plus élevée qu'entre les balises h6.

Dans Aport 2000, l’inclusion des mots de la requête dans l’URL était également prise en compte. Parmi les fonctionnalités non documentées figure une priorité plus élevée pour les sites ayant reçu la plus haute et la plus prestigieuse ligue du catalogue AtRus.

Enfin, un autre championnat «Aport» consiste en l’utilisation d’une ligne zéro payante (en passant, «Aport» a été le premier de nos moteurs de recherche à acheter un tel service auprès d’AltaVista, qui, moyennant une somme modique, a émis son lien en premier en demandant «Recherche russe». Cependant, dans le champ "Aport", vous ne pouvez pas acheter non pas zéro, mais simplement une place plus élevée pour votre site dans les résultats de recherche.

L'organisation de l'évolutivité dans l'architecture de "Aport 2000" est telle que vous pouvez diviser la base de recherche "Aport" en plusieurs bases distinctes, chaque petit "Aport" fonctionnant sur son ordinateur. "Aport 2000" pense que tout Internet est divisé en fragments. Après avoir effectué une recherche sur ces fragments, l'utilisateur est intégré et reçoit une réponse générale. Vous pouvez ajouter de nouveaux "aports" par une procédure peu compliquée. En cas d'accident, les machines individuelles ont des résultats intégraux légèrement différents des machines standard, que l'on peut observer de temps en temps.

Le 31 juillet 2000, Golden Telecom a acheté la famille de projets Internet Agama, notamment Aport et AtRus, afin de les inclure dans les projets en ligne et à contenu proche de Russie.

En mai 2001, l’entente visant à changer le propriétaire d’Aport lui-même et de Golden Telecom a finalement été finalisée, Alfa Bank en devenant le nouveau propriétaire. Le NASDAQ avait connu une baisse rapide à ce moment-là et il n'y avait aucune chance de vendre des projets Internet pour un montant raisonnable. Cela a conduit les nouveaux propriétaires de "Golden Telecom" à prendre la décision de minimiser les coûts liés à la prise en charge de projets Internet coûteux.

Gérer l'indexation dans le moteur de recherche Aport

Lors de l'affichage du contenu d'un serveur pour l'indexation, Aport vérifie le fichier robots.txt et prend en charge les balises méta Robots. Lors de l'affichage du contenu du serveur pour l'indexation, Aport vérifie le fichier robots.txt. Ainsi, il est possible de limiter "l'activité" de l'aport sur le serveur Le robot de recherche Aport s'appelle Aport. Ce nom peut être utilisé pour restreindre l'indexation via le fichier robots.txt.

En outre, le moteur de recherche Aport prend en charge les balises méta Robots, qui vous permettent de définir les règles de comportement du robot sur une page individuelle du site et au cas où il serait impossible de modifier le fichier robots.txt sur le serveur.

Ajout de pages dans le moteur de recherche Aport

L'enregistrement du site dans Aport s'effectue à partir de la page Ajouter une URL. Vous devez ajouter uniquement la racine du site. L'enregistrement du site dans Aport s'effectue à partir de la page http://catalog.aport.ru/rus/reg/add.ple. Cette page est disponible via le lien Ajouter une URL de presque toutes les pages de l’Aport. Il est nécessaire d’ajouter uniquement la racine du site, les pages restantes seront trouvées sur les liens par l’Aport.

Aport est un moteur de recherche sur Internet russe. Vous pouvez donc y ajouter des sites en russe, ainsi que des sites directement pertinents pour Internet russe. En cas de refus d'ajouter automatiquement un site (par exemple, si le robot de recherche ne trouve pas de texte en russe sur sa page racine), vous pouvez demander à ajouter le site par courrier électronique: [email protégé]

Indexation des ressources Aport du moteur de recherche

Aport - moteur de recherche en texte intégral. Cela signifie qu'il indexe tous les mots qu'une personne verrait à l'écran lors de l'affichage d'une page de serveur spécifique. Aport vérifie périodiquement les sites disponibles dans sa base de données et ajuste sa base en fonction des modifications qui y ont eu lieu. La période de vérification dépend en grande partie du site spécifique (elle prend en compte sa popularité, le dynamisme de la mise à jour en fonction des données collectées par l’aéroport lors de visites précédentes sur le site et un certain nombre d’autres facteurs).

À partir du moment où le site est ajouté au système de recherche Aport jusqu'au moment où il apparaît dans la base de données de recherche, cela prend de deux à trois jours à deux semaines. Dans certains cas (par exemple, dans le cas d'une connexion instable avec le site ajouté), ce temps peut être un peu plus long.

Aport indexe tous les documents statiques (dans l'URL dont le caractère «?» N'a pas été trouvé) trouvés par son robot de recherche via les liens du site. Cette règle peut ne pas être observée pour les grands sites, ainsi que pour les sites vus dans l'application du spam de recherche.

Les documents contenant le caractère "?" Dans l'URL sont indexés de manière sélective par le moteur de recherche Aport. Il utilise des quotas sur le nombre de ces documents pour chaque site. La taille du quota est calculée automatiquement en fonction d'un certain nombre de conditions, notamment l'indice de citation de site, et peut être notamment nulle pour certains sites.

Il est nécessaire de prendre en compte que l’indexation complète du site peut se faire progressivement, ainsi que le fait que le contenu de la base de données relève de la prérogative du moteur de recherche et ne fournit aucune garantie en matière d’indexation (tout en préservant les documents déjà indexés dans l’index).

Aport - moteur de recherche en texte intégral. Cela signifie qu'il indexe tous les mots qu'une personne verrait à l'écran lors de l'affichage d'une page de serveur spécifique. En conséquence, tout mot du texte des documents peut servir de critère de recherche ultérieure.

Pour les documents HTML, en plus du texte principal du document, les éléments suivants sont également indexés: titre du document (TITRE), mots-clés (META KEYWORDS), descriptions de page (META DESCRIPTION) et légendes d’image (ALT). En outre, Aport indexe comme appartenant au document, les textes des hyperliens vers ce document à partir d'autres pages, à la fois à l'intérieur du site et à l'extérieur de celui-ci, ainsi que des éditeurs compilés (ou vérifiés) décrivant les sites du catalogue Aport.

  Moteur de recherche Google

Ce moteur de recherche est en train de devenir meilleur et plus populaire avec le temps, mais il est inférieur aux moteurs de recherche ci-dessus. Selon les sondages, Google fournit environ 10% de toutes les requêtes de recherche Runet. Pour l'enregistrement, Google accepte les sites de tous les domaines. En d'autres termes, il n'est pas limité à la seule zone ru. C'est certainement un très gros avantage par rapport à la concurrence (en Russie). Mais Google ne présente plus aucun avantage et ne peut même pas produire, dans les résultats de recherche, de mots synonymes de la requête. Autrement dit, si nous définissons la requête "anecdote" dans Google, Google recherchera exactement ce mot sur les sites Web, tandis que Yandex, Rambler et Aport prendront également en compte les sites Web et les synonymes, par exemple "anecdotes". et Google ne peut pas faire ça.

Moteurs de recherche étrangers

  • Recherche AOL
  • Achla
  • Altavista
  • AltaVista (numérique)
  • Autriche NetGuide
  • AustroNaut
  • Alltheweb
  • Antiseearch
  • Demander à jeeves
  • AskAlex
  • Anzwers
  • Ausindex
  • AustriA-www
  • Baku Pages
  • Brit Index
  • Compnet
  • Copernic
  • Cyber411
  • Coup direct
  • Daypop.com
  • Excite
  • England en ligne
  • Freeality
  • Recherche FTP
  • GBP Great British Pages
  • Hotbot
  • Handilinks
  • Infoseek
  • InfoMarket
  • Infomine
  • InterSearch Autriche
  • Entretien
  • Inktomi
  • Inforia
  • Google
  • Guide.at
  • Looksmart
  • Lycos
  • Recherche légère
  • Libanis.com
  • Magellan
  • MaxiSearch
  • Recherche MSN
  • Mixcat.com
  • Meta-ukraine.com
  • Métacrawler
  • Northern Light
  • Recherche Netscape
  • Répertoire ouvert
  • Ouvrir le texte
  • Qango
  • Raging Search
  • Les noms réels
  • Search.com
  • Seachuk
  • Search.lv
  • Search.iwon.com
  • Submitit.bcentral.com
  • Superpromo.com
  • Search.escapeartist.com
  • Surfgopher.com
  • Slider.com
  • Indice britannique
  • Répertoire Uk
  • Ukmax
  • Whatuseek.com
  • Webcrawler
  • Web wombat
  • Yahoo
  • 2kcity.com

Architecture des systèmes de métarecherche

  Introduction

Dans cet article, prenant comme exemple le système de méta-recherche MetaPing, l'architecture des systèmes de méta-recherche et les principes de base de leur fonctionnement et de leur construction sont pris en compte.

Qu'est-ce qu'un système de métarecherche?

Ce n’est un secret pour personne que l’internet, qui contient une quantité toujours croissante d’informations en perpétuelle mutation, se développe à un rythme sans précédent. Afin de rationaliser en quelque sorte ce flux continu de données et, surtout, de permettre aux utilisateurs Web de trouver les informations nécessaires, des moteurs de recherche spéciaux ont été créés. Chacun de ces systèmes a un index qui contient des informations de service sur le contenu des documents indexés, chaque mot du texte correspondant à la fréquence de son utilisation et aux coordonnées du mot donné dans le texte.

Chaque moteur de recherche n'a que les siens, limités par ses ressources, de nombreux documents disponibles pour la recherche. Aucun de ces systèmes ne pourra couvrir toutes les ressources Internet. Par conséquent, une situation peut survenir à tout moment si les besoins en informations de l'utilisateur ne peuvent être satisfaits. En règle générale, dans ce cas, l'utilisateur accède à un autre moteur de recherche et essaie de rechercher ce dont il a besoin.

Pour résoudre ce problème et étendre les capacités de recherche, des systèmes appelés métarecherche ont été créés. Ils ne disposent pas de leur propre base de données de recherche, ne contiennent aucun index et utilisent les ressources de nombreux moteurs de recherche lors de leurs recherches. De ce fait, la recherche dans ces systèmes est complète et la probabilité de trouver les informations nécessaires est très grande.

  Principes de fonctionnement des systèmes de métarecherche

Lors de la conception d'un système de métarecherche, un certain nombre de problèmes doivent être résolus.

Tout d'abord, parmi l'ensemble des documents reçus des moteurs de recherche, il est nécessaire de sélectionner les plus pertinents, c'est-à-dire ceux qui correspondent à la demande de l'utilisateur. En règle générale, les créateurs de systèmes de métarecherche n'espèrent pas à juste titre que les moteurs de recherche qu'ils utilisent renvoient des résultats de recherche pertinents et se fient trop à la position du document dans ce moteur de recherche.

Cette approche standard est présentée à la fig. 1. Dans de tels systèmes, l'analyse des descriptions de documents reçues n'est pas effectuée, ce qui peut placer les documents non pertinents, en premier dans un moteur de recherche, plus pertinents pour un autre que de réduire considérablement la qualité de la recherche elle-même. Ce principe s’est avéré intéressant lorsque l’auteur a créé un analyseur de position de site sur les moteurs de recherche, mais dans l’ensemble, il s’est révélé insatisfaisant pour les systèmes de méta-recherche.



  Fig.1 Système de métarecherche standard

Lors du développement de la prochaine génération de systèmes de métasearch, les inconvénients des systèmes de métasearch standard ont été pris en compte. Les systèmes ont été créés avec la possibilité de sélectionner les moteurs de recherche dans lesquels, selon l'utilisateur, il est plus susceptible de trouver ce dont il a besoin (Fig. 2).





Fig. 2. La prochaine génération de systèmes de métarecherche

En outre, cette approche vous permet de réduire les ressources informatiques du serveur Metasearch sans le surcharger d'informations superflues et de réduire considérablement le trafic. Il convient de noter ici que dans tout système de méta-recherche, le goulot d'étranglement est essentiellement la bande passante du canal de transfert de données, car le traitement des pages contenant des résultats de recherche provenant de plusieurs dizaines de serveurs de recherche n'est pas une opération trop longue, car le temps passé à traiter des informations par ordres de grandeur moins de temps à venir des pages demandées par les moteurs de recherche.

Comme exemple de systèmes ayant une organisation similaire, nous pouvons appeler Profusion, Ixquick, SavvySearch, MetaPing.

  Comment ça marche?

Le principe de fonctionnement du système de métarecherche MetaPing développé par l'auteur de cet article sera décrit ci-après, mais les principes généraux seront valables pour le reste des systèmes de cette classe (voir Fig. 2).

Commençons par la page de démarrage de ce système de métarecherche. Habituellement, l'interface d'un tel système est extrêmement simplifiée et permet immédiatement de comprendre quoi, où et comment vous pouvez chercher ici. Dans notre cas (MetaPing), la recherche est possible dans trois zones de recherche: en Russie, en Ukraine et dans le monde. Vous pouvez tout rechercher en notant une recherche sur Internet ou restreindre votre recherche et rechercher spécifiquement des annonces, des actualités, des fichiers et des résumés ( Fig. 3).





Pic.3 MetaPing page de démarrage
  L'utilisateur sélectionne, par exemple, une recherche dans toute la Russie et saisit, par exemple, la requête suivante: «les meilleurs moteurs de recherche» (Fig. 4).





Fig. 4 page MetaPing avec les résultats de la recherche

Après cela, la demande est retransmise aux moteurs de recherche russes spécifiés (dans notre cas, il s'agit de Rambler, Aport, Lycos et Google). Il convient de noter que Google, bien qu’il ne s’agisse pas d’un moteur de recherche russe, est actuellement en concurrence avec eux à la fois pour l’exhaustivité des bases de données et pour la qualité de la recherche. C’est pourquoi il s’est avéré être ici. À propos, le lecteur attentif a probablement noté l’absence du plus grand moteur de recherche russe Yandex. Au moment où MetaPing a été lancé, Yandex était également présent ici, mais après le fameux scandale, il a fallu l'éliminer.

Pour envoyer une demande au moteur de recherche, un agent spécial de méta-recherche est utilisé. Il est responsable non seulement du processus de relais de la demande et de la réception des pages, mais également de l'envoi de la demande dans le codage correct accepté dans chacun des moteurs de recherche sélectionnés, sinon un ensemble différent sera reçu. des descriptions de documents ou ne seront pas reçues du tout, ce qui nuira à la qualité de la recherche.

Après le traitement de la demande reçue, chaque système renvoie à l'agent de métarecherche un ensemble de descriptions et de références aux documents qu'il considère pertinents pour la requête donnée.

Comment parmi cet ensemble choisir exactement ce dont l'utilisateur a besoin?

Au début de cet article, nous avons déjà mentionné l'approche standard, utilisée par la plupart des systèmes de méta-recherche et consistant simplement à placer les liens obtenus dans l'ordre dans lequel ils apparaissent dans les résultats de recherche de chacun des moteurs de recherche. Dans le même temps, si le même site est trouvé dans différents moteurs de recherche, sa valeur pour l'utilisateur augmente bien entendu de manière significative.

L’approche est certes correcte, mais que faire si un système, par exemple, indexe les pages générées dynamiquement et l’autre pas? Ils ont différents ensembles de documents indexés, différentes bases de données complètes, par conséquent, les informations demandées par l'utilisateur peuvent être trouvées dans un système et ne peuvent pas être trouvées dans un autre. Dans ce cas, l'utilisateur peut obtenir plusieurs liens vraiment pertinents d'un système, qui seront mélangés avec absolument non pertinents de l'autre (par exemple, dans le cas où la phrase entière n'est pas trouvée, la recherche suit l'un des mots clés de la requête). En conséquence, l’utilisateur doit sélectionner manuellement les liens pertinents et il est très probable qu’après avoir fouillé dans une telle «vinaigrette», il partira tout simplement et ne reviendra jamais.

Y a-t-il un moyen de résoudre ce problème? Bien sûr il y a. Il est nécessaire avec l’ensemble des descriptions de documents reçus des moteurs de recherche de faire la même chose qu’ils font avec ces documents, c’est-à-dire de déterminer la fréquence des mots-clés dans chaque en-tête et description et d’essayer de déterminer le classement de chacun d’eux indépendamment.

C’est sur ce principe que le système de méta-recherche MetaPing est construit, où un algorithme de traitement d’informations mixtes est mis en œuvre. L’auteur a mis au point des programmes spéciaux d’analyse des données obtenues, grâce auxquels la première étape est le classement de l’ensemble des descriptions des documents reçus, le deuxième rang est en outre ajusté en fonction de l’endroit où se trouve le document et du nombre total de documents trouvés sur demande (vous permet d’évaluer l’exhaustivité des bases de données de recherche). système spécifique).

Ce traitement vous permet non seulement de supprimer les documents dont la description ne contient pas de mots clés potentiellement non pertinents, mais également de trouver une correspondance stricte si tous les mots clés sont décrits en détail dans la description du document, ce qui améliore considérablement la qualité et la précision de la recherche.

Systèmes de métarecherche Inforian Quest 98 et Copernic 98


  Inforian Quest 98 (QI - une abréviation réussie, n'est-ce pas?). La société de produits Inforian, fruit des efforts collectifs des programmeurs japonais, chinois et américains.

Poids d'environ 3,5 Mo, nécessite jusqu'à 5 Mo d'espace disque disponible. Le coût de la version complète est de 25 $, shareware - 1 mois.

Utilise deux styles: Essence, pour les utilisateurs avancés, et Wizard, pour les débutants. Les deux styles se distinguent par une extrême simplicité. Inforian Quest 98 vous permet d'effectuer une méta-recherche rapide sur les sept serveurs les plus populaires (Yahoo!, Altavista, InfoSeek, Excite, HotBot, OpenText, WebCrawler), d'accéder à près de 200 serveurs de recherche situés en Amérique, en Europe, au Japon et en Chine, et d'effectuer une enquête dans ces bases de données. données sur les sept sections thématiques Arts et divertissements (Arts et divertissements), Actualités et affaires (Actualités et entreprises), Ordinateurs et Internet (Ordinateurs et Internet), Logiciels et fichiers (Logiciels et FTP), Groupes de discussion (Usenet (Groupe de discussion)) ), Technologie (Technologie), Adresses et Téléphones (Pages Jaunes). Il est à espérer que la liste des serveurs "recherchés" de clients israéliens et russes figurera prochainement dans la liste.

En fonction du degré de souffrance de votre patiente, il est recommandé de définir un délai d’attente (attendre ...) pour l’émission des résultats de la recherche (minimum - 1 seconde, maximum - près de 4 mois, recommandé - 1-2 minutes) et spécifier le nombre maximum de messages de chaque site trouvé (liens). par site) (par défaut 10). Si vous souhaitez ne recevoir que des informations mises à jour et que vous êtes prêt à sacrifier une petite vitesse de recherche pour cela, arrêtez d'utiliser le serveur proxy. Si vous le souhaitez, vous pouvez facilement changer la langue de l'interface de l'anglais en allemand, français ou espagnol, mais si votre ordinateur n'est pas seulement assemblé, mais également bourré de logiciels conçus par des artisans d'Extrême-Orient, vous pouvez essayer l'interface en japonais ou en chinois. Il surprend le «prompteur» merveilleusement exécuté, auquel on peut accéder en appuyant sur la touche F1 du clavier ou en utilisant le script Aide -\u003e Rubriques d'aide.


Copernic 98, un système de métarecherche d'ATC (Agents Technologies Corporation), n'est pas moins populaire aujourd'hui. Le principal avantage du programme est l'absence de la nécessité de payer pour la version principale, le temps d'utilisation n'est pas limité. Ce programme surpasse son concurrent à la fois par sa facilité (environ 2,5 Mo) et par le volume du répondant lors de la recherche d’espace d’information. Par rapport au concurrent, NetFind, LookSmart, Lycos, Magellan ont été ajoutés à la cage du serveur de recherche principal, bien que le très prometteur OpenText ait été oublié. Il est à noter que lorsque vous recherchez vos amis sur le Web avec Copernic 98, vous utilisez non seulement les ressources du traditionnel Who Where?, BigFoot, Four11, mais également la base de données du «héros de la saison en cours», Mirabilis. Vous pouvez utiliser le catalogue thématique contenant environ 20 sections et regrouper les informations de plus de 100 moteurs de recherche si vous avez choisi la version "plus" (30 jours gratuits, comme celui-ci, payez 30 dollars US). Aujourd'hui, le développement s'appelle le Kit de développement de canaux, qui vous permettra d'ajouter indépendamment à la liste tout moteur de recherche. Si, dans le même temps, Copernic ne considère pas que la phrase recherchée en russe ou en hébreu est erronée, alors dans notre pays cette garantie est garantie d'une popularité considérable.

Pour chaque opération de recherche, vous pouvez modifier les valeurs maximales du nombre total de résultats de recherche et du nombre de messages dans un canal de recherche distinct (Rechercher -\u003e Nouveau -\u003e Paramètres -\u003e Recherche personnalisée). Vous pouvez vous connecter au serveur proxy (Affichage -\u003e Options -\u003e Connexion -\u003e Proxies).

Il était une fois, à l'aube de la naissance du RuNet, alors que le nombre de sites eux-mêmes dans le segment russophone était mesuré par centaines, annonce Rambler. qui était l’un des premiers parmi nous, mais qui attendait l’effondrement. Maintenant, Rambler est un portail média. Pourquoi est-ce arrivé? Essayons de comprendre le sujet.

Rambler - ce qui était et ce qui est maintenant.

Je dois dire que Rambler, un moteur de recherche de bonne qualité, est apparu un an plus tôt que Yandex et Google. Mais en 2011, un accord a été conclu entre le géant «Yandex» et le «Rambler», selon lequel la recherche sur le méga-portail aurait désormais dû être effectuée à l'aide d'un miroir runet et, plus précisément, de Yandex.

Auparavant, le personnel du "Rambler" avait envisagé la possibilité de collaborer avec Google, mais l '"ami juré" russophone avait pu faire une meilleure offre. Depuis lors, depuis l'été 2011, le Rambler est un portail média qui ne recherche même pas son propre moteur de recherche Rambler, mais le moteur de recherche d'un concurrent. Vous pouvez le vérifier en examinant un problème complètement identique pour les requêtes de recherche.

L'histoire de la naissance de "Rambler" dans la ville scientifique de Pushchino


Si nous parlons de la naissance de Rambler, de la raison de la naissance et du développement d’Internet en Russie, voici un bref résumé de l’histoire. Comme vous devez le savoir, Internet a été développé à l’origine par l’armée américaine et a ensuite été distribué aux universités. Ainsi, au début des années 90, dans l'une des petites villes scientifiques de Pushchino, l'une des premières lignes spécialisées connectées à Internet via Moscou a été installée. Littéralement, avec leurs propres efforts, des enthousiastes souhaitant recevoir directement des nouvelles de la communauté scientifique ont réussi à faire passer le câble à Moscou. En 1991, Internet commençait à peine sa marche victorieuse. Runet n'était en fait pas. Ce n’est qu’en 1989 que le WWW a été créé et les passionnés de Pushchino ont déjà effectué beaucoup de travail. Dans le même temps, même au sein de tout Internet, ils constituaient une unité très importante. Écrire le moteur de votre moteur de recherche personnel est devenu une conclusion logique de l'internetisation de la communauté scientifique.

Développement ultérieur


Un programmeur de Pushchino a réussi à rédiger un moteur de recherche pendant plusieurs mois. À l'automne 1996, le domaine rambler.ru a été acquis et en octobre, le site et le moteur de recherche sont devenus accessibles aux utilisateurs. Jusqu'en 1997, lorsque Yandex est apparu à l'horizon, les perspectives pour Rambler étaient très ambitieuses. Il était pratiquement le premier et unique chef de file de la recherche. Et bien qu'alors le nombre de sites dans runet était de centaines (sinon des dizaines),
  mais les perspectives du "Rambler" (ce qui en allemand signifie "clochard") étaient très prometteuses. Si tu pouvais les garder.

Rambler - que s'est-il passé? Ou quelle est la raison de l'effondrement?


Selon un expert, le fait est que les principaux développeurs du Rambler ont quitté l’équipe de gestion. Si, par exemple, dans le même "Yandex" à des postes de direction, il y a des personnes qui se sont tenues aux origines. Donc, pour dire, ceci est leur idée originale. Que les développeurs de "Rambler" lors de certaines des vicissitudes aient été forcés de céder leur place aux sponsors. En conséquence de tout cela, une situation est apparue lorsque les gestionnaires, voyant que les indicateurs sont en baisse, s'adressent à la direction et demandent deux ou trois millions d'euros pour la promotion et la publicité. S'il y avait des personnes assises dans la présidence qui comprenaient la question directement, comme dans Yandex, l'argent serait reçu immédiatement. Mais puisque pour des personnes éloignées de la question, ce ne sont que des dépenses justifiées superflues et illusoires, elles disent aux gestionnaires de venir dans six à huit mois et la question sera alors résolue. Malheureusement, trop de temps a été perdu au cours de ces six à huit mois. Et comme la situation se répétait plusieurs fois, il était évident que Rambler ne pouvait pas rester parmi les principaux concurrents.

Rambler - portail média


Parallèlement à la décision de cesser le développement via le moteur de recherche, les propriétaires ont apporté une autre modification au logo. Le portail multimédia, dont il a acquis le statut, exigeait littéralement des modifications dans l’écriture du logo ("Rambler"). Qu'est-ce qui a changé? Il a été décidé de changer la police d'écriture du nom latin en cyrillique. En fait, une telle décision a été prise depuis très longtemps et, on peut l’imaginer, elle est déjà arrivée à échéance très tard.

Quels services incluent maintenant Rambler (portail multimédia)? Oh, il y en a beaucoup! Services incluant Rambler: photo, nouvelles applications, courrier. En plus, beaucoup de services annexes. Ceci et "Rambler. Jeu", et "Avtoumberbler", et "Rambler. Finance." Le premier service est un projet de jeu que vous pouvez visiter en ligne ou télécharger toutes sortes de jeux sur votre ordinateur personnel ou votre téléphone portable. "Avtoambler" est consacré à l’automobile, à des conseils pour choisir et à l’entretien de la voiture. "Rambler. Finance" scanne et donne le plus intéressant du point de vue des faits et des nouvelles de l'économiste. Tous les taux de change possibles, les rapports d’actions et toute analyse. En outre, il existe également, par exemple, "Rambler. Radio" - une application qui vous permet d'écouter des stations de radio directement en ligne.

Un des services les plus réussis

Néanmoins, il existe un service de Rambler, qui est apparu à peu près au même moment que son moteur de recherche, mais bénéficie toujours d’une certaine demande par rapport aux services similaires de Yandex et de Google. Nous parlons du classement "Rambler Top 100". Ce service fournit un compteur de présence gratuit et construit sur sa base les meilleurs sites de RuNet, en les subdivisant, bien sûr, en catégories. Dans le même temps, le portail des médias n’a pas complètement redéfini l’apparence du classement «Top 100 Rambler». C’est pourquoi il est peut-être plus facile de trouver quelqu'un qui n’est pas aussi agréable que nous le souhaiterions. La façon de monétiser dans ce système est telle qu'en échange de l'installation du compteur, vous aurez plusieurs petites bannières sur votre site. Et ce moment est déroutant, ainsi que des questions sur le sérieux du projet "Rambler".

Le portail média, après tout, n’est pas ce à quoi on s’attendait à l’aube de son développement. Cependant, le destin s'est avéré que ce destin particulier est arrivé à Rambler. Qu'est-il arrivé au projet? La réponse est un guide illettré. C'est peut-être la faute ...

Thème: Réseaux informatiques

Classe: 11 e année

Notre hypothèse

Question:  Comment rechercher efficacement des informations sur Internet?

Afin de trouver des informations efficaces, nous avons besoin des moteurs de recherche appropriés.



Plan:

    Considérez tous les sites de recherche les plus célèbres.

    Nous lisons la littérature spéciale.

    Rechercher sur Internet pour l'évaluation des sites de recherche.

Moteur de recherche

Système logiciel et matériel avec une interface Web permettant de rechercher des informations sur Internet.

La partie logicielle d’un moteur de recherche est un progiciel qui fournit les fonctionnalités d’un moteur de recherche.

Une caractéristique des moteurs de recherche est qu’une base de données contenant des informations sur les pages Web, etc.

Moteur de recherche Google

Le moteur de recherche Google reste le moteur de recherche le plus populaire sur Internet.

Pendant tout le temps où Google était sur le marché, aucun des moteurs de recherche concurrents n'a réussi à déplacer le système de recherche américain des positions de leader.


Avantages et inconvénients

Moteur de recherche Yandex

Avantages et inconvénients

Moteur de recherche Rambler

Le moteur de recherche Rambler est le plus ancien de RuNet.

Elle est née des efforts de nombreux spécialistes Internet réputés en 1996, au moment même où le Runet en était encore à ses balbutiements.

Avantages et inconvénients

Conclusions et résultats de l'étude

À la suite de nos recherches, nous avons découvert que, malgré la crise financière mondiale, le moteur de recherche de Google donne le meilleur résultat: le moteur de recherche Yandex prend la deuxième place et la troisième place est occupée par Rambler.

Google n ° 1

Le moteur de recherche Google est considéré comme le plus rapide et le plus efficace, ce qui lui permet de gagner la confiance d’un nombre croissant d’internautes, ce qui lui donne le titre du moteur de recherche le plus populaire.

De plus, les spécialistes de Google améliorent constamment les capacités de leur moteur de recherche, ce qui donne d’excellents résultats.

  Rambler (synonyme Rambler, randonneur, traduit de l'anglais comme vagabond, vagabond)  Moteur de recherche du groupe Internet Rambler Media Group.

Le moteur de recherche prend en compte la morphologie des langues russe, ukrainienne et anglaise, ainsi que lors de la recherche, passe en revue toutes les formes de requêtes et fournit des résultats sur le degré de conformité à la requête.

Rambler, l’un des tout premiers moteurs de recherche sur le marché de l’Internet, a joué un rôle déterminant dans le développement du Runet. Avec un petit nombre (pas plus de 5%), le moteur de recherche se classe au 3ème rang après Yandex et Google.

Le public de Rambler est essentiellement représenté par les personnes utilisant le système presque dès le moment de son apparition.

Les avantages du Rambler comprennent l'évaluation thématique des sites, le service de nouvelles, la messagerie Internet, le service de paiement en ligne, le courrier gratuit et le service de publicité contextuelle Runner, etc.

Chronique des événements

En 1991, un groupe de scientifiques, notamment Sergey Lysakov, Youri Ershov, Dmitry Kryukov, Victor Voronkov et Vladimir Samoylov, de l'Institut de biochimie et de physiologie des microorganismes de l'Académie des sciences de Russie, s'est attaché à développer un réseau local d'échange d'informations scientifiques et techniques à Pushchino. Bientôt, le réseau fut connecté à Moscou, puis à Internet. Le projet a rapidement gagné et a commencé à se développer activement.

1996 est l'année officielle de la naissance du moteur de recherche, lorsque Dmitry Kryukov a créé un service de recherche appelé Rambler. En 1996, d'autres moteurs de recherche étaient déjà créés et fonctionnaient, mais contrairement à Rambler, ils n'étaient pas populaires.

En 1997, Dmitry Kryukov a introduit une certaine échelle, le classificateur Top100 de Rambler, chargé de déterminer l’autorité des sites en fonction de la fréquence de leurs visites.

En 1999, Igor Ashmanov, qui a quitté la société en 2001, a été nommé directeur de la recherche et du développement, puis directeur exécutif. Il a décrit son travail chez Rambler dans le livre «La vie dans la bulle», dans lequel il a décrit en détail les activités de la société pour 1999-2001, ainsi que les raisons pour lesquelles Rambler a perdu sa 1re place sur le marché Internet national.

En 2004 Rambler’s Top 100 a délivré un certificat de qualité ISO 9001.

En 2007 le poste de directeur général a été occupé par Mark Opzumer. En 2009, une recherche verticale a été ajoutée sur la base de la technologie eXtended Aggregator. Le 31 décembre 2009, Rambler a quitté le top management avec le PDG Mark Opzumer et la même année, le moteur de recherche a reçu le Runet Award dans la catégorie Culture et communication de masse.

Depuis avril 2009 Olga Turishcheva, qui a travaillé chez Vympel en tant que directrice du développement des affaires, dirige Rambler.

Fin juin 2011, Rambler est passé à la technologie de recherche Yandex. Outre les avantages d'un moteur de recherche, il existe des inconvénients, notamment par rapport à Yandex ou à Google. Dans Rambler, les algorithmes sont rarement mis à jour, il n’existe pratiquement aucun filtre pour contrôler la qualité des sources Internet au moyen de requêtes à fréquence basse ou moyenne, ce qui augmente le nombre de sites de spam, et l’algorithme permettant de déterminer la pertinence des sites est mal noté. À cet égard, la part de Rambler dans les moteurs de recherche a diminué de 20 à 5%.

Qu'est-ce que Rambler a à offrir?

Rambler propose non seulement de nombreux projets de divertissement, mais également les sections suivantes:

1) "Cartes" - contient des cartes détaillées des grandes villes. Les utilisateurs peuvent trouver leurs adresses d’intérêt, ouvrir des routes et être au courant des embouteillages.

2) Dans «Price.ru», vous pouvez trouver tous les catalogues de produits, des informations sur les remises, les avis sur les nouveaux produits, les événements planifiés, etc.

3) "Finance" fournira toujours les informations nécessaires sur les cours des devises, la situation sur le marché actuel, les cours des actions, etc.

4) Dans le "Ferra.ru" vous pouvez trouver des critiques de la nouvelle technologie numérique: appareils photo, téléphones, ordinateurs, etc.

Vous aimez cet article? Partager avec des amis: