Quels sont les robots de la recherche Yandex et Google avec des mots simples. Rechercher des robots Google, Yandex, Autres PS et services Pourquoi Besoin de robots de recherche

D'habitude, moteur de recherche C'est un site Web spécialisé dans la recherche d'informations répondant aux critères d'une demande d'utilisateur. La tâche principale de ces sites est de rationaliser et de structurer des informations sur le réseau.

La plupart des personnes utilisant des services de moteur de recherche ne sont jamais posées comme une machine agissant, à la recherche d'informations nécessaires à partir des profondeurs d'Internet.

Pour un réseau d'utilisateurs ordinaire, le concept même des principes du travail des moteurs de recherche n'est pas critique, car les algorithmes que le système est guidé est capable de satisfaire des personnes qui ne savent pas comment faire une requête optimisée lors de la recherche des informations nécessaires . Mais pour un développeur Web et des spécialistes spécialisés dans l'optimisation des sites, il est simplement nécessaire de posséder au moins les concepts initiaux sur la structure et les principes des moteurs de recherche.

Chaque moteur de recherche fonctionne sur des algorithmes précis qui sont conservés sous le secret le plus strict et ne sont connus que pour un petit cercle d'employés. Mais lors de la conception d'un site ou d'une optimisation, il est nécessaire de prendre en compte les règles générales du fonctionnement des moteurs de recherche, qui sont considérés dans l'article proposé.

Malgré le fait que chaque PS a sa propre structure, après quoi de soi, ils peuvent être combinés dans les composants principaux et généralisés:

Module d'indexation

Module d'indexation - Cet élément comprend trois composants supplémentaires (programmes de robots):

1. Araignée. (Spider Robot) - Téléchargements Pages, filtres Text Stream supprimer tous les hyperliens internes de celui-ci. De plus, Spider enregistre les dates de téléchargement et l'en-tête de réponse du serveur, ainsi que l'adresse URL de la page.

2. Crawler. (Spider robot de robot) - analyse toutes les liens de la page et sur la base de cette analyse, détermine la page à visiter et ce qui ne vaut pas la peine. De la même manière, Krauler trouve de nouvelles ressources qui doivent être traitées par PS.

3. Indexeur (Indexeur de robot) - est fiancée dans l'analyse des pages Internet téléchargées par Spider. Dans le même temps, la page elle-même est divisée en blocs et est analysée par un indexeur à l'aide d'algorithmes morphologiques et lexicaux. Sous l'analyse de l'indexeur, diverses parties de la page Web sont en baisse: titres, textes et autres informations de service.

Tous les documents traités par ce module sont stockés dans la base de données du moteur de recherche appelé Index du système. En plus des documents eux-mêmes, la base de données contient les données de service nécessaires - le résultat d'un traitement minutieux de ces documents, guidé par lesquels le moteur de recherche effectue des demandes utilisateur.

Serveur de recherche.

Le prochain composant très important du système est un serveur de recherche, dont la tâche consiste à gérer la demande de l'utilisateur et à générer la page de résultats de recherche.

Traitement de la demande de l'utilisateur, le serveur de recherche calcule la note de la pertinence des documents sélectionnés par la demande de l'utilisateur. La position que la page Web prend les résultats de la recherche à partir de cette note. Chaque document qui satisfait aux conditions de recherche est affiché sur la page d'émission sous la forme d'un extrait d'un extrait.

Snippet est une brève description de la page qui comprend un en-tête, un lien, des mots-clés et des informations de texte courtes. Par extrait, l'utilisateur peut estimer la pertinence du moteur de recherche sélectionné des pages à sa demande.

Le critère le plus important que le serveur de recherche est guidé par classement des résultats de la requête est le TIC déjà familier ().

Tous les composants PS décrits nécessitent des coûts importants et des ressources très intenses. Les performances du moteur de recherche dépend directement de l'efficacité de l'interaction de ces composants.

Avez-vous aimé l'article? Abonnez-vous à Blog News ou à partager des réseaux sociaux, et je vous répondrai


6 commentaires sur la publication "moteurs de recherche de leurs robots et des araignées"

    J'ai longtemps cherché cette information, merci.

    Réponse

    Je suis heureux que votre blog se développe constamment. Ces messages ne font que ajouter de la popularité.

    Réponse

    Quelque chose compris. Question, PR dépend en quelque sorte sur Titz?

    Salut les amis! Aujourd'hui, vous apprendrez comment la recherche de robots Yandex et Google Travail et de la fonction qu'ils effectuent dans la promotion des sites. Alors allons-y!

    Ces moteurs de recherche d'action sont faits pour trouver dix projets Web à partir d'un million de sites disposant d'une réponse de haute qualité et pertinente à la demande de l'utilisateur. Pourquoi seulement dix? Parce que seulement dix positions.

    Rechercher des amis et des webmasters et des utilisateurs

    Pourquoi est-il important de visiter le site par des robots de recherche est déjà devenu clair et pourquoi c'est l'utilisateur? Tout est vrai, de sorte que seuls les sites seront ouverts à l'utilisateur qui répondra à sa demande.

    Recherche robot - Un outil très flexible, il est capable de trouver un site, même celui qui n'est créé que et le propriétaire de ce site n'a pas encore été engagé. Par conséquent, ce bot a été appelé araignée, il peut atteindre ses pattes et s'entendre le long du Web virtuel n'importe où.

    Est-il possible de gérer le robot de recherche dans vos propres intérêts

    Il y a de tels cas lorsque certaines pages ne sont pas tombées dans la recherche. C'est principalement due au fait que cette page n'est pas encore indexée par le robot de recherche. Bien sûr, tôt ou tard, le robot de recherche remarquera cette page. Mais cela prend du temps et parfois beaucoup de temps. Mais ici, vous pouvez aider le robot de recherche visiter cette page plus rapidement.

    Pour ce faire, vous pouvez placer votre site dans des annuaires ou des listes spéciaux, des réseaux sociaux. En général, sur tous les lieux, où le robot de recherche vit simplement. Par exemple, sur les réseaux sociaux, il y a une mise à jour chaque seconde. Essayez de déclarer votre site et le robot de recherche viendra sur votre site beaucoup plus rapidement.

    Un, mais la règle principale circule. Si vous voulez un moteur de recherche pour visiter votre site, ils doivent donner régulièrement un nouveau contenu sur une base régulière. Dans le cas où ils remarqueraient que le contenu est mis à jour, le site se développe, ils visiteront votre projet Internet beaucoup plus souvent.

    Chaque robot de recherche peut rappeler combien de fois le contenu vous change. Il évalue non seulement la qualité, mais également des intervalles temporaires. Et si le matériau sur le site est mis à jour une fois par mois, il arrivera au site une fois par mois.

    Ainsi, si le site est mis à jour une fois par semaine, le robot de recherche viendra une fois par semaine. Si vous mettez à jour le site tous les jours, le robot de recherche visitera le site tous les jours ou tous les deux jours. Il existe des sites indexés dans quelques minutes après la mise à jour. Ce sont des réseaux sociaux, des agrégateurs de presse et des sites qui placent quelques articles par jour.

    Comment pratiquer le robot et l'interdire quelque chose?

    Au tout début, nous avons appris que les moteurs de recherche ont plusieurs robots qui effectuent diverses tâches. Quelqu'un cherche des photos, une personne des liens ainsi de suite.

    Vous pouvez gérer n'importe quel robot à l'aide d'un fichier spécial. robots.txt . C'est à partir de ce fichier que le robot commence à se familiariser avec le site. Dans ce fichier, vous pouvez spécifier s'il est possible d'indexer le robot le cas échéant, quelles partitions. Toutes ces instructions peuvent être créées pour tous les robots et tous les robots.

    Site de formation Promotion

    Plus de détails sur la sagesse de la promotion de SEO de sites dans les moteurs de recherche Google et Yandex, je raconte sur mon Skype. J'ai apporté tous mes projets Web à la fréquentation de plus en plus et obtenez-vous excellent avec cela. Je peux enseigner à quiconque qui est intéressé!

    Les collections thématiques de liens sont des listes compilées par un groupe de professionnels ou même des collecteurs uniques. Très souvent, un thème hautement spécialisé peut être décrit par un spécialiste mieux qu'un groupe d'employés d'un grand catalogue. Collections thématiques sur le réseau tant qu'il n'a pas de sens à donner des adresses spécifiques.

    Sélection du nom de domaine

    Le répertoire est un système de recherche pratique, cependant, afin d'accéder au serveur Microsoft ou IBM, il est peu probable de loger d'accéder au catalogue. Devinez le nom du site correspondant n'est pas difficile: www.microsoft.com, www.ibm.com ou www.microsoft.ru, www.ibm.ru - Sites des bureaux de représentation russe de ces entreprises.

    De même, si l'utilisateur a besoin d'un site Web dédié à la météo dans le monde, il est logique de rechercher sur le serveur www.weather.com. Dans la plupart des cas, le site de recherche avec un mot clé dans le titre est plus efficace que la recherche d'un document dans le texte duquel ce mot est utilisé. Si la société Western Commercial (ou le projet) a un seul nom et implémente son serveur sur le réseau, son nom avec une probabilité élevée est empilé dans le format www.name.com, et pour le raket (partie russe du réseau) - www.name.ru, où nom - Nom ou projet de la société. La sélection de l'adresse peut être concurrente avec succès avec d'autres réceptions de la recherche, car avec un système de recherche similaire, vous pouvez vous connecter au serveur qui n'est pas enregistré dans aucun moteur de recherche. Toutefois, si vous choisissez le nom souhaité, vous devrez vous référer au moteur de recherche.

    Moteurs de recherche

    Dites-moi ce que vous recherchez sur Internet, et je vais vous dire qui vous êtes

    Si l'ordinateur était un système très intelligent qui pourrait être facilement expliqué que vous recherchez, il donnerait alors deux ou trois documents - exactement ceux dont vous avez besoin. Mais malheureusement, ce n'est pas le cas et, en réponse à la demande, l'utilisateur reçoit généralement une longue liste de documents, dont beaucoup n'ont rien à voir avec ce qu'il a demandé. Ces documents sont appelés sans importance (d'anglais. Pertinent est un approprié, faisant référence à l'affaire). Ainsi, le document correspondant est un document contenant les informations souhaitées. Évidemment, le pourcentage de documents pertinents obtenus dépend de la compétence de manière compétente pour donner la demande. La part des documents pertinents dans la liste des documents de moteur de recherche de tous les documents de recherche est appelé l'exactitude de la recherche. Les documents non pertinents sont appelés bruit. Si tous les documents trouvés sont pertinents (Noum Bruit), la précision de la recherche est de 100%. Si tous les documents pertinents sont trouvés, la recherche de recherche est de 100%.

    Ainsi, la qualité de la recherche est déterminée par deux paramètres interdépendants: précision et complétude de la recherche. L'augmentation de la recherche de recherche réduit la précision et inversement.

    Comment fonctionne le moteur de recherche

    Les moteurs de recherche peuvent être comparés au service de référence dont les agents contournent les entreprises en collectant des informations à la base de données (Fig. 4.21). Lorsque vous contactez le service, les informations sont émises à partir de cette base de données. Les données de la base de données sont obsolètes. Les agents sont donc mis à jour périodiquement. Certaines entreprises elles-mêmes envoient des données sur eux-mêmes et ils n'ont pas à venir à des agents. En d'autres termes, le centre d'assistance a deux fonctions: créer et mettre à jour constamment des données dans la base de données et rechercher des informations dans la base de données à la demande du client.


    Figure. 4.21.

    De même, moteur de recherche Il se compose de deux parties: le soi-disant robot (ou araignée), qui contournez des serveurs réseau et génère une base de données des moteurs de recherche.

    La base du robot est fondamentalement formée par lui (le robot lui-même trouve des références à de nouvelles ressources) et à une grande mesure - les propriétaires de ressources qui enregistrent leurs sites dans le moteur de recherche. En plus du robot (agent de réseau, araignée, ver), qui génère une base de données, il existe un programme qui détermine la note des liens trouvés.

    Le principe du moteur de recherche est réduit au fait qu'il interroge son annuaire interne (base de données) par des mots-clés indiquant que l'utilisateur indique dans le champ de demande et donne une liste de références classées par la pertinence.

    Il convient de noter que, en effectuant une demande d'utilisateur spécifique, le moteur de recherche fonctionne en termes de ressources internes (et non de démarrage d'un voyage sur le réseau, car les utilisateurs non enregistrés sont pris en compte) et les ressources internes sont naturellement limité. Malgré le fait que la base de données des moteurs de recherche soit constamment mise à jour, moteur de recherche Tous les documents Web ne peuvent pas indexer: leur nombre est trop grand. Par conséquent, il y a toujours la probabilité que la ressource souhaitée soit simplement inconnue par un moteur de recherche spécifique.

    Cette pensée illustre clairement la Fig. 4.22. Ellipse 1 limite l'ensemble de tous les documents Web existants à un moment donné, ellipse 2 - Tous les documents indexés par ce moteur de recherche et Ellipse 3 est les documents souhaités. Ainsi, il est possible de trouver avec ce moteur de recherche que seule la partie des documents souhaités qu'il est indexé.


    Figure. 4.22.

    Le problème de l'insuffisance de la recherche de recherche consiste non seulement dans les ressources internes du moteur de recherche, mais également que la vitesse du robot est limitée et que le nombre de nouveaux documents Web est en croissance constante. Une augmentation des ressources internes du moteur de recherche ne peut résoudre complètement le problème, car le taux de ressource contourner le robot est fini.

    En même temps supposer que moteur de recherche Il contient une copie des ressources source d'Internet, ce serait incorrect. Les informations complètes (documents source) ne sont pas toujours stockées, seule sa part est plus souvent stockée - la liste dite indexée, ou un index, qui est beaucoup plus compacte sur le texte des documents et vous permet de réagir plus rapidement à la recherche. requêtes.

    Pour construire l'index, les données initiales sont converties de sorte que le volume de la base est minimal et que la recherche a été effectuée très rapidement et a donné des informations utiles maximales. Expliquer ce que la liste indexée est parallèle à son analogue de papier - la convention soi-disant concordance, c'est-à-dire Le dictionnaire dans lequel les mots utilisés par un écrivain spécifique sont énumérés par ordre alphabétique, ainsi que des références à eux et la fréquence de leur utilisation dans ses œuvres.

    De toute évidence, les Concordans (Dictionnaire) sont beaucoup plus compacts dans les textes originaux des œuvres et trouvent que le mot juste est beaucoup plus facile que sur l'overclock du livre dans l'espoir de trébucher sur le mot droit.

    Index de construction

    Le schéma de construction d'un indice est illustré à la Fig. 4.23. Agents de réseau, ou araignées, "ramper" sur le réseau, analysez le contenu des pages Web et collectez des informations qui et sur quelle page ont été détectées.


    Figure. 4.23.

    Lors de la recherche d'une autre page HTML, la plupart des moteurs de recherche corrigent des mots, des images, des liens et d'autres éléments (dans différents moteurs de recherche de différentes manières) contenus dessus. Et lorsque vous suivez des mots sur la page, non seulement leur présence est fixe, mais aussi l'emplacement, c'est-à-dire Où ces mots sont: dans le titre (titre), sous-titres (sous-titres), dans Metagas 1 METATEGA est les balises de service permettant aux développeurs de placer des informations de service sur la page Web, y compris pour orienter le moteur de recherche. (META TAGS) ou ailleurs. Dans le même temps, des mots importants sont généralement enregistrés, et les syndicats et interdimensions du type "A", "mais" et "ou" sont ignorés. Metachega Autoriser les propriétaires de page d'identifier des mots-clés et des sujets par lesquels la page est indexée. Cela peut être pertinent dans le cas où des mots-clés ont plusieurs valeurs. METATEGA peut orienter le moteur de recherche lors du choix de plusieurs mots du mot au seul correct. Cependant, les métayes travaillent de manière fiable uniquement lorsqu'ils sont remplis de propriétaires de sites Web honnêtes. Les propriétaires sans scrupules de sites Web sont placés dans leur métamé des mots les plus populaires du réseau qui n'ont rien à voir avec le sujet du site. En conséquence, les visiteurs tombent sur des sites non sollicités, augmentant ainsi leur classement. C'est pourquoi de nombreux moteurs de recherche modernes ignorent les métaypes ou les considèrent davantage relatives à la page de la page. Chaque robot prend en charge sa liste de ressources punie pour une publicité sans scrupules.

    Évidemment, si vous recherchez des sites sur le mot-clé «chien», le moteur de recherche doit trouver non seulement toutes les pages où le mot «chien» est mentionné et ceux où ce mot est lié au sujet du site. Afin de déterminer dans quelle mesure, quelque chose ou que ce mot est lié au profil de certaines pages Web, il est nécessaire d'évaluer la fréquence à laquelle il se trouve sur la page, qu'il existe des liens vers d'autres pages sur ce mot ou non. En bref, il est nécessaire de se classer sur le mot page en fonction du degré d'importance. Les mots sont attribués de coefficients de poids en fonction du nombre de fois et de l'endroit où ils se rencontrent (dans le titre de la page, au début ou à la fin de la page, dans le lien, dans METATECTED, etc.). Chaque moteur de recherche a son propre algorithme de gain de poids - c'est l'une des raisons pour lesquelles les moteurs de recherche sur le même mot-clé donnent diverses listes de ressources. Étant donné que les pages sont constamment mises à jour, le processus d'indexation doit être effectué constamment. Les robots-araignées se déplacent le long des liens et forment un fichier contenant un index pouvant être assez grand. Pour réduire sa taille, il est effectif pour minimiser la quantité d'informations et de compression du fichier. Avoir plusieurs robots, le moteur de recherche peut gérer des centaines de pages par seconde. Aujourd'hui, de puissants moteurs de recherche stockent des centaines de millions de pages et reçoivent des dizaines de millions de requêtes quotidiennes.

    Lors de la construction d'un index, la réduction du nombre de doublons est également résolue - la tâche n'est pas intrigidique, étant donné que, pour la comparaison correcte, vous devez d'abord déterminer le codage de l'application. Une tâche encore plus difficile consiste à séparer des documents très similaires (ils sont appelés "presque duplicats"), par exemple, dans lesquels seul le titre diffère, et le texte est dupliqué. Il y a beaucoup de documents de ce type sur le réseau - par exemple, quelqu'un a écrit le résumé et l'a publié sur le site pour sa signature. Les moteurs de recherche modernes vous permettent de résoudre ces problèmes.

    Amis, je vous souhaite la bienvenue à nouveau! Maintenant, nous analyserons les robots de recherche et nous parlons de la recherche Robot Google et de la façon d'être amis avec eux.

    Tout d'abord, vous devez comprendre que, en général, de tels robots de recherche sont également appelés araignées. Quelles araignées de moteur de recherche d'emploi sont effectuées?

    Ce sont des programmes qui vérifient les sites. Ils parcourent toutes les entrées et pages de votre blog, collectez des informations qui sont ensuite transmises à la base de données du moteur de recherche à laquelle elles fonctionnent.

    Vous n'avez pas besoin de connaître toute la liste des robots de recherche, la chose la plus importante est de savoir que Google a deux araignées majeures, appelées Panda et Penguin. Ils luttent avec des liens de contenu et des ordures de mauvaise qualité et ont besoin de savoir comment refléter leurs attaques.

    Robot de recherche de Google "Panda" est conçu pour ne promouvoir que des documents de haute qualité dans la recherche. Tous les sites de base sont abaissés dans les résultats de la recherche.

    La première fois que cette araignée est apparue en 2011. Avant son apparition, vous pouvez promouvoir n'importe quel site publiant des articles une grande quantité de texte et en utilisant une énorme quantité de mots-clés. Dans l'ensemble, ces deux techniques ont été affichées sur le haut de la recherche de contenu de haute qualité et de bons sites diminués dans l'extradition.

    "Panda" a immédiatement apporté la commande en vérifiant tous les sites et en mettant tout le monde dans leurs lieux mérités. Bien qu'il lutte avec un contenu de base, mais vous pouvez désormais promouvoir des petits sites avec des articles de haute qualité. Bien que des sites aussi antérieurs étaient inutiles pour promouvoir, ils ne pouvaient pas concurrencer les géants ayant un grand nombre de contenus.

    Nous allons maintenant traiter avec vous comment éviter les sanctions "Panda". Je dois d'abord comprendre ce qu'elle n'aime pas. J'ai déjà écrit au-dessus de cela qu'elle lutte avec une mauvaise teneur, mais quel texte est mauvais pour elle, comprenons cela afin de ne pas publier tel sur votre site.

    Robot de recherche de Google pour s'efforcer de sorte que seuls des matériaux de haute qualité pour les candidats ont été émis dans ce moteur de recherche. Si vous avez des articles dans lesquels il y a peu d'informations et qu'ils ne sont pas attrayants à l'extérieur, puis réécrivez de toute urgence ces textes afin que Panda ne vous accompagne pas.

    Le contenu qualitatif peut avoir à la fois grand volume et petit, mais si l'araignée voit un long article avec un grand nombre d'informations, cela signifie qu'il bénéficiera au lecteur.

    Ensuite, vous devez marquer des duplications et, autrement dit, le plagiat. Si vous pensez que vous réécrivez les articles des autres personnes sur votre blog, vous pouvez immédiatement mettre la croix sur votre site. La copie est strictement punie en appliquant un filtre, et plagiat vérifié Très facile, j'ai écrit un article sur le sujet comment vérifier les textes pour l'unicité.

    Ensuite, vous devez voir, c'est l'abrasion du texte avec des mots-clés. Qui pense qu'il écrira un article de certaines clés et prendra la première place dans l'extradition - il est très erroné. J'ai un article, comment vérifier les pages de pertinence, lire en vous assurer.

    Et qu'est-ce que sinon peut attirer "Panda" à vous, ce sont donc de vieux articles obsolètes moralement et ne portent pas de trafic sur le site. Ils doivent être mis à jour.

    Il y a aussi un robot de recherche Google "Penguin". Cette araignée luttait avec des liens de spam et de déchets sur votre site. Il calcule également les liens achetés d'autres ressources. Par conséquent, de manière à ne pas avoir peur de ce robot de recherche, vous ne devez pas acheter l'achat de liens, mais pour publier un contenu de haute qualité afin que les personnes elles-mêmes se réfèrent à vous.

    Maintenant, formulons que vous devez rendre le site avec les yeux du robot de recherche est parfait:

    • Afin de créer un contenu de haute qualité, lisez d'abord le sujet bien avant d'écrire un article. Ensuite, vous devez comprendre que les gens sont vraiment intéressés par ce sujet.
    • Utilisez des exemples et des images spécifiques, il fera un article vivant et intéressant. Un texte amincissant sur les petits paragraphes à lire était facile. Par exemple, si vous avez ouvert une page avec des blagues dans le journal, vous lisez pour la première fois? Naturellement, chaque personne lit d'abord des textes courts, puis des podlins et les plus récents portails.
    • NADRIGA "PANDA" préféré n'est pas la pertinence de l'article dans lequel les informations obsolètes sont contenues. Surveillez les mises à jour et changez de textes.
    • Faites attention à la densité des mots-clés, comment identifier cette densité que j'ai écrite ci-dessus, dans le service que je vous ai dit, vous obtiendrez le nombre exact de clés.
    • Ne vous engagez pas dans le plagiat, tout le monde sait qu'il n'est pas nécessaire de voler d'autres choses ou texte - c'est la même chose. Pour vol sera responsable du filtre.
    • Les textes écrivent au moins deux mille mots, puis un tel article ressemblera aux yeux des robots de moteur de recherche informatifs.
    • Ne laissez pas du sujet de votre blog. Si vous bloguez sur Internet, vous n'avez pas besoin d'imprimer des articles sur des armes pneumatiques. Cela peut réduire votre cote de ressource.
    • Magnifiquement décorer des articles, diviser les paragraphes et ajouter des images pour être agréable de lire et ne voulait pas quitter rapidement le site.
    • En achetant des liens, faites-leur les articles les plus intéressants et les plus utiles qui vont réellement lire les gens.

    Eh bien, vous savez maintenant ce qui fonctionne les robots des moteurs de recherche et vous pouvez être amis avec eux. Et le robot de recherche le plus important Google et Panda et Penguin sont étudiés en détail.

    • Définitions et terminologie
    • Noms robotov
    • Un peu d'histoire
    • Que font les moteurs de recherche
    • Le comportement des robots sur le site
    • Gestion du robot
    • conclusions

    Quels sont les robots de la recherche de moteurs? Quelle fonction ils effectuentnew York? Quelles sont les caractéristiques du travail des robots de recherche? Ici nousnous allons essayer de donner la réponse à ces questions et d'autres questions,robots avec le travail.

    Définitions et terminologie

    En anglais, il existe plusieurs options de recherche de robots: robots, robots Web, crawlers, araignées; En russe, un mandat était en fait coincé dans les robots russes, ou abrégé - bots.

    Sur le site www. robotstext. ORG reçoit les robots de définition suivants:

    "Le robot Web est un programme qui contourne la structure hypertexte de www, demandant et supprimant de manière récursive des documents."

    Mot-clé dans cette définition - de récursivitéceux. Il est entendu qu'après réception du document, le robot demandera des documents sur les liens de celui-ci, etc.

    Des nomsrobots

    La plupart des robots de recherche ont leur propre nom unique (à l'exception de ces robots que pour une raison quelconque sont masqués pour les navigateurs personnalisés).

    Le nom du robot peut être vu dans le domaine de l'utilisateur-agent des fichiers journaux du serveur, les rapports de systèmes statistiques de serveur, ainsi que sur les moteurs de recherche Aidez les pages.

    Ainsi, le robot Yandex est appelé collectivement Yandex, Ramot Rambler - Stackrambler, Robot Yahoo! - Slurp, etc. Même les collecteurs de logiciels personnalisés pour une visualisation ultérieure peuvent être spécialement présentés à l'aide des informations dans le champ Agent utilisateur.

    En plus du nom du robot, il peut y avoir plus d'informations dans le champ utilisateur-Agent: la version du robot, l'objet et l'adresse de la page avec des informations supplémentaires.

    Peuhistoires

    Dans la première moitié des années 90, lors du développement de l'Internet, il y avait un problème de robots Web liés au fait que certains des premiers robots pourraient télécharger de manière significative un serveur Web, jusqu'à son refus, en raison du fait que Ils ont fait une grande requête sur le site trop peu de temps. Les administrateurs système et les administrateurs de serveur Web n'ont pas été en mesure de gérer le comportement d'un robot dans leurs sites et ne pouvaient que fermer complètement le robot d'accès non seulement sur le site, mais également au serveur.

    En 1994, le protocole Robots.txt a été développé, qui définit les exceptions pour les robots et permet aux utilisateurs de gérer les robots de recherche dans leurs sites. Vous avez lu ces possibilités au chapitre 6 "Comment créer un site disponible pour les moteurs de recherche".

    À l'avenir, lorsque le réseau grandit, le nombre de robots de recherche a augmenté et leurs fonctionnalités se développent constamment. Certains robots de recherche ne vivaient pas à cette journée, ne restant que dans les archives des fichiers journaux du serveur de la fin des années 90. Qui se souvient maintenant du robot T-Rex, collectant des informations sur le système Lycos? Externe comme un dinosaure nommé qui est nommé. Ou où puis-je trouver scooter - Robot Altavista? NUIT! Mais en 2002, il a toujours indexé des documents.

    Même au nom du robot principal Yandex, vous pouvez trouver l'écho des jours écoulés: un fragment de son nom complet "Compatible; Win16; " Il a été ajouté pour la compatibilité avec certains anciens serveurs Web.

    quellefaisrobotsrecherchersystème

    Quelles fonctions peuvent jouer des robots?

    Il existe plusieurs robots différents dans le moteur de recherche et chacun a sa propre destination. Nous énumérons certaines des tâches effectuées par des robots:

    • demander le traitement et la récupération des documents;
    • vérifiez les références;
    • mise à jour de la surveillance; Vérifiez la disponibilité du site ou du serveur;
    • analyse du contenu des pages pour un placement ultérieur de contextarryrex;
    • collecte de contenu dans des formats alternatifs (graphiques, données dans les formats de formatsRatom).

    Par exemple, nous donnons une liste de robots Yandex. Yandex utilise plusieurs types de robots avec différentes fonctions. Vous pouvez les identifier par la chaîne d'agent utilisateur.

    1. Yandex / 1.01.001 (compatible; gagnant 16; i) - un robot d'indexation minière.
    2. YANDEX / 1.01.001 (Compatible; Win 16; P) Indexier d'image.
    3. YANDEX / 1.01.001 (Compatible; Win 16; h) - Lot, qui définit les sites.
    4. YANDEX / 1.03.003 (compatible; gagnez 16; d) -Bot, faisant référence à la page lors de l'ajoutant via le formulaire "Ajouter URL".
    5. Yandex / 1.03.000 (compatible; gagner 16; m) - un robot, faisant référence à l'ouverture de la page sur le lien "Mots trouvés".
    6. YANDEXBLOG / 0.99.101 (Compatible; DOS3.30; Mozilla / 5.0; In; Robot) - Robot, indexation de fichiers XML pour rechercher des blogs.
    7. YandexSomething / 1.0 est un robot, d'indexation des flux de presse de Yandex. Partenaires de navigation et fichiers de robots. TXT pour les blogs de recherche de robots.

    En outre, plusieurs robots testés travaillent à Yandex - "kivoks ",ce qui ne vérifie que la disponibilité des documents, mais ne les indexez pas.

    1. Yandex / 2.01.000 (compatible; gagnant 16; dyatel; c) - "Kivalka Low-Kivalka" Yandex.Catalog. Si le site n'est pas disponible pour l'autre, il est supprimé de la publication. Dès que le site commence à répondre, il apparaît survenomatiquement dans le catalogue.
    2. Yandex / 2.01.000 (compatible; gagnant 16; dyatel; z) - "Low-Kivalka" Yandex. Hautes. Liens vers des sites inaccessibles mettant en évidence la couleur.
    3. Yandex / 2.01.000 (compatible; Win 16; Dyatel; D) - "Treecks-Roll" Yandex.Direct. Il vérifie l'exactitude des liens des annonces avant la modération.

    Néanmoins, les robots les plus courants sont ceux demandés, recevoir et archiver des documents pour un traitement ultérieur par d'autres mécanismes de moteur de recherche. Il conviendra de séparer le robot de l'indexeur.

    Les sites de dérivation du robot de recherche et obtiennent des documents conformément à votre liste d'adresses interne. Dans certains cas, le robot peut effectuer une analyse de base des documents pour reconstituer la liste d'adresses. Le traitement ultérieur des documents et la construction de l'indice des moteurs de recherche sont déjà engagés dans l'indexeur des moteurs de recherche. Le robot de ce schéma n'est qu'un "courrier" pour collecter des données.

    Le comportement des robots sur le site

    Quelle est la différence entre le comportement du robot sur le site du comportement d'un utilisateur régulier?

    1. Contrôlabilité.Tout d'abord, le robot "intelligent" doit demander le fichier de robots sur le serveur. Txt avec instructions d'indexation.
    2. Pompage sélectif.Lors de la demande de document, le robot est clairement indiqué par les données demandées, contrairement au navigateur habituel, prêt à tout prendre. Les principaux robots des moteurs de recherche populaires doivent d'abord demander des documents de texte hypertexte et ordinaires, laissant les fichiers de CSS, images, vidéo de style. Archives ZIP, etc. Actuellement également dans la demande Informations sur les formats PDF, Texte riche, MS Word, MS Excel et quelques autres.
    3. Imprévisibilité.Il est impossible de suivre ou de prédire le site du robot, car il ne quitte pas d'informations dans le champ de référateur - le magasin d'adresses à partir de: Le robot demande simplement une liste de documents, il semblerait dans un ordre aléatoire et, en fait, conformément aux aspects de la liste interne ou à la file d'indexation.
    4. La vitesse.Peu de temps entre les demandes de différents documents. Au moment des secondes ou des fractions de secondes entre les demandes de deux formations. Pour certains robots, il existe même des instructions spéciales spécifiées dans le fichier de robots. TXT, pour limiter la vitesse de la demande de document, afin de ne pas surcharger le site.

    HOWN Une page HTML dans les yeux d'un robot peut regarder, nous ne savons pas, mais nous pouvons essayer de l'imaginer, éteignant l'affichage de graphiques et de conception de style dans le navigateur.

    Ainsi, on peut en conclure que les robots de recherche versent la page HTML dans leur index, mais sans éléments de conception et sans images.

    Gestion du robot

    Comment le webmaster peut-il contrôler le comportement des robots de recherche sur son site?

    Comme mentionné ci-dessus, en 1994, un protocole d'exclusion spécial pour les robots a été élaboré à la suite de débats publics de webmasters. À ce jour, ce protocole n'est pas devenu la norme que obligéobservez tous les robots sans exception, restant uniquement dans l'état des recommandations strictes. Il n'y a pas d'instance où vous pouvez vous plaindre à un robot qui ne respecte pas les règles d'exception, vous ne pouvez interdire que l'accès au site à l'aide des paramètres du serveur Web ou des interfaces réseau pour les adresses IP à partir duquel le robot "non attentif" envoyé ses demandes.

    Cependant, les robots de gros moteurs de recherche sont conformes aux règles d'exception, de plus, leurs extensions contribuent.

    Sur les instructions d'un fichier spécial robots.txt. Et sur les robots spéciaux de méta-balises décrites en détail au chapitre 6 "Comment faire un site disponible pour les moteurs de recherche".

    Avec l'aide d'instructions supplémentaires dans les robots.txt, qui ne sont pas dans la norme, certains moteurs de recherche vous permettent de contrôler de manière plus flexible le comportement de vos robots. Ainsi, à l'aide de l'instruction Crawl-Delau, le webmaster peut définir l'intervalle de temps entre les demandes séquentielles de deux documents pour les robots Yahoo! et MSN, et en utilisant la no- instruction; t Spécifiez l'adresse du miroir principal du site pour Yandex. Cependant, travailler avec des instructions non standard dans les robots. TXI devrait faire très attention car le robot d'un autre moteur de recherche peut ignorer non seulement les instructions incompréhensibles, mais également l'ensemble des règles qui y sont associées.

    Vous pouvez également gérer des visites pour rechercher des robots et indirectement, par exemple, le robot de moteurs de recherche Google reprendra plus souvent ces documents auxquels de nombreux autres sites ont été renvoyés à d'autres sites.

Avez-vous aimé l'article? Partager avec des amis: