Moteurs de recherche de leurs robots et des araignées. Robots de recherche - comment ils travaillent et quels robots de recherche dois-je Ndek

Amis, je vous souhaite la bienvenue à nouveau! Maintenant, nous analyserons les robots de recherche et nous parlons de la recherche Robot Google et de la façon d'être amis avec eux.

Tout d'abord, vous devez comprendre que, en général, de tels robots de recherche sont également appelés araignées. Quelles araignées de moteur de recherche d'emploi sont effectuées?

Ce sont des programmes qui vérifient les sites. Ils parcourent toutes les entrées et pages de votre blog, collectez des informations qui sont ensuite transmises à la base de données du moteur de recherche à laquelle elles fonctionnent.

Vous n'avez pas besoin de connaître toute la liste des robots de recherche, la chose la plus importante est de savoir que Google a deux araignées majeures, appelées Panda et Penguin. Ils luttent avec des liens de contenu et des ordures de mauvaise qualité et ont besoin de savoir comment refléter leurs attaques.

Robot de recherche de Google "Panda" est conçu pour ne promouvoir que des documents de haute qualité dans la recherche. Tous les sites de base sont abaissés dans les résultats de la recherche.

La première fois que cette araignée est apparue en 2011. Avant son apparition, vous pouvez promouvoir n'importe quel site publiant des articles une grande quantité de texte et en utilisant une énorme quantité de mots-clés. Dans l'ensemble, ces deux techniques ont été affichées sur le haut de la recherche de contenu de haute qualité et de bons sites diminués dans l'extradition.

"Panda" a immédiatement apporté la commande en vérifiant tous les sites et en mettant tout le monde dans leurs lieux mérités. Bien qu'il lutte avec un contenu de base, mais vous pouvez désormais promouvoir des petits sites avec des articles de haute qualité. Bien que des sites aussi antérieurs étaient inutiles pour promouvoir, ils ne pouvaient pas concurrencer les géants ayant un grand nombre de contenus.

Nous allons maintenant traiter avec vous comment éviter les sanctions "Panda". Je dois d'abord comprendre ce qu'elle n'aime pas. J'ai déjà écrit au-dessus de cela qu'elle lutte avec une mauvaise teneur, mais quel texte est mauvais pour elle, comprenons cela afin de ne pas publier tel sur votre site.

Robot de recherche de Google pour s'efforcer de sorte que seuls des matériaux de haute qualité pour les candidats ont été émis dans ce moteur de recherche. Si vous avez des articles dans lesquels il y a peu d'informations et qu'ils ne sont pas attrayants à l'extérieur, puis réécrivez de toute urgence ces textes afin que Panda ne vous accompagne pas.

Le contenu qualitatif peut avoir à la fois grand volume et petit, mais si l'araignée voit un long article avec un grand nombre d'informations, cela signifie qu'il bénéficiera au lecteur.

Ensuite, vous devez marquer des duplications et, autrement dit, le plagiat. Si vous pensez que vous réécrivez les articles des autres personnes sur votre blog, vous pouvez immédiatement mettre la croix sur votre site Web. La copie est strictement punie en appliquant un filtre, et plagiat vérifié Très facile, j'ai écrit un article sur le sujet comment vérifier les textes pour l'unicité.

Ensuite, vous devez voir, c'est l'abrasion du texte avec des mots-clés. Qui pense qu'il écrira un article de certaines clés et prendra la première place dans l'extradition - il est très erroné. J'ai un article, comment vérifier les pages de pertinence, lire en vous assurer.

Et qu'est-ce que sinon peut attirer "Panda" à vous, ce sont donc de vieux articles obsolètes moralement et ne portent pas de trafic sur le site. Ils doivent être mis à jour.

Il y a aussi un robot de recherche Google "Penguin". Cette araignée luttait avec des liens de spam et de déchets sur votre site. Il calcule également les liens achetés d'autres ressources. Par conséquent, de manière à ne pas avoir peur de ce robot de recherche, vous ne devez pas acheter l'achat de liens, mais pour publier un contenu de haute qualité afin que les personnes elles-mêmes se réfèrent à vous.

Maintenant, formulons que vous devez rendre le site avec les yeux du robot de recherche est parfait:

  • Afin de créer un contenu de haute qualité, lisez d'abord le sujet bien avant d'écrire un article. Ensuite, vous devez comprendre que les gens sont vraiment intéressés par ce sujet.
  • Utilisez des exemples et des images spécifiques, il fera un article vivant et intéressant. Un texte amincissant sur les petits paragraphes à lire était facile. Par exemple, si vous avez ouvert une page avec des blagues dans le journal, vous lisez pour la première fois? Naturellement, chaque personne lit d'abord des textes courts, puis des podlins et les plus récents portails.
  • NADRIGA "PANDA" préféré n'est pas la pertinence de l'article dans lequel les informations obsolètes sont contenues. Surveillez les mises à jour et changez de textes.
  • Faites attention à la densité des mots-clés, comment identifier cette densité que j'ai écrite ci-dessus, dans le service que je vous ai dit, vous obtiendrez le nombre exact de clés.
  • Ne vous engagez pas dans le plagiat, tout le monde sait qu'il n'est pas nécessaire de voler d'autres choses ou texte - c'est la même chose. Pour vol sera responsable du filtre.
  • Les textes écrivent au moins deux mille mots, puis un tel article ressemblera aux yeux des robots de moteur de recherche informatifs.
  • Ne laissez pas du sujet de votre blog. Si vous bloguez sur Internet, vous n'avez pas besoin d'imprimer des articles sur des armes pneumatiques. Cela peut réduire votre cote de ressource.
  • Magnifiquement décorer des articles, diviser les paragraphes et ajouter des images pour être agréable de lire et ne voulait pas quitter rapidement le site.
  • En achetant des liens, faites-leur les articles les plus intéressants et les plus utiles qui vont réellement lire les gens.

Eh bien, vous savez maintenant ce qui fonctionne les robots des moteurs de recherche et vous pouvez être amis avec eux. Et le robot de recherche le plus important Google et Panda et Penguin sont étudiés en détail.

Robots de moteurs de recherche, parfois, ils sont appelés "araignées" ou "crawler" - ce sont des modules logiciels engagés dans la recherche de pages Web. Comment travaillent-ils? Que font-ils en réalité? Pourquoi sont-ils importants?

Compte tenu du bruit entier autour de l'optimisation des moteurs de recherche et des bases de données d'index des moteurs de recherche, vous pensez probablement que les robots devraient être de grandes et puissantes créatures. Pas vrai. Les robots de moteur de recherche n'ont que des fonctions de base similaires à celles possédées par l'un des premiers navigateurs, en ce qui concerne les informations qu'ils peuvent reconnaître sur le site. Comme les premiers navigateurs, les robots ne peuvent tout simplement pas faire certaines choses. Les robots ne comprennent pas les cadres, les animations flash, les images ou JavaScript. Ils ne peuvent pas entrer dans des sections protégées de manière partielle et ne peuvent pas appuyer sur tous les boutons sur le site. Ils peuvent se taire dans le processus d'indexation des adresses d'URL dynamiques et fonctionnent très lentement, jusqu'à l'arrêt et la modification de la navigation JavaScript.

Comment fonctionnent les robots du moteur de recherche?

Les robots de recherche doivent être perçus comme les programmes d'acquisition de données automatisés voyageant sur le réseau à la recherche d'informations et de liens vers des informations.

Lorsque, allez à la page Soumettre une URL, vous enregistrez la prochaine page Web du moteur de recherche - une nouvelle URL est ajoutée au robot pour afficher les sites. Même si vous n'enregistrez pas la page, de nombreux robots trouveront votre site, car il existe des liens d'autres sites liés à la vôtre. Voici l'une des raisons pour lesquelles il est important de créer une popularité de référence et de placer des références à d'autres ressources thématiques.

Ayant atteint votre site, les robots vérifient d'abord si le fichier robots.txt est. Ce fichier rapporte aux robots, quelles sections de votre site ne sont pas soumises à une indexation. Cela peut généralement être un répertoire contenant des fichiers que le robot n'est pas intéressé ou ne devrait pas être au courant.

Les robots sont stockés et collectent des liens de chaque page qu'ils visitent, puis transmettent ensuite ces liens vers d'autres pages. L'ensemble du réseau mondial est construit à partir de liens. L'idée initiale de créer un réseau Internet était qu'il serait possible de se déplacer sur les liens d'un endroit à un autre. C'est comme ça que les robots bougent.

L'intention concernant les pages d'indexation en temps réel dépend des ingénieurs de moteurs de recherche qui ont inventé des méthodes utilisées pour évaluer les informations reçues par les robots de moteur de recherche. Étant implémenté dans la base de données des moteurs de recherche, les informations sont disponibles pour les utilisateurs qui recherchent. Lorsque l'utilisateur du moteur de recherche entre dans une requête de recherche, un certain nombre de calculs rapides sont conçus pour la confiance que le bon ensemble de sites est émis pour la réponse la plus pertinente.

Vous pouvez afficher les pages de votre site déjà visitées le robot de recherche, guidé par des fichiers journaux serveur ou les résultats du traitement statistique du fichier journal. Identifier les robots, vous verrez quand ils ont visité votre site, quelles pages et quelle fréquence. Certains robots sont facilement identifiés par leurs noms tels que Googles Googlebot. Autre plus caché, tel que Inktomis Slurp. D'autres robots peuvent également se produire dans les journaux et il est possible que vous ne puissiez pas les identifier immédiatement; Certains d'entre eux peuvent même être des navigateurs gérés par des personnes.

En plus d'identifier des robots de recherche uniques et de compter le nombre de leurs visites, les statistiques peuvent également vous montrer agressif, absorbant la largeur du rouleau à travers des robots ou des robots, non désirés pour visiter votre site.

Comment lisent-ils les pages de votre site Web?

Lorsque le robot de recherche visit la page, il parcourt son texte visible, le contenu de diverses tags dans le code source de votre page (Titre Tag, META Tags, etc.), ainsi que des hyperliens de la page. À en juger par les mots, le moteur de recherche décide de quelle page parle. Il existe de nombreux facteurs utilisés pour calculer des points clés de la page "rôle de jeu". Chaque moteur de recherche possède son propre algorithme d'évaluation et de traitement des informations. Selon la configuration du robot, les informations sont indexées, puis livrées à la base de données des moteurs de recherche.

Après cela, les informations fournies aux bases de données des index de moteur de recherche deviennent une partie du moteur de recherche et du processus de classement dans la base de données. Lorsqu'un visiteur existe une demande, le moteur de recherche apporte la totalité de la base de données pour émettre une liste finale, pertinente pour la requête de recherche.

Les bases de données des moteurs de recherche sont soumises à un traitement et à un alignement minutieux. Si vous êtes déjà tombé dans la base de données, les robots vous rendront périodiquement pour collecter des modifications sur les pages et la confiance que vous avez les dernières informations. Le nombre de visites dépend des paramètres du moteur de recherche, qui peut varier de son type et de son destination.

Parfois, les robots de recherche ne sont pas en mesure d'indexer le site Web. Si votre site est tombé ou qu'un grand nombre de visiteurs se rendent sur le site, le robot peut être défilé dans les tentatives de son indexation. Lorsque cela se produit, le site ne peut pas être réintégré, ce qui dépend de la fréquence de sa visite au robot. Dans la plupart des cas, les robots qui ne pouvaient pas atteindre vos pages vont essayer plus tard, dans l'espoir que votre site sera bientôt disponible.

De nombreux robots de recherche ne peuvent pas être identifiés lorsque vous visualisez des journaux. Ils peuvent vous rendre visite, mais les journaux affirment que quelqu'un utilise Microsoft Navigateur, etc. Certains robots s'identifient à l'aide du nom du moteur de recherche (Googlebot) ou de son clone (Scooter \u003d Altavista).

Selon la configuration du robot, les informations sont indexées, puis livrées à la base de données du moteur de recherche.

Les bases de données des moteurs de recherche sont modifiées à des moments différents. Même le répertoire avec les résultats de la recherche secondaire utilise des données de robots comme contenu de leur site Web.

En réalité, les robots ne sont pas utilisés par les moteurs de recherche que pour ce qui précède. Il existe des robots qui vérifient les bases de données pour la présence d'un nouveau contenu, visitez l'ancien contenu de la base, vérifiez si les liens ont changé, téléchargez des sites entiers pour la visualisation et ainsi de suite.

Pour cette raison, la lecture de fichiers journaux et suivis d'une aide de moteur de recherche vous aide à respecter l'indexation de vos projets.

D'habitude, moteur de recherche C'est un site Web spécialisé dans la recherche d'informations répondant aux critères d'une demande d'utilisateur. La tâche principale de ces sites est de rationaliser et de structurer des informations sur le réseau.

La plupart des personnes utilisant des services de moteur de recherche ne sont jamais posées comme une machine agissant, à la recherche d'informations nécessaires à partir des profondeurs d'Internet.

Pour un réseau d'utilisateurs ordinaire, le concept même des principes du travail des moteurs de recherche n'est pas critique, car les algorithmes que le système est guidé est capable de satisfaire des personnes qui ne savent pas comment faire une requête optimisée lors de la recherche des informations nécessaires . Mais pour un développeur Web et des spécialistes spécialisés dans l'optimisation des sites, il est simplement nécessaire de posséder au moins les concepts initiaux sur la structure et les principes des moteurs de recherche.

Chaque moteur de recherche fonctionne sur des algorithmes précis qui sont conservés sous le secret le plus strict et ne sont connus que pour un petit cercle d'employés. Mais lors de la conception d'un site ou d'une optimisation, il est nécessaire de prendre en compte les règles générales du fonctionnement des moteurs de recherche, qui sont considérés dans l'article proposé.

Malgré le fait que chaque PS a sa propre structure, après quoi de soi, ils peuvent être combinés dans les composants principaux et généralisés:

Module d'indexation

Module d'indexation - Cet élément comprend trois composants supplémentaires (programmes de robots):

1. Araignée. (Spider Robot) - Téléchargements Pages, filtres Text Stream supprimer tous les hyperliens internes de celui-ci. De plus, Spider enregistre les dates de téléchargement et l'en-tête de réponse du serveur, ainsi que l'adresse URL de la page.

2. Crawler. (Spider robot de robot) - analyse toutes les liens de la page et sur la base de cette analyse, détermine la page à visiter et ce qui ne vaut pas la peine. De la même manière, Krauler trouve de nouvelles ressources qui doivent être traitées par PS.

3. Indexeur (Indexeur de robot) - est fiancée dans l'analyse des pages Internet téléchargées par Spider. Dans le même temps, la page elle-même est divisée en blocs et est analysée par un indexeur à l'aide d'algorithmes morphologiques et lexicaux. Sous l'analyse de l'indexeur, diverses parties de la page Web sont en baisse: titres, textes et autres informations de service.

Tous les documents traités par ce module sont stockés dans la base de données du moteur de recherche appelé Index du système. En plus des documents eux-mêmes, la base de données contient les données de service nécessaires - le résultat d'un traitement minutieux de ces documents, guidé par lesquels le moteur de recherche effectue des demandes utilisateur.

Serveur de recherche.

Le prochain composant très important du système est un serveur de recherche, dont la tâche consiste à gérer la demande de l'utilisateur et à générer la page de résultats de recherche.

Traitement de la demande de l'utilisateur, le serveur de recherche calcule la note de la pertinence des documents sélectionnés par la demande de l'utilisateur. La position que la page Web prend les résultats de la recherche à partir de cette note. Chaque document qui satisfait aux conditions de recherche est affiché sur la page d'émission sous la forme d'un extrait d'un extrait.

Snippet est une brève description de la page qui comprend un en-tête, un lien, des mots-clés et des informations de texte courtes. Par extrait, l'utilisateur peut estimer la pertinence du moteur de recherche sélectionné des pages à sa demande.

Le critère le plus important que le serveur de recherche est guidé par classement des résultats de la requête est le TIC déjà familier ().

Tous les composants PS décrits nécessitent des coûts importants et des ressources très intenses. Les performances du moteur de recherche dépend directement de l'efficacité de l'interaction de ces composants.

Avez-vous aimé l'article? Abonnez-vous à Blog News ou à partager des réseaux sociaux, et je vous répondrai


6 commentaires sur la publication "moteurs de recherche de leurs robots et des araignées"

    J'ai longtemps cherché cette information, merci.

    Réponse

    Je suis heureux que votre blog se développe constamment. Ces messages ne font que ajouter de la popularité.

    Réponse

    Quelque chose compris. Question, PR dépend en quelque sorte sur Titz?

    Salut les amis! Aujourd'hui, vous apprendrez comment la recherche de robots Yandex et Google Travail et de la fonction qu'ils effectuent dans la promotion des sites. Alors allons-y!

    Ces moteurs de recherche d'action sont faits pour trouver dix projets Web à partir d'un million de sites disposant d'une réponse de haute qualité et pertinente à la demande de l'utilisateur. Pourquoi seulement dix? Parce que seulement dix positions.

    Rechercher des amis et des webmasters et des utilisateurs

    Pourquoi est-il important de visiter le site par des robots de recherche est déjà devenu clair et pourquoi c'est l'utilisateur? Tout est vrai, de sorte que seuls les sites seront ouverts à l'utilisateur qui répondra à sa demande.

    Recherche robot - Un outil très flexible, il est capable de trouver un site, même celui qui n'est créé que et le propriétaire de ce site n'a pas encore été engagé. Par conséquent, ce bot a été appelé araignée, il peut atteindre ses pattes et s'entendre le long du Web virtuel n'importe où.

    Est-il possible de gérer le robot de recherche dans vos propres intérêts

    Il y a de tels cas lorsque certaines pages ne sont pas tombées dans la recherche. C'est principalement due au fait que cette page n'est pas encore indexée par le robot de recherche. Bien sûr, tôt ou tard, le robot de recherche remarquera cette page. Mais cela prend du temps et parfois beaucoup de temps. Mais ici, vous pouvez aider le robot de recherche visiter cette page plus rapidement.

    Pour ce faire, vous pouvez placer votre site dans des annuaires ou des listes spéciaux, des réseaux sociaux. En général, sur tous les lieux, où le robot de recherche vit simplement. Par exemple, sur les réseaux sociaux, il y a une mise à jour chaque seconde. Essayez de déclarer votre site et le robot de recherche viendra sur votre site beaucoup plus rapidement.

    Un, mais la règle principale circule. Si vous voulez un moteur de recherche pour visiter votre site, ils doivent donner régulièrement un nouveau contenu sur une base régulière. Dans le cas où ils remarqueraient que le contenu est mis à jour, le site se développe, ils visiteront votre projet Internet beaucoup plus souvent.

    Chaque robot de recherche peut rappeler combien de fois le contenu vous change. Il évalue non seulement la qualité, mais également des intervalles temporaires. Et si le matériau sur le site est mis à jour une fois par mois, il arrivera au site une fois par mois.

    Ainsi, si le site est mis à jour une fois par semaine, le robot de recherche viendra une fois par semaine. Si vous mettez à jour le site tous les jours, le robot de recherche visitera le site tous les jours ou tous les deux jours. Il existe des sites indexés dans quelques minutes après la mise à jour. Ce sont des réseaux sociaux, des agrégateurs de presse et des sites qui placent quelques articles par jour.

    Comment pratiquer le robot et l'interdire quelque chose?

    Au tout début, nous avons appris que les moteurs de recherche ont plusieurs robots qui effectuent diverses tâches. Quelqu'un cherche des photos, une personne des liens ainsi de suite.

    Vous pouvez gérer n'importe quel robot à l'aide d'un fichier spécial. robots.txt . C'est à partir de ce fichier que le robot commence à se familiariser avec le site. Dans ce fichier, vous pouvez spécifier s'il est possible d'indexer le robot le cas échéant, quelles partitions. Toutes ces instructions peuvent être créées pour tous les robots et tous les robots.

    Site de formation Promotion

    Plus de détails sur la sagesse de la promotion de SEO de sites dans les moteurs de recherche Google et Yandex, je raconte sur mon Skype. J'ai apporté tous mes projets Web à la fréquentation de plus en plus et obtenez-vous excellent avec cela. Je peux enseigner à quiconque qui est intéressé!

    • Définitions et terminologie
    • Noms robotov
    • Un peu d'histoire
    • Que font les moteurs de recherche
    • Le comportement des robots sur le site
    • Gestion du robot
    • conclusions

    Quels sont les robots de la recherche de moteurs? Quelle fonction ils effectuentnew York? Quelles sont les caractéristiques du travail des robots de recherche? Ici nousnous allons essayer de donner la réponse à ces questions et d'autres questions,robots avec le travail.

    Définitions et terminologie

    En anglais, il existe plusieurs options de recherche de robots: robots, robots Web, crawlers, araignées; En russe, un mandat était en fait coincé dans les robots russes, ou abrégé - bots.

    Sur le site www. robotstext. ORG reçoit les robots de définition suivants:

    "Le robot Web est un programme qui contourne la structure hypertexte de www, demandant et supprimant de manière récursive des documents."

    Mot-clé dans cette définition - de récursivitéceux. Il est entendu qu'après réception du document, le robot demandera des documents sur les liens de celui-ci, etc.

    Des nomsrobots

    La plupart des robots de recherche ont leur propre nom unique (à l'exception de ces robots que pour une raison quelconque sont masqués pour les navigateurs personnalisés).

    Le nom du robot peut être vu dans le domaine de l'utilisateur-agent des fichiers journaux du serveur, les rapports de systèmes statistiques de serveur, ainsi que sur les moteurs de recherche Aidez les pages.

    Ainsi, le robot Yandex est appelé collectivement Yandex, Ramot Rambler - Stackrambler, Robot Yahoo! - Slurp, etc. Même les collecteurs de logiciels personnalisés pour une visualisation ultérieure peuvent être spécialement présentés à l'aide des informations dans le champ Agent utilisateur.

    En plus du nom du robot, il peut y avoir plus d'informations dans le champ utilisateur-Agent: la version du robot, l'objet et l'adresse de la page avec des informations supplémentaires.

    Peuhistoires

    Dans la première moitié des années 90, lors du développement de l'Internet, il y avait un problème de robots Web liés au fait que certains des premiers robots pourraient télécharger de manière significative un serveur Web, jusqu'à son refus, en raison du fait que Ils ont fait une grande requête sur le site trop peu de temps. Les administrateurs système et les administrateurs de serveur Web n'ont pas été en mesure de gérer le comportement d'un robot dans leurs sites et ne pouvaient que fermer complètement le robot d'accès non seulement sur le site, mais également au serveur.

    En 1994, le protocole Robots.txt a été développé, qui définit les exceptions pour les robots et permet aux utilisateurs de gérer les robots de recherche dans leurs sites. Vous avez lu ces possibilités au chapitre 6 "Comment créer un site disponible pour les moteurs de recherche".

    À l'avenir, lorsque le réseau grandit, le nombre de robots de recherche a augmenté et leurs fonctionnalités se développent constamment. Certains robots de recherche ne vivaient pas à cette journée, ne restant que dans les archives des fichiers journaux du serveur de la fin des années 90. Qui se souvient maintenant du robot T-Rex, collectant des informations sur le système Lycos? Externe comme un dinosaure nommé qui est nommé. Ou où puis-je trouver scooter - Robot Altavista? NUIT! Mais en 2002, il a toujours indexé des documents.

    Même au nom du robot principal Yandex, vous pouvez trouver l'écho des jours écoulés: un fragment de son nom complet "Compatible; Win16; " Il a été ajouté pour la compatibilité avec certains anciens serveurs Web.

    quellefaisrobotsrecherchersystème

    Quelles fonctions peuvent jouer des robots?

    Il existe plusieurs robots différents dans le moteur de recherche et chacun a sa propre destination. Nous énumérons certaines des tâches effectuées par des robots:

    • demander le traitement et la récupération des documents;
    • vérifiez les références;
    • mise à jour de la surveillance; Vérifiez la disponibilité du site ou du serveur;
    • analyse du contenu des pages pour un placement ultérieur de contextarryrex;
    • collecte de contenu dans des formats alternatifs (graphiques, données dans les formats de formatsRatom).

    Par exemple, nous donnons une liste de robots Yandex. Yandex utilise plusieurs types de robots avec différentes fonctions. Vous pouvez les identifier par la chaîne d'agent utilisateur.

    1. Yandex / 1.01.001 (compatible; gagnant 16; i) - un robot d'indexation minière.
    2. YANDEX / 1.01.001 (Compatible; Win 16; P) Indexier d'image.
    3. YANDEX / 1.01.001 (Compatible; Win 16; h) - Lot, qui définit les sites.
    4. YANDEX / 1.03.003 (compatible; gagnez 16; d) -Bot, faisant référence à la page lors de l'ajoutant via le formulaire "Ajouter URL".
    5. Yandex / 1.03.000 (compatible; gagner 16; m) - un robot, faisant référence à l'ouverture de la page sur le lien "Mots trouvés".
    6. YANDEXBLOG / 0.99.101 (Compatible; DOS3.30; Mozilla / 5.0; In; Robot) - Robot, indexation de fichiers XML pour rechercher des blogs.
    7. YandexSomething / 1.0 est un robot, d'indexation des flux de presse de Yandex. Partenaires de navigation et fichiers de robots. TXT pour les blogs de recherche de robots.

    De plus, plusieurs robots testés travaillent à Yandex - "kivoks ",ce qui ne vérifie que la disponibilité des documents, mais ne les indexez pas.

    1. Yandex / 2.01.000 (compatible; gagnant 16; dyatel; c) - "Kivalka Low-Kivalka" Yandex.Catalog. Si le site n'est pas disponible pour l'autre, il est supprimé de la publication. Dès que le site commence à répondre, il apparaît survenomatiquement dans le catalogue.
    2. Yandex / 2.01.000 (compatible; gagnant 16; dyatel; z) - "Low-Kivalka" Yandex. Hautes. Liens vers des sites inaccessibles mettant en évidence la couleur.
    3. Yandex / 2.01.000 (compatible; Win 16; Dyatel; D) - "Treecks-Roll" Yandex.Direct. Il vérifie l'exactitude des liens des annonces avant la modération.

    Néanmoins, les robots les plus courants sont ceux demandés, recevoir et archiver des documents pour un traitement ultérieur par d'autres mécanismes de moteur de recherche. Il conviendra de séparer le robot de l'indexeur.

    Les sites de dérivation du robot de recherche et obtiennent des documents conformément à votre liste d'adresses internes. Dans certains cas, le robot peut effectuer une analyse de base des documents pour reconstituer la liste d'adresses. Le traitement ultérieur des documents et la construction de l'indice des moteurs de recherche sont déjà engagés dans l'indexeur des moteurs de recherche. Le robot de ce schéma n'est qu'un "courrier" pour collecter des données.

    Le comportement des robots sur le site

    Quelle est la différence entre le comportement du robot sur le site du comportement d'un utilisateur régulier?

    1. Contrôlabilité.Tout d'abord, le robot "intelligent" doit demander le fichier de robots sur le serveur. Txt avec instructions d'indexation.
    2. Pompage sélectif.Lors de la demande de document, le robot est clairement indiqué par les données demandées, contrairement au navigateur habituel, prêt à tout prendre. Les principaux robots des moteurs de recherche populaires doivent d'abord demander des documents de texte hypertexte et ordinaires, laissant les fichiers de CSS, images, vidéo de style. Archives ZIP, etc. Actuellement également dans la demande Informations sur les formats PDF, Texte riche, MS Word, MS Excel et quelques autres.
    3. Imprévisibilité.Il est impossible de suivre ou de prédire le site du robot, car il ne quitte pas d'informations dans le champ de référateur - le magasin d'adresses à partir de: Le robot demande simplement une liste de documents, il semblerait dans un ordre aléatoire et, en fait, conformément aux aspects de la liste interne ou à la file d'indexation.
    4. La vitesse.Peu de temps entre les demandes de différents documents. Au moment des secondes ou des fractions de secondes entre les demandes de deux formations. Pour certains robots, il existe même des instructions spéciales spécifiées dans le fichier de robots. TXT, pour limiter la vitesse de la demande de document, afin de ne pas surcharger le site.

    HOWN Une page HTML dans les yeux d'un robot peut regarder, nous ne savons pas, mais nous pouvons essayer de l'imaginer, éteignant l'affichage de graphiques et de conception de style dans le navigateur.

    Ainsi, on peut en conclure que les robots de recherche versent la page HTML dans leur index, mais sans éléments de conception et sans images.

    Gestion du robot

    Comment le webmaster peut-il contrôler le comportement des robots de recherche sur son site?

    Comme mentionné ci-dessus, en 1994, un protocole d'exclusion spécial pour les robots a été élaboré à la suite de débats publics de webmasters. À ce jour, ce protocole n'est pas devenu la norme que obligéobservez tous les robots sans exception, restant uniquement dans l'état des recommandations strictes. Il n'y a pas d'instance où vous pouvez vous plaindre à un robot qui ne respecte pas les règles d'exception, vous ne pouvez interdire que l'accès au site à l'aide des paramètres du serveur Web ou des interfaces réseau pour les adresses IP à partir duquel le robot "non attentif" envoyé ses demandes.

    Cependant, les robots de gros moteurs de recherche sont conformes aux règles d'exception, de plus, leurs extensions contribuent.

    Sur les instructions d'un fichier spécial robots.txt. Et sur les robots spéciaux de méta-balises décrites en détail au chapitre 6 "Comment faire un site disponible pour les moteurs de recherche".

    Avec l'aide d'instructions supplémentaires dans les robots.txt, qui ne sont pas dans la norme, certains moteurs de recherche vous permettent de contrôler de manière plus flexible le comportement de vos robots. Ainsi, à l'aide de l'instruction Crawl-Delau, le webmaster peut définir l'intervalle de temps entre les demandes séquentielles de deux documents pour les robots Yahoo! et MSN, et en utilisant la no- instruction; t Spécifiez l'adresse du miroir principal du site pour Yandex. Cependant, travailler avec des instructions non standard dans les robots. TXI devrait faire très attention car le robot d'un autre moteur de recherche peut ignorer non seulement les instructions incompréhensibles, mais également l'ensemble des règles qui y sont associées.

    Vous pouvez également gérer des visites pour rechercher des robots et indirectement, par exemple, le robot de moteurs de recherche Google reprendra plus souvent ces documents auxquels de nombreux autres sites ont été renvoyés à d'autres sites.

Avez-vous aimé l'article? Partager avec des amis: