Moteurs de recherche. Moteurs de recherche de Russie et les principaux moteurs de recherche Internet

L'étudiant diplômé peut trouver des articles scientifiques sur Internet pour rédiger un examen littéraire de la thèse de candidats médicaux, des articles dans une langue étrangère pour préparer l'examen du candidat minimum, une description des techniques de recherche modernes et bien plus encore ...

Sur la manière de rechercher des informations sur les moteurs de recherche sur Internet et sera discutée dans cet article.

Pour ceux qui ne sont pas très bien axés sur des concepts tels qu'un site, serveur - j'informe les informations initiales sur Internet.

Internet est de nombreux sites affichés sur des serveurs, des canaux de communication combinés (téléphone, lignes de fibres optiques et satellites).

Le site est un ensemble de documents au format HTML (pages de site), interconnectés par des hyperliens.

Un grand site (par exemple "MedLink" - un catalogue thématique médical http://www.medlinks.ru - se compose de 30 000 pages et la quantité d'espace disque qu'il prend sur le serveur est d'environ 400 Mo).
Un petit site est composé de plusieurs dizaines de pages et prend 1 à 10 Mo (par exemple, mon site «Étudiant scolaire» le 25 juillet 2004 était composé de 280 pages .htm et occupé 6 Mo sur le serveur).

Le serveur est un ordinateur connecté à Internet et travaillant 24 heures sur 24. Sur le serveur peut être placé simultanément de plusieurs centaines à plusieurs milliers de sites.

Les sites postés sur un serveur d'ordinateur peuvent afficher et copier des utilisateurs d'Internet.

Pour assurer un accès ininterrompu aux sites, la source d'alimentation du serveur est effectuée via des sources d'énergie ininterruptibles et la pièce où les serveurs (centre de données) fonctionnent, équipés d'un système d'extinction automatique d'incendie, organisé l'heure d'arrondi auruis Personnel technique.

Depuis plus de 10 ans de son existence, le raket (Internet russe) est devenu une structure ordonnée et la recherche d'informations sur le réseau est devenue plus prévisible.

L'outil de recherche d'informations principale sur Internet est la recherche de moteurs de recherche.

Le moteur de recherche consiste en un programme d'araignée qui considère les sites Internet et la base de données (index) dans lesquels des informations sur les sites consultés sont.

Selon l'application WEB MASTER, l'araignée Robot est disponible sur le site et parcourez les pages du site, entre dans les informations des moteurs de recherche sur les pages du site. Le moteur de recherche peut trouver un site lui-même, même si son webmaster n'a pas déposé une demande d'enregistrement. Si le lien vers le site vient quelque part sur le chemin du moteur de recherche (sur un autre site, par exemple), il indiquera immédiatement.

L'araignée ne copie pas les pages du site à l'index du moteur de recherche et enregistre des informations sur la structure de chaque page du site - par exemple, quels mots sont trouvés dans le document et dans quel ordre, l'adresse de la page d'hyperlink du Site, la taille du document en kilobytes, la date de sa création et bien plus encore. Par conséquent, l'indice de moteur de recherche est plusieurs fois inférieur au volume d'informations indexées.

Quoi et comment chercher un moteur de recherche sur Internet?

Le moteur de recherche est proposé aux personnes pour les aider à rechercher des informations. Qu'est-ce que l'information dans notre compréhension humaine et la représentation visuelle? Ce ne sont pas des odeurs ni des sons, pas des sensations et pas des images. Ce sont juste des mots, un texte. Lorsque nous recherchons quelque chose sur Internet, nous demandons des mots - la requête de recherche et, en réponse, nous espérons obtenir le texte contenant ces mots. Parce que nous savons que le moteur de recherche recherchera les mots demandés par nous dans le tableau des informations. Parce que c'était précisément qu'elle a été conçue pour chercher des mots.

Le moteur de recherche recherche des mots non sur Internet, mais dans son indice. Dans l'Indice des moteurs de recherche, vous trouverez uniquement des informations sur un petit nombre de sites Internet. Il existe des moteurs de recherche qui n'indige que des sites en anglais et il existe des moteurs de recherche qui ne sont que des sites russophones dans leur index.

(L'index est des sites en anglais, allemand et autres langues européennes)

Moteurs de recherche Runeta (L'index est des sites en russe)

Caractéristiques de certains moteurs de recherche Runet

Le moteur de recherche Google ne tient pas compte de la morphologie de la langue russe. Par exemple, Google Les mots "thèse" et "thèses" considèrent différemment.

Vous devez voir non seulement la première page du résultat de la requête de recherche, mais le reste.

Parce qu'il existe souvent des sites contenant des informations utilisateur vraiment nécessaires sont situées sur 4 à 10 pages du résultat de la requête de recherche.

Pourquoi cela arrive-t-il? Premièrement, de nombreux créateurs de sites n'offrent pas les pages de leur site pour les moteurs de recherche, par exemple, n'incluent pas dans la page du site Metatelet.

Les métatellets sont les éléments de service du document Web qui ne sont pas visibles à l'écran, mais sont importants lors de la recherche de moteurs de recherche de votre site. Metatege facilite la recherche de moteurs de recherche de sorte qu'il n'était pas nécessaire d'aller au fond du document et d'analyser tout le texte du site pour compiler une certaine image à ce sujet. Le plus important métatiste est Meta Name \u003d "Mots-clés" - les mots-clés de la page du site. Si le mot du texte de base du document n'est pas considéré comme «spam de recherche» et est dans «Mots-clés» parmi les 50 premiers, le poids de ce mot augmente dans la demande, c'est-à-dire que le document obtient une plus grande pertinence.

Deuxièmement, il existe une concurrence rigide entre les maîtres Web des sites à la suite d'une requête de recherche.

Selon les statistiques, 80% des visiteurs du site provient des moteurs de recherche. Tôt ou tard, les maîtres Web le réalisent et commencent à adapter leurs sites à la législation des moteurs de recherche.

Malheureusement, certains des créateurs de sites utilisent une méthode malhonnête de promotion de leur site par le biais de moteurs de recherche - le soi-disant "Spam de recherche" pour créer comme s'il confondre le contenu des méthamis et le reste du texte du site - Place sur le Pages du site Mots cachés a marqué par des couleurs, de sorte qu'ils n'interfèrent pas avec les visiteurs du site. Toutefois, les créateurs de moteurs de recherche suivent de telles astuces et le site de recherche de spam gouttes des hauteurs atteintes au fond même.

Internet est peu probable des métaphores et des comparaisons figuratives. Ils déforment la vérité, apportent des utilisateurs d'Internet des informations précises et non ambiguës. Plus l'artiste et la plus grande précision dans le style du site - plus les positions dans les résultats de la requête de recherche occupe le site.

À son tour, si vous souhaitez qu'un moteur de recherche trouve des articles sur Internet pour vous - pensez comme une voiture, devenez une voiture. Au moins pour un moment. Au moment de la recherche.

Qu'est-ce que c'est

DuckduckGo est un moteur de recherche open source assez connu. Les serveurs sont aux États-Unis. En plus de son propre robot, le moteur de recherche utilise les résultats d'autres sources: Yahoo, Bing, Wikipedia.

Le meilleur

Duckduckgo se positionne comme une recherche qui offre une confidentialité maximale et une confidentialité. Le système ne collecte pas de données utilisateur, ne stocke pas les journaux (sans historique de recherche), l'utilisation de cookies est limitée que possible.

Duckduckgo ne collecte pas d'informations personnelles d'utilisateurs et n'est pas divisée par elle. C'est notre politique de confidentialité.

Gabriel Weinberg (Gabriel Weinberg), fondateur Duckduckgo

Pourquoi avez-vous besoin

Tous les moteurs de recherche principaux essaient de personnaliser sur la base des données d'un homme devant le moniteur. Ce phénomène s'appelait la "bulle de filtre": l'utilisateur ne voit que les résultats compatibles avec ses préférences ou que le système considère ceux.

DuckDuckGo forme une image objective qui ne dépend pas de votre comportement passé sur le réseau et élimine la publicité thématique de Google et Yandex en fonction de vos demandes. Utilisation de DuckDuckGo Il est facile de rechercher des informations dans des langues étrangères: Google et Yandex par défaut pour préférer les sites russophones, même si la demande est entrée dans une autre langue.


Qu'est-ce que c'est

pas mal est un système de recherche pour un réseau de Tor anonyme. Pour utiliser, vous devez accéder à ce réseau, par exemple, en cours d'exécution spécialisée avec le même nom.

pas mal n'est pas le seul moteur de recherche à sa manière. Il y a un look (la recherche par défaut dans le navigateur Tor-Browser est disponible à partir de l'Internet habituel) ou de la torche (l'un des plus anciens moteurs de recherche du réseau Tor-Network) et d'autres. Nous nous sommes arrêtés à Pas mal à cause de l'indice sans équivoque sur Google (regardez simplement la page de départ).

Le meilleur

À la recherche d'où Google, Yandex et d'autres moteurs de recherche sont fermés en principe.

Pourquoi avez-vous besoin

Dans le réseau Tor, de nombreuses ressources qui ne peuvent pas être trouvées dans l'Internet respectueux de la loi. Et leur nombre augmentera comme le contrôle des autorités sur le contenu du réseau devient. Tor est une sorte de réseau à l'intérieur du réseau avec ses traqueurs SocialKi, Torrent, des médias, des plates-formes de trading, des blogs, des bibliothèques, etc.

3. Yacy.

Qu'est-ce que c'est

Yacy est un moteur de recherche décentralisé fonctionnant sur le principe du réseau P2P. Chaque ordinateur sur lequel le module logiciel principal est installé, scanne Internet de manière indépendante, c'est-à-dire un analogue du robot de recherche. Les résultats sont collectés dans une base commune que tous les participants de Yyy sont utilisés.

Le meilleur

Il est difficile de parler ici, c'est mieux ou pire, comme la Yacy est une approche complètement différente de l'organisation de la recherche. L'absence d'un seul serveur et de la société du propriétaire rend les résultats totalement indépendants des préférences de quelqu'un. L'autonomie de chaque noeud élimine la censure. Yacy est capable de rechercher dans des réseaux partagés sur le Web et non indexé.

Pourquoi avez-vous besoin

Si vous êtes partisan d'Internet ouvert et gratuit, non soumis à l'influence des organismes d'État et des grandes entreprises, alors votre choix est votre choix. Il peut également être utilisé pour organiser une recherche au sein d'une entreprise ou d'un autre réseau hors ligne. Et même si Yacy n'est pas trop utile pour l'instant, il s'agit d'une alternative digne de Google du point de vue du processus de recherche.

4. PIPL.

Qu'est-ce que c'est

PIPL est un système conçu pour trouver des informations sur une personne particulière.

Le meilleur

Les auteurs de PIPL affirment que leurs algorithmes spécialisés cherchent plus efficacement que les moteurs de recherche «ordinaires». En particulier, les sources d'informations prioritaires sont des profils de réseautage social, des commentaires, des listes de participants et diverses bases de données, qui publie des informations sur les personnes, telles que la base des décisions judiciaires. Le leadership de la PIPL dans ce domaine est confirmé par les estimations de LifeHacker.com, TechCrunch et d'autres publications.

Pourquoi avez-vous besoin

Si vous avez besoin de trouver des informations sur une personne vivant aux États-Unis, la PIPL sera beaucoup plus efficace que Google. Base de données de tribunaux russes, apparemment non disponible pour le moteur de recherche. Par conséquent, avec des citoyens de la Russie, il s'oppose pas si bon.

Qu'est-ce que c'est

FindSounds - Un autre moteur de recherche spécialisé. À la recherche de divers sons (maison, nature, voitures, personnes, etc.) dans des sources ouvertes. Le service ne prend pas en charge les demandes en russe, mais il existe une liste impressionnante de balises russophones, pour lesquelles vous pouvez rechercher.

Le meilleur

En émettant seulement des sons et rien superflu. Dans les paramètres de recherche, vous pouvez définir le format et la qualité du son souhaité. Tous les sons trouvés sont disponibles au téléchargement. Il y a une recherche de sons d'échantillonnage.

Pourquoi avez-vous besoin

Si vous avez besoin de trouver rapidement le son d'un coup de MuscuTTy, souffle une dyatla-saucisse ou un cri de Gomer Simpson, alors ce service est pour vous. Et nous avons choisi uniquement des demandes russophones disponibles. En anglais, le spectre est encore plus large.

Et si sérieusement, le service spécialisé implique un public spécialisé. Mais tout à coup, vous allez venir utile?

Qu'est-ce que c'est

Wolfram | Alpha est un moteur de recherche informatique. Au lieu de liens vers des articles contenant des mots-clés, il donne la réponse prête à la demande à la demande de l'utilisateur. Par exemple, si vous entrez dans le formulaire de recherche "Comparez la population de New York et de San Francisco" en anglais, alors Wolfram | Alpha affichera immédiatement des tables et des graphiques avec une comparaison.

Le meilleur

Ce service est mieux adapté à la recherche de faits et calculez les données. Wolfram | Alpha accumule et systématiser les connaissances disponibles sur un réseau de divers domaines, y compris la science, la culture et le divertissement. Si dans cette base de données, il existe une réponse immédiate à une requête de recherche, le système le montre si non - calcule et affiche le résultat. Dans le même temps, l'utilisateur ne voit que les informations nécessaires et rien superflu.

Pourquoi avez-vous besoin

Si vous êtes, par exemple, un étudiant, un analyste, un journaliste ou un chercheur, vous pouvez utiliser Wolfram | Alpha pour rechercher et calculer les données relatives à vos activités. Le service comprend pas toutes les demandes, mais se développe constamment et devient plus intelligemment.

Qu'est-ce que c'est

Dogpile Metapoiskovik affiche une liste combinée de résultats de Google, Yahoo et d'autres systèmes populaires.

Le meilleur

Premièrement, Dogpile affiche moins de publicité. Deuxièmement, le service utilise un algorithme spécial pour trouver et montrer les meilleurs résultats de différents moteurs de recherche. Selon les développeurs de Dogpile, leurs systèmes constituent la délivrance la plus complète sur Internet.

Pourquoi avez-vous besoin

Si vous ne trouvez pas d'informations sur Google ou un autre moteur de recherche standard, regardez-le immédiatement dans plusieurs moteurs de recherche à l'aide de DogPile.

Qu'est-ce que c'est

BoardReader est un système de recherche de texte de forums, de questions de questions et de réponses et d'autres communautés.

Le meilleur

Le service vous permet de réduire le champ de recherche aux plates-formes sociales. Grâce à des filtres spéciaux, vous pouvez trouver rapidement des messages et des commentaires d'utilisateurs correspondant à vos critères: langue, date de publication et nom du site.

Pourquoi avez-vous besoin

BoardReader peut être utile aux PR et aux autres professionnels des médias qui sont intéressés par la vision du public de masse pour une ou plusieurs questions.

Pour terminer

La vie des moteurs de recherche alternative est souvent un véhicule. Pour les perspectives à long terme de tels projets, Lifhaker a demandé à l'ancien directeur général de la branche ukrainienne de Yandex, Sergei Petrenko.


Sergey Petrenko

Ancien directeur général de Yandex.keragan.

En ce qui concerne le sort de moteurs de recherche alternatifs, il est simple: être des projets très crétins avec un petit public, donc sans perspectives commerciales claires ou, au contraire, avec une clarté complète de leur absence.

Si vous regardez les exemples de l'article, on peut constater que de tels moteurs de recherche sont spécialisés dans une niche étroite, mais dans la demande, qui, éventuellement seulement, n'a pas grandi autant à être visible sur Google Radar ou Yandex, ou Testez l'hypothèse d'origine dans le classement, qui n'est pas applicable dans la recherche habituelle.

Par exemple, si la recherche de Tor s'avère soudainement à la demande, c'est-à-dire que les résultats de là auront besoin d'au moins un pourcentage du public de Google, alors, bien sûr, les moteurs de recherche ordinaires commenceront à résoudre le problème, comment Trouvez-les et montrez-les. Si le comportement de l'auditoire montre qu'une part notable des utilisateurs dans une requête notable semble être plus pertinente, les données sans prendre en compte les facteurs dépendants de l'utilisateur, alors Yandex ou Google commenceront à donner de tels résultats.

"Être mieux" dans le contexte de cet article ne signifie pas "être meilleur dans tout". Oui, dans de nombreux aspects, nos héros sont loin de Google et Yandex (même à Bing, c'est loin). Mais ceci, chacun de ces services donne à l'utilisateur quelque chose de tel que les géants de l'industrie de la recherche ne peuvent pas offrir. Vous connaissez sûrement de tels projets. Partager avec nous - Discutez.

Moteur de recherche (moteur de recherche)

Les moteurs de recherche vous permettent de trouver des documents WWW liés à des sujets spécifiés ou équipés de mots-clés ou de combinaisons de ceux-ci. Les serveurs de recherche fonctionnent de deux façons de rechercher:

· Selon la hiérarchie des concepts;

· Par mots clés.

Remplir les serveurs de recherche est automatiquement ou manuellement. Le serveur de recherche contient généralement des liens vers d'autres serveurs de recherche et leur envoie une demande de recherche à la demande de l'utilisateur.

Il existe deux types de moteurs de recherche.

1. Les moteurs de recherche «texte intégral» indiquant chaque mot sur une page Web, à l'exclusion des mots d'arrêt.

2. Moteurs de recherche «Résumé» qui créent un essai de chaque page.

Pour les webmasters, les machines de texte intégral sont utiles, car tout mot trouvé sur la page Web est analysé lors de la détermination de sa pertinence pour les demandes des utilisateurs. Cependant, les voitures abstraites peuvent indexer des pages mieux que le texte intégral. Cela dépend de l'algorithme d'extraction de l'information, par exemple, par la fréquence d'utilisation des mêmes mots.

Les principales caractéristiques des moteurs de recherche.

1. Le moteur de recherche est déterminé par le nombre de pages indexées. Cependant, à chaque fois que les liens émis en réponse aux demandes des utilisateurs peuvent être des limitations variables. Les raisons pour lesquelles cela se produit:

· Certains moteurs de recherche indiquent immédiatement la page sur la demande de l'utilisateur, puis continuez à indexer des pages indexées non encore.

· Autres plus souvent Indexez les pages de page les plus populaires.

2. Date d'indexation. Certains moteurs de recherche montrent la date à laquelle le document a été indexé. Cela aide l'utilisateur à déterminer lorsque le document apparaît sur le réseau.

3. L'indexation de la glubine montre combien de pages après que les spécifiées indexent le moteur de recherche. La plupart des machines n'ont pas de restrictions sur la profondeur de l'indexation. Les raisons pour lesquelles toutes les pages ne peuvent être indexées:

· Ne pas utiliser correctement les structures de trame.

· Utiliser la carte du site sans duplication par des références régulières

4. Travailler avec des cadres. Si le robot de recherche ne sait pas comment travailler avec des structures de trame, de nombreux cadres avec des cadres seront manqués lors de l'indexation.

5.Fasez des liens. Les principaux moteurs de recherche peuvent déterminer la popularité du document sur la fréquence de la fréquence. Certaines machines basées sur de telles données "tirent", il est nécessaire ou non d'indexer le document.

Update de serveur 6.FAST. Si le serveur est mis à jour fréquemment, le moteur de recherche sera le plus souvent réindex.

7. Contrôle de l'indexation. Montre ce que signifie que vous pouvez gérer le moteur de recherche.

8. Performance. Certains sites redirigent les visiteurs d'un serveur à un autre et ce paramètre montre comment il sera associé aux documents trouvés.

9.Top Mots. Certains moteurs de recherche n'incluent pas certains mots à leurs index ou ne peuvent pas inclure ces mots dans les demandes des utilisateurs. Ces mots sont généralement considérés comme des prépositions ou des mots fréquemment utilisés.

10.Pam fines. Capacité à bloquer le spam.

11. La date des anciennes données. Le paramètre définissant les actions du webmaster lorsque vous fermez le serveur ou déplacez-la à une autre adresse.

Exemples de moteurs de recherche.

1. Altavista. Le système est ouvert en décembre 1995. appartient au déc. Depuis 1996, coopère avec Yahoo. AltaVista est la meilleure option pour la recherche de recherche. . Cependant, le tri des résultats par catégorienAM n'est pas exécuté et doit afficher manuellement les informations fournies. AltaVista ne fournit pas de moyens d'obtenir des listes de nœuds actifs, de nouvelles ou d'autres capacités de recherche de contenu.

2. Excite de recherche. Lancé à la fin de 1995. En septembre 1996, le WebCrawler a acquis. Ce nœud a une fouille de recherche puissantebas, possibilité de personnaliser automatiquementinformations fournies, ainsi que tirable qualifiéedescriptions de personnel d'ensembles de nœuds.Exciter diffère d'autres moteurs de recherche par le fait quevous permet de rechercher des services de presse et publie des critiquesWeb-Browners. Dans le mécanisme de recherche utilise des fondsrecherche standard par mots-clés et heuristiqueméthodes de recherche de contenu. Merci à cette combinaison,vous pouvez trouver une page appropriéeLa toile, s'ils ne contiennent pas l'utilisateur spécifié par l'utilisateurmots. Inconvénient d'exciter est une interface quelque peu chaotique.

3.Hotbot. Lancé en mai 1996. appartient au câblage. Basé sur la technologie des moteurs de recherche de Berkeley Inktomi. Hotbot est une base de données contenant des documents indexés par le texte intégral et l'un des mécanismes de recherche les plus complètes du Web. Ses outils de recherche pour les conditions logiques et les outils d'affectation de recherche à n'importe quelle zone ou site Web aident l'utilisateur à trouver les informations nécessaires, placez-vous inutile. HOTBOT permet de sélectionner les options de recherche nécessaires dans des listes déroulantes.

4.Infoseek. Lancé avant 1995, facilement accessible. Contient actuellement environ 50 millions d'URL. Infoseeek possède une interface bien pensée, ainsi qu'une excellente recherche. La plupart des réponses aux demandes sont accompagnées de références "rubriques connexes", et après chaque réponse, les liens "Pages similaires" sont données. Base de données du mécanisme de recherche des pages indexées par le texte intégral. Les réponses sont rationalisées par deux indicateurs: fréquence des réunions Word ou Phrases sur la page cAH, ainsi que des mots de référence ou des phrases sur les pages. Il existe un répertoire d'annuaire Web divisé par 12 catégories avec des centaines de sous-catégories pour lesquelles la recherche peut être effectuée. Chaque page de répertoire contient une liste de re nœuds mandataires.

5. Lycos. Travaille depuis mai 1994. Largement connu et utilisé. La composition comprend un catalogue avec un grand nombre d'URL. et le moteur de recherche de points avec la technologie de l'analyse statistique du contenu des pages, contrairement à l'indexation sur le texte intégral. Lycos contient des nouvelles, des critiques de nœuds, des liens vers des nœuds populaires, des cartes de villes, ainsi que des adresses d'outils de recherche, de bandes et clips son et vidéo.Lycos. rationaliser les réponses au degré de socialdemander des demandes de plusieurs critères, par exemple,lu Recherche termes trouvés dans Annotations à DockcOP, intervalle entrefaire des mots dans une phrase spécifique du document, l'emplacementtermes dans le document.

6. Webcrawler. Ouvert le 20 avril 1994 en tant que projet de l'Université de Washington. Webcrawler. Offre des opportunitéssyntaxe pour spécifier des demandes, ainsi qu'une large sélection annotations de nœuds avec une interface simple.


Après chaque réponse, le WebCrawler empêchera une petite icône avec une évaluation approximative de la conformité à la demande. Le coma de savoir s'il faut afficher une page avec un bref résumé de chaque réponse, son URL complète, une évaluation correspondante précise et utilise également cette réponse est dans la demande d'échantillon comme mots-clés.Interface graphique pour configurer les demandes deWeb crawler no. N. e est autoriséutilisation de caractères universels et aussi impossiblenommer des coefficients de poids mots-clés. Il n'y a aucun moyen de limiter le champ de rechercheune certaine zone.

7. Yahoo. Le catalogue le plus ancien Yahoo a été lancé au début de 1994. Largement connu, souvent utilisé et le plus respect. En mars 1996, le catalogue de Yahooligans pour les enfants a été lancé. Il y a des catalogues régionaux et supérieurs Yahoo. Yahoo est basé sur l'abonnement utilisateur. Il peut servir de point de départ pour toute recherche sur le Web, car avec l'aide de son système de classification, l'utilisateur trouvera un nœud avec des informations bien organisées. Le contenu de la bande est divisé en 14 catégories communes répertoriées sur la page d'accueil Yahoo! Selon les spécificités de la demande de l'utilisateur, il existe une opportunité ou travaillez avec ces catégories pour vous familiariser avec les sous-catégories et les listes de nœuds, ou rechercher des mots et des termes spécifiques dans la base de données. L'utilisateur peut également limiter la recherche dans n'importe quelle section ou sous-section Yahoo!. En raison du fait que la classification des nœuds est effectuée par des personnes, etpas un ordinateur, la qualité de référence est généralement très élevée. Cependant, la clarification de la recherche en cas de défaillance est une tâche difficile. La composition de Yahoo ! Le mécanisme de recherche est inclusAltavista, donc en cas d'échec lors de la recherche de Yahoo! Il survient automatiquement répétition à l'aide d'un moteur de rechercheAltavista. . Ensuite, les résultats sont transmis àYahoo!. Yahoo! Fournit la possibilité d'envoyer des demandes à rechercher dans Usenet et en FourL 1 pour connaître les adresses électroniques.

Les moteurs de recherche russes incluent:

1. Rambler. Ceci est un moteur de recherche russophone. Les sections énumérées sur la page d'accueil Rambler sont éclairées par le Web russophone -resours. Il y a un classificateur d'informations. La possibilité commode de fournir la liste des nœuds les plus visités pour chaque sujets proposés.

2. Aposez la recherche. Un port inclus dans le nombre de principaux moteurs de recherche certifiésMicrosoft. Recherche localesystèmes pour la version russeMicrosoft Internet Explorer. L'un des avantages de l'APORT est la traduction anglais-française et russe-anglais dans les demandes de requête en ligne et les résultats de recherche, de sorte que vous pouvez rechercher dans Russie Ressources Internet , même ne sachant même pas le russe. en outre Vous pouvez rechercher des informations utiliser des expressions, même pour les propositions.Parmi les principales propriétés du système de recherche, vous pouvezpartagez ce qui suit:

Traduction de la demande et des résultats de la recherche de Russe à Anglaissky Language et vice versa;

Vérification automatique des erreurs d'orphernographie requêtes;

Production informative des résultats de recherche pour les sites trouvés;

La capacité de chercher de toute forme grammaticale;


Langue de demande avancée pour la profession utilisateurs NALI.

Pour d'autres propriétés de recherche peuvent être attribuées soustenant cinq pages de code principales (différentes opérationssystèmes) Pour la langue russe, la technologie de rechercheje mange des restrictionsURL et date des documents, mise en œuvre de la recherche sur les titres, les commentaires et le signeaux images, etc., économiser des paramètres de recherche etnombre de demandes d'utilisateurs précédentes, Union copies du document sur différents serveurs.

3. Liste. Ru ( http://www.list.ru.) Dans sa mise en œuvre, ce serveur a beaucoupen commun avec le système anglophoneYahoo!. Sur la page principale du serveur sont des liens vers les catégories de recherche les plus populaires.


La liste des liens vers les catégories principales du catalogue occupe la partie centrale. La recherche dans le catalogue est implémentée de manière à ce que des sites et des catégories individuels puissent être trouvés. En cas de recherche réussie, l'URL est affichée, le nom, la description, les mots-clés. Il est autorisé à utiliser demandes Yandex. DEstructure de la boudonnele catalogue "s'ouvre dans une fenêtre séparée un rubrique complet de kataenregistrer. Implémenté la possibilité de transition du rubrique à toute sous-catégorie sélectionnée. Division thématique plus détailléel'en-tête actuel est représenté par la liste des liens. Le catalogue est organisé la façon dont tous les sites contenus aux niveaux inférieurs de la structuretours, représentés dans des rubriques.La liste des ressources affichées est commandée par ordre alphabétique, mais vous pouvez choisir le tri:menia d'ajout, par transition, par ordre d'ajout au cataloguepopularité parmi le catalogue des visiteurs.

4. Index. Les produits logiciels de la série YANDEX représentent un ensemble d'outils d'indexation de texte intégral et recherchent des données texte, en tenant compte de la morphologie de la langue russe. Yandex comprend des modules d'analyse et de synthèse morphologique, d'indexation et de recherche, ainsi que d'un ensemble de modules auxiliaires, tels que l'analyseur de documents, les langages de balisage, les convertisseurs de format, Spider.

Les algorithmes d'analyse morphologique et de synthèse basés sur le dictionnaire de base sont capables de normaliser les mots, c'est-à-dire de trouver leur forme initiale, ainsi que de générer des hypothèses pour les mots non contenus dans le dictionnaire de base. Le système d'indexation de texte intégral vous permet de créer un index compact et de rechercher rapidement des opérateurs logiques.

L'indice est conçu pour fonctionner avec des textes dans le réseau local et dans le réseau mondial, et peut également être connecté sous forme de module à d'autres systèmes.

Moteur de recherche ou simplement "Moteur de recherche" consiste à rechercher des pages en ligne conformément à la demande de l'utilisateur. Le moteur de recherche le plus célèbre du monde est Google, le plus populaire en Russie - Yandex et l'un des plus anciens moteurs de recherche sont Yahoo. Dans l'architecture des moteurs de recherche, vous pouvez allouer moteur de recherche - le noyau du système représenté par un ensemble de modules logiciels; Base de données ou indicestocker des informations sur tout le moteur de recherche bien connu des ressources Internet; et un ensemble de sites qui sont points d'entrée Utilisateurs (www.google.com, www.yandex.ru, ru.yahoo.com, etc.). Tout cela correspond à l'architecture de système d'information classique à trois niveaux: il existe une interface utilisateur, une logique commerciale, qui est dans ce cas représenté par la mise en œuvre d'algorithmes de recherche et de base de données.

Spécificité Recherche en ligne

À première vue, la recherche sur Internet n'est pas très différente de la recherche d'informations habituelles, par exemple, du traitement à la base de données ou de la tâche de recherche de fichiers. Donc, ils ont considéré les développeurs des premiers moteurs de recherche sur Internet, mais avec le temps, ils ont réalisé qu'ils se sont trompés ...

La première différence dans la recherche Internet à partir de l'habitude est que l'algorithme de recherche de la même base de données suppose que sa structure est connue à l'avance par le moteur de recherche et l'auteur de la demande. Sur Internet, pour des raisons évidentes, ce n'est pas le cas. Les pages Internet ne constituent pas la structure du répertoire, mais le réseau, qui affecte également les algorithmes de recherche et le format de données affiché sur les ressources Internet, n'est contrôlé par personne.

La deuxième différence, comme l'une des conséquences du premier, c'est que la demande n'est pas présentée sous la forme d'un ensemble de valeurs de paramètre (critères de recherche) et sous la forme de texte écrit par l'homme sur une langue naturelle pour lui . Ainsi, avant de commencer à chercher, vous devez toujours comprendre ce que l'auteur de la demande veut. Je note, pour comprendre une autre personne, mais une machine informatique.

La troisième différence est déjà moins évidente, mais pas moins fondamentale: dans le répertoire ou la base de données, tous les éléments sont égaux. Il existe une concurrence sur Internet et, par conséquent, la Division des «fournisseurs dignes de confiance des informations» et des sources proches du statut de «Information Massor». Donc, les ressources de ressources de classe et incluent également des moteurs de recherche.

Et en conclusion, il convient d'ajouter que la zone de recherche est des milliards de pages, plusieurs kilo-octets et plus chacun. À propos d'une tente de millions de pages est ajoutée quotidiennement et mis à jour autant. Tout cela est représenté par divers formats numériques. Malheureusement, même les technologies et les ressources modernes disponibles à la disposition des leaders du marché à Internet ne leur permettent pas de gérer toute cette variété "à la volée" et entièrement.

Quel est le moteur de recherche

Tout d'abord, il est important de réaliser un autre et, probablement la différence la plus significative entre le travail du moteur de recherche sur Internet et le travail de tout autre système d'information exerçant dans divers types de répertoires et de bases de données. Le moteur de recherche ne recherche pas d'informations sur ce qui est sur Internet à la réception de la demande et tente de créer une réponse sur la base de votre propre stockage d'informations - base de données appelée Index, où il stocke un dossier à tous. connu de l'informatique et la mise à jour périodique. En d'autres termes, le moteur de recherche ne fonctionne pas avec l'original, mais avec la zone de projection des valeurs de recherche admissibles. Toutes les dernières modifications sur Internet peuvent être reflétées dans les résultats de la recherche qu'après que les pages concernées seront index - ajouté à l'index des moteurs de recherche. Donc, le moteur de recherche dans la première approximation consiste en un moteur de recherche, une base de données ou des index (index) et des points de connexion.

Maintenant brièvement sur ce que le moteur de recherche comprend:

  • Araignée ou araignée (araignée). Une application qui est engagée dans le téléchargement de pages de ressources Internet. Nulle part Saigner ne va pas "ramper" - il ne demande que le contenu des pages de la même manière que le navigateur internet habituel, envoyant une demande au serveur HTTP et en obtenir une réponse. Une fois le contenu de la page téléchargé, il est envoyé à l'indexeur et au robotler, décrit ci-dessous.

  • Indexeur (indexeur). L'indexeur génère une analyse initiale du contenu de la page téléchargée, attribue les parties principales (nom de la page, description, liens, en-têtes, etc.) et décline tout cela par les sections de la base de données de recherche - Endroits de l'index des moteurs de recherche. Ce processus est appelé indexation des ressources InternetD'ici et le nom du sous-système lui-même. Sur la base des résultats de l'analyse initiale, l'indexeur peut également décider que la page est généralement "indigne" d'être dans l'index. Les raisons d'une telle solution peuvent être différentes: la page n'a pas de nom, est une copie exacte de l'autre déjà disponible dans l'index de la page ou contient des références aux ressources interdites par la loi.

  • Crawler. Cet "animal" est conçu pour "crawler" par des liens disponibles sur une page d'araignée. Le robotler analyse les chemins qui ont conduit de la page en cours à d'autres sections du site, ou sur la page de ressources Internet externes et détermine la procédure supplémentaire de contournement de l'araignée des threads du World Wide Web. C'était Krauller qui trouve de nouveau pour la page de moteur de recherche et les transfère à Spider. Le travail du robotler est construit sur la base d'algorithmes de recherche sur des colonnes de largeur et de profondeur.

  • Moteur de recherche et moteur de résultats). La partie la plus importante de tout moteur de recherche. Les algorithmes des développeurs de sous-systèmes de travail de la société sont stockés dans un secrétaire strict, car ils sont un secret commercial. C'est cette partie du moteur de recherche qui est responsable de l'adéquation de la réponse du moteur de recherche à la demande de l'utilisateur. Vous pouvez sélectionner ici deux composants principaux:
    • Sous-système de classement. Variant - Ce sont des pages de sites Internet conformément à leur pertinence pour une requête spécifique. Pertinence de la page - Ceci, à son tour, le degré de conformité du contenu de la signification de la page de la page et cette valeur du moteur de recherche détermine indépendamment, en fonction de l'énorme nombre de paramètres. Classement - C'est la partie la plus mystérieuse et la plus controversée de l'intelligence artificielle du moteur de recherche. Sur le classement de la page, en plus de sa structure et de sa contenus (contenu), affectez également: le nombre et la qualité des liens menant à cette page à partir d'autres sites; l'âge du domaine du site lui-même; La nature du comportement des utilisateurs examine via la page et de nombreux autres facteurs.

    • Sous-systèmes pour la délivrance des résultats. La tâche de ce sous-système comprend une interprétation d'une requête d'utilisateur, sa traduction dans la langue des demandes structurées à l'index et la formation des pages de résultats de recherche. En plus d'analyser le texte de la requête, le moteur de recherche peut également prendre en compte:
      • Demande de demande, Formable basé sur la signification des demandes précédemment mises en œuvre. Par exemple, si l'utilisateur visit souvent des sites sur les thèmes de la voiture, il souhaite probablement recevoir des informations sur ces marques dans le mot «volga» ou «oka», et non sur l'endroit où les Russes du même nom commencent. On l'appelle recherche personnaliséeLors de la délivrance d'une seule et même demande pour différents utilisateurs est nettement différente.

      • Préférences personnaliséesqui elle (moteur de recherche) peut "deviner" analyser les liens sélectionnés par l'utilisateur sur les pages de résultats de recherche. C'est une autre façon d'ajuster le contexte de la demande: l'utilisateur avec ses actions comme s'il dit à la voiture, qu'est-ce qu'il voulait trouver exactement. En règle générale, les moteurs de recherche dans les résultats de la recherche tentent d'ajouter des pages, une enquête pertinente, mais de se rapporter à des zones de vie assez différentes. Supposons que l'utilisateur soit intéressé par les films et sélectionne souvent des liens vers des pages avec les annonces de Kinonovinki, même si ces pages ne sont pas tout à fait pertinentes pour la requête originale. Lorsque vous formez une réponse à sa demande suivante, le système peut préférer les pages avec une description des films, au nom de laquelle sont des mots du texte de la requête.

      • RégionIl est très important lors du traitement des demandes commerciales liées à l'acquisition de biens et de services à partir de fournisseurs locaux. Si vous êtes intéressé par les ventes et les réductions et que vous êtes à Moscou, vous n'êtes probablement probablement pas tout à fait intéressant, quelles actions ont lieu sur ce sujet à Saint-Pétersbourg, si vous n'avez pas précisé cela explicitement dans le texte de la requête. Tout d'abord, des informations sur les ventes à Moscou doivent apparaître dans les résultats de la recherche. Ainsi, les moteurs de recherche modernes partagent des demandes de géospendu et dépendant de la géone. Très probablement, si le moteur de recherche décide que votre demande est de la dépendance géographique, elle ajoute automatiquement un signe d'une région qui tente de déterminer les informations sur votre fournisseur Internet.

      • Temps. Parfois, des moteurs de recherche doivent être analysés lorsque les événements décrits sur la page se sont produits. Après tout, les informations sont constamment obsolètes et l'utilisateur a besoin d'abord des liens vers les dernières nouvelles, les prévisions actuelles et les annonces d'événements qui n'ont pas encore été achevés ou devraient venir à l'avenir. Il est entendu que la pertinence de la page dépend du temps et le comparer avec le moment d'exécution de la requête nécessite également le moteur de recherche du complexe d'intelligence.

      Ensuite, le moteur de recherche recherche le signification le plus proche demande clé Dans l'indice et les résultats des formulaires, trier les références dans l'ordre décroissant de leur pertinence. Chaque requête clé dans l'index correspond à une notation de pages distincte correspondant à lui. Pas pour chaque combinaison de lettres et de chiffres, le système démarre une nouvelle requête clé et le fait sur la base de l'analyse de fréquence de certaines demandes d'utilisateurs. Le moteur de recherche peut également mélanger les notes de différentes requêtes clés dans les résultats de la recherche, si elle considère qu'elle est nécessaire à l'utilisateur.

Principes généraux du moteur de recherche

Il est nécessaire de comprendre que les services de recherche sur Internet sont une activité très rentable. Dans les détails, en raison de quelles entreprises telles que Google et Yandex ne peuvent pas entrer dans, car la partie principale de leurs bénéfices est leur revenu de la publicité contextuelle. Et une fois que la recherche sur Internet est une entreprise extrêmement rentable, la concurrence entre ces sociétés est très grave. Qu'est-ce qui détermine la compétitivité sur le marché de la recherche en ligne? La réponse est la qualité du moteur de recherche. Il est logique que plus il est élevé, plus les nouveaux utilisateurs apparaissent sur le système et plus précieux sur les pages de ce problème même de la publicité contextuelle. Les développeurs de moteurs de recherche dépensent de gros efforts visant à «nettoyer» les résultats de leurs résultats de recherche de différents types de débris d'information, appelés spam (spam). De plus en détail sur la manière dont cela se fait, sera informé dans un article distinct et je donnerai ici les principes généraux du comportement du moteur de recherche, formulé sous la forme de conclusions tout au long de ce qui précède.

  1. Le moteur de recherche représenté par ses araignées et son robot scanne constamment Internet pour l'apparition de nouvelles et mises à jour des pages existantes, car les informations non pertinentes sont appréciées ci-dessous.

  2. Le moteur de recherche met périodiquement le classement des ressources par leur pertinence pour les requêtes clés, car les nouvelles pages apparaissent constamment dans l'index. Ce processus s'appelle les résultats de la recherche de mise à jour (mise à jour).

  3. En vertu d'énormes quantités d'informations publiées dans le Web mondial et des ressources limitées du moteur de recherche lui-même, le moteur de recherche tente toujours de télécharger uniquement le plus (à son avis) nécessaire. Dans son arsenal, il y a toutes sortes de filtres qui réduisent beaucoup de personnes inutiles déjà à la phase d'indexation ou lancez le spam de l'index en fonction des résultats des résultats de la recherche.

  4. Les moteurs de recherche modernes lors de l'analyse de la requête tentent non seulement de prendre en compte le texte de la plupart des demandes elles-mêmes, mais également de son environnement: le contexte et les préférences de l'utilisateur, qui ont précédemment déclaré, ainsi que la demande de requête, la région et beaucoup plus.

  5. Non seulement les paramètres internes (structure, contenu), mais également paramètres externes, tels que des liens vers la page à partir d'autres sites et le comportement de l'utilisateur, affectent la pertinence d'une page spécifique.

Le travail des moteurs de recherche est constamment amélioré. Le travail idéal du moteur de recherche (pour une personne) n'est possible que si toutes les solutions concernant l'indexation et le classement prennent une commission composée d'un grand nombre de spécialistes de tous les domaines et de tous les directions de l'activité humaine. Comme il est irréaliste, la Commission remplace les systèmes d'experts, des algorithmes de recherche heuristique et d'autres éléments d'intelligence artificielle. Le travail de tous ces sous-systèmes pourrait probablement donner des résultats plus adéquats s'il était possible de traiter absolument toutes les données disponibles sur Internet, mais il est pratiquement impossible. Intelligence artificielle imparfaite et ressources limitées - Deux raisons principales du fait que les résultats des résultats de la recherche ne valent pas toujours les utilisateurs, mais tout cela est traité. Pour aujourd'hui, à mon avis, le travail des moteurs de recherche les plus célèbres et les plus importants est tout à fait conforme aux besoins et aux attentes de leurs utilisateurs.

Comment fonctionnent les machines de trempage? L'une des propriétés merveilleuses d'Internet est qu'il existe des centaines de millions de ressources Web en attente et sont prêtes à nous être présentées. Mais il est mauvais qu'il y ait les mêmes millions de pages qui, même nous avons besoin, ne comparaissent pas devant nous, car Juste inconnu pour nous. Comment savoir quoi et où puis-je trouver sur Internet? Habituellement, nous appelons à l'aide de moteurs de recherche.

La recherche de machines Internet sont des sites spéciaux sur le réseau mondial, qui sont faits pour aider les gens à trouver les informations dont ils ont besoin dans le World Wide Web. Il existe des différences dans la manière dont les moteurs de recherche effectuent leurs fonctions, mais en général, il existe 3 fonctions principales et identiques:

Tous sont "recherchés" Internet (ou du secteur Internet) - sur la base des mots-clés donnés;
- Tous les moteurs de recherche indiquent les mots qu'ils recherchent et des endroits où ils les trouvent;
- Tous les moteurs de recherche permettent aux utilisateurs de rechercher des mots ou des combinaisons à partir de mots-clés basés sur les pages Web déjà indexées et incluses dans leurs bases de données.

Les tout premiers moteurs de recherche étaient indexés sur plusieurs centaines de mille pages et ont reçu 1 000 à 2 000 demandes par jour. Aujourd'hui, les moteurs de recherche supérieurs étaient indexés et indexés en mode continu de centaines de millions de pages, des dizaines de millions de requêtes par jour sont traitées. Vous trouverez ci-dessous des informations ci-dessous sur la manière dont les moteurs de recherche fonctionnent et comment ils "plient" toutes les informations trouvées de manière à pouvoir répondre à toute question d'intérêt.

Regardons le Web.

Lorsque les gens parlent de moteurs de recherche, ils signifient réellement les moteurs de recherche INTERNET.. Avant que le Web ne soit la partie la plus visible d'Internet, il y avait déjà des moteurs de recherche qui ont aidé les gens à trouver des informations sur le réseau. Les programmes appelés «Gopher» et «Archie» ont pu indiquer des fichiers affichés sur différents serveurs connectés à Internet et ont réduit à plusieurs reprises le temps consacré à la recherche des programmes ou des documents nécessaires. À la fin des années 80 du siècle dernier, la capacité de travailler sur Internet était synonyme de la capacité d'utiliser Gopher, Archie, Veronica, etc. Programmes de recherche. Aujourd'hui, la plupart des internautes limitent leur recherche uniquement par le réseau mondial ou www.

Petit principe

Avant de vous répondre, où trouver le document ou le fichier souhaité, ce fichier ou document doit déjà être trouvé. Pour trouver des informations sur des centaines de millions de pages Web existantes, le moteur de recherche applique un programme de robot spécial. Ce programme s'appelle également une araignée ("Spider", Spider) et sert à créer une liste de mots trouvés sur la page. Le processus de construction d'une telle liste est appelé web Krauling (Web rampant). Pour développer et corriger encore "utile" (avoir une valeur) Liste des mots, la recherche d'araignée doit "voir" beaucoup d'autres pages.

Comment commence tout araignée (Spider) Votre voyage sur le réseau? En règle générale, le point de départ est le plus grand serveur mondial et des pages Web très populaires. Spider commence à partir d'un tel site, indexe tous les mots trouvés et continue son mouvement plus loin, selon les liens vers d'autres sites. Ainsi, l'araignée du robot commence à couvrir toutes les grandes "pièces" de l'espace Web. Google.com a commencé avec un moteur de recherche académique. L'article décrivant comment ce moteur de recherche a été créé, Sergei Brin et Laurens Page (fondateurs et propriétaires de Google) ont dirigé l'exemple de la rapidité avec laquelle les araignées Google fonctionnent. Leur plusieurs et généralement la recherche commence à utiliser 3 araignées. Chaque araignée prend en charge jusqu'à 300 en même temps les connexions ouvertes avec des pages Web. Lors du chargement de pointe, en utilisant 4 araignées, le système Google est capable de traiter 100 pages par seconde, générant du trafic d'environ 600 kilobytes / sec.

Pour fournir aux araignées nécessaires au traitement des données, Google antérieur a eu un serveur qui s'est engagé uniquement par le fait que les araignées «liées» sont toutes nouvelles et nouvelles URL. Afin de ne pas dépendre des fournisseurs de services Internet en termes de serveurs de noms de domaine (DNS), diffusez l'URL à l'adresse IP, Google a un propre serveur de DNS, minimisez au minimum tous les coûts de temps des pages d'indexation au minimum.

Lorsque Google Robot visit la page HTML, il prend en compte 2 choses:

Mots (texte) sur le côté;
- lieu de leur emplacement (dans quelle partie de la page du corps).

Mots situés avec des sections de service tels que titre, sous-titres, Tags Meta et al. marqué autant important pour les requêtes de recherche des utilisateurs. Google Spider a été construit quant à l'indexation de chaque mot de ce type sur la page, à l'exception des interjecteurs comme "A," A "et" THE ".". D'autres moteurs de recherche ont une approche quelque peu différente de l'indexation.

Toutes les approches et tous les algorithmes des moteurs de recherche sont en définitive pour faire fonctionner des robots des araignées plus rapidement et plus efficaces. Par exemple, certains robots de recherche suivent le suivi lors de l'indexation des mots dans le titre, des liens et jusqu'à 100 les plus fréquemment utilisés sur la page de page et même chaque mot des 20 premières lignes de contenu de la page textuelle. Telle est l'indexation de l'algorithme, en particulier par Lycos.

D'autres moteurs de recherche, tels que Altavista, vont dans une autre direction, indexant chaque mot de côté, y compris "A", "" an "," les "et d'autres non-ilportants.

META TAGS (META TAGS)

Les métatulets permettent au propriétaire d'une page Web de définir des mots-clés et des concepts qui déterminent l'essence de son contenu. Il s'agit d'un instructeur très utile, en particulier lorsque ces mots-clés peuvent être répétés à 2 à 3 fois dans le texte de la page. Dans ce cas, les balises Meta peuvent "envoyer" un robot de recherche à la sélection de mots-clés souhaitée pour l'indexation de la page. Il y a une chance de «tricherie» de META Tags au-dessus des requêtes de recherche populaires et des concepts, sans aucun égard au contenu de la senior elle-même. Les robots de recherche sont capables de lutter avec cela, par exemple, d'analyser la corrélation des balises méta et du contenu de la page Web, "jeter" de la considération par ces balises de méta (respectivement, des mots-clés) qui ne correspondent pas au contenu des pages.

Tout cela concerne ces cas lorsque le propriétaire de la ressource Web souhaite vraiment être inclus dans les résultats de la recherche pour les mots de recherche souhaités. Mais il arrive souvent que le propriétaire ne veuille pas être un robot indexé. Mais de tels cas n'appartiennent pas au sujet de notre article.

Index de construction

Dès que les araignées ont terminé leurs travaux sur la recherche de nouvelles pages Web, les moteurs de recherche doivent accueillir toutes les informations contenues de manière à ce qu'il soit pratique de l'utiliser à l'avenir. Voici la valeur de 2 composants clés:

Informations stockées avec les données;
- la méthode que ces informations sont indexées.

Dans le cas le plus simple, le moteur de recherche pourrait simplement placer le mot et l'adresse de l'URL où il se trouve. Mais il ferait un moteur de recherche dans un outil complètement primitif, car il n'ya aucune information sur la partie du document, ce mot est ce mot (META Tags ou dans le texte conventionnel), est-il utilisé une fois ou à plusieurs reprises et la contient dans le lien vers Une autre ressource importante et proche. En d'autres termes, cette méthode ne permettra pas de classer des sites, ne fournira pas de soumission aux utilisateurs de résultats pertinents, etc.

Pour nous fournir des données utiles, les moteurs de recherche savent non seulement des informations du mot et de son adresse URL. Le moteur de recherche peut enregistrer des données sur le nombre de quantités (fréquence) du mot mention sur la page, attribuer le mot "poids", qui aidera davantage à produire des listes de recherche (résultats) en fonction du classement de poids sur ce mot, en tenant compte de la prise en compte. Son emplacement (en référence, META Tags, Titre de la page, etc.). Chaque moteur de recherche commercial a sa propre formule pour calculer le "poids" des mots-clés lors de l'indexation. C'est l'une des raisons pour lesquelles des motifs de recherche de la requête de recherche donnent des résultats complètement différents.

Le prochain point important dans le traitement des informations trouvées est son codage afin de réduire le volume d'espace disque pour l'enregistrer. Par exemple, dans l'article original, Google décrit que 2 octets sont utilisés pour stocker des données de poids (8 bits chacun) - il prend en compte le type de mot (grandes lettres majuscules), la taille des lettres elles-mêmes (taille de la police). et d'autres informations, ce qui contribue à classer le site. Chacune d'informations de "pièce" nécessite 2-3 bits de données dans un ensemble de 2 octets complet. En conséquence, l'énorme quantité d'informations peut être enregistrée sous une forme très compacte. Une fois que les informations sont "comprimées", il est temps de procéder à l'indexation.

Objectif Indexation Une: Fournissez la recherche la plus élevée possible des informations souhaitées. Il existe plusieurs façons de construire des index, mais le plus efficace est la construction table de hachage (Table de hachage). En cas de hachage, une certaine formule est utilisée, avec laquelle chaque mot est attribué une valeur numérique.

Dans n'importe quelle langue, il y a des lettres d'où commencent beaucoup plus de mots qu'avec le reste des lettres d'alphabet. Par exemple, les mots sur des lettres "m" dans la section du dictionnaire anglais est beaucoup plus que la lettre "x". Cela signifie que la recherche du mot commençant par la lettre la plus populaire nécessitera plus de temps que tout autre mot. Huisser (Hachage) égalise cette différence et réduit le temps de recherche moyen et partage également l'index lui-même à partir de données réelles. La table de hachage contient des valeurs de hachage avec un pointeur sur les données correspondant à cette valeur. L'indexation efficace + un placement efficace ensemble offre une vitesse de recherche élevée, même si l'utilisateur tâche une requête de recherche très complexe.

Moteurs de recherche futurs

La recherche basée sur des opérateurs booléens ("et", "ou", "non") est une recherche lettre - le moteur de recherche reçoit des mots de recherche exactement comme ils sont entrés. Cela peut causer un problème lorsque, par exemple, le mot saisi a de nombreuses valeurs. "Touche", par exemple, peut signifier un "moyen d'ouvrir la porte" et peut signifier un "mot de passe" pour entrer le serveur. Si vous êtes intéressé par une seule signification du mot, vous n'avez évidemment pas besoin de données sur sa deuxième valeur. Bien entendu, il est possible de créer une demande littérale qui éliminera la production de données sur la signification inutile du mot, mais ce serait bien si le moteur de recherche pourrait vous aider.

L'un des domaines d'études dans le domaine des algorithmes des futurs moteurs de recherche est une recherche conceptuelle d'informations. Ce sont ces algorithmes, la KGDA à trouver les données pertinentes utilise une analyse statistique des pages contenant ce mot clé ou une phrase de recherche. Il est clair qu'un tel "moteur de recherche conceptuel" nécessitera un volume beaucoup plus important pour stocker des données sur chaque page et plus de temps pour traiter chaque demande. Actuellement, de nombreux chercheurs travaillent sur ce problème.

Pas moins de travail intensément et dans le développement d'algorithmes de recherche basés sur des demandes langage naturel (Requête en langage naturel).

L'idée de questions naturelles est que vous pouvez écrire une requête afin que vous demandiez à propos de ce collègue assis en face de vous. Pas besoin de vous inquiéter des opérateurs booléens ou de la souche pour compiler une demande complexe. Le site de recherche le plus populaire sur la base de la langue des requêtes naturelles est Postejeves.com. Il convertit la demande de mots-clés, qui utilise ensuite lors de l'indexation des sites. Cette approche ne fonctionne que dans le cas de requêtes simples. Cependant, les progrès ne sont pas toujours debout, il est possible que nous "parlons" très bientôt avec des moteurs de recherche sur notre "langage humain".

Avez-vous aimé l'article? Partager avec des amis: