Yandex qidiruv va Google-ning oddiy so'zlari bilan qanday robotlar bor. Rostotlarni qidirish Google, Yandex, boshqa PS va xizmatlarni qidirish nima uchun robotlar kerak

Qoida sifatida, qidirish mexanizmi Bu foydalanuvchi so'rovi mezonlariga javob beradigan ma'lumotlarni qidirishda ixtisoslashgan veb-sayt. Bunday saytlarning asosiy vazifasi tarmoqdagi ma'lumotlarni soddalashtirish va tuzishdir.

Qidiruv mexanizmi xizmatlaridan foydalanadigan odamlar hech qachon kompyuterning tubidan kerakli ma'lumotlarni qidirib, mashina harakati sifatida hech qachon so'rashmaydi.

Oddiy foydalanuvchi tarmog'i uchun qidiruv tizimlari ishi tamoyillari juda muhim emas, chunki tizim boshqariladigan ma'lumotlarni yaxshi ma'lumot olishda qanday qilib optimallashtirilgan so'rovni bilmaydigan odamlarni qondirishga qodir emas . Ammo veb-ishlab chiqaruvchi va saytlarni optimallashtirish bilan shug'ullanadigan mutaxassislar uchun hech bo'lmaganda qidiruv tizimlarining tuzilishi va tamoyillari haqidagi dastlabki tushunchalarga ega bo'lish kerak.

Har bir qidiruv tizimi qat'iy sir ostida saqlanadigan va faqat kichik ishchi guruhiga ma'lum bo'lgan aniq algoritmlar bo'yicha ishlaydi. Ammo saytni loyihalashda yoki optimallashtirishda, taklif qilingan maqolada ko'rib chiqilgan qidiruv tizimlarining ishlashi uchun umumiy qoidalarni hisobga olish kerak.

Har bir PS o'zining tarkibiga ega bo'lishiga qaramay, ular asosiy qismlarga asosiy va umumiy tarkibiy qismlarga birlashtirish mumkin.

Indekslash moduli

Indekslash moduli - Ushbu element uchta qo'shimcha komponentni o'z ichiga oladi (robotlar dasturlari):

1. O'rgimchak (Robot o'rgimidi) - Yuklab olish sahifalar, filtrlar matn oqimi barcha ichki giperhavolalarni olib tashlaydi. Bundan tashqari, o'rgimchak yuklab olish va serverga javob sarlavhasini, shuningdek sahifaning URL manzilini saqlaydi.

2. Crawler. (yalang'och robot o'rgimchak) - sahifadagi barcha havolalarni tahlil qiladi va ushbu tahlil asosida ushbu sahifa qaysi sahifani ko'rish va bunga loyiq emasligini aniqlaydi. Xuddi shu tarzda, KRULER PS tomonidan qayta ishlanishi kerak bo'lgan yangi resurslarni topadi.

3. Indekschi. (Robot individi) - o'rgimchak orqali yuklab olingan Internet sahifalarini tahlil qilish bilan shug'ullanadi. Shu bilan birga, sahifaning o'zi bloklarga bo'linadi va morfologik va leksik algoritmlar yordamida indeks bilan tahlil qilinadi. Indeksni tahlil qilish bo'yicha veb-sahifaning turli qismlari pasaymoqda: sarlavhalar, matnlar va boshqa xizmatlar haqida ma'lumot.

Ushbu modul tomonidan ko'rib chiqilgan barcha hujjatlar tizim indeksi deb nomlangan qidiruv tizimidagi ma'lumotlar bazasida saqlanadi. Hujjatlar bazasidan tashqari, ma'lumotlar bazasi zarur bo'lgan xizmat ma'lumotlarini o'z ichiga oladi - ushbu hujjatlarni sinchkovlik bilan qayta ishlash natijasi, unda qidiruv tizimi foydalanuvchi so'rovlarini amalga oshiradi.

Qidiruv serveri.

Keyingi, tizimning juda muhim tarkibiy qismi - bu foydalanuvchi so'rovini boshqarish va qidiruv natijalari sahifasini ishlab chiqarishdir.

Foydalanuvchi so'rovini qayta ishlash, qidirish serveri foydalanuvchi so'rovi bo'yicha tanlangan hujjatlarning dolzarb reytingini hisoblaydi. Veb-sahifani ushbu reytingdan beriladigan qidiruv natijalarini olib boradigan pozitsiyasi. Qidiruv shartlarini qondiradigan har bir hujjat parcha ko'rinishidagi sahifada ko'rsatiladi.

Sarippet - bu sarlavhani, havola, kalit so'zlar va qisqa matnli ma'lumotlarni o'z ichiga olgan sahifaning qisqacha tavsifi. Sarippet tomonidan, foydalanuvchi sahifalardagi tanlangan qidiruv dvigatellarining uning so'roviga nisbatan dolzarbligini taxmin qilishi mumkin.

Qidiruv serveri so'rov natijalarini baholash bilan izohlanadi degan eng muhim mezon - bu allaqachon tanish tik ().

Barcha tasvirlangan PS komponentlari katta xarajatlar va juda resurslarni talab qiladi. Qidiruv mexanizmi ishlashi ushbu tarkibiy qismlarning o'zaro ta'siri samaradorligiga bog'liq.

Sizga maqola yoqdimi? Blogga obuna bo'ling yoki ijtimoiy tarmoqlarni baham ko'ring va men sizga javob beraman


6 ta sharh "Robotlar va o'rgimchaklar bilan qidirish"

    Men ushbu ma'lumotlarni uzoq vaqt qidirayotganman, rahmat.

    Javob bermoq

    Sizning blogingiz doimiy ravishda rivojlanib borayotganidan xursandman. Bunday xabarlar faqat mashhurlikni oshiradi.

    Javob bermoq

    Tushunadigan narsa. Savol, N qandaydir Titzga bog'liqmi?

    Salom do'stlar! Bugungi kunda siz rostotlarni Yandek va Google ishini va ular saytlarni targ'ib qilishda qanday ishlashini o'rganasiz. Shunday qilib, boraylik!

    Ushbu aksiya Qidiruv tizimlari foydalanuvchi so'roviga yuqori sifatli va tegishli javobga ega bo'lgan millionta saytlardan o'nta veb-loyihalarni topish uchun amalga oshiriladi. Nega faqat o'nta? Chunki o'nta pozitsiyadan iborat.

    Robotlar do'stlari va veb-ustalar va foydalanuvchilarni qidirish

    Nima uchun saytni qidirish orqali tashrif buyurish juda muhim va nega bu foydalanuvchi? Hammasi to'g'ri, shuning uchun faqat ushbu saytlar o'z so'roviga to'liq javob beradigan foydalanuvchilar ochiladi.

    Robotni qidirish - Juda moslashuvchan vositalar, u sayt topishga qodir, hatto yaratilgan bittasi ham, ushbu sayt egasi hali ham shug'ullanmagan. Shuning uchun, bu bot o'rgimchak deb ataladi, u panjalariga etib borishi va har qanday joyda virtual Internet bo'ylab uchrashishi mumkin.

    O'zingizning manfaatlaringiz bilan qidiruv robotini boshqarish mumkinmi?

    Ba'zi sahifalar qidiruvga tushmasa, bunday holatlar mavjud. Bu asosan ushbu sahifa qidiruv robotidan indeksi bo'lmaganligi sababli. Albatta, ertami-kechmi, qidiruv roboti ushbu sahifani ko'radi. Ammo vaqt talab etadi, ba'zida ko'p vaqt kerak. Ammo bu erda siz ushbu sahifaga tezroq tashrif buyurishga yordam berishingiz mumkin.

    Buning uchun siz o'z saytingizni maxsus kataloglarda yoki ro'yxatlar, ijtimoiy tarmoqlarda joylashtirishingiz mumkin. Umuman olganda, qidiruv roboti shunchaki yashaydi. Masalan, ijtimoiy tarmoqlarda har soniyada yangilanish mavjud. Saytingizni e'lon qilishga harakat qiling va qidiruv roboti sizning saytingizga ancha tez keladi.

    Biri, ammo asosiy qoida oqib chiqadi. Agar siz qidiruv tizimini saytingizga tashrif buyurishni istasangiz, ular doimiy ravishda yangi tarkibni berishlari kerak. Agar ular tarkib yangilanayotganini payqashsa, sayt rivojlanib bormoqda, ular Internet loyihangizga ko'proq tez-tez tashrif buyurishadi.

    Har bir qidiruv roboti tarkib qanchalik tez-tez sizni o'zgartiradi. Bu nafaqat sifatni, balki vaqtinchalik intervallarni baholaydi. Agar saytdagi material oyiga bir marta yangilansa, u saytga oyiga bir marta keladi.

    Shunday qilib, agar sayt haftada bir marta yangilansa, qidiruv roboti haftada bir marta keladi. Agar siz saytni har kuni yangilasangiz, unda qidiruv roboti har kuni yoki boshqa kunda saytga tashrif buyuradi. Yangilanishdan bir necha daqiqa o'tgach indekslangan saytlar mavjud. Bular ijtimoiy tarmoqlar, yangiliklar va bir nechta maqolalarni kuniga bir nechta maqolalarni joylashtiradigan saytlardir.

    Robotni qanday boshqarish kerak va Undan biron bir narsani taqiqlaydi?

    Dastlab biz qidiruv tizimlarining turli vazifalarni bajaradigan bir nechta robotlarga ega ekanligi haqida bilib oldik. Kimdir rasmlarni qidirmoqda, kimgadir bog'langan.

    Siz har qanday robotni maxsus fayl yordamida boshqarishingiz mumkin. robotlar.txt . Bu ushbu fayldan, robot sayt bilan tanishishni boshlaydi. Ushbu faylda siz robotni, agar bo'lsa, robotni indekslash mumkinligini aniqlashingiz mumkin. Ushbu ko'rsatmalarning barchasi bitta va barcha robotlar uchun yaratilishi mumkin.

    O'quv saytini reklama qilish

    Seo-ning Google va Yandex qidiruv tizimlarida SEOni reklama qilish donoligi haqida batafsil ma'lumot men Skype-da aytaman. Men barcha veb-loyihalarimni ko'proq tashrif buyurish va bundan juda yaxshi olib bordim. Men buni qiziqtiradigan kishiga o'rgatishim mumkin!

    Havolalarning tematik to'plamlari, bir guruh mutaxassislar yoki hatto bitta kollektorlar tomonidan tuzilgan ro'yxatlar. Ko'pincha juda ixtisoslashgan mavzu bitta mutaxassis tomonidan keng katalog xodimlaridan ko'ra yaxshiroq ma'lumotga ega bo'lishi mumkin. Tarmoqdagi tematik to'plamlar shunchalik ko'pki, aniq manzillarni berish mantiqiy emas.

    Domen nomini tanlash

    Katalog qulay qidiruv tizimi bo'lib, Microsoft yoki IBM Serverga chiqish uchun katalogga kirish uchun mantiqiy emas. Tegishli saytning nomi qiyin emas: www.labm.com yoki www.microsoft.ru, www.ibm.ru - Ushbu kompaniyalarning vakolatxonalari saytlari.

    Shunga o'xshab, agar foydalanuvchi dunyodagi ob-havoga bag'ishlangan veb-saytga muhtoj bo'lsa, www.vwverer.com serveridan qidirish mantiqiy. Ko'pgina hollarda, sarlavhadagi kalit so'z bilan qidirish Saytni ushbu so'z ishlatilgan matnni qidirishdan ko'ra samaraliroqdir. Agar G'arbiy tijorat kompaniyasi (yoki loyiha) bitta ismga ega bo'lsa va tarmoqdagi serverni amalga oshirsa, uning nomi yuqori ehtimollik bilan, www.name.com va Runet uchun (tarmoqning rus qismi) formatida (tarmoqning rus qismi) formatida. www.name.ru, nom - kompaniya nomi yoki loyiha. Manzilni tanlash qidiruvning boshqa qabulxonalari bilan muvaffaqiyatli raqobatlashishi mumkin, chunki siz shunga o'xshash qidiruv tizimi siz istalgan qidiruv tizimida ro'yxatdan o'tmagan serverga ulanishingiz mumkin. Ammo, agar siz kerakli nomni tanlasangiz, qidiruv tizimiga murojaat qilishingiz kerak bo'ladi.

    Qidiruv tizimlari

    Menga Internetda nimani qidirayotganingizni ayting va men sizga kimligingizni aytaman

    Agar kompyuter sizni qidirayotganingizni osongina tushuntirib berish mumkin bo'lsa, u ikki yoki uchta hujjatdan voz kechadi - sizga kerak bo'lgan narsalar aniq bo'ladi. Ammo, afsuski, bu emas va so'rovga javoban foydalanuvchi odatda foydalanuvchiga uzoq muddatli hujjatlar ro'yxatini oladi, ularning ko'plari u so'ragan narsalarga hech qanday aloqasi yo'q. Bunday hujjatlar ahamiyatsiz deb nomlanadi (ingliz tilidan. Ishga tegishli mos keladigan narsa). Shunday qilib, tegishli hujjat - bu kerakli ma'lumotlarni o'z ichiga olgan hujjat. Shubhasiz, olingan tegishli hujjatlarning ulushi talabni berish uchun mahorat bilan bog'liq. Barcha topilgan qidiruv tizimidagi hujjatlar ro'yxatidagi tegishli hujjatlarning ulushi qidiruvning aniqligi deb ataladi. Tegishli bo'lmagan hujjatlar shovqin deb nomlanadi. Agar barcha hujjatlar mavjud bo'lsa (Noum shovqin) bo'lsa, qidiruv aniqligi 100% ni tashkil qiladi. Agar barcha tegishli hujjatlar topilsa, qidiruvning to'liqligi 100%.

    Shunday qilib, qidiruv sifati ikkita o'zaro bog'liq parametrlar bilan belgilanadi: qidiruvning aniqligi va to'liqligi. Qidiruvning to'liqligi aniqlikni pasaytiradi va aksincha.

    Qanday qilib qidirish mexanizmi

    Qidiruv mexanizmlari ma'lumot bazasiga ma'lumot to'plash orqali Agentlar chet ellik kompaniyalari (4.21-rasm) ma'lumot xizmati bilan solishtirish mumkin. Xizmatga murojaat qilganda, ma'lumot ushbu ma'lumotlar bazasidan beriladi. Ma'lumotlar bazasidagi ma'lumotlar eskirgan, shuning uchun agentlar vaqti-vaqti bilan yangilanadi. Ba'zi korxonalar o'zlari haqida ma'lumot yuborishadi va ular agentlarga kelishlari shart emas. Boshqacha qilib aytganda, yordam stoli ikkita funktsiyaga ega: ma'lumotlar bazasida ma'lumotlarni yaratish va ularni bazadagi ma'lumotlarni mijozning talabiga binoan ma'lumot olish.


    Anjir. 4.21.

    Xuddi shunday, qidirish mexanizmi U ikki qismdan iborat: robot (yoki o'rgimchak), bu tarmoq serverlarini ishlab chiqaradi va qidiruv tizimi ma'lumotlar bazasini yaratadi.

    Robotning asosi asosan u tomonidan shakllanadi (robotning o'zi yangi resurslarga havolalarni topadi) va ularda saytlarini qidiruv tizimida ro'yxatdan o'tkazadigan ancha kamqonlik egalariga. Ma'lumotlar bazasini yaratadigan robotdan tashqari (tarmoq agenti, o'rgimchak, qurti, qurti), topilgan havolalarning reytingini belgilaydigan dastur mavjud.

    Qidiruv mexanizmi printsipi u so'rov maydonida ko'rsatilgan kalit so'zlari bilan uning ichki katalogini (Ma'lumotlar bazasi) so'rovi, va u bilan bog'liq bo'lgan havolalar ro'yxatini taqdim etadi.

    Shuni ta'kidlash kerakki, foydalanuvchining ma'lum so'rovini ishlab chiqish orqali qidiruv tizimi ichki manbalar nuqtai nazaridan ishlaydi (cheklanmagan foydalanuvchilar hisobga olinmaganligi sababli, tarmoqlar hisobga olinmaganligi sababli, ichki manbalar tabiiy ravishda cheklangan. Qidiruv mexanizmi ma'lumotlar bazasi doimiy ravishda yangilanayotganiga qaramay, qidirish mexanizmi Barcha veb-hujjatlar indeksi emas: ularning soni juda katta. Shuning uchun, har doim kerakli manba aniq qidirish mexanizmi tomonidan noma'lum ekanligini har doim noma'lum.

    Bu fikr anjirni aniq ko'rsatadi. 4.22. Ellipse 1 Vaqt o'tishi bilan mavjud bo'lgan barcha veb-hujjatlar to'plamini cheklaydi, 2 ta ellipse 2 - Ellipse indeksi va ellips 3 - bu kerakli hujjatlar. Shunday qilib, ushbu qidiruv tizimi bilan faqat indekslangan hujjatlarning bir qismi topish mumkin.


    Anjir. 4.22.

    Qidiruvning etishmasligi muammosi nafaqat qidiruv tizimining ichki manbalari tomonidan cheklangan, balki robotning tezligi cheklanganligi va yangi veb-hujjatlar soni doimiy ravishda o'sib borishi. Qidiruv mexanizmi ichki resurslarining ko'payishi muammoni to'liq hal qila olmaydi, chunki robotni chetlab o'tish resurslari tezligi cheklangan.

    Bir vaqtning o'zida buni taxmin qiling qidirish mexanizmi Unda Internetning manbalari nusxasi mavjud, noto'g'ri bo'lar edi. To'liq ma'lumot (manba hujjatlari) har doim saqlanmaydi, faqat uning qismi ko'pincha saqlanadi - indekslangan ro'yxat yoki indekslar deb ataladi va qidiruvga tezroq javob berishga imkon beradi savollar.

    Indeksni shakllantirish uchun boshlang'ich ma'lumotlar bazaning hajmi minimal ekanligini va qidiruv juda tez amalga oshirilib, eng ko'p foydali ma'lumotlar keltirib chiqarildi. Indekslangan ro'yxat o'zining qog'oz analoglari bilan bir qatorda - indeks bilan parallel, i.e. Maxsus yozuvchi tomonidan ishlatiladigan so'zlarni alifbo tartibida ko'rsatilgan, shuningdek, ularga havola va uning asarlarida foydalanish chastotasi ko'rsatilgan lug'at.

    Shubhasiz, konduktivlar (lug'at) asarlarning asl matnlarida juda ko'p qiziqarli bo'lib, unda to'g'ri so'zni topib, o'ng so'zga qoqinish umidida kitobni qabul qilishdan ancha oson.

    Qurilish indeksi

    Indeksni qurish sxemasi anjirda ko'rsatilgan. 4.23. Tarmoq agentlari yoki o'rgimchaklar tarmoq orqali "emaklash", veb-sahifalar tarkibini tahlil qiling va u erda va qaysi sahifada aniqlangan ma'lumotlarni to'plang.


    Anjir. 4.23.

    Boshqa HTML sahifasini topishda, ko'plab qidiruv tizimlari so'zlarni, rasmlarni, havolalar va boshqa elementlarda turli xil elementlarda turli xil elementlar mavjud. Va sahifada so'zlarni kuzatish nafaqat ularning mavjudligi belgilangan, balki joylashuvi ham, i.e. Bu so'zlar qayerda: sarlavha (sarlavha), subtitrlar (subtitrlar), metagalikda Meorator - ishlab chiqaruvchilarga veb-sahifada xizmat haqidagi ma'lumotlarni veb-sahifada, shu jumladan qidiruv tizimini yo'naltirishga imkon beradigan xizmat yorliqlari. (Metra teglari) yoki boshqa joylarda. Shu bilan birga, muhim so'zlar odatda qayd etiladi, "A" turining birlashishi va birlashmalari va interdinusiyalari "va" yoki "yoki" yoki "ni e'tiborsiz qoldiradi. Metachegay sahifaga va sahifani indekslangan kalit so'z va sub'ektlarni aniqlashga ruxsat beradi. Bu kalit so'zlar bir nechta qiymatga ega bo'lganda tegishli bo'lishi mumkin. Memour so'z so'zining bir nechta so'zlarini yagona to'g'ri tomonga tanlashda qidiruv vositachisini yo'naltirishi mumkin. Biroq, mebullar faqat halol veb-sayt egalari bilan to'ldirilgandan keyingina ishlaydi. Veb-saytlarning bexosdan kelgan egalari, ularning meta-joylariga saytning mavzusi bilan hech qanday aloqasi bo'lmagan eng mashhur so'zlarga joylashtirilgan. Natijada, tashrif buyuruvchilar nomaqbul saytlarga tushadi va shu bilan ularning reytingini oshiradi. Shuning uchun ko'plab zamonaviy qidiruv tizimlari mitalardan e'tibor bermaydilar yoki ularni sahifaning sahifasiga nisbatan kelgusida ko'rib chiqadilar. Har bir robot o'zining resurslar ro'yxatini vijdonsiz reklama uchun jazolaydi.

    Shubhasiz, agar siz "it" kalit so'zida sayt qidirayotgan bo'lsangiz, unda qidirish mexanizmi "it" so'zi eslatib o'tilgan barcha sahifalarni va bu so'z sayt mavzusiga bog'liq bo'lgan barcha sahifalarni topishi kerak. Qanday bo'lmasligini aniqlash uchun biron bir veb-sahifa yoki bu so'z ba'zi veb-sahifa profil bilan bog'liqligini aniqlash uchun, ushbu so'zning boshqa sahifalarida bo'lgan boshqa sahifalar bilan aloqa mavjudmi yoki yo'qligini baholash kerak. Qisqasi, ahamiyatlilik darajasiga ko'ra so'z sahifasida topilgan narsa. So'zlar vazn koeffitsientlari qancha vaqt va ular qayerga uchraganiga (sahifaning sarlavhasida, havoning oxirida, havoning oxirida, havoda, hisobida, havolada). Har bir qidiruv tizimiga egalik qiladigan algoritmga ega - bu ishning bir xil kalit so'zi orqali qidirish dvigatellari turli xil resurslar ro'yxatini taqdim etishining sabablaridan biridir. Sahifalar doimiy ravishda yangilangani sababli, indekslash jarayoni doimiy ravishda amalga oshirilishi kerak. Robotchilar - o'rgimchaklar havolalar bo'ylab sayohat qilishadi va juda katta bo'lishi mumkin bo'lgan indeksni o'z ichiga olgan faylni hosil qiladi. Uning hajmini kamaytirish uchun faylning ma'lumotlari va siqishni minimallashtirish uchun murojaat qilinadi. Bir nechta robotlarga ega bo'lish, qidiruv tizimi sekundiga yuzlab sahifalarni bajara oladi. Bugungi kunda kuchli qidiruv tizimlari yuzlab million sahifalar yig'iladi va kuniga o'n millionlab so'rovlarni oladi.

    Indeksni qurishda bir necha baravar kamaytirishning vazifasi ham hal qilinadi - vazifa to'g'ri taqqoslash uchun siz avvalgi kodlashni aniqlashingiz kerak. Juda o'xshash hujjatlarni ajratish qanchalik qiyin bo'lsa (ular "deyarli dublikatlar" deb nomlanadilar), masalan, unvonni farq qiladi va matn takrorlanadi. Tarmoqdagi bunday hujjatlar juda ko'p - masalan, kimdir mavhumlikni uzatdi va uni uning imzosi uchun saytda e'lon qildi. Zamonaviy qidiruv tizimlari sizga bunday muammolarni hal qilishga imkon beradi.

    Do'stlar, men sizni yana olqishlayman! Endi biz rostgo'ylarni tahlil qilamiz va keling Google-ni qidirish va ular bilan qanday do'st bo'lish haqida gaplashamiz.

    Avval siz umuman bunday qidiruv robotlari o'rgimchaklar deb ham ataladi. Qanday ish qidirish mexanizmlari qanday amalga oshiriladi?

    Bular saytlarni tekshiradigan dasturlar. Ular blogingizdagi barcha yozuv va sahifalarni ko'rib chiqadilar, keyin ishlaydigan qidiruv tizimining ma'lumotlar bazasiga uzatiladi.

    Siz qidiruv robotlarining butun ro'yxatini bilishingiz shart emas, eng muhimi, Google Panda va Pingvin deb nomlangan ikkita yirik o'rgimchakli. Ular sifatsiz tarkib va \u200b\u200baxlat havolalari bilan kurashadilar va ularning hujumlarini qanday aks ettirishni bilishlari kerak.

    Google qidiruv roboti "Panda" qidirishda faqat yuqori sifatli materialni targ'ib qilish uchun mo'ljallangan. Barcha boshlang'ich saytlar qidiruv natijalariga ko'ra tushiriladi.

    Birinchi marta bu o'rgimchak 2011 yilda paydo bo'ldi. Tashqi ko'rinishidan oldin siz har qanday saytda katta miqdordagi matnni va juda katta miqdordagi kalit so'zlardan foydalangan holda har qanday sayt nashriyotni targ'ib qila olasiz. Umumiy tarkibda ushbu ikki texnikani yuqori sifatli tarkibni emas, balki yaxshi saytlar ekstraditsiya qilishda pasayganligini qidirishning yuqori qismida ko'rsatiladi.

    "Panda" darhol barcha saytlarni tekshirib, barcha saytlarni tekshirib, ularning munosib joylariga qo'yib, tartibni olib keldi. Garchi u bazaviy tarkib bilan kurashayotgan bo'lsa-da, lekin endi siz yuqori sifatli maqolalar bo'lgan kichik joylarni ham targ'ib qilishingiz mumkin. Oldin bunday saytlar targ'ib qilish foydasiz bo'lsa-da, ular ko'p tarkibga ega bo'lgan gigantlar bilan raqobatlasha olmadilar.

    Endi biz siz bilan "panda" sanktsiyalaridan qochish kerak. Avvaliga u yoqtirmaydigan narsani tushunishim kerak. Men yuqorida aytib o'tdimki, u kambag'al tarkib bilan kurashadi, lekin u qanday matnda u uchun yomonligini tushunamiz, keling, buni saytingizda e'lon qilmaslik uchun tushunamiz.

    Ushbu qidiruv tizimida faqat yuqori sifatli materiallar chiqarilishi uchun Google-ning qidiruv roboti. Agar sizda kam ma'lumotlar mavjud bo'lsa va ular tashqi ko'rinishga ega emaslar, so'ngra Panda sizga etib bormasligi uchun ushbu matnlarni tezda qayta yozing.

    Sifatli tarkib katta hajmda ham, kichik bo'lishi mumkin, ammo o'rgimchak uzoq maqolani ko'p ma'lumotga ega bo'lsa, bu o'quvchiga foyda keltirishi degani.

    Keyin takrorlanishni va boshqacha qilib aytganda, plagiat. Agar siz blogingizdagi boshqa odamlarning maqolalarini qayta yozasiz deb o'ylasangiz, darhol xochni veb-saytingizga qo'yishingiz mumkin. Nusxa ko'chirish filtrni qo'llash orqali qat'iy jazolanadi va tekshirilgan plagiat juda oson, men mavzudagi maqola yozdim qanday qilib o'ziga xoslik uchun matnlarni tekshirish mumkin.

    Keyinchalik ko'rishingiz kerak, bu kalit so'zlar bilan matnning aşınması. Kimki bir nechta kalitlardan maqolani yozadi deb o'ylaydi va uni ekstraditsiya qilishda birinchi o'rinni egallaydi - bu juda noto'g'ri. Mening maqolaim bor, qanday qilib videolarni qanday tekshirish kerak, deb ishonch hosil qiling.

    Sizga yana nima "panda" jalb qilishi mumkin, shuning uchun bular axloqiy jihatdan eskirgan va saytga trafik olib kelmaydigan eski maqolalar. Ular yangilanishi kerak.

    Google "pingvin" qidiruvi ham mavjud. Ushbu o'rgimchak sizning saytingizda spam va axlat havolalari bilan kurashmoqda. Shuningdek, u boshqa manbalardan sotib olingan narsalarni hisoblaydi. Shuning uchun, ushbu qidiruv robotidan qo'rqmaslik uchun siz havolalarni sotib olishni sotib olmaslikingiz kerak, ammo odamlar o'zlari sizga murojaat qilishlari uchun yuqori sifatli tarkibni e'lon qilishingiz kerak.

    Endi siz saytni qidiruvning ko'zlari bilan qidirish bilan yasashingiz kerakligini yarating:

    • Yuqori sifatli tarkibni amalga oshirish uchun avval maqolani yozishdan oldin mavzuni yaxshi o'qing. Keyin odamlar ushbu mavzuga chindan ham qiziqayotganligini tushunishingiz kerak.
    • Muayyan misollar va rasmlardan foydalaning, u erda jonli va qiziqarli bo'ladi. O'chirish uchun kichik paragraflardagi nozik matn oson edi. Masalan, agar siz gazetada hazillar bilan sahifani ochgan bo'lsangiz, unda siz birinchi marta o'qiganmisiz? Tabiiyki, har bir kishi birinchi navbatda qisqa matnlarni o'qiydi, keyin podlinlar va eng uzun uzunlikdagi portallarni o'qiydi.
    • Sevimli Nadriga "Panda" - eskirgan ma'lumotlar mavjud bo'lgan maqolaning dolzarbligi emas. Yangilanishlarni tomosha qiling va matnlarni o'zgartirish.
    • Kalit so'zlarning zichligidan ehtiyot bo'ling, men yuqorida aytib o'tgan xizmatda men aytganimda, men sizga aniq kalitlarni olishingizni aytdim.
    • Plagiat bilan shug'ullanmang, hamma boshqa narsalarni yoki matnni o'g'irlash shart emasligini hamma biladi - bu bir xil. O'g'irlik uchun filtr uchun javobgar bo'ladi.
    • Matnlar kamida ikki ming so'zni yozadi, keyin bunday maqola qidiruv tizimidagi robotlarning in'omli ko'zlariga o'xshaydi.
    • Sizning blogingiz mavzusidan chiqmang. Agar siz Internetda blogingizda bo'lsangiz, unda siz pnevmat qurollari haqida maqolalarni chop etishingiz shart emas. Bu sizning resurs reytingiingizni kamaytirishi mumkin.
    • Maslahatlarni chiroyli bezang, paragraflarga ajrating va o'qish yoqimli bo'lishini va saytni tezda qoldirishni xohlamaslik uchun rasmlarni qo'shing.
    • Havolalarni sotib olish orqali ularni aslida odamlarni o'qigan eng qiziqarli va foydali maqolalar qiling.

    Xo'sh, endi qidiruv tizimlarining robotlari qanday ishlashini va siz ular bilan do'st bo'lishingiz mumkinligini bilasiz. Google va Panda va Pingvinning eng muhim robotlari batafsil o'rganmoqdalar.

    • Ta'riflar va terminologiya
    • Robotov nomli robotov
    • Bir oz tarix
    • Qidiruv tizimlari nima qiladi
    • Saytdagi robotlarning xatti-harakati
    • Robotni boshqarish
    • Xulosa

    Qidiruv mexanizor robotlari nima? Ular qanday funktsiya qilishadiny? Qidiruv robotlarini qidirish ishlarining xususiyatlari qanday? bu erda bizbiz bu va boshqa ba'zi savollarga javob berishga harakat qilamiz,ishlaydigan robotlar.

    Ta'riflar va terminologiya

    Ingliz tilida robotlarni qidirish uchun bir nechta variantlar mavjud: robotlar, veb-botqoqlar, submerlar, o'rgimchaklar; Rus tilida bitta atama rus - robotlarda yoki qisqartirilgan - botqoqlarda qotib qoldi.

    Www veb-saytida RobotstXT. Org quyidagi ta'rif robotlari beriladi:

    "Veb-robot - bu wwwpertmate strukturasini butunlay, hujjatlarni o'qishga va olib tashlashni chetlab o'tadigan dastur."

    Ushbu ta'rifdagi kalit so'z - varaqasiular. Hujjatni olgandan so'ng, robot hujjatlardagi hujjatlarni u haqi va boshqalarni talab qiladi.

    Ismlarrobotlar

    Ko'pgina qidiruv robotlari o'zlarining noyob nomiga ega (ba'zi sabablarga ko'ra shaxsiy brauzerlar uchun niqoblangan robotlar bundan mustasno).

    Robotning nomi server jurnal fayllarining foydalanuvchi-agentligi sohasida, xabar berishicha, shuningdek qidiruv tizimlarida, shuningdek qidiruv tizimlarida yordam sahifalarida yordam beradi.

    Shunday qilib, Yandex Robot "Yandex, Rambler-ning robot" deb nomlanadi - Stackrambler, robot Yahoo! - Slurp va boshqalar. Shuningdek, keyingi tomosha uchun maxsus dasturiy ta'minot foydalanuvchi-agentlik ma'lumotlari sohasidagi ma'lumotlar yordamida maxsus taqdim etilishi mumkin.

    Robot nomidan tashqari, foydalanuvchi-agent maydonida qo'shimcha ma'lumotlar bo'lishi mumkin: robot versiyasi, qo'shimcha ma'lumotlar bilan sahifaning maqsadi va manzili bo'lishi mumkin.

    Ozhikoyalar

    1990-yillarning birinchi yarmida, Internet rivojiga ko'ra, ba'zi birinchi robotlarning ba'zilari veb-serverni sezilarli darajada yuklab olishlari mumkinligi bilan bog'liq. Ular juda qisqa vaqt davomida saytga ko'p sonli so'rovlarni bajarishdi. Tizim ma'murlari va veb-server ma'murlari robotning xatti-harakatlarini o'z joylarida boshqara olmadilar va faqat saytga kirish robotini nafaqat saytga, balki serverga butunlay yopish mumkin emas.

    1994 yilda robots.txt protokoli robotlar uchun istisnolarni belgilaydi va foydalanuvchilarga o'z saytlarida qidiruv robotlarini boshqarish imkoniyatini beradi. Siz ushbu imkoniyatlar haqida 6-bobda "Saytni qidirish dvigatellari uchun qanday qilib mavjud bo'lish kerak".

    Kelajakda, tarmoq o'sib borishi sababli, qidiruv robotlari soni oshdi va ularning funktsional imkoniyatlari doimiy ravishda kengayib bormoqda. Ba'zi qidiruv robotlari bu kunga qadar yashamagan, faqat 90-yillarning oxiridagi server jurnal fayllarining arxivlarida qolgan. Endi T-Rex robotni eslaydi, chunki Likkos tizimi uchun ma'lumot to'playdimi? Nomlangan dinozavr kabi tashqi ko'rinadi. Yoki skuter - Altavasta robotni qayerdan topsam bo'ladi? Kechasi! Ammo 2002 yilda u hali ham indekslangan hujjatlarni faol ravishda faollashtirmoqda.

    Yandex asosiy robotning asosiy robot nomi bilan siz o'tgan kunlarning aks-sadosi topishingiz mumkin: to'liq ismining bir qismi "mos keladi; Win16; " Bu ba'zi eski veb-serverlar bilan mos kelishi uchun qo'shildi.

    nimaqilmoqrobotlarqidirmoqtizimlar

    Robotlar qanday vazifalarni bajarishi mumkin?

    Qidiruv mexanizida bir nechta turli xil robotlar mavjud va ularning har biri o'z manziliga ega. Biz robotlar amalga oshiradigan ba'zi vazifalarni sanab o'tamiz:

    • hujjatlarni qayta ishlash va qayta ishlashni talab qilish;
    • havolalarni tekshiring;
    • monitoringni yangilash; sayt yoki serverning mavjudligini tekshirish;
    • pREXRRRRRREXNING keyingi joylashish uchun sahifalar tarkibini tahlil qilish;
    • tarkibni muqobil formatlarda to'plash (grafika, formatlar formatidagi ma'lumotlar).

    Bunga misol sifatida biz Yandex robotlari ro'yxatini beramiz. Yandex bir nechta turdagi robotlardan turli funktsiyalarga ega. Siz ularni foydalanuvchi-agent qatori aniqlashingiz mumkin.

    1. Yandex / 1.01.001 (mos; win 16; i) - kon inkor etadigan robot.
    2. Yandex / 1.01.001 (mos; p) rasm indeksi.
    3. Yandex / 1.01.001 (mos; H) - Saytlarni aniqlaydigan partiya.
    4. Yandex / 1.03.003 (mos; d) -bot (URL manzilini qo'shish uchun sahifani qo'shish sahifasiga murojaat qiling.
    5. Yandex / 1.03.000 (mos; m) - "Topilgan so'zlar" havolaidagi sahifaning ochilishiga ishora qilayotgan robot.
    6. YandexBlog / 0.99.101 (mos; dos3.30; mozilla / 5.0; ichida; robot) bloglarni qidirish uchun robot.
    7. Yandexsmething / 1.0 - bu yalang'ochlik, yandex yangiliklari. Navigatsiya sheriklar va robotlar fayllari. Robot qidiruv bloglari uchun TXT.

    Bundan tashqari, Yandexda bir nechta sinovdan o'tgan robotlar ishlaydi - ""Kivok",bu faqat hujjatlar mavjudligini tekshiradi, ammo ularga indeks bermang.

    1. Yandex / 2.01.000 (mos; win 16; dyatel; c) - "Kivaka" Yandex.catalog. Agar sayt boshqasi uchun mavjud bo'lmasa, u nashrdan chiqariladi. Sayt javob bera boshlaganda, katalogda oventomik ko'rinadi.
    2. Yandex / 2.01.000 (mos; win; win 16; dyatel; z) - "Kivka" Yanex. Tops. Kiritilmagan saytlarga rolni ta'kidlaydigan havolalar.
    3. Yandex / 2.01.000 (mos; Connh; dyatel; d) - "Treklar-rulon" Yandex.vandektektive. Bu reklamalardan oldin moderatsiyadan oldin aloqalarning to'g'riligini tekshiradi.

    Shunga qaramay, eng keng tarqalgan robotlar boshqa qidiruv tizimi mexanizmlari tomonidan keyingi ishlov berish uchun hujjatlarni olish, qabul qilish va arxiv qiluvchi robotlar. Robotni indeksdan ajratish mos keladi.

    Ichki manzillar ro'yxatiga muvofiq robotni qidirish va hujjatlarni olish. Ba'zi hollarda robot manzillar ro'yxatini to'ldirish uchun hujjatlarning asosiy tahlili bajarishi mumkin. Keyingi hujjatlarni qayta ishlash va qidiruv tizimining indeksi qurilishi qidiruv dvigatel indeksi bilan shug'ullanadi. Ushbu sxemadagi robot ma'lumotlarni to'plash uchun "kurer" dir.

    Saytdagi robotlarning xatti-harakati

    Saytdagi robotning oddiy foydalanuvchisining xatti-harakatlaridan qanday farq bor?

    1. Boshqarish qobiliyati.Birinchidan, "aqlli" robot robot fayllarini serverdan so'rashi kerak. Indekslash bo'yicha ko'rsatmalar bilan TXT.
    2. Tanlangan nasos.Hujjatni talab qilganda, robot talab qilingan ma'lumotlar bilan, odatdagidek brauzerdan farqli ravishda hamma narsani olishga tayyor. Ommabop qidiruv tizimlarining asosiy robotlari birinchi navbatda barcha so'rovlar va oddiy matnli hujjatlar, rasmlar, rasmlar, video fayllarini qoldiradilar. Zip arxivlari va boshqalar. Hozirgi vaqtda PDF formatida, boy matn, ms so'z, MS Excel va boshqa boshqa ma'lumotlarga ko'ra.
    3. Oldindan aytib bo'lmaydigan.Robot saytini kuzatish yoki bashorat qilishning iloji yo'q, chunki u ma'lumotnomada ma'lumot qoldirmaydi - u qaerdan kelgan manzil do'koni; Robot shunchaki hujjatlar ro'yxatini so'raydi, bu tasodifiy tartibda, aslida, ichki ro'yxat yoki indeks navbatining jihatlari bo'yicha ko'rinadi.
    4. Tezlik.Turli xil hujjatlar talablari orasida qisqa vaqt. Ikki shaklning talablari orasidagi sekund soniya yoki fraksiyalar vaqtiga. Ba'zi robotlar uchun hatto robotlar faylida ko'rsatilgan maxsus ko'rsatmalar mavjud. TXT, saytni ortiqcha yuklamaslik uchun hujjat so'rovining tezligini cheklash uchun.

    Robotning nazarida HTML sahifasini qidirish mumkin, biz bilmaymiz, ammo biz buni brauzerda grafik va uslub dizayni namoyishini o'chirib, tasavvur qilishga harakat qilishimiz mumkin.

    Shunday qilib, qidiruv robotlari HTML sahifasini ularning indeksiga quyishi, ammo dizayn elementlarisiz va rasmlarsiz quyuq deb hisoblash mumkin.

    Robotni boshqarish

    WebMaster WebMaster o'z saytida qidiruv robotlarining xatti-harakatlarini qanday boshqarishi mumkin?

    Yuqorida aytib o'tilganidek, 1994 yilda veb-ustozlarning ommaviy munozaralar natijasida robotlar uchun maxsus istisno protokoli ishlab chiqilgan. Bugungi kunga qadar ushbu Protokol bu standartga aylanmadi majburfaqatgina qat'iy tavsiyalar holatida qolgan barcha robotlarni istisnolarga e'tibor bering. Siz istisno qoidalariga rioya qilmaydigan robotga shikoyat qilishingiz mumkin bo'lgan misol yo'q, siz allaqachon "Yettirilmagan" robot yuboradigan "Robot" retom-dan foydalanib, siz allaqachon veb-server sozlamalari yoki tarmoq interfeyslaridan foydalanishni taqiqlashingiz mumkin. Uning so'rovlari.

    Biroq, yirik qidiruv tizimlarining robotlari istisno qoidalariga rioya qilish, ulardan qo'shimchalar hissa qo'shadilar.

    Maxsus robots.txt faylining ko'rsatmalarida. Va maxsus meta tegli robotlari haqida 6-bobda "Saytni qidirish mexanizmlari uchun mavjud bo'lish kerak".

    Qo'shimcha ko'rsatmalar yordamida ba'zi bir qidiruv tizimlari robotlaringizning xatti-harakatlarini yanada moslashishga imkon beradi. Shunday qilib, reklama-DAUU ko'rsatmalaridan foydalanib, veb-ustaning Yahoo uchun robotlar uchun ikkita hujjatning ketma-ket so'rovlari o'rtasida vaqt oralig'ini belgilashi mumkin! va msn va hech qanday yo'riqnomadan foydalanish; T Yanex uchun saytning asosiy oynasi manzilini ko'rsating. Biroq, robotlarda nostandart ko'rsatmalar bilan ishlash. TXI juda ehtiyot bo'lish kerak, chunki boshqa qidiruv dvigatelining roboti nafaqat tushunarsiz ko'rsatmalarni, balki u bilan bog'liq qoidalar to'plamini e'tiborsiz qoldirishi mumkin.

    Masalan, rostgo'ylarni va bilvosita izlashingiz mumkin, masalan, Google Qidiruv dvigatel roboti ko'pincha boshqa saytlarga yuborilgan hujjatlarni qayta qabul qiladi.

Sizga maqola yoqdimi? Do'stlar bilan bo'lishish uchun: