Robotlar txt faylini qanday tahrirlash mumkin. Robots txt faylini Robots txt tarkibini qanday tahrirlash mumkin

Hammaga salom! Muhim e'lon bilan boshlaylik. Bizning blogimiz "Mikroskop ostida texnik audit" loyihasini ishga tushirmoqda va ushbu material ushbu mavzuga bag'ishlangan bir qator maqolalarni ochadi. Bugun nima haqida gaplashamiz? Veb-sayt uchun robots.txt-ni noldan qanday qilib to'g'ri yozish haqida.

Matn faylini mustaqil ravishda yaratishni o'rganmoqchi bo'lganlar uchun matnni o'qib chiqishni maslahat beraman va uning ishlash printsipini ichkaridan ko'rib chiqing. Ma'lumotlar o'z saytini TOP darajasiga ko'tarmoqchi bo'lgan veb-loyiha egalari uchun ham foydali bo'ladi.

Quyidagi maqola "mikroskop ostida" quyidagi masalalarni ko'rib chiqadi:

Maqolani yozish uchun men taxminan 37 soat vaqt sarfladim, 20 dan ortiq manbalarni o'rganib chiqdim va bir nechta webmaster forumlariga tashrif buyurdim. Shuning uchun har bir so'z qayta-qayta tekshiriladi va qayta tekshiriladi.

Shunday ekan, boshlaylik. Sizni mavzu bilan tanishtirish va robots.txt haqida umumiy tushuncha berish uchun men an'anaga ko'ra uyushmalarga murojaat qilishni taklif qilaman. Tasavvur qiling-a, siz uyning egasisiz va odatdagidek, xususiy sektorda qo'shnilaringizdan biri doimo sizga tashrif buyuradi. Siz nima qila olasiz? Umuman olganda, hech kimga eshikni ochmang yoki jozibaliroq bo'lganlarni ichkariga kiritmang. Shu bilan birga, siz barcha shaxsiy kvartiralarni yopib, butun uyni yoki faqat alohida xonalarni mehmonlarga taqdim etishingiz mumkin.

Robots.txt shu tamoyil asosida ishlaydi: u kimgadir nimadir ochadi, lekin boshqa joyga hech kimni kiritmaydi. Tafsilotlar uchun maqolada batafsilroq o'qing.

Robots.txt: bu nimani anglatadi va u qanday ishlaydi

Indeks fayli bilan atamani tushuntirish bilan tanishishni boshlash mantiqan to'g'ri.

Robots.txt- qidiruv tizimlariga saytning qaysi ma'lumotlari va sahifalariga e'tibor berish (indeks, jarayon) va qaysi biri yo'qligini aytadigan matnli hujjat. U "robot standarti/istisno protokoli" deb ham ataladi. U https, http va FTP protokollari uchun ishlaydi va UTF-8 Unicode kodlashdan foydalanadi.

Deyarli barcha mashhur qidiruv tizimlari ushbu standartlarga amal qiladi: Google, Ask, Yandex, AOL, Yahoo!, Bing va boshqalar. Biroq shuni ta'kidlash joizki, Google ularni "buyruq" sifatida emas, balki "tavsiya" sifatida qabul qiladi. Ya'ni, men tushunganimdek, men unga rioya qilishni xohlayman, lekin men buni xohlamayman.

robots.txt fayli qayerda joylashgan? U veb-loyihaning asosiy katalogiga joylashtirilgan. Vizual ravishda u quyidagicha ko'rinadi:

https://site.com.ua/robots.txt.

robots.txt qanday ishlaydi

Oddiy qilib aytganda, robots.txt ning mavjudligi veb-loyiha va qidiruv tizimlari (muzokaralarda tarjimon kabi) o'rtasida dialog o'rnatishga yordam beradi. Shu bilan birga, resurs egasining o'zi kirishni qaerga ochishni va kirishni qaerdan rad etishni hal qiladi.

Shunday qilib, indeks faylini skanerdan o'tkazgandan so'ng, hodisalarning rivojlanishi 3 ta stsenariydan biriga amal qiladi, ya'ni. qidiruv tizimlari quyidagilarni oladi:

butun veb-resursga to'liq kirish;
qisman o'tkazib yuborish, ya'ni. faqat ruxsat berilgan sahifalar va ma'lumotlarga;
kirishni mutlaqo taqiqlash, bu erda sayt qayta ishlash uchun butunlay yopilgan.

Veb-loyiha qanday qilib robots.txt bilan va bo'lmasdan indekslanishini ko'rsatish uchun men infografika qildim.

Ushbu faylning ahamiyatini tushunish uchun siz qidiruv tizimlari qanday ishlashini bilishingiz kerak. Xo'sh, ular qanday ishlaydi?

Qidiruv mexanizmi roboti veb-saytga tashrif buyuradi va avval robots.txt ni qidiradi. Agar u mavjud bo'lmasa yoki noto'g'ri tuzilgan bo'lsa, qidiruv tizimi o'z-o'zidan "paradni boshqara boshlaydi". Ya'ni, u hamma narsani skanerlaydi: zarur va keraksiz. Ushbu yondashuv bilan veb-resursni qayta ishlash uzoq vaqt talab etadi va muhim sahifalar birinchi navbatda bo'lishi haqiqat emas. Nega bunday qiyinchiliklar?

Bundan tashqari, robotlar har bir tashrif uchun ma'lum miqdordagi resurslarni qayta ishlaydi. Bundan qanday xulosa kelib chiqadi? Ko'rish uchun kamroq sahifalar, ko'proq indekslangan va shuning uchun ko'proq trafik. Tez indekslash shuningdek, yangi kontentni himoya qilishga yordam beradi va ayrim voqealar reytingga qanday ta'sir qilganini kuzatishga yordam beradi.

robots.txt yozish uchun 5 ta asosiy direktivalar

Robots.txt faylini yaratishni boshlashdan oldin, siz taqiqlash ro'yxatini yozishingiz kerak bo'lgan asosiy buyruqlar (direktivalar) bilan tanishishingiz kerak.

5 ta asosiy buyruqlar mavjud:

FOYDALANUVCHI-AGENT

Quyidagi buyruqlar qaysi qidiruv tizimi uchun mo'ljallanganligini ko'rsatadi. Siz "*" belgisidan foydalanishingiz mumkin, keyin ko'rsatmalar barcha qidiruv tizimlariga tegishli bo'ladi. Har qanday indeks fayli ushbu direktiva bilan boshlanadi. Agar u ro'yxatdan o'tmagan bo'lsa, qidiruv roboti buning uchun barcha eshiklar ochiq deb hisoblaydi.

Masalan:

Foydalanuvchi-agent: Google – Google uchun buyruqlar
Foydalanuvchi-agent: Yandex – Yandex uchun buyruqlar
User-agent: * – barcha qidiruv tizimlari uchun buyruqlar

E'tibor bering, agar robot o'z qidiruv tizimining nomini User-agent direktivasidan keyin topsa, u "User-agent: *" bo'limidagi barcha ko'rsatmalarni e'tiborsiz qoldiradi.

Shuni ta'kidlash kerakki, qidiruv tizimlarida bir nechta robotlar mavjud, ularning har biri uchun alohida buyruqlar yozishingiz kerak.

Keling, eng mashhur Google va Yandex qidiruv tizimlarining asosiy robotlarini ko'rib chiqaylik:
1. Google:

Googlebot– asosiy qidiruv tizimi roboti;
Googlebot-Image- tasvirlarni skanerlaydi;
Googlebot-Video– video fayllarni tekshiradi;
Googlebot-Mobile– mobil gadjetlar uchun sahifalarni qayta ishlaydi;
Adsbot-Google– shaxsiy kompyuter resurslaridagi reklama sifatini tekshiradi;
Googlebot-News– Google News’ga qo‘shiladigan sahifalarni qidiradi.

2. Yandex:

Yandex– buyruqlar barcha Yandex robotlariga tegishli ekanligini bildiradi;
YandexBot– qidiruv tizimining asosiy boti;
Yandex rasmlari- rasmlarni qayta ishlash;
Yandex News - Yandex yangiliklari uchun mo'ljallangan sahifalar indeksi;
YandexMedia– multimedia ma’lumotlarini skanerlaydi;
YandexMobileBot– hujjatlarni mobil qurilmalar uchun joylashuvni tekshiradi.

Esda tutingki, robots.txt faylini yozishda turli botlar uchun bo'limlar 1 bo'sh qator bilan ajratilishi kerak.

Eslatma sifatida:

RAQSAT BERISH va RUXSAT BERISh

Bu erda hamma narsa oddiy. Allow direktivasi qidiruv botlariga resursni skanerlash imkonini beradi, Disallow direktivasi buni taqiqlaydi. Keling, ularning qanday ishlashini batafsil ko'rib chiqaylik.

Agar siz robots.txt faylida Taqiqlash yoki Ruxsat berish buyrug'ini kiritsangiz, quyidagilarni qilishingiz mumkin:

slash yordamida butun saytga robot kirishini yopish/ochish;

Ruxsat bermaslik: /
Ruxsat bering: /

manzilni ko'rsatib, ayrim sahifalarni skanerlashni taqiqlash/ruxsat berish.

Ruxsat bermaslik: /admin/
Ruxsat bering: /admin/

yo'lni ko'rsatgan holda ma'lum bir faylga kirishni ochish/yopish:

Ruxsat bermaslik: /razdel/file
Ruxsat bering: /razdel/file

* yordamida ma'lum turdagi hujjatlarni qayta ishlashni taqiqlash/ruxsat berish:

Ruxsat bermaslik: /*png*
Ruxsat bering: /*png*

E'tibor bering, indekslash uchun sayt sahifalarini yopish/ochish uchun ushbu robots.txt direktivalaridan keyin to'liq manzil yozilmaydi, faqat sayt domenidan keyin keladigan qismi yoziladi.

Ko'rib turganingizdek, hamma narsa juda oddiy. Matematikadagi kabi: siz formulani bilasiz, masalani hal qilasiz.

Materialni birlashtirish uchun misolni ko'rib chiqaylik:

Foydalanuvchi-agent: *
Ruxsat bermaslik: /
Ruxsat bering: /blog/
Ruxsat bering: / *.gift*

Ushbu robots.txt ning bir parchasida biz ko'rib turganimizdek: kirish barcha qidiruv tizimlari uchun ochiq, barcha sahifalar skanerlash uchun yopiq, "blog" va ".gift" kabi fayllardan tashqari.

Esdan chiqarmaslik uchun quyidagi rasmni yuklab oling:

robots.txt va Disallow yordamida nimani o'chirib qo'yish mumkin?

Hamma narsa, albatta, veb-loyiha egasining xohishiga bog'liq, biroq bir nechta umumiy tavsiyalar mavjud.

Robots.txt dan foydalanib, resurslarni indekslashni taqiqlash tavsiya etiladi:

ma'muriy qism (boshqacha aytganda, boshqaruv paneli);
foydalanuvchilarning shaxsiy ma'lumotlari;
foydasiz, ahamiyatsiz yoki noyob bo'lmagan kontent (tasdiqlash uchun nazorat ro'yxati);
ko'p darajali ro'yxatga olish, fikr-mulohaza, buyurtma va xarid qilish savatchasi shakllari;
teglar, sayt qidiruv natijalari, filtrlar.

Biz robots.txt faylida muhim bo'lmagan, kerak bo'lmagan yoki foydalanuvchilarga va qidiruv tizimlariga ko'rsatilmasligi kerak bo'lgan sayt sahifalarini yopishingiz kerak degan xulosaga keldik.

Aytgancha, kontent haqida maqola: "2 turdagi vizual kontent"

SITEMAP

Robots.txt faylida yozilishi kerak bo'lgan yana bir direktiv - Sayt xaritasi. U nima uchun ishlatiladi? Qidiruv botlariga Sayt xaritasiga yo'lni ko'rsatish uchun. Keling, savolni batafsil ko'rib chiqaylik.

Sayt xaritasi veb-resursning ildiz katalogida saqlanadigan, UTF8 kodli xml formatidagi fayl. Bu turli sahifalarga olib boradigan havolalarga ega katalogning bir turi. Xaritani kompilyatsiya qilishda dinamik URL va teglarga ega bo'lganlar bundan mustasno, faqat indeksga muhtoj bo'lgan resurslarni kiritish muhimdir.

Quyidagi fayl uchun asosiy talablarni ko'ring:

Sayt xaritasi direktivasi indekslashda qanday yordam beradi?

Qidiruv botlari qanday ishlash tamoyilini eslaylik: ular saytga boradilar, yopiq sahifalarni o'chirib tashlaydilar va keyin, agar buyruq bo'lmasa, ular saytni tasodifiy tekshirishni boshlaydilar. Bitta veb-loyihani skanerlash vaqti cheklanganligi sababli, robot hech qachon haqiqatan ham muhim manbalarga erisha olmaydi. Bu, ayniqsa, ko'plab sahifalar va havolalar mavjud bo'lgan "katta" saytlar uchun to'g'ri keladi.

O'qish qiziqarli bo'ladi: "Abadiy havolalarni sotib olish: tartibsizlikdan tartibgacha 4 qadam"

Bu erda Sayt xaritasi direktivasi yordamga keladi. U robotni Sayt xaritasiga yo‘naltiradi, unda qaysi manbalar indekslanishi va qaysi biri eng muhimi, shuningdek, ma’lumotlar qanchalik tez-tez yangilanishi kerakligini ko‘rsatadi. Ushbu indekslash 100% yuqori sifat va 3,14 marta tezroq.

Tayyor sayt xaritasi shunday ko'rinadi (fragment):

Sayt xaritasini qanday yaratish mumkin?

Ideal variant - bepul onlayn generatorlardan foydalanish.

Mana men sinab ko'rgan xizmatlar ro'yxati:

XML-Sitemaps.com. 500 sahifagacha bo'lgan saytlar uchun bepul sayt xaritalarini yaratadi. Ishlash vaqti - 2-3 daqiqa. XML hujjat formatida faylni yuklab olishni taklif qiladi. Ro'yxatdan o'tishni talab qilmaydi. Interfeys ingliz tilida.
mening sayt xaritasini yaratish. Bepul paket uchun limit 500 sahifagacha. Sayt xaritasini yaratish bir necha daqiqa vaqt oladi. Xml formatidagi tayyor fayl elektron pochta orqali yuboriladi. Sayt ruslashtirilgan, sodda va tushunarli. Ro'yxatdan o'tish shart emas.
Xml sayt xaritasi generatori. 2000 sahifagacha chegaralangan ingliz tilidagi resurs. Faylni bir necha formatda yuklab olishingiz mumkin: xml, rss, html, txt. Sayt xaritasini yaratish ham tez va ro'yxatdan o'tishni talab qilmaydi.
Majento. Ro'yxatdan o'tishni talab qilmaydigan rus tilidagi operatsion veb-sayt. Bepul paket cheklovlari: 1000 sahifagacha, bitta IP manzil uchun kuniga 5 marta. Siz hisobot parametrlarini belgilashingiz va ma'lum kengaytmali sahifalarda filtr o'rnatishingiz mumkin. Tayyor sayt xaritasini xml formatida yuklab olish mumkin.

Barcha xizmatlar sayt xaritalarini yaratishda juda yaxshi ish qiladi. Taqdim etilgan onlayn generatorlarga qo'shimcha ravishda, boshqa ko'plab narsalar ham mavjud: Small Seo Tools, Screamingfrog, xSitemap.com, Free Sitemap Generator va boshqalar. O'zingiz uchun eng maqbulini tanlang va hech qanday muammosiz Sayt xaritalarini yarating.

Matnli kopirayter sifatida ishlash uchun 5 ta eng yaxshi xizmatlar haqida ham bilib oling

Tayyor faylda, URL manzillaridan tashqari, siz bir nechta buyruqlarni ko'rasiz, quyidagi rasm ularni ochishga yordam beradi:

Sayt xaritasi tayyor. Keyin nima?

Qidiruv tizimlari bu haqda xabardor qilinishi kerak. Albatta, qidiruv tizimlari oxir-oqibat bu faylni o'zlari kashf etadilar, ammo jarayonni tezlashtirish uchun ularga darhol yo'lni ko'rsatish yaxshiroqdir.

Sayt xaritangiz haqida qidiruv botlariga xabar berishning eng oson 2 yo‘li:

Google va Yandex-ning veb-ustasi asboblar panelidan foydalanib, fayl manziliga havola qo'shing. Yandex.Webmaster-da sizga kerak: "Indekslash" yorlig'ini, keyin esa "Sayt xaritasi fayllari" ni bosing va URL manzilini kiriting. Google uchun: Google Search Console-ni oching, "Crawling" ni bosing, keyin "Sayt xaritasi fayllari" ni bosing, manzilni kiriting va yuboring.
Robots.txt fayliga Sayt xaritasi faylining joylashuviga havolani joylashtiring. Vizual ravishda shunday ko'rinadi: Sayt xaritasi: https://site.com/sitemap.xml

Xulosa qilishda muhim maslahat shundaki, saytda har bir yangi ma'lumot e'lon qilingandan keyin Sayt xaritasini qo'shish tavsiya etiladi.

Indekslashni yana qanday tezlashtirish mumkin:
“Maqolani indekslashni qanday joylashtirish va tezlashtirish kerak? Muvaffaqiyatning 5 ta siri »

HOST

robots.txt ning oxirgi ajralmas qismi Xost direktivasi edi. U qidiruv robotiga veb-loyihaning qaysi aksi (taxallus) asosiy ekanligini ko'rsatdi: www prefiksi bilan yoki bo'lmasdan. Ushbu buyruq faqat Yandex qidiruv tizimi tomonidan qabul qilingan va faqat "nusxalari" bo'lgan saytlar uchun tegishli edi.

Eslatma: sayt oynasi - bu o'z domeniga ega bo'lgan va alohida resursda joylashgan Internet loyihasining to'liq yoki qisman nusxasi.

Bu shunday ko'rinardi:

Nima uchun hamma narsa o'tgan zamonda, deb so'raysiz. Javob oddiy - 2018 yil 20 martda Yandex rasmiy ravishda Xost direktivasidan voz kechganini e'lon qildi. Endi bu buyruq .htaccess fayli orqali 301 yo'naltirish bilan almashtirilishi kerak. Xost direktivasi shunchaki indeks faylidan olib tashlanishi kerak. Garchi, agar u mavjud bo'lsa, hech qanday yomon narsa bo'lmaydi, chunki ... Yandex endi bunga e'tibor bermaydi.

Asosiy saytni aniqlash uchun 301 yo'naltirishdan foydalanish universal usuldir, chunki... barcha qidiruv botlari tomonidan qabul qilingan. 301 yo'naltirishni qanday o'rnatish haqida keyingi maqolada batafsil muhokama qilinadi. Veb-saytga tashrif buyurib yoki yangiliklar tasmasi orqali blogdagi so'nggi yangiliklarni kuzatib boring

Robots.txt - qidiruv tizimi robotlari uchun sayt indekslash parametrlarini o'z ichiga olgan matnli fayl.

Fayl mazmuni bo'yicha tavsiyalar

Yandex quyidagi ko'rsatmalarni qo'llab-quvvatlaydi:

Direktiv	Nima qiladi
Foydalanuvchi-agent *
Ruxsat bermaslik
Sayt xaritasi
Toza-param
Ruxsat bering
Emaklash-kechikish	Tekshirish tezligi sozlamalaridan foydalanishni tavsiya etamiz

Direktiv	Nima qiladi
Foydalanuvchi-agent *	robots.txt-da keltirilgan qoidalar qo'llaniladigan robotni ko'rsatadi.
Ruxsat bermaslik	Sayt bo'limlari yoki alohida sahifalarni indekslashni taqiqlaydi.
Sayt xaritasi	Saytda joylashtirilgan Sayt xaritasi fayliga yo'lni belgilaydi.
Toza-param	Robotga sahifa URL manzilida indekslashda e'tibordan chetda qolishi kerak bo'lgan parametrlar (masalan, UTM teglari) mavjudligini bildiradi.
Ruxsat bering	Sayt bo'limlari yoki alohida sahifalarni indekslash imkonini beradi.
Emaklash-kechikish	Qidiruv robotining bir sahifani yuklagandan keyin boshqasini yuklashni boshlashdan oldin kutishi uchun minimal intervalni (soniyalarda) belgilaydi. Direktiv o'rniga Yandex.Webmaster-da skanerlash tezligi sozlamalaridan foydalanishni tavsiya etamiz.

* Majburiy direktiv.

Sizga ko'pincha "Ruxsat bermaslik", "Sayt xaritasi" va "Paramni tozalash" direktivalari kerak bo'ladi. Masalan:

User-agent: * #Dallow uchun direktivalar o'rnatilgan robotlarni belgilang: /bin/ # Savatchadagi havolalarni o'chirib qo'yadi. Ruxsat bermaslik: /search/ # saytga o'rnatilgan qidiruv sahifalariga havolalarni o'chirib qo'yadi Ruxsat bermaslik: /admin/ # boshqaruv panelidagi havolalarni o'chirib qo'yadi Sayt xaritasi: http://example.com/sitemap # robot uchun saytning sayt xaritasi faylini belgilang Clean-param: ref /some_dir/get_book.pl

Boshqa qidiruv tizimlari va xizmatlarining robotlari direktivalarni boshqacha talqin qilishlari mumkin.

Eslatma. Robot pastki satrlarning holatini (fayl nomi yoki yo'li, robot nomi) hisobga oladi va direktiv nomlaridagi registrni e'tiborsiz qoldiradi.

Kirill harflaridan foydalanish

robots.txt fayli va server HTTP sarlavhalarida kirill alifbosidan foydalanishga ruxsat berilmagan.

Domen nomlari uchun Punycode dan foydalaning. Sahifa manzillari uchun joriy sayt tuzilmasi bilan bir xil kodlashdan foydalaning.

Qidiruv tizimlari uchun saytni optimallashtirish bosqichlaridan biri robots.txt faylini kompilyatsiya qilishdir. Ushbu fayldan foydalanib, siz ba'zi yoki barcha qidiruv robotlarining saytingizni yoki uning indekslash uchun mo'ljallanmagan ayrim qismlarini indekslashiga yo'l qo'ymasligingiz mumkin. Xususan, sahifalarning chop etiladigan versiyalari kabi ikki nusxadagi tarkibni indeksatsiya qilinishini oldini olishingiz mumkin.

Indekslashni boshlashdan oldin qidiruv robotlari har doim saytingizning asosiy katalogidagi robots.txt fayliga murojaat qiladi, masalan, http://site.ru/robots.txt, robot saytning qaysi bo'limlari taqiqlanganligini bilish uchun. indekslashdan. Ammo siz hech narsani taqiqlamoqchi bo'lmasangiz ham, ushbu faylni yaratish tavsiya etiladi.

Robots.txt kengaytmasidan ko'rinib turibdiki, bu matnli fayl. Ushbu faylni yaratish yoki tahrirlash uchun Notepad kabi eng oddiy matn muharrirlaridan foydalanish yaxshidir. robots.txt saytning asosiy katalogiga joylashtirilishi va o'z formatiga ega bo'lishi kerak, biz quyida muhokama qilamiz.

Robots.txt fayl formati

robots.txt faylida kamida ikkita talab qilinadigan yozuv boʻlishi kerak. Birinchisi, qaysi qidiruv roboti keyingi ko'rsatmalarga amal qilishi kerakligini ko'rsatadigan User-agent direktivasi. Qiymat robotning nomi (googlebot, Yandex, StackRambler) yoki * belgisi bo'lishi mumkin, agar siz bir vaqtning o'zida barcha robotlarga kirsangiz. Masalan:

Foydalanuvchi-agent: googlebot

Siz robotning nomini tegishli qidiruv tizimining veb-saytida topishingiz mumkin. Keyin bir yoki bir nechta ruxsat berish ko'rsatmalari bo'lishi kerak. Ushbu ko'rsatmalar robotga qaysi fayl va papkalarni indekslashga ruxsat berilmasligini aytadi. Masalan, quyidagi qatorlar robotlarning feedback.php fayli va cgi-bin katalogini indekslashiga to'sqinlik qiladi:

Ruxsat bermaslik: /feedback.php Ruxsat bermaslik: /cgi-bin/

Bundan tashqari, siz faqat fayl yoki papkaning boshlang'ich belgilaridan foydalanishingiz mumkin. Disallow: /forum qatori nomi forum bilan boshlanadigan saytning ildizidagi barcha fayl va papkalarni indekslashni taqiqlaydi, masalan, http://site.ru/forum.php fayli va http://site papkasi. ru/forum/ barcha mazmuni bilan. Agar ruxsat bermaslik bo'sh bo'lsa, bu robot barcha sahifalarni indekslashi mumkinligini anglatadi. Agar Disallow qiymati / belgisi bo'lsa, bu butun saytni indeksatsiya qilish taqiqlanganligini anglatadi.

Har bir foydalanuvchi-agent maydoni uchun kamida bitta ruxsat berish maydoni bo'lishi kerak. Ya'ni, agar siz indekslash uchun biror narsani taqiqlamoqchi bo'lmasangiz, robots.txt faylida quyidagi yozuvlar bo'lishi kerak:

Foydalanuvchi-agent: * Ruxsat bermaslik:

Qo'shimcha ko'rsatmalar

Oddiy iboralarga qo'shimcha ravishda, Yandex va Google "Ruxsat berish" direktivasidan foydalanishga ruxsat beradi, bu "Dallow" ning teskarisidir, ya'ni qaysi sahifalarni indekslash mumkinligini ko'rsatadi. Quyidagi misolda Yandex-ga /articles bilan boshlanadigan sahifa manzillaridan tashqari hamma narsani indekslash taqiqlangan:

Foydalanuvchi-agent: Yandex Ruxsat berish: /maqolalar Ruxsat berish: /

Ushbu misolda "Ruxsat berish" direktivasi "Ruxsat berish" dan oldin yozilishi kerak, aks holda Yandex buni saytni indekslashni to'liq taqiqlash deb tushunadi. Bo'sh Allow direktivasi saytni indekslashni ham butunlay o'chirib qo'yadi:

Foydalanuvchi-agent: Yandex Ruxsat beradi:

ekvivalent

Foydalanuvchi-agent: Yandex taqiqlash: /

Nostandart ko'rsatmalar faqat ularni qo'llab-quvvatlaydigan qidiruv tizimlari uchun ko'rsatilishi kerak. Aks holda, ushbu yozuvni tushunmaydigan robot uni yoki butun robots.txt faylini noto'g'ri qayta ishlashi mumkin. Qo'shimcha direktivalar va umuman robots.txt faylidagi buyruqlarni individual robot tomonidan tushunish haqida batafsil ma'lumotni tegishli qidiruv tizimining veb-saytida topish mumkin.

robots.txt faylidagi oddiy ifodalar

Ko'pgina qidiruv tizimlari faqat aniq ko'rsatilgan fayl va papka nomlarini hisobga oladi, ammo yanada rivojlangan qidiruv tizimlari ham mavjud. Google Robot va Yandex Robot robots.txt faylida oddiy oddiy iboralardan foydalanishni qo'llab-quvvatlaydi, bu esa veb-ustalar uchun ish hajmini sezilarli darajada kamaytiradi. Masalan, quyidagi buyruqlar Googlebot-ga .pdf kengaytmali barcha fayllarni indekslashdan saqlaydi:

Foydalanuvchi-agent: googlebot Ruxsat bermaslik: *.pdf$

Yuqoridagi misolda * har qanday belgilar ketma-ketligi, $ esa havolaning oxirini bildiradi.

Foydalanuvchi-agent: Yandex Allow: /maqolalar/*.html$ Ruxsat bermaslik: /

Yuqoridagi ko'rsatmalar Yandex-ga faqat /articles/ jildida joylashgan ".html" kengaytmali fayllarni indekslash imkonini beradi. Qolgan hamma narsa indeksatsiya qilish uchun taqiqlangan.

Sayt xaritasi

XML sayt xaritasining joylashuvini robots.txt faylida belgilashingiz mumkin:

Foydalanuvchi-agent: googlebot Ruxsat bermaslik: Sayt xaritasi: http://site.ru/sitemap.xml

Agar sizning saytingizda juda ko'p sahifalar mavjud bo'lsa va siz sayt xaritasini qismlarga bo'lishingiz kerak bo'lsa, robots.txt faylida xaritaning barcha qismlarini ko'rsatishingiz kerak:

Foydalanuvchi-agent: Yandex taqiqlash: Sayt xaritasi: http://mysite.ru/my_sitemaps1.xml Sayt xaritasi: http://mysite.ru/my_sitemaps2.xml

Sayt oynalari

Ma'lumki, odatda bir xil saytga ikkita manzilda kirish mumkin: www bilan ham, unsiz ham. Qidiruv roboti uchun site.ru va www.site.ru turli saytlardir, lekin bir xil tarkibga ega. Ular oynalar deb ataladi.

Sayt sahifalariga www bilan ham, wwwsiz ham havolalar mavjudligi sababli, sahifalarning og'irligini www.site.ru va site.ru o'rtasida taqsimlash mumkin. Buning oldini olish uchun qidiruv tizimi saytning asosiy oynasini ko'rsatishi kerak. "Yopishtirish" natijasida barcha vazn bitta asosiy oynaga tegishli bo'ladi va sayt qidiruv natijalarida yuqori o'rinni egallashi mumkin bo'ladi.

Yandex uchun asosiy oynani to'g'ridan-to'g'ri robots.txt faylida Host direktivasi yordamida belgilashingiz mumkin:

Foydalanuvchi-agent: Yandex taqiqlash: /feedback.php Taqiqlash: /cgi-bin/ Xost: www.site.ru

Yelimlashdan so'ng, www.site.ru oynasi barcha vaznga ega bo'ladi va u qidiruv natijalarida yuqori o'rinni egallaydi. Va qidiruv tizimi site.ru saytini umuman indekslamaydi.

Boshqa qidiruv tizimlari uchun asosiy oynani tanlash qo'shimcha nometalllardan asosiysiga server tomonidan doimiy yo'naltirish (kod 301) hisoblanadi. Bu .htaccess fayli va mod_rewrite moduli yordamida amalga oshiriladi. Buning uchun .htaccess faylini saytning ildiziga qo'ying va u erga quyidagilarni yozing:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Natijada, site.ru dan barcha so'rovlar www.site.ru saytiga o'tadi, ya'ni site.ru/page1.php www.site.ru/page1.php saytiga yo'naltiriladi.

Qayta yo'naltirish usuli barcha qidiruv tizimlari va brauzerlar uchun ishlaydi, ammo Yandex uchun robots.txt fayliga Host direktivasini qo'shish tavsiya etiladi.

robots.txt-dagi sharhlar

Shuningdek, siz robots.txt fayliga sharhlar qo'shishingiz mumkin - ular # belgisi bilan boshlanadi va yangi qator bilan tugaydi. Sharhlarni alohida satrga yozish tavsiya etiladi, yoki ularni umuman ishlatmaslik yaxshiroqdir.

Sharhlardan foydalanishga misol:

User-agent: StackRambler Disallow: /garbage/ # bu jildda hech qanday foydali narsa yo'q Ruxsat bermaslik: /doc.xhtml # va bu sahifada ham # va bu fayldagi barcha izohlar ham foydasiz.

robots.txt fayllariga misollar

1. Barcha robotlarga barcha sayt hujjatlarini indekslashiga ruxsat bering:

Foydalanuvchi-agent: * Ruxsat bermaslik:
Foydalanuvchi-agent: * Ruxsat bermaslik: /

3. Google qidiruv robotiga feedback.php fayli va cgi-bin katalogi tarkibini indekslashni taqiqlaymiz:

Foydalanuvchi agenti: googlebot Ruxsat bermaslik: /cgi-bin/ Ruxsat bermaslik: /feedback.php

4. Biz barcha robotlarga butun saytni indekslashiga ruxsat beramiz va Yandex qidiruv tizimi robotiga feedback.php faylini va cgi-bin katalogi tarkibini indekslashni taqiqlaymiz:

Foydalanuvchi-agent: Yandex Taqiqlash: /cgi-bin/ Taqiqlash: /feedback.php Xost: www.site.ru Foydalanuvchi-agent: * Ruxsat bermaslik:

5. Biz barcha robotlarga butun saytni indekslashiga ruxsat beramiz va Yandex robotiga saytning faqat unga moʻljallangan qismini indekslashiga ruxsat beramiz:

Foydalanuvchi-agent: Yandex Ruxsat berish: /yandex Ruxsat berish: / Xost: www.site.ru Foydalanuvchi-agent: * Ruxsat berish:

Bo'sh chiziqlar turli robotlar uchun cheklovlarni ajratib turadi. Cheklovlarning har bir bloki ushbu saytni indekslash qoidalari qo'llaniladigan robotni ko'rsatuvchi User-Agent maydoniga ega bo'lgan chiziqdan boshlanishi kerak.

Umumiy xatolar

Robots.txt faylidagi bo'sh qator turli robotlar uchun ikkita yozuv orasidagi ajratuvchi ekanligini hisobga olish kerak. Bundan tashqari, bir qatorda bir nechta direktivani belgilay olmaysiz. Faylning indekslanishiga yo'l qo'ymaslik uchun veb-ustalar ko'pincha fayl nomidan oldin / ni o'tkazib yuboradilar.

Robots.txt-da saytni to'liq yuklab olish uchun mo'ljallangan turli dasturlar, masalan, TeleportPro uchun saytni indekslashni taqiqlashni ko'rsatishning hojati yo'q. Na yuklab olish dasturlari, na brauzerlar ushbu faylga hech qachon qaramaydi va u erda yozilgan ko'rsatmalarni bajarmaydi. U faqat qidiruv tizimlari uchun mo'ljallangan. Shuningdek, siz robots.txt-da saytingizning administrator panelini bloklamasligingiz kerak, chunki agar biron bir joyda unga havola bo'lmasa, u indekslanmaydi. Siz shunchaki administrator hududining joylashuvini bu haqda bilmagan odamlarga ochib berasiz. Shuni ham yodda tutish kerakki, juda katta bo'lgan robots.txt qidiruv tizimi tomonidan e'tiborga olinmasligi mumkin. Agar sizda indekslash uchun mo'ljallanmagan sahifalar juda ko'p bo'lsa, ularni shunchaki saytdan olib tashlash yoki alohida katalogga ko'chirish va ushbu katalogni indekslashni oldini olish yaxshiroqdir.

robots.txt faylida xatoliklar tekshirilmoqda

Qidiruv mexanizmlari sizning robot faylingizni qanday tushunishini tekshirib ko'ring. Google-ni tekshirish uchun siz Google Webmaster Tools-dan foydalanishingiz mumkin. Agar siz robots.txt faylingiz Yandex tomonidan qanday tushunilishini bilmoqchi bo'lsangiz, Yandex.Webmaster xizmatidan foydalanishingiz mumkin. Bu har qanday xatolarni o'z vaqtida tuzatish imkonini beradi. Shuningdek, ushbu xizmatlarning sahifalarida siz robots.txt faylini yaratish bo'yicha tavsiyalar va boshqa ko'plab foydali ma'lumotlarni topishingiz mumkin.

Maqolani nusxalash taqiqlanadi.

Xost direktivasi qidiruv tizimiga (www bilan yoki wwwsiz) asosiy deb hisoblanishini aytadigan buyruq yoki qoidadir. Xost direktivasi faylda joylashgan va faqat Yandex uchun mo'ljallangan.

Ko'pincha qidiruv tizimi saytning ba'zi sahifalarini yoki uning oynalarini indekslamaslik kerak bo'ladi. Masalan, resurs bitta serverda joylashgan, lekin Internetda bir xil domen nomi mavjud bo'lib, u indekslash va qidiruv natijalarida ko'rsatish uchun ishlatiladi.

Yandex qidiruv robotlari veb-sayt sahifalarini skanerlaydi va to'plangan ma'lumotlarni o'z jadvaliga muvofiq ma'lumotlar bazasiga qo'shadi. Indekslash jarayonida ular qaysi sahifani qayta ishlash kerakligini mustaqil ravishda hal qilishadi. Masalan, robotlar indekslash ma'nosiz bo'lgan turli forumlar, xabarlar taxtasi, kataloglar va boshqa resurslarni chetlab o'tadi. Ular shuningdek, asosiy sayt va nometalllarni aniqlashlari mumkin. Birinchisi indeksatsiya qilinadi, ikkinchisi esa yo'q. Jarayonda ko'pincha xatolar yuzaga keladi. Bunga Robots.txt faylidagi Xost direktivasi yordamida ta'sir qilish mumkin.

Robots.txt fayli nima uchun kerak?

Robotlar oddiy matn faylidir. Uni Notepad yordamida yaratish mumkin, lekin u bilan Notepad++ matn muharririda ishlash (ma'lumotni ochish va tahrirlash) tavsiya etiladi. Veb-resurslarni optimallashtirishda ushbu faylga bo'lgan ehtiyoj bir necha omillar bilan belgilanadi:

Agar Robots.txt fayli yo'q bo'lsa, qidiruv tizimlarining ishi tufayli sayt doimiy ravishda haddan tashqari yuklanadi.
Qo'shimcha sahifalar yoki ko'zgu saytlari indekslanishi xavfi mavjud.

Indekslash ancha sekinroq bo'ladi va sozlamalar noto'g'ri o'rnatilgan bo'lsa, u Google va Yandex qidiruv natijalaridan butunlay yo'qolishi mumkin.

Robots.txt faylida Xost direktivasi qanday formatlanadi

Robotlar fayli Xost direktivasini o'z ichiga oladi - qidiruv tizimi uchun asosiy sayt qayerda va uning ko'zgulari qaerdaligi haqida ko'rsatmalar.

Direktiv quyidagi shaklga ega: Xost: [ixtiyoriy bo'sh joy] [qiymat] [ixtiyoriy bo'sh joy]. Direktivni yozish qoidalari quyidagi fikrlarga rioya qilishni talab qiladi:

Shifrlashni qo'llab-quvvatlash uchun Host direktivasida HTTPS protokolining mavjudligi. Agar oynaga kirish faqat xavfsiz kanal orqali amalga oshirilsa, uni ishlatish kerak.
IP-manzil bo'lmagan domen nomi, shuningdek, veb-resursning port raqami.

To'g'ri tuzilgan direktiv veb-masterga qidiruv tizimlariga asosiy oyna qaerdaligini ko'rsatishga imkon beradi. Qolganlari kichik hisoblanadi va shuning uchun indekslanmaydi. Qoida tariqasida, nometall www qisqartmasi mavjudligi yoki yo'qligi bilan ajralib turishi mumkin. Agar foydalanuvchi Xost orqali veb-resursning asosiy oynasini ko'rsatmasa, Yandex qidiruv tizimi Webmasterga tegishli bildirishnoma yuboradi. Robotlar faylida ziddiyatli Xost direktivasi ko'rsatilgan bo'lsa, bildirishnoma ham yuboriladi.

Saytning asosiy oynasi qayerda ekanligini qidiruv tizimi orqali aniqlashingiz mumkin. Qidiruv satriga resurs manzilini kiritishingiz va qidiruv natijalariga qarashingiz kerak: manzil satrida domen oldida www joylashgan sayt asosiy domen hisoblanadi.

Resurs qidiruv natijalari sahifasida ko'rsatilmasa, foydalanuvchi Yandex.Webmaster-ning tegishli bo'limiga o'tib, uni mustaqil ravishda asosiy oyna sifatida belgilashi mumkin. Agar veb-masterga saytning domen nomi www bo'lmasligi kerak bo'lsa, u Xostda ko'rsatilmasligi kerak.

Ko'pgina veb-ustalar o'z saytlari uchun qo'shimcha oyna sifatida kirill domenlaridan foydalanadilar. Biroq, Xost direktivasi kirill alifbosini qo'llab-quvvatlamaydi. Buning uchun lotin tilidagi so‘zlarni manzil satridan sayt manzilini ko‘chirish orqali osongina tanib olish sharti bilan takrorlash kerak.

Robotlar faylida xost

Ushbu direktivaning asosiy maqsadi ikki nusxadagi sahifalar bilan bog'liq muammolarni hal qilishdir. Agar veb-resursning ishi rus tilida so'zlashuvchi auditoriyaga qaratilgan bo'lsa va shunga mos ravishda sayt Yandex tizimida tartiblangan bo'lsa, Host-dan foydalanish kerak.

Barcha qidiruv tizimlari Xost direktivasini qo'llab-quvvatlamaydi. Funktsiya faqat Yandex-da mavjud. Bundan tashqari, bu erda ham domen asosiy oyna sifatida belgilanishiga kafolat yo'q, ammo Yandexning o'ziga ko'ra, ustuvorlik har doim xostda ko'rsatilgan nomda qoladi.

Qidiruv tizimlari robots.txt faylini qayta ishlashda ma'lumotni to'g'ri o'qishi uchun foydalanuvchi-agent so'zlaridan keyin boshlab tegishli guruhga Xost direktivasini kiritish kerak. Biroq, robotlar direktiv qoidalarga muvofiq yozilganmi yoki yo'qligidan qat'i nazar, Host-dan foydalanishi mumkin, chunki u kesishadi.

Birinchidan, men sizga robots.txt nima ekanligini aytib beraman.

Robots.txt- qidiruv robotlari uchun maxsus ko'rsatmalar yozilgan saytning ildiz papkasida joylashgan fayl. Ushbu ko'rsatmalar saytga kirishda robot sahifani / bo'limni hisobga olmasligi uchun kerak, boshqacha qilib aytganda, biz sahifani indeksatsiyadan yopamiz.

Nima uchun bizga robots.txt kerak?

Robots.txt fayli har qanday veb-saytni SEO optimallashtirish uchun asosiy talab hisoblanadi. Ushbu faylning yo'qligi robotlarning yuklanishiga va sekin indeksatsiyaga salbiy ta'sir ko'rsatishi mumkin va bundan tashqari, sayt to'liq indekslanmaydi. Shunga ko'ra, foydalanuvchilar Yandex va Google orqali sahifalarga kira olmaydi.

robots.txt ning qidiruv tizimlariga ta'siri?

Qidiruv tizimlari(ayniqsa, Google) saytni indekslaydi, lekin robots.txt fayli bo'lmasa, men aytganimdek, barcha sahifalar emas. Agar bunday fayl mavjud bo'lsa, robotlar ushbu faylda ko'rsatilgan qoidalarga amal qiladilar. Bundan tashqari, qidiruv robotlarining bir nechta turlari mavjud; ba'zilari qoidani hisobga olishlari mumkin, boshqalari esa buni e'tiborsiz qoldiradilar. Xususan, GoogleBot roboti Xost va Crawl-Delay direktivalarini hisobga olmaydi, Yandex News roboti yaqinda Crawl-Delay direktivasini hisobga olishni to'xtatdi, YandexDirect va YandexVideoParser robotlari robots.txt-dagi umumiy qabul qilingan direktivalarni e'tiborsiz qoldirdi (lekin). ular uchun maxsus yozilganlarni hisobga oling).

Sayt sizning saytingizdan tarkibni yuklaydigan robotlar tomonidan eng ko'p yuklanadi. Shunga ko'ra, robotga qaysi sahifalarni indekslash va qaysi birini e'tiborsiz qoldirish, shuningdek, qaysi vaqt oralig'ida sahifalardan tarkibni yuklash kerakligini aytsak (bu qidiruv tizimi indeksida 100 000 dan ortiq sahifaga ega bo'lgan yirik saytlarga ko'proq taalluqlidir). Bu robotga saytdan tarkibni indekslash va yuklab olishni ancha osonlashtiradi.

Qidiruv tizimlari uchun keraksiz fayllar CMS-ga tegishli fayllarni o'z ichiga oladi, masalan, Wordpress - /wp-admin/. Bundan tashqari, ajax, json skriptlari qalqib chiquvchi shakllar, bannerlar, captcha chiqishi va boshqalar uchun javobgardir.

Ko'pgina robotlar uchun men barcha Javascript va CSS fayllarini indekslashni bloklashni tavsiya qilaman. Ammo GoogleBot va Yandex uchun bunday fayllarni indekslash yaxshiroqdir, chunki ular qidiruv tizimlari tomonidan saytning qulayligi va uning reytingini tahlil qilish uchun ishlatiladi.

robots.txt direktivasi nima?

Direktivlar- bu qidiruv robotlari uchun qoidalar. Robots.txt yozish uchun birinchi standartlar va shunga mos ravishda 1994 yilda, kengaytirilgan standart esa 1996 yilda paydo bo'lgan. Biroq, siz allaqachon bilganingizdek, hamma robotlar ham ma'lum ko'rsatmalarni qo'llab-quvvatlamaydi. Shuning uchun, men quyida veb-sayt sahifalarini indekslashda asosiy robotlar nimaga yo'l-yo'riq qilishini tasvirlab berdim.

User-agent nimani anglatadi?

Bu qaysi qidiruv robotlari keyingi qoidalarga amal qilishini belgilaydigan eng muhim ko'rsatma.

Barcha robotlar uchun:

Muayyan bot uchun:

Foydalanuvchi-agent: Googlebot

Robots.txt-dagi registr muhim emas, siz ham Googlebot, ham googlebot yozishingiz mumkin

Google qidiruv robotlari

Yandex qidiruv robotlar


	Yandex-ning asosiy indekslash roboti
	Yandex.Images xizmatida foydalaniladi
	Yandex.Video xizmatida foydalaniladi
	Multimedia ma'lumotlari
	Blog qidiruvi
	Qidiruv roboti “URL qo‘shish” formasi orqali sahifani qo‘shishda unga kirishadi
	Veb-sayt piktogrammalarini indekslaydigan robot (favikonlar)
	Yandex.Direct
	Yandex.Metrica
	Yandex.Katalog xizmatida foydalaniladi
	Yandex.News xizmatida foydalaniladi
YandexImageResizer	Mobil xizmatlar qidiruv robot

Qidiruv robotlari Bing, Yahoo, Mail.ru, Rambler

Yo'l qo'ymaslik va ruxsat berish direktivalari

Saytingizning bo'limlari va sahifalarini indekslashni taqiqlash. Shunga ko'ra, Allow, aksincha, ularni ochadi.

Ba'zi o'ziga xosliklar mavjud.

Birinchidan, qo'shimcha operatorlar *, $ va #. Ular nima uchun ishlatiladi?

“*” - bu har qanday belgilar soni va ularning yo'qligi. Odatiy bo'lib, u allaqachon chiziqning oxirida, shuning uchun uni qayta qo'yishning ma'nosi yo'q.

“$” – oldingi belgi oxirgi kelishi kerakligini bildiradi.

“#” – izoh, robot bu belgidan keyin keladigan hamma narsani hisobga olmaydi.

Disallow-dan foydalanishga misollar:

Ruxsat bermaslik: *?s=

Ruxsat bermaslik: /category/

Shunga ko'ra, qidiruv roboti quyidagi kabi sahifalarni yopadi:

Ammo shunga o'xshash sahifalar indekslash uchun ochiq bo'ladi:

Endi siz joylashtirish qoidalari qanday bajarilishini tushunishingiz kerak. Direktivlarni yozish tartibi juda muhimdir. Qoidalarning merosxo'rligi qaysi kataloglar ko'rsatilganligi bilan belgilanadi, ya'ni sahifani/hujjatni indekslashni bloklamoqchi bo'lsak, direktiv yozish kifoya. Keling, bir misolni ko'rib chiqaylik

Bu bizning robots.txt faylimiz

Ruxsat bermaslik: /shablon/

Ushbu direktivani istalgan joyda belgilash mumkin va bir nechta sayt xaritasi fayllari ko'rsatilishi mumkin.

robots.txt-da xost direktivasi

Ushbu ko'rsatma saytning asosiy oynasini ko'rsatish uchun kerak (ko'pincha www bilan yoki bo'lmasdan). Esda tutingki, xost direktivasi http:// protokolisiz, lekin https:// protokoli bilan belgilanadi. Direktiv faqat Yandex va Mail.ru qidiruv robotlari tomonidan hisobga olinadi va boshqa robotlar, jumladan, GoogleBot ham qoidani hisobga olmaydi. Xost robots.txt faylida bir marta ko'rsatilishi kerak

http:// bilan misol

Xost: website.ru

https:// bilan misol

Tekshirishni kechiktirish direktivasi

Qidiruv roboti tomonidan sayt sahifalarini indekslash uchun vaqt oralig'ini o'rnatadi. Qiymat soniya va millisekundlarda ko'rsatilgan.

Misol:

U asosan yirik onlayn-do'konlarda, axborot saytlarida, portallarda qo'llaniladi, bu erda sayt trafigini kuniga 5 000 dan boshlanadi. Qidiruv roboti ma'lum vaqt ichida indeksatsiya so'rovini bajarishi kerak. Agar ushbu ko'rsatma belgilanmagan bo'lsa, u serverda jiddiy yuk yaratishi mumkin.

Optimal skanerlash kechikish qiymati har bir sayt uchun har xil. Mail, Bing, Yahoo qidiruv tizimlari uchun qiymat 0,25, 0,3 minimal qiymatga o'rnatilishi mumkin, chunki bu qidiruv tizimi robotlari saytingizni oyda bir marta, 2 oyda va hokazo (juda kamdan-kam hollarda) skanerlashi mumkin. Yandex uchun yuqoriroq qiymatni belgilash yaxshiroqdir.

Agar saytingizdagi yuk minimal bo'lsa, unda ushbu ko'rsatmani ko'rsatishning ma'nosi yo'q.

Clean-param direktivasi

Qoida qiziq, chunki u brauzerga ma'lum parametrlarga ega sahifalarni indeksatsiya qilish kerak emasligini aytadi. Ikki argument ko'rsatilgan: sahifa URL va parametr. Ushbu direktiv Yandex qidiruv tizimi tomonidan qo'llab-quvvatlanadi.

Misol:

Ruxsat bermaslik: /admin/

Ruxsat bermaslik: /plugins/

Ruxsat bermaslik: /search/

Ruxsat bermaslik: /cart/

Ruxsat bermaslik: *sort=

Ruxsat bermaslik: *view=

Foydalanuvchi-agent: GoogleBot

Ruxsat bermaslik: /admin/

Ruxsat bermaslik: /plugins/

Ruxsat bermaslik: /search/

Ruxsat bermaslik: /cart/

Ruxsat bermaslik: *sort=

Ruxsat bermaslik: *view=

Ruxsat bering: /plugins/*.css

Ruxsat bering: /plugins/*.js

Ruxsat bering: /plugins/*.png

Ruxsat bering: /plugins/*.jpg

Ruxsat bering: /plugins/*.gif

Foydalanuvchi-agent: Yandex

Ruxsat bermaslik: /admin/

Ruxsat bermaslik: /plugins/

Ruxsat bermaslik: /search/

Ruxsat bermaslik: /cart/

Ruxsat bermaslik: *sort=

Ruxsat bermaslik: *view=

Ruxsat bering: /plugins/*.css

Ruxsat bering: /plugins/*.js

Ruxsat bering: /plugins/*.png

Ruxsat bering: /plugins/*.jpg

Ruxsat bering: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

Misolda biz 3 xil bot uchun qoidalarni yozdik.

robots.txt faylini qayerga qo'shish kerak?

Saytning ildiz papkasiga qo'shildi. Bundan tashqari, havolaga o'tishingiz mumkin:

robots.txt faylini qanday tekshirish mumkin?

Yandex veb-ustasi

Asboblar yorlig'ida Robots.txt tahlilini tanlang va so'ngra tekshirish tugmasini bosing

Google Search Console

Yorliqda Skanerlash tanlang Robots.txt faylini tekshirish vositasi va keyin tekshirish tugmasini bosing.

Xulosa:

Robots.txt fayli reklama qilinayotgan har bir veb-saytda bo'lishi kerak va faqat uning to'g'ri konfiguratsiyasi kerakli indeksatsiyani olish imkonini beradi.

Va nihoyat, agar sizda biron bir savol bo'lsa, ularni maqola ostidagi izohlarda so'rang va men ham hayronman, robots.txt ni qanday yozish kerak?