Internetda ma'lumot qidirish. Internetda ma'lumot topish asoslari

1.Kirish

Har yili Internet hajmi sezilarli darajada oshib bormoqda, shuning uchun kerakli ma'lumotlarni topish ehtimoli keskin oshib bormoqda. Internet millionlab kompyuterlarni, turli xil tarmoqlarni birlashtiradi, foydalanuvchilar soni yiliga 15-80% ga ko'paymoqda. Va shunga qaramay, tez-tez Internetga kirishda asosiy muammo kerakli ma'lumotlarning etishmasligi emas, balki ularni topish qobiliyatidir. Qoida tariqasida, oddiy odam, turli xil holatlar tufayli, kerakli javobni izlash uchun 15-20 daqiqadan ko'proq vaqt sarflay olmaydi yoki xohlamaydi. Shuning uchun, kerakli va sodda ko'rinadigan oddiy narsani - QAYSI javoblarni olish uchun qaerdan va qanday qilib qidirishni o'rganish juda muhimdir.

Sizga kerakli ma'lumotlarni topish uchun uning manzilini topishingiz kerak. Buning uchun ixtisoslashgan qidiruv serverlari (indeksli robotlar (qidiruv tizimlari), tematik Internet-kataloglar, meta-qidiruv tizimlari, odamlarni qidirish xizmatlari va boshqalar) mavjud. Ushbu master-klassda Internetda ma'lumot topishning asosiy texnologiyalari ochib berildi, qidirish vositalarining umumiy xususiyatlari ta'minlandi va eng mashhur rus tilidagi va ingliz tilidagi qidiruv tizimlari uchun qidiruv so'rovlari tuzilmalari ko'rib chiqildi.

2. Qidiruv texnologiyalari

Web-texnologiyasi (WWW) Internetda hujjatlarni tayyorlash va joylashtirish uchun maxsus texnologiya hisoblanadi. WWW tarkibiga veb-sahifalar, elektron kutubxonalar, kataloglar va hatto virtual muzeylar kiradi! Axborotning bunday ko'pligi bilan savol tug'iladi: "Bunday ulkan va keng ko'lamli axborot makonida qanday harakat qilish kerak?"
Ushbu muammoni hal qilishda qidiruv vositalari yordamga keladi.

2.1 Qidiruv vositalari

Qidiruv vositalari - bu maxsus dasturiy ta'minot, ularning asosiy maqsadi Internet foydalanuvchilari uchun eng maqbul va sifatli ma'lumotlarni qidirishni ta'minlashdir. Qidiruv vositalari maxsus veb-serverlarda joylashtirilgan, ularning har biri ma'lum bir funktsiyani bajaradi:

Veb-sahifalarni tahlil qilish va tahlil natijalarini qidiruv tizimining ma'lumotlar bazasining u yoki bu darajasiga kiritish.
Foydalanuvchining so'rovi bo'yicha ma'lumot qidirish.
Axborotni qidirish va foydalanuvchi tomonidan qidiruv natijasini ko'rish uchun qulay interfeysni taqdim etish.

U yoki bu qidiruv vositasi bilan ishlashda foydalaniladigan ish usullari deyarli bir xil. Ularni muhokama qilishga o'tishdan oldin quyidagi tushunchalarni ko'rib chiqing:

Qidiruv vositasi interfeysi ko'priklar, so'rovlarni yuborish liniyasi (qidirish satri) va so'rovlarni faollashtirish vositalari bo'lgan sahifa sifatida taqdim etiladi.
Qidiruv tizimlar indekslari - bu veb-sahifalarni tahlil qilish natijalarini o'z ichiga olgan, ma'lum qoidalarga muvofiq tuzilgan ma'lumot bazasi.
So'rov - bu foydalanuvchi qidiruv satriga kiritadigan kalit so'z yoki ibora. Turli xil so'rovlarni shakllantirish uchun maxsus belgilar ("", ~), matematik belgilar (*, + ,?) ishlatiladi.

Internetda ma'lumot qidirish sxemasi oddiy. Foydalanuvchi kalit iborani yozadi va qidiruvni faollashtiradi, shu bilan tuzilgan (ko'rsatilgan) so'rov uchun hujjatlar tanlovini oladi. Ushbu hujjatlar ro'yxati ma'lum mezonlarga muvofiq tartiblangan, shuning uchun ro'yxatning yuqori qismida foydalanuvchi so'roviga eng mos keladigan hujjatlar joylashgan. Qidiruv vositalarining har biri qidiruv natijalarini tahlil qilishda ham, indeksni shakllantirishda ham (veb-sahifalarning indekslar bazasini to'ldirishda) hujjatlarni reytinglash uchun turli mezonlardan foydalanadi.

Shunday qilib, har bir qidirish vositasi uchun qidiruv satrida bir xil so'rovni ko'rsatsangiz, har xil qidiruv natijalarini olishingiz mumkin. Qidiruv natijalariga ko'ra dastlabki ikki yoki uch o'nta hujjatlarda qaysi hujjatlar paydo bo'lishi va ushbu hujjatlar foydalanuvchining kutishlariga qanchalik mos kelishi foydalanuvchi uchun juda muhimdir.

Ko'pgina qidiruv vositalari qidirishning ikkita usulini taklif qilishadi - oddiy qidiruv(oddiy qidirish) va kengaytirilgan qidiruv(ilg'or qidiruv) maxsus so'rov shakli bilan va u holda. Ingliz tilidagi qidiruv tizimining misolidan foydalanib qidiruvning ikkala turini ko'rib chiqamiz.

Masalan, AltaVista o'zboshimchalik bilan so'rovlar uchun "Axborot texnologiyalaridagi onlayn darajalar haqida biron bir narsa" uchun foydalanishga qulay bo'lsa, Yahoo qidiruv vositasi sizga dunyo yangiliklari, valyuta ma'lumotlari yoki ob-havo ma'lumotlarini olish imkonini beradi.

So'rovni takomillashtirish mezonlarini va zamonaviy qidiruv usullarini o'zlashtirish qidiruv samaradorligini oshirishga va kerakli ma'lumotlarni tezda topishga imkon beradi. Avvalo, so'rovlarda mantiqiy operatorlar (operatsiyalar) Or, And, Near, Not, matematik va maxsus belgilar yordamida qidiruv samaradorligini oshirishingiz mumkin. Operatorlar va / yoki belgilar yordamida foydalanuvchi kalit so'zlarni kerakli ketma-ketlikda bog'lab, eng mos qidiruv natijasini oladi. So'rov shakllari 1-jadvalda keltirilgan.

1-jadval

Oddiy so'rov hujjatlarga bir nechta havolalarni beradi, chunki ro'yxat so'rov paytida kiritilgan so'zlardan birini yoki oddiy iborani o'z ichiga olgan hujjatlarni o'z ichiga oladi (1-jadvalga qarang). Va operatori barcha kalit so'zlar hujjat tarkibiga kiritilishi kerakligini ko'rsatishga imkon beradi. Biroq, hujjatlar soni hali ham ko'p bo'lishi mumkin va ularni ko'rib chiqish uchun ko'p vaqt talab etiladi. Shuning uchun, ba'zi hollarda so'zlar hujjatda etarlicha yaqin joyda joylashgan bo'lishi kerakligini ko'rsatadigan yaqin kontekst operatoridan foydalanish ancha qulaydir. Near-dan foydalanish topilgan hujjatlar sonini sezilarli darajada kamaytiradi. So'rovlar satrida "*" belgisi mavjudligi so'zni maskasi bilan qidirishini anglatadi. Masalan, so'rovlar qatoriga "gov *" deb yozsak, "gov" bilan boshlanadigan so'zlarni o'z ichiga olgan hujjatlar ro'yxatini olamiz. Bular hukumat, hokim va boshqalar so'zlari bo'lishi mumkin.

Bir xil darajada mashhur bo'lgan Rambler qidiruv tizimi o'z ma'lumot bazasidan, xuddi shu mantiqiy operatorlardan AND, OR, NOT, metaxarakter * (AltaVista-da so'rovlar doirasini kengaytiradigan * belgiga o'xshash), ahamiyatni oshirish yoki kamaytirish uchun statistik ma'lumotlarni saqlaydi. so'rovga kiritilgan so'zlar.

Keling, Internetda ma'lumot topishning eng mashhur texnologiyalarini ko'rib chiqamiz.

2.2 qidiruv tizimlari

Veb-qidiruv tizimlari - bu barcha manzillar bo'yicha WWW sahifalariga avtomatik ravishda kiradigan, ushbu sahifalar tarkibini tekshiradigan, kalit so'zlarni shakllantiradigan va yozadigan ma'lumotlar bazalariga (indeks sahifalari) ulaydigan ulkan ma'lumotlar bazasiga ega serverlar.

Bundan tashqari, qidiruv tizimining robotlari sahifalardagi havolalarni kuzatib boradi va ularni qayta indekslaydi. WWW-ning deyarli har qanday sahifasida boshqa sahifalarga ko'plab havolalar mavjud bo'lganligi sababli, natijada qidiruv tizimi Internetdagi barcha saytlarni nazariy jihatdan chetlab o'tishi mumkin.

Aynan shu turdagi qidiruv vositalari barcha Internet foydalanuvchilari orasida eng mashhur va mashhurdir. Hamma taniqli veb-qidiruv tizimlari (qidiruv tizimlari) - Yandex, Rambler, Aport nomlarini eshitgan.

Ushbu turdagi qidiruv vositasidan foydalanish uchun unga o'tishingiz va qidiruv satriga sizni qiziqtirgan kalit so'zni kiritishingiz kerak. Keyinchalik, qidiruv tizimining ma'lumotlar bazasida saqlangan, sizning so'rovingizga eng yaqin bo'lgan havolalardan natijalarni olasiz. Qidiruvingiz eng samarali bo'lishi uchun quyidagi bandlarga oldindan e'tibor bering:

sizning so'rovingiz bo'yicha qaror qabul qiling. Oxir oqibat aniq nimani topmoqchisiz?
til, grammatika, harfsiz turli xil belgilarni ishlatish, morfologiyaga e'tibor bering.Shuningdek, kalit so'zlarni to'g'ri shakllantirish va kiritish muhimdir. Har bir qidiruv tizimida so'rovni tuzishning o'ziga xos shakli mavjud - printsip bir xil, ammo ishlatilgan belgilar yoki operatorlar farq qilishi mumkin. So'rovning talab qilinadigan shakllari, shuningdek, qidiruv tizimlari va ular ko'rsatadigan xizmatlarning dasturiy ta'minotining murakkabligiga qarab farqlanadi. Qanday bo'lmasin, har bir qidiruv tizimida "Yordam" bo'limi mavjud bo'lib, unda barcha sintaksis qoidalari, shuningdek qidirish bo'yicha tavsiyalar va tavsiyalar osongina tushuntiriladi (qidiruv sahifalari skrinshotlari).
turli xil qidiruv tizimlarining imkoniyatlaridan foydalaning. Agar siz uni Yandex-da topa olmasangiz, uni Google-da sinab ko'ring. Kengaytirilgan qidiruv xizmatlaridan foydalaning.
ba'zi bir atamalarni o'z ichiga olgan hujjatlarni chiqarib tashlash uchun har bir bunday so'z oldida "-" belgisini ishlating. Masalan, sizga "Hamlet" dan tashqari Shekspir asarlari to'g'risida ma'lumot kerak bo'lsa, unda so'rovni quyidagi shaklda kiriting: "Shekspir-Hamlet". Va aksincha, qidiruv natijalarida ma'lum havolalarni kiritish uchun "+" belgisidan foydalaning. Shunday qilib, avtomobillarni sotish bo'yicha havolalarni topish uchun sizga "sotish + mashina" so'rovi kerak. Qidiruv samaradorligi va aniqligini oshirish uchun ushbu belgilar kombinatsiyalaridan foydalaning.
qidiruv natijalari ro'yxatidagi har bir havola - topilgan hujjatdan bir nechta satrlarni o'z ichiga oladi, ular orasida sizning kalit so'zlaringiz ham bor. Havolani bosishdan oldin, parcha so'rov mavzusiga muvofiqligini baholang. Muayyan saytga havolani bosgandan so'ng, diqqat bilan asosiy sahifani ko'rib chiqing. Qoida tariqasida, birinchi sahifa manzilga kelganingizni yoki kelmaganingizni tushunish uchun etarli. Agar ha bo'lsa, tanlangan saytda (sayt bo'limlarida) kerakli ma'lumotlarni qidirib toping, agar bo'lmasa, qidiruv natijalariga qayting va keyingi havolani sinab ko'ring.
esda tutingki, qidiruv tizimlari o'zlari ma'lumot ishlab chiqarmaydilar (o'zlari haqida tushuntirishlar bundan mustasno). Qidiruv tizim faqat ma'lumot (sayt) egasi va siz o'rtasidagi vositachidir. Ma'lumotlar bazalari doimiy ravishda yangilanadi, ularga yangi manzillar qo'shiladi, ammo dunyoda mavjud bo'lgan ma'lumotlardan orqada qolish hali hamon saqlanib qolmoqda. Oddiy qilib aytganda, qidiruv tizimlari yorug'lik tezligida ishlamaydi.

Eng taniqli veb-qidiruv tizimlariga Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos kiradi. Rus tilida so'zlashuvchilar orasida siz Yandex, Rambler, Aport-ni ajratishingiz mumkin.

Qidiruv motorlar eng katta va eng qadrli, ammo Internetdagi yagona ma'lumot manbalaridan yiroq, chunki ulardan tashqari Internetda qidirishning boshqa usullari ham mavjud.

2.3 katalog

Internet-resurslar katalogi - bu doimiy ravishda yangilanib turadigan va to'ldiriladigan ierarxik katalog bo'lib, ularning tarkibiga qisqacha tavsif berilgan ko'plab toifalar va alohida veb-serverlar kiradi. Mavzular kataloglarining afzalliklaridan biri shundaki, havolalar uchun tushuntirishlar katalog yaratuvchilari tomonidan berilib, uning tarkibini to'liq aks ettiradi, ya'ni bu sizga server tarkibidagi ma'lumotlar sizning qidiruv maqsadingizga qanday mos kelishini aniqroq aniqlash imkonini beradi.

Rus tilidagi tematik katalogga http://www.ulitka.ru/ manbai misol bo'la oladi.

Ushbu saytning asosiy sahifasida tematik rubrikator mavjud,

uning yordamida foydalanuvchi sarlavhani o'zi uchun qiziq bo'lgan mahsulotlarga havolalar bilan kiritadi.

Bundan tashqari, ba'zi bir mavzu kataloglari kalit so'zlarni izlashga imkon beradi. Foydalanuvchi qidiruv satriga kerakli kalit so'zni kiritadi

va uning so'roviga eng mos keladigan sayt tavsifiga ega bo'lgan havolalar ro'yxatini oladi. Shuni ta'kidlash kerakki, ushbu qidiruv WWW serverlari tarkibida emas, balki ularning katalogida saqlangan qisqacha tavsiflarida amalga oshiriladi.

Bizning misolimizda katalog saytlarni tashriflar soni bo'yicha, alfavit bo'yicha, kirish sanasi bo'yicha saralash imkoniyatiga ega.

Rus tilidagi kataloglarning boshqa misollari:
Katalog.Az
Veb-ro'yxat
Vsego.ru
Ingliz tilidagi kataloglar orasida:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 To'plamlarni bog'lash

Havola to'plamlari - mavzular bo'yicha saralangan havolalar. Ular tarkib jihatidan bir-biridan ancha farq qiladi, shuning uchun sizning qiziqishlaringizga mos keladigan tanlovni topish uchun o'zingizning fikringizni shakllantirish uchun o'zingiz ularni ko'rib chiqishingiz kerak.

Misol tariqasida biz "Relcom" OAJ "Internet xazinalari" havolalarini tanlaymiz.

O'zini qiziqtirgan har qanday sarlavhani bosish orqali foydalanuvchi

Tarkib

Avtoulovchilar uchun

Astronomiya va astrologiya
Sizning uyingiz
Sizning chorva mollaringiz
Bolalar hayot gullari
Bo'sh vaqt
Internetdagi shaharlar
Sog'liqni saqlash va tibbiyot
Axborot agentliklari va xizmatlari
Mamlakat tarixiy muzeyi va boshqalar.

Avtomobil elektroniği.
Antik davrning avtomobil muzeyi.
Avtomobil egalarini huquqiy himoya qilish kollegiyasi.
Sportdrive.

Ushbu turdagi qidiruv vositalarining afzalligi ularning maqsadga muvofiqligi, odatda tanlov ma'lum veb-usta yoki Internet-sahifaning egasi tomonidan tanlangan noyob Internet-resurslarni o'z ichiga oladi.

2.5 manzillar ma'lumotlar bazasi

Manzil ma'lumotlar bazalari - bu odatda faoliyat turlari, taqdim etilayotgan mahsulotlar va xizmatlar bo'yicha, geografiya bo'yicha tasniflardan foydalanadigan maxsus qidiruv serverlari. Ba'zan ular alfavit bo'yicha qidirish bilan to'ldiriladi. Ma'lumotlar bazasida elektron pochta manzili, tashkiloti va pochta manzili to'g'risida ma'lumot beradigan saytlar haqidagi ma'lumotlar saqlanadi.

Eng katta ingliz tilidagi manzillar ma'lumotlar bazasini chaqirish mumkin: http://www.lookup.com/ -

Ushbu kataloglarga kirib, foydalanuvchi o'zi uchun qiziq bo'lgan ma'lumotlarni taqdim etadigan saytlarga havolalarni topadi.

Biz Rossiya Federatsiyasidagi keng tarqalgan va rasmiy ma'lumotlar bazalarini bilmaymiz.

2.6 Gopher arxivlarini qidirish (Gopher arxivlari)

Gopher - Internet orqali tarqatiladigan o'zaro bog'liq server tizimi (Gopher maydoni).

Gopher maydoni eng boy adabiy kutubxonani o'z ichiga oladi, ammo materiallarni masofadan turib ko'rish mumkin emas: foydalanuvchi faqat ierarxik ravishda tashkil etilgan tarkibni ko'rishi va fayl nomini tanlashi mumkin. Maxsus dastur (Veronica) yordamida bunday qidiruvni kalit so'zlarga asoslangan so'rovlar yordamida avtomatik ravishda amalga oshirish mumkin.

1995 yilgacha Gopher Internetdagi eng dinamik texnologiya edi, shu bilan bog'liq serverlar sonining o'sishi barcha boshqa Internet-serverlarning o'sishidan ustun edi. EUnet / Relcom tarmog'ida Gopher serverlari faol rivojlanmagan va bugungi kunda ularni deyarli hech kim eslamaydi.

2.7 FTP qidirish tizimi

FTP fayl qidiruvi - bu "noma'lum" FTP-serverlarda mavjud bo'lgan fayllarni topishga imkon beruvchi Internet-qidiruv tizimining maxsus turi. FTP fayllarni tarmoq orqali uzatish uchun mo'ljallangan va shu ma'noda u Gopherning analogidir.

Qidiruvning asosiy mezonlari - bu turli xil usullarda ko'rsatilgan fayl nomidir (aniq moslik, pastki qator, muntazam ifoda va boshqalar). Ushbu turdagi qidiruv, albatta, imkoniyatlari jihatidan qidiruv tizimlari bilan raqobatlasha olmaydi, chunki qidirishda fayllarning tarkibi hech qanday tarzda hisobga olinmaydi va fayllarga, o'zingizga ma'lumki, o'zboshimchalik bilan ismlar berilishi mumkin. Shunga qaramay, agar siz ma'lum bir dasturni yoki standartning tavsifini topishingiz kerak bo'lsa, unda yuqori ehtimollik bilan uni o'z ichiga olgan fayl tegishli nomga ega bo'ladi va uni FTP Search serverlaridan biri yordamida topishingiz mumkin:

FileSearch FTP serverlaridagi fayllarni fayllar va kataloglarning o'zi nomlari bo'yicha qidiradi. Agar siz biron bir dastur yoki boshqa biron bir narsani qidirsangiz, ehtimol WWW-serverlarda ularning tavsiflarini topasiz va FTP-serverlardan ularni o'zingiz yuklab olishingiz mumkin.

2.8 Usenet News konferentsiyasining qidiruv tizimi

USENET NEWS - bu Internet-hamjamiyat uchun telekonferentsiya tizimi. G'arbda bu xizmat odatda yangiliklar deb nomlanadi. FIDO tarmog'idagi "aks sado" deb nomlangan telekonferentsiyalarning yaqin analogi.

Telekonferentsiya abonenti nuqtai nazaridan USENET - e'lonlar taxtasi, unda bo'limlardan iborat bo'lib, unda siyosatdan tortib to bog'dorchilikka qadar har xil narsalar haqida maqolalar topishingiz mumkin. Ushbu e'lonlar taxtasiga elektron pochta kabi kompyuter orqali kirish mumkin. Kompyuteringizdan chiqmasdan, siz u yoki bu konferentsiyada maqolalarni o'qishingiz yoki joylashingiz, foydali maslahatlar topishingiz yoki muhokamalarga kirishingiz mumkin. Tabiiyki, maqolalar kompyuterlarda joy egallaydi, shuning uchun ular abadiy saqlanmaydi, lekin vaqti-vaqti bilan yo'q bo'lib, yangilariga joy ajratadi. Usenet yangiliklar guruhlarida ma'lumot topishning butun dunyo bo'ylab eng yaxshi xizmati bu Google Groups serveridir (Google Inc.).

Google Groups - bu Internetdagi Usenet postlarining eng katta arxivini (milliarddan ziyod postlar) taqdim etadigan bepul onlayn hamjamiyat va munozarali guruh xizmati. Qo'shimcha ma'lumot uchun http://groups.google.com/intl/ru saytiga tashrif buyuring. /googlegroups/tour/index.html

Rus tilida so'zlashuvchilar orasida USENET-server va Relcom telekonferentsiyalari ajralib turadi. Xuddi boshqa qidiruv xizmatlarida bo'lgani kabi, foydalanuvchi ham so'rovlar qatorini yozadi va server kalit so'zlarni o'z ichiga olgan konferentsiyalar ro'yxatini yaratadi. Keyin, siz yangiliklar dasturida tanlangan konferentsiyalarga obuna bo'lishingiz kerak. Shu kabi ruscha server FidoNet Online: WWW-da Fido konferentsiyalari mavjud.

2.9 Meta-qidiruv tizimlari

Bir vaqtning o'zida bir nechta qidiruv tizimlarining ma'lumotlar bazalarida tezkor qidirish uchun meta-qidiruv tizimlariga murojaat qilish yaxshiroqdir.

Meta-qidiruv tizimlari - bu sizning so'rovingizni juda ko'p sonli turli xil qidiruv tizimlariga yuboradigan, so'ngra olingan natijalarni qayta ishlaydigan, takroriy resurs manzillarini olib tashlaydigan va Internetda taqdim etiladigan narsalarning keng doirasini aks ettiradigan qidiruv tizimlari.

Dunyodagi eng mashhur meta-qidiruv tizimi - Search.com.

CNET, Inc. ning Search.com birlashtirilgan qidiruvi. deyarli yigirma qidiruv tizimlarini o'z ichiga oladi, ularga havolalar butun Internet bilan to'ldirilgan.

Ushbu turdagi qidiruv vositalaridan foydalanib, foydalanuvchi turli xil qidiruv tizimlarida ma'lumotlarni qidirishi mumkin, ammo bu tizimlarning salbiy tomonlarini ularning beqarorligi deb atash mumkin.

2.10 Odamlar qidiruv tizimlari

Odamlarni qidirish tizimlari - bu Internetda odamlarni qidirish imkonini beradigan maxsus serverlar, foydalanuvchi to'liq ismini ko'rsatishi mumkin. shaxsga murojaat qiling va uning elektron pochta manzilini va urlini oling. Shuni ta'kidlash kerakki, odamlarning qidiruv tizimlari asosan elektron pochta manzillari to'g'risida ma'lumotni Usenet yangiliklar guruhlari kabi ochiq manbalardan oladi. Eng taniqli odamlar orasida qidirish tizimlari:

Elektron pochta manzillarini qidiring

aloqa ma'lumotlarini qidirishning maxsus ustunlarida (ism. shahar, familiya, telefon raqami) siz qiziqqan ma'lumotlarni topishingiz mumkin.

Odamlarni qidirish tizimlari haqiqatan ham katta serverlardir, ularning ma'lumotlar bazalarida taxminan 6,000,000 manzillar mavjud.

3. Xulosa

Biz Internetda ma'lumot topishning asosiy texnologiyalarini ko'rib chiqdik va hozirgi vaqtda Internetda mavjud bo'lgan qidiruv vositalarini, shuningdek, eng mashhur rus tilidagi va ingliz tilidagi qidiruv tizimlari uchun qidiruv so'rovlari tuzilishini taqdim etdik va yuqorida aytib o'tilganlarni sarhisob qilib shuni ta'kidlamoqchimizki, bitta optimal sxema Internetda ma'lumot qidirish yo'q. Sizga kerak bo'lgan ma'lumotlarning o'ziga xos xususiyatlariga qarab siz tegishli qidirish vositalari va xizmatlaridan foydalanishingiz mumkin. Va qidiruv natijalarining sifati qidiruv xizmatlari qanchalik yaxshi tanlanganiga bog'liq.

Umumiy holda, so'rovlar jumlasini qidirish Internet sahifalarida amalga oshiriladi va ma'lum mezonlar va algoritmlardan foydalangan holda qidiruv natijalari saralanadi va foydalanuvchiga beriladi. Eng ko'p ishlatiladigan qidiruv tizimining reyting mezonlari:
- hujjatda so'rovdan so'zlarning mavjudligi, ularning soni, hujjat boshiga yaqinligi, bir-biriga yaqinligi;
- hujjatlar sarlavhalarida va pastki sarlavhalarida so'rovdan so'zlarning mavjudligi;
- boshqa hujjatlardan ushbu hujjatga havolalar soni;
- havola qilingan hujjatlarning "hurmatliligi".
Reyting mezonlaridan ko'rinib turibdiki, hujjatning dolzarbligining haqiqiy mezoni - so'rovda so'zlarning mavjudligi (qidiruv iborasi) - qidiruv natijalarida uning darajasiga sezilarli ta'sir ko'rsatmaydi. Bunday holat qidiruv sifatining pasayishiga olib keladi, chunki foydali bo'lishi mumkin bo'lgan hujjatlar, albatta, ularning "optimallashtirilgan" raqobatchilari tomonidan ro'yxatning oxiriga suriladi. Darhaqiqat, ko'pchilik qidiruv tizimlarida haqiqatan ham foydali manbalar qidiruv so'rovining ikkinchi uchinchi sahifasida joylashganligi bilan duch kelishdi. Bu erda topilgan hujjatlarni tartiblashtirish algoritmlarining samarasizligi namoyon bo'ladi. Bu ko'p jihatdan qidiruv so'rovlari o'rtacha uchdan beshta so'zdan iborat bo'lishiga bog'liq, ya'ni natijalarni samarali ravishda saralash uchun dastlabki ma'lumotlar etarli emas.

Va qidirishda muammolar ...

Topilgan hujjatlarni tartiblash algoritmlarining 100% samaradorligi bu erda namoyon bo'lmaydi. Albatta, bu holat ham yuzaga keladi, chunki foydalanuvchi qidiruvlari o'rtacha uchta so'zdan iborat. Ya'ni, qidiruv tizimlari uchun bunday dastlabki ma'lumotlar samarali SERP reytingi uchun juda kam.
Ikkinchi muammo, ma'lum bir foydalanuvchi uchun uning ehtiyojlari, ma'nosi va so'rov mavzusini hisobga olgan holda, bunday katta hajmdagi ma'lumotni (\u003d "dayjest", "o'ylab ko'ring", "asosiy narsani ajratib oling", "keraksiz va foydasiz" o'tlarni) qanday ishlash kerakligi, uning avvalgi qidiruv tarixi, geografik joylashuvi, qidiruv natijalariga qarashlari va boshqalar. Albatta, qidiruv tizimlari ushbu yo'nalishda faol rivojlanmoqda, ammo, shubhasiz, qidiruv tizimi mukammal emas. Chunki, bugungi kunda faqat odam topilgan ma'lumotlarning semantik foydaliligi, sifati, o'ziga xosligi va boshqalarni baholay oladi.

Qidiruv tizimlariga alternativalar

Shu sababli, muqobil ravishda, xizmatlar foydalanuvchiga kerak bo'lgan ma'lumotlarni qidirishni engillashtirish uchun qandaydir tarzda Internetni tuzadigan xizmatlar paydo bo'ladi. Hozirda allaqachon ijtimoiy xatcho'plar, kataloglar, torrent trekerlari, forumlar, ixtisoslashgan qidiruv tizimlari, fayl almashish va hk. Ushbu xizmatlarning barchasi Internetni u yoki bu darajada tuzadi va foydalanuvchi va unga kerak bo'lgan ma'lumotlar o'rtasidagi "masofani qisqartiradi" (filmlar, musiqa, kitoblar, savollarga javoblar va boshqalar). Va eng muhimi, "Internetni tuzadigan" foydalanuvchilarning o'zi.
Yo'q, bu erda qidiruv tizimlari foydasiz yoki unchalik samarali emasligi haqida hech qanday ishora yo'q. Ishonchim komilki, qidiruv tizimlari yuzaki va yuqori darajadagi ma'lumotlarni topish uchun juda mos keladi. Va chuqurroq ma'lumot, shu jumladan foydali kitoblar, maqolalar, jurnallar, musiqa va boshqalarni qidirish. (bularning hammasini yuklab olish imkoniyati bilan anglatadi) yuqorida aytib o'tilgan "Internetni tuzish" manbalari ko'proq mos keladi.

Qanday qilib Internetda adashib qolmaslik kerak?

Qisqacha:
1. Sirt ma'lumotlarini qidirish uchun, masalan, qidiruv tizimlaridan foydalaning http://google.com , http://yandex.ru, http://nigma.ru, http://nibbo.com
2. Mavzuga tegishli saytlarni qidirish uchun Internet-kataloglardan foydalaning, masalan,

Internetda kerakli ma'lumotlarni topish ko'pincha qiyin. Internet xaotik rivojlanmoqda, aniq belgilangan tuzilma yo'q. Hech kim bir domenda faqat ma'lum bir mavzu bo'yicha ma'lumot, boshqasida esa boshqasi haqida, ammo aniq belgilangan mavzu haqida ma'lumot bo'lishiga kafolat berolmaydi. Masalan .com domenlarida siz nafaqat tijorat ma'lumotlarini, balki, masalan, dasturiy mahsulotlar haqida turli xil hujjatlarni yoki hatto latifalarni ham topishingiz mumkin.

Agar domen tuzilishi katalog tuzilmasiga o'xshash bo'lsa, masalan, ru.comp.os.linux domenida (yangiliklar tizimidagi kabi) Linux operatsion tizimi haqida barcha ma'lumotlar rus tilida bo'ladi va ba'zi bir moderatorlar tashkiloti bunga ishonch hosil qiladi. boshqa domenlar Linux haqida ma'lumot bermagan bo'lsa, qidirish ancha oson kechadi. Axir biz qayerga murojaat qilishni bilamiz. Siz o'zingizning brauzeringizni ochasiz, ru.comp.os.linux-ga kirasiz va siz biron bir tarzda ... maqolalarga, HOWTO-larga va Linux bilan bog'liq boshqa ma'lumotlarga ... millionlab turli xil havolalarni olasiz.

Qidiruv samaradorligi

Axborotning o'zi - bir mavzu bo'yicha juda ko'p ma'lumot bo'lishi mumkin, ammo boshqasi haqida ozgina ma'lumot. Ba'zan siz ma'lum bir mavzu bo'yicha ko'plab ma'lumotlarni topishingiz mumkin, ammo ushbu qidiruv samaradorligi 0,0% ga yaqin bo'ladi, ammo siz faqat 3-4 ta havolani topishingiz mumkin va bu sizga kerak bo'lgan narsadir. Bu veb-ustaning ma'lumotni to'g'ri yuborish qobiliyatini ham o'z ichiga oladi, shunda qidiruv tizimlari o'zlari topishi mumkin .. Deylik, juda uzoq bir joyda sizga kerakli ma'lumotlar bor, ammo qidiruv tizimi bu haqda hech narsa bilmaydi. Ehtimol, ma'lumotlar yaqinda nashr etilgan yoki faqat ma'lumotni nashr etgan noshir, hatto qidiruv tizimlari mavjudligidan xabardor emas. Siz qidiruv tizimidan foydalanib ma'lumot qidirmoqdasiz. Agar u sizga kerakli ma'lumotlarni "bilmasa", demak, siz u haqida ham hech narsa bilmaysiz.
Qidiruv tizimidan - ko'plab qidiruv tizimlari mavjud va ularning barchasi boshqacha. Agar ular bir xil turga tegishli bo'lsa ham (qidiruv tizimlarining turlari haqida birozdan keyin gaplashamiz), shubhasiz, ularning har biri o'z algoritmiga ega bo'ladi. Agar bitta qidiruv tizimidan foydalanib ma'lumot topa olmasangiz, boshqasini qidirib toping. Sizga qanchalik yoqsa ham bitta qidiruv tizimiga osmang.
Ko'p narsa qidiruv tizimidan foydalanish qobiliyatiga - qidiruv tizimidan qanday foydalana olishingizga bog'liq. Agar siz qidiruv tizimidan qanday foydalanishni bilmasangiz, qidiruv samarali bo'lishi ehtimoldan yiroq emas.

Qanday qilib ma'lumotni to'g'ri qidirish kerak

Ko'pincha siz qidiruv tizimining katalogidan kerakli saytni tanlamaysiz, balki ma'lum bir kalit so'zni (yoki bir nechta kalit so'zlarni) kiriting, shunda siz ushbu kalit so'zni iloji boricha aniqroq ko'rsatishingiz kerak. Qidiruv mavzusini qanchalik aniq belgilasangiz, natija shunchalik aniq bo'ladi. Qidiruv tizim sizning fikrlaringizni taxmin qila olmaydi; unga nima qidirayotganingizni aniq ko'rsatib berishingiz kerak.

Har bir qidiruv tizimida siz bilishingiz kerak bo'lgan o'ziga xos sintaksis mavjud. Ushbu bob Google, Yandex va Rambler qidiruv tizimlari sintaksisini tavsiflaydi. Agar siz boshqa qidiruv tizimidan foydalanmoqchi bo'lsangiz, uning sintaksisini o'z veb-saytidan bilib olishingiz mumkin (odatda u batafsil tavsiflanadi).

Internet-qidiruv tizimlari

Endi qidiruv tizimlarining o'zi haqida gaplashamiz.

SpyLog (Openstat) ma'lumotlariga ko'ra, sobiq MDH hududida quyidagi qidiruv tizimlari eng ommabop hisoblanadi:

1. Yandex (www.yandex.ru);
2. Google (www.google.com);
3. TripAdvisor qidirish (go.mail.ru);
3. Rambler (www.rambler.ru);
5. Yahoo! (www.yahoo.com);
6. AltaVista (www.altavista.com);
7. Bing (www.bing.com).

Qidiruv tizimlar mashhurlikning kamayib boruvchi tartibida keltirilgan. Ko'rib turganingizdek, bizning oramizda eng ommabop - bu Yandex qidiruvi.

Qidiruv tizim turlari

indeks - Google, AltaVista, Rambler, HotBot, Yandex va boshqalar.
tasnif (katalog) - Rambler, Yahoo! va boshq.

Rambler qidiruvi ikki marta ro'yxatga olinganiga hayron bo'lmang - bu bir vaqtning o'zida ham indeks, ham tasnif edi. Biz bunga keyinroq qaytamiz, ammo hozirda ushbu ikki tizim o'rtasidagi farqlar to'g'risida gaplashamiz.

Indeks qidiruvi qanday ishlaydi? Qidiruv tizim veb-serverlarning tarkibini skanerlaydigan, ma'lumot indekslaydigan maxsus dasturni ishga tushiradi: ma'lum bir veb-sahifaning kalit so'zlarini, veb-sahifadagi ba'zi ma'lumotlarni o'z ma'lumotlar bazasiga kiritadi.

Google-ning qisqacha tarixi

Nomidan boshlaymiz. Google - googol so'zining biroz o'zgartirilgan versiyasi (uni bejiz "google" deb atashmaydi). O'z navbatida, bu so'zni taniqli matematik Edvard Kasnerning jiyani Milton Sirota kiritgan va keyinchalik Kasner va Nyumanning "Matematika va tasavvur" kitobida ommalashgan. "Googol" so'zida bitta bitta va 100 nol bo'lgan raqam ko'rsatiladi. "Google" nomi Internetdagi katta hajmdagi ma'lumotlarni tartibga solishga urinishni anglatadi.

Shunday qilib, boshidan boshlaymiz. Kelajakdagi Google ishlab chiquvchilari Sergey Brin va Larri Peyj 1999 yilda Stenford universitetida uchrashishgan. Keyin Larri 24 yoshda, Sergey esa 23 yoshda edi. Larri o'sha paytda Michigan universitetining talabasi bo'lgan va bir necha kun Stenfordga kelgan. Sergey mehmonlarni universitet bilan tanishtirishi kerak bo'lgan talabalar guruhida edi. Birinchi uchrashuvdan boshlab, Sergey va Larri, yumshoq qilib aytganda, bir-birlarini yoqtirmadilar - ular bahslashishi mumkin bo'lgan hamma narsalar haqida bahslashdilar. Oxir oqibat bu ijobiy lahzaga aylangan bo'lsa-da, chunki ularning har xil fikrlari kompyuterning eng dolzarb muammolaridan birini hal qilish algoritmini yaratishga olib keldi: ulkan ma'lumotlar qatoridan kerakli ma'lumotlarni topish. 1996 yil yanvar oyida Larri va Sergey ushbu veb-saytga ishora qiluvchi "orqaga" havolalarni tahlil qilishlari kerak bo'lgan BackRub qidiruv tizimida ishlashni boshladilar. Ushbu serverda ishlash doimiy mablag 'etishmasligidan olib borilardi - axir o'sha paytlarda Sergey va Larri universitetning aspirantlari edilar - aspirantlarda juda ko'p mablag' yo'qligini o'zingiz tushunasiz. Aytgancha, Larri bunday jiddiy loyihada birinchi marta ishtirok etdi va bundan oldin u har xil "beparvo", hatto ba'zan latifaviy loyihalar bilan shug'ullangan, masalan, u Lego to'plamidan ishlaydigan printerni qurgan.

Google qidiruv algoritmlari

Google interfeysi soddaligi bilan ajoyib: kirish maydoni va ikkita tugma. Ular aytganidek, hamma mohirlik oddiy.

Google maxsus (kengaytirilgan) sintaksis

Mantiqiy operatorlardan tashqari, Google sizga jadvalda keltirilgan qidiruv modifikatorlarini taqdim etadi. Qidiruv modifikatorlari maxsus Google sintaksis deb nomlanadi. Ushbu jadvalga jiddiy munosabatda bo'ling: modifikatorlar yordamida biror narsani qidirishga urinib ko'rsangiz, ulardan voz kechmaysiz.

Google inurl modifikatori

Inurl modifikatori belgilangan URLni qidirish uchun ishlatiladi. Va faqat bitta saytda yoki domendagi ma'lumotlarni qidirishga imkon beruvchi sayt modifikatoridan farqli o'laroq, inurl modifikatori saytning pastki kataloglarida ma'lumot izlashga imkon beradi, masalan:

inurl: siteskype-zvonim-besplatno

Inurl modifikatori domenni belgilash uchun * belgisidan foydalanishga imkon beradi, masalan:
inurl: "* .redhat.com"

Inurl-ni sayt bilan birgalikda ishlatish yaxshidir. Keyingi so'rovda gidmir.ru domenida, www dan tashqari barcha subdomainlarida ma'lumot qidiriladi.
sayt: gidmir.ru inurl: "* .gidmir" -inurl: "www.gidmir.ru"

Google qidiruv tili

Google aralash sintaksisga ruxsat beradi, ya'ni. so'rovda bir nechta maxsus qidiruv modifikatorlaridan foydalanadigan sintaksis. Bu sizga eng yaxshi natijaga erishishga imkon beradi.

Bu erda aralash sintaksisning eng oddiy misoli:
sayt: ru inurl: disk

Bunday holda, qidiruv domen saytlarida amalga oshiriladi va URL manzilida disk so'zi bo'lishi kerak.

Mana yana bir misol:
sayt: ru -inurl: org.ua

Qidiruv ru domeni saytlarida amalga oshiriladi, ammo qidiruv natijalari org.ua saytida joylashgan sahifalarni o'z ichiga olmaydi.

Google qidiruvlari

Ko'pgina oddiy Google foydalanuvchilari uchun 10 ta kalit chegarasi sezilmaydi. Ammo uzoq qidiruv ishqibozlari, ehtimol, Google faqat dastlabki 10 ta kalit so'zni hisobga olishini, qolganlari esa shunchaki e'tiborsiz qoldirilganligini payqashgan bo'lishi mumkin.

Nega uzun iboralarni izlash kerak? Ko'pgina hollarda, bu asarlaridan parchalar. Deylik, biz "Usta va Margarita" asarini qidirmoqdamiz. Shuni ta'kidlash kerakki, kalit so'z birikmasi "Master Margarita" ga o'xshab qolishi kerak, chunki qidiruv tizimi tomonidan va, yoki, va, ning, yoki, I, a, the va boshqa ba'zi so'zlar e'tiborga olinmaydi. Agar siz ushbu so'zlardan birini qidiruvga kiritishni majburlamoqchi bo'lsangiz, so'zdan oldin "+" belgisi bilan kiring, masalan + the.

So'rovlarni to'g'ri tuzish 10 ta so'z chegarasini engishga imkon beradi. Quyidagi ko'rsatmalar nafaqat so'rovlar uzunligini qisqartirishga, balki umumiy qidiruv ish faoliyatini yaxshilashga yordam beradi.

Kengaytirilgan Google qidiruvi

Biz brauzerning kirish qatoriga www.google.ru/advanced_search manzilini kiritamiz va kengaytirilgan Google qidiruviga o'tamiz.

Kengaytirilgan qidiruv yordamida siz ma'lumotni qidirish modifikatorlari kabi deyarli moslashuvchan ravishda qidirishingiz mumkin. Nima uchun "deyarli"? Kengaytirilgan qidiruv interfeysi barcha qidiruv modifikatorlariga kirishni ta'minlamaydi.

Brauzer kukilarida Google qidiruv xususiyatlarini sozlash

Men sizning boshingizni texnik tafsilotlar bilan chalg'itishni xohlamayman, shuning uchun sizga "Cookies" nima ekanligini qisqacha aytib beraman, ularni iste'mol qiladigan narsa yo'q, lekin ular bilan qanday ishlashingiz kerak.

Tasavvur qilaylik, oldimizda quyidagi vazifa turibdi: biz kompaniyamiz veb-saytining har bir mijozi uchun shaxsiy tashrif haqida hisobot yozishimiz kerak. Ya'ni, foydalanuvchi tashriflarning umumiy sonini ko'rmasligi uchun, bizning saytimizda necha marta bo'lganligini aniq biladi. Har bir IP-manzil uchun siz yozuvlarni bitta jadvalda saqlashingiz kerak, bu katta bo'lishi mumkin va bundan kelib chiqadiki, biz protsessor vaqtini va diskdagi bo'sh joyni behuda sarflaymiz. Ushbu joydan katta foyda bilan foydalanish biz tomonimizdan ancha to'g'ri bo'lar edi.

Google qidiruvi natijasi

Google qidiruvi natijasi faqat ko'rsatilgan qidiruv shartlariga mos keladigan havolalar to'plami emas. Bu alohida e'tiborga loyiq bo'lgan yana bir narsa. "Rusopen" so'zini kiriting va Google Search tugmasini bosing.

Yuqorida biz natijalarning umumiy sonini (883,000,000) va qidiruvning umumiy vaqtini, ya'ni 0,34 soniyani ko'ramiz.

sahifa nomi;
sahifa tavsifi;
Sahifaning URL manzili;
sahifa hajmi;
sahifaning oxirgi indekslangan sanasi;

Google rasmlarni qidirish

Google Images Internetda turli xil rasmlarni topishga imkon beradi. Rasmlarning o'zlarini indekslash mumkin emasligiga qaramay, ushbu rasmlarni o'z ichiga olgan sahifalar indekslanadi. Rasm uchun tavsifni kiriting va juda ko'p havolalarni, shuningdek galereya shaklida taqdim etilgan rasmlarning o'zlarini oling.

intitle: - sahifa sarlavhasida qidirish;
filetype: - rasm turini ko'rsatishga imkon beradi, siz quyidagi turlarni belgilashingiz mumkin: BMP, PNG emas, balki JPEG va GIF, boshqa turdagi rasmlar indekslanmaydi;
inurl: - ko'rsatilgan URL bo'yicha qidirish, masalan inurl: www.gidmir.ru;
sayt: Belgilangan domenni yoki saytni qidiradi, masalan site: com.

Google xizmatlari

Google - 3 milliarddan ortiq sahifaga ega kuchli qidiruv tizimi. Google oddiy veb-sahifalardan tashqari Word, Excel, PowerPoint, PDF va RTF formatidagi fayllarni indekslaydi. Google rasmlari va telefon raqamlarini navbati bilan Google Images va Phonebook orqali qidirish uchun Google-dan foydalanishingiz mumkin. Ushbu maqolada biz Google maxsus xizmatlari haqida gaplashamiz.

Google elektron pochtasi

Google pochtasidan foydalanib ko'ring. Shuni ta'kidlash kerakki, bu sizning doimiy veb-pochtangiz emas.

katta pochta qutisi hajmi - 7 GB dan ortiq;
xatlarni o'chirish o'rniga ularni arxivlashingiz mumkin - shunda siz uchun uzoq vaqt etarli joy bo'ladi va siz bir necha yil oldin olgan yoki yuborgan xatlarni tiklashingiz mumkin;
pochta qutingizni Google samaradorligi bilan qidirish qobiliyati;
xatlar va ularga javoblarni qulay tashkil etish: barcha xatlar va javoblar bitta zanjirni tashkil qiladi, ularni kuzatib borish oson;
spamdan yaxshi himoya qilish;
unutilmas manzil [email protected];
qulay interfeys.

Rambler qidiruvi

Rambler tarixi

Bularning barchasi 1991 yilda Moskva viloyatining Pushchino shahrida boshlangan. O'sha uzoq yilda Dmitriy Kryukov, Sergey Lysakov, Viktor Voronkov, Vladimir Samoilov, Yuriy Ershov kabi bir guruh fikrlovchi odamlar to'plandilar. Ushbu guruhning umumiy qiziqishi Internet edi. Ehtimol, 1991 yilda, kelajakdagi Rambler ishlab chiquvchilarining hech biri, ular Runetdagi eng katta va eng mashhur qidiruv tizimlaridan birining yaratuvchisi bo'lishlarini tasavvur qilmagan edilar. Axir, bundan oldin ularning barchasi Rossiya Fanlar akademiyasining Biokimyo va mikroorganizmlar fiziologiyasi institutida radiotexnika qurilmalariga xizmat qilishgan. 1992 yilda Sergey Lysakov boshchiligidagi "Stack" kompaniyasi yaratildi. Kompaniyaning profili - bu mahalliy tarmoqlar va Internet. Aslida Stack Internet-provayder edi. Firma shahar ichi tarmog'ini yaratdi, keyin Pushchinoni Moskvaga, u orqali esa Internetga uladi. Aytgancha, bu Moskvadan tashqariga chiqqan birinchi IP-kanal edi. Va bu 1992 yilda! Endi kanalni yotqizish juda muammoli - har doim juda ko'p nuanslar bo'ladi, ammo keyinchalik kabellarni mustaqil ravishda, qo'lda, er osti bilan yotqizish kerak edi va bularning barchasi qishda amalga oshirildi.

Rambler qidiruvi qanday ishladi

Internet doimo rivojlanib bormoqda: saytlar soni va ularning hajmi har kuni oshib bormoqda. Axir tasavvur qiling: katta saytlar har kuni yangilanadi, hatto yangilanishlar hajmi 1024 bayt (1 KB) bo'lsa, unda 10000 ta bunday saytlar mavjud deb hisoblasak, har kuni qidiruv tizimida 10 000 KB (taxminan 10 MB) ishlov berish kerak (indeks). ) ma `lumot. 10000 raqami "shiftdan" olinadi - masalan. Bu yuqoriroq yoki pastroq bo'lishi mumkin - hatto katta saytlar ham har kuni yangilanib turilmaydi. Yangilanish hajmi ham juda katta. Tasavvur qiling, deyarli har kuni yangi maqolalar chop etiladigan yoki boshqa saytlarning materiallari qayta nashr etiladigan axborot-tahliliy sayt. Bunday holda, yangilanishlar hajmi 1 KB dan uzoqroq bo'ladi, lekin kamida 10. Bu barcha yangiliklarga va boshqa ma'lumotlarga qo'shib ko'ring, shunda 10000 yangilangan saytlar soni bilan qidiruv tizimi 120 Mb matnni indekslashi kerak. Va bularning barchasi bilan qidiruv tizimi nafaqat qidiruv natijalarini to'g'ri ko'rsatishi, balki foydalanuvchi u bilan ishlashga qulay bo'lishi uchun uni imkon qadar tezroq bajarishi kerak. Kim qidiruv natijalarini 10 daqiqa kutishni xohlaydi? Men buni, albatta, bo'rttirib yubormoqdaman, lekin shaxsan men qidiruv natijalarini 30 soniyadan ko'proq kutmas edim (Topish tugmachasini bosganingizdan boshlab birinchi o'nta natijalar paydo bo'lguncha). Ma'lum bo'lishicha, qidiruv tizimini ishlab chiquvchilar nafaqat doimiy ravishda o'sib boradigan hajmdagi ma'lumotlarni qayta ishlashga qodir bo'lgan "apparat" larni emas, balki "matematikani" faqat apparat tomonidan qabul qilib bo'lmaydi. Qidiruv algoritmlarini doimiy ravishda takomillashtirish kerak, shunda qidiruv bazasi hajmining oshishi bilan qidirish vaqti ko'paymaydi (vaqtning sezilarli o'sishini nazarda tutaman - bu foydalanuvchi uchun qidiruvning 2,5 soniya yoki 2,0555 soniya davomida qancha davom etishi hech qanday farq qilmaydi, chunki u taxmin qila olmaydi) bu gal).

Rambler so'rovlari, Rambler sintaksisi

Ramblerga so'rov bir yoki bir nechta so'zlardan iborat bo'lishi mumkin va so'rovda tinish belgilari bo'lishi mumkin. Rambler ishlab chiquvchilari o'zlarining qidiruv tizimini foydalanuvchilarga maksimal darajada qulaylik yaratish maqsadida ishlab chiqdilar. Ramblerni hatto so'rovlar tili bilan umuman tanish bo'lmagan tajribasiz foydalanuvchi ham ishlatishi mumkin. U faqat bir nechta so'zlardan (masalan, ba'zi bir iboralardan) iborat va tinish belgilarisiz so'rovni kiritishi kerak edi - Rambler o'zi kerakli hujjatlarni topdi va u buni iloji boricha samarali qildi. Albatta, agar so'rovlar tili to'g'ri ishlatilgan bo'lsa, samaradorlik sezilarli darajada oshgan, ammo so'rovlar tilidan to'liq bexabar bo'lgan taqdirda ham qidirish samaradorligi yuqori darajada bo'lgan. Yuqorida ta'kidlab o'tilganidek, so'rovlar tilini bilish sizning qiziqishingizga mos keladi, shunchaki kerakli ma'lumotlarni tezroq topishingiz mumkin.

Yandex qidiruvi (Yandex)

Tarixiy ma'lumotnoma

1990 yilda Arkadiy Borkovskiy va Arkadiy Voloj boshchiligidagi Arcadia kompaniyasida qidiruv dasturlarini ishlab chiqish boshlandi. Olti yildan so'ng Yandex veb-sayti paydo bo'ldi. Ammo bu olti yil ichida nima sodir bo'ldi?

Ikki yil ichida ikkita axborot qidirish tizimi yaratildi - "Ixtirolarning xalqaro tasnifi" va "Tovarlar va xizmatlar klassifikatori". Ikkala tizim ham DOS ostida ishlagan va mantiqiy operatorlar yordamida berilgan lug'atdan so'z izlashga imkon bergan.

1993 yilda Arcadia CompTek bo'linmasiga aylandi. 1993-1994 yillar davomida qidiruv texnologiyalari sezilarli darajada takomillashtirildi, masalan, rus tilining morfologiyasini hisobga olgan holda qidirishni ta'minlaydigan lug'at atigi 300 KB ni egallagan, ya'ni u RAMga bemalol kirib boradi va u bilan ishlash juda tez davom etadi. Ushbu yangi texnologiya asosida 1994 yilda "Injil kompyuterlari haqida ma'lumotnoma" yaratildi - Eski va Yangi Ahdning tarjimalari bilan ishlaydigan axborot qidirish tizimi.

Yandex tilini qidirish

Qidiruv mexanizmi siz kiritgan so'zni qanday izohlaydi?

1-qoida. Ma'lum bo'lishicha, tizim uni rus tilining qoidalariga binoan sharhlaydi. Misol: Agar siz "mashina" so'zini kiritgan bo'lsangiz, unda siz "avtomobillar", "mashina" va hk so'zlarini o'z ichiga olgan natijalarga erishasiz. Xuddi shu fe'llar bilan ham - "ketish" so'rovi bo'yicha siz "borish", "ketmoq", "yurish", "yurish" va hk so'zlarini o'z ichiga olgan hujjatlarni olasiz. Ko'rib turganingizdek, qidiruv tizimi siz o'ylagandan ko'ra aqlli - bu shunchaki ma'lumotlar bazasida ma'lum bir so'zni topish vositasi emas.
Qoida 2. Bosh harf bilan yozilgan so'zlarga alohida e'tibor beriladi. Agar so'z bosh harf bilan yozilgan bo'lsa va gapda birinchi bo'lmasa, faqat katta harflar bilan yozilgan so'zlar topiladi. Aks holda, so'zlar katta va kichik harflar bilan yozilgan holda topiladi. Misol: so'rov bo'yicha "Soliq A". "soliq" (yig'im) va "soliq" (familiya) ni o'z ichiga olgan hujjatlar topiladi, chunki "soliq" so'zi katta harf bilan yozilgan, ammo bu jumla ichida birinchi. Ammo "A. Taxa" so'rovida faqat katta harf bilan yozilgan "Taxa" so'zini o'z ichiga olgan hujjatlar topiladi.

Yandex sintaksisi

Odatiy bo'lib, Yandeks mantiqiy operatoridan AND foydalanadi, demak siz "Samsung TV" so'rovini kiritgan bo'lsangiz, natijada siz "TV" va "Samsung" so'zlari bir xil jumla ichida joylashgan hujjatlarni olasiz. Agar AND operatorini aniq ko'rsatishni istasangiz, ampersand & belgisidan foydalaning. Boshqacha qilib aytganda, "Samsung TV" so'rovi "TV & Samsung" so'rovi bilan bir xil. Siz "TV + Samsung" so'rovidan ham foydalanishingiz mumkin.

Agar siz teskari effektni xohlasangiz, ya'ni. agar siz "TV" alohida so'zi va "Samsung" alohida so'zi bo'lgan hujjatlarni olishni istasangiz, OR operatoridan (|) foydalanishingiz kerak, masalan: "TV | Samsung".

Yandex so'rov sintaksisi

Yandex hujjat matnidagi barcha so'zlarni tartibda raqamlaydi. Qo'shni so'zlar orasidagi masofa 1 ga teng (0 emas!) Va teskari tartibda so'zlar orasidagi masofa -1 ga teng. Xuddi shu narsa takliflarga tegishli.

So'zlar orasidagi masofani ko'rsatish uchun a / qo'yiladi, so'ngra darhol raqam qo'yiladi, ya'ni bu so'zlar orasidagi masofa. Masalan, "ishlab chiquvchi / 2 dastur" so'rovida "ishlab chiquvchi" va "dasturlar" so'zlarini o'z ichiga olgan hujjatlar topiladi va so'zlar orasidagi masofa ikki so'zdan oshmasligi kerak va bu so'zlarning barchasi bitta gapda bo'lishi kerak. Bunday holda, "dastur ishlab chiquvchi", "tizim dasturiy ta'minotini ishlab chiquvchi" va boshqalarni o'z ichiga olgan hujjatlar topiladi.

Agar biz masofa va so'zlarning tartibini aniq bilsak, unda sintaksisdan foydalanishimiz mumkin / + n. Masalan, "qizil / + 1 shapka" so'rovi "qizil" so'zidan keyin darhol "shapka" so'ziga olib keladi. "Qizil qalpoqcha" so'rovi xuddi shu natijaga olib keladi.

Yandex qidiruv operatorlari

Qavslar so'rovda butun bir ifodani ifodalash uchun ishlatiladi. Masalan, "(tarix | texnologiya | dasturlar) / + 1 Linux" so'rovida "Linux tarixi", "Linux texnologiyasi", "Linux dasturlari" iboralaridan birini o'z ichiga olgan hujjatlar topiladi.

Mintaqalar

Zona - kerakli ma'lumotlarni topadigan joy. Siz qidirmoqchi bo'lgan zonani belgilashingiz mumkin - sarlavhalar (Sarlavha zonasi), havolalar (langar) yoki manzil (Manzil). Hujjatni to'liq qidirish uchun barcha zonadan foydalanishingiz mumkin.

Sintaksis: $ zone_name so'rovi.

Masalan: $ title so'rovi "(! LANG: Microsoft" найдет все документы, в заголовках которых встречается точная фраза "Microsoft".!}

Yandex-ning qo'shimcha qidirish imkoniyatlari

Google qidiruvi qidiruv saytini ma'lum bir serverlar ro'yxatida cheklash yoki aksincha, ba'zi serverlarni qidiruv ro'yxatidan chiqarib tashlashga imkon berdi. Aynan shu imkoniyatlar Yandex qidiruv tizimida mavjud. Shuningdek, muayyan URL yoki rasmlarga havolalari bo'lgan hujjatlarni qidirishingiz mumkin. Fayl uchun niqobni belgilashda (masalan, rasm), barcha belgilarni anglatadigan * belgisidan foydalanishingiz mumkin, masalan: "audi- *".

Sintaksis quyidagicha: # item_name \u003d "qiymat".

vVyacheslav Tixonov, 2000 yil noyabratomzone.hypermart.net

1.Kirish

2. Qidiruv tizimlar

2.1. Qidiruv tizimlar qanday ishlaydi 2.2. Qidiruv tizimlarning qiyosiy sharhi

3. Robotlarni qidirish

3.1. Qidiruv robotlardan foydalanish

3.1.1. Statistik tahlil 3.1.2. 3.1.3 gipermatniga xizmat ko'rsatish. Yansıtma 3.1.4. Resurs tadqiqotlari 3.1.5. Kombinatsiyalangan foydalanish

3.2. Qidiruv robotlardan foydalanishda xarajatlarning ko'payishi va yuzaga kelishi mumkin bo'lgan xavf

3.2.1 Tarmoq resursi va server yuklanishi 3.2.2 Hujjatlarni yangilash

3.3. Robotlar / mijozlar agentlari

3.3.1 Robotlarning yomon dasturiy ta'minoti

4.1. Robot tomonidan qanday ma'lumotlarni kiritish / chiqarib tashlashni aniqlash 4.2. Fayl formati /robots.txt. 4.3. /Robots.txt faylining yozuvlari 4.4. Kengaytirilgan formatdagi sharhlar. 4.5. Tarmoq bo'ylab harakatlanish tartibini aniqlash 4.6. Ma'lumotlarni sarhisob qilish

5. Xulosa

1.Kirish

Internetda ishlatiladigan asosiy protokollar (bundan keyin - Tarmoq) etarli o'rnatilgan qidirish funktsiyalari bilan ta'minlanmagan, unda joylashgan millionlab serverlar haqida gapirmasa ham bo'ladi. Internetda ishlatiladigan HTTP protokoli faqat navigatsiya uchun foydalidir, bu faqat sahifalarni ko'rish, ularni topmaslik vositasi sifatida qaraladi. Xuddi shu narsa HTTPdan ham ibtidoiy bo'lgan FTP uchun ham amal qiladi. Internetda mavjud bo'lgan ma'lumotlarning tez sur'atlarda o'sishi bilan navigatsion ko'rish usullari samaradorligi u yoqda tursin, o'zlarining funktsional imkoniyatlari chegarasiga tez yetib bormoqda. Muayyan raqamlarni ko'rsatmasdan, endi kerakli ma'lumotlarni zudlik bilan olishning iloji yo'q, deb aytishimiz mumkin, chunki hozirda Internetda milliardlab hujjatlar mavjud va ularning barchasi Internet foydalanuvchilari ixtiyorida, bundan tashqari, bugungi kunda ularning soni eksponentga bog'liqlikka qarab ko'paymoqda. Ushbu ma'lumot kiritilgan o'zgarishlarning soni juda katta va eng muhimi, ular juda qisqa vaqt ichida sodir bo'lgan. Asosiy muammo shundaki, dunyo miqyosidagi barcha Internet foydalanuvchilari uchun bir vaqtning o'zida mavjud bo'lgan bunday hajmdagi ma'lumotlarni yangilash va kiritish uchun yagona to'liq funktsional tizim mavjud bo'lmagan. Internetda to'plangan ma'lumotni tuzish va uning foydalanuvchilariga kerakli ma'lumotlarni topishning qulay vositalari bilan ta'minlash uchun qidiruv tizimlari yaratilgan.

2. Qidiruv tizimlar

Qidiruv tizimlar odatda uchta tarkibiy qismdan iborat:

internetda sayohat qiladigan va ma'lumot to'playdigan agent (o'rgimchak yoki brauzer);

o'rgimchaklar tomonidan to'plangan barcha ma'lumotlarni o'z ichiga olgan ma'lumotlar bazasi;

odamlar ma'lumotlar bazasi bilan aloqa qilish uchun interfeys sifatida foydalanadigan qidiruv tizimi.

2.1 Qidiruv motorlar qanday ishlaydi

Ba'zida qidiruv tizimlari deb ataladigan qidirish va tuzilish vositalari odamlarga kerakli ma'lumotlarni topishda yordam berish uchun ishlatiladi. Internetda hujjatlar haqida ma'lumot to'plash uchun agentlar, o'rgimchaklar, brauzerlar va robotlar kabi qidiruv vositalaridan foydalaniladi. Bular Internetdagi sahifalarni qidiradigan, o'sha sahifalardan gipermatnli havolalarni chiqaradigan va ma'lumotlar bazasini yaratish uchun avtomatik ravishda indekslaydigan maxsus dasturlardir. Har bir qidiruv tizimida hujjatlarni qanday to'plashni tartibga soluvchi o'ziga xos qoidalar mavjud. Ba'zilar har bir sahifadagi har bir havolani kuzatib boradilar va keyin o'z navbatida har bir yangi sahifadagi har bir havolani o'rganadilar va hokazo. Ba'zi odamlar grafik va ovozli fayllarga, animatsion fayllarga olib keladigan havolalarni e'tiborsiz qoldiradilar; boshqalar WAIS ma'lumotlar bazalari kabi manbalarga havolalarni e'tiborsiz qoldiradilar; boshqalarga birinchi navbatda eng ommabop sahifalarni ko'rib chiqish buyurilgan.

Agentlar qidiruv tizimlarining eng aqlli. Ular shunchaki qidirishdan ko'proq narsani qilishlari mumkin: hatto sizning nomingizdan bitimlar tuzishlari mumkin. Zotan, ular ma'lum bir mavzu bo'yicha saytlarni qidirib topishlari va tashriflari bo'yicha tartiblangan saytlarning ro'yxatlarini qaytarishlari mumkin. Agentlar nafaqat sahifalarni, balki hujjatlarning tarkibini qayta ishlashi, boshqa turdagi manbalarni topishi va indekslashi mumkin. Bundan tashqari, ularni oldindan mavjud bo'lgan ma'lumotlar bazalaridan ma'lumot olish uchun dasturlash mumkin. Agentlar ko'rsatadigan ma'lumotlardan qat'i nazar, ular qidiruv tizimining ma'lumotlar bazasiga qaytariladi.

Internetdagi ma'lumotni umumiy izlash o'rgimchak deb nomlanuvchi dasturlar tomonidan amalga oshiriladi. O'rgimchaklar topilgan hujjatning mazmuni haqida xabar beradi, uni indekslaydi va xulosa ma'lumotlarini chiqaradi. Shuningdek, ular sarlavhalarni, ba'zi bir havolalarni ko'rib chiqadi va indekslangan ma'lumotlarni qidiruv tizimining ma'lumotlar bazasiga yuboradi.

Crawlers sarlavhalarni ko'rib chiqadi va faqat birinchi havolani qaytaradi.

Robotlar dasturlash uchun turli xil chuqurlikdagi turli havolalarni kuzatishi, hujjatdagi indekslari va hatto havolalarini tekshirishi mumkin. Tabiatiga ko'ra, ular ilmoqlarga yopishib olishlari mumkin, shuning uchun havolalarni kuzatib borish uchun ularga muhim veb-resurslar kerak. Biroq, robotlar egalari ularni indeksatsiya qilinishini istamaydigan saytlarda qidirishni oldini olishga qaratilgan usullar mavjud.

Agentlar har xil turdagi ma'lumotlarni oladi va indekslaydi. Ba'zilar, masalan, duch kelgan hujjatdagi har bir so'zni indeksatsiya qiladilar, boshqalari har birida faqat eng muhim 100 so'zni indekslaydi, hujjatning hajmi va so'zlar sonini, sarlavha, sarlavha va pastki sarlavhalarni va boshqalarni indekslaydi. O'rnatilgan indeks turi qidiruv tizimi tomonidan qaysi qidiruvni amalga oshirishi va natijada olingan ma'lumot qanday talqin qilinishini belgilaydi.

Agentlar, shuningdek, Internetda harakat qilishlari va ma'lumot topishlari, so'ngra qidiruv tizimining ma'lumotlar bazasiga kiritishlari mumkin. Qidiruv tizim ma'murlari qaysi saytlarga yoki sayt turlarining agentlariga tashrif buyurishi va indekslashi kerakligini aniqlay oladi. Indekslangan ma'lumotlar qidiruv tizimining ma'lumotlar bazasiga yuqorida aytib o'tilganidek yuboriladi.

Odamlar o'z ma'lumotlarini yuborishni istagan bo'lim uchun ma'lum bir shaklni to'ldirib, to'g'ridan-to'g'ri indeksga ma'lumot yuborishlari mumkin. Ushbu ma'lumotlar ma'lumotlar bazasiga o'tkaziladi.

Kimdir Internetda mavjud bo'lgan ma'lumotlarni topishni xohlasa, qidiruv tizimining sahifasiga tashrif buyurib, kerakli ma'lumotlarni batafsil bayon etgan shaklni to'ldiradi. Bu erda asosiy so'zlar, sanalar va boshqa mezonlardan foydalanish mumkin. Qidiruv shaklidagi mezon veb-saytni boshqarish paytida agentlar tomonidan topilgan ma'lumotlarni indeksatsiya qilishda foydalanadigan mezonlarga mos kelishi kerak.

Ma'lumotlar bazasi to'ldirilgan shakldagi ma'lumotlar asosida so'rov mavzusini oladi va ma'lumotlar bazasi tomonidan tayyorlangan tegishli hujjatlarni chiqaradi. Ma'lumotlar bazasida hujjatlar ro'yxati ko'rsatilish tartibini aniqlash uchun reyting algoritmi qo'llaniladi. Ideal holda, foydalanuvchi so'roviga eng mos keladigan hujjatlar ro'yxatda birinchi o'rinda turadi. Turli xil qidiruv tizimlari turli xil reyting algoritmlaridan foydalanadilar, ammo dolzarbligini aniqlashning asosiy tamoyillari quyidagilardan iborat:

Hujjatning matn tarkibidagi so'rov so'zlari soni (ya'ni HTML kodida).

Ushbu so'zlar joylashgan teglar.

Hujjatdagi qidiruv so'zlarining joylashuvi.

Hujjatdagi so'zlarning umumiy sonida ahamiyati aniqlangan so'zlarning nisbati.

Ushbu tamoyillar barcha qidiruv tizimlariga tegishli. Quyida keltirilganlardan ba'zilari foydalanadi, ammo taniqli (AltaVista, HotBot kabi).

Vaqt - sahifa qidiruv tizimining ma'lumotlar bazasida qancha vaqt bo'lgan. Avvaliga bu juda ma'nosiz printsipga o'xshaydi. Ammo, agar siz Internetda ko'pi bilan bir oy yashaydigan qancha sayt mavjudligini o'ylab ko'rsangiz! Agar sayt uzoq vaqtdan beri mavjud bo'lsa, demak, egasi ushbu mavzuda juda tajribali va foydalanuvchi dunyoga bir necha yil oldin xuddi shu mavzu bilan paydo bo'lganidan ko'ra, stol xatti-harakatlari qoidalari to'g'risida translyatsiya qilgan sayt uchun ko'proq mos keladi.

Iqtiboslar indeksi - berilgan sahifaga qancha havolalar qidiruv tizimida ro'yxatdan o'tgan boshqa sahifalardan olib keladi.

Ma'lumotlar bazasi xuddi shunday tartiblangan HTML hujjatlar ro'yxatini chiqaradi va so'rov yuborgan shaxsga qaytaradi. Turli xil qidiruv tizimlari, natijada ro'yxatni aks ettirishning turli usullarini tanlashadi - ba'zilari faqat havolalarni ko'rsatadi; boshqalar hujjat tarkibidagi dastlabki bir nechta jumlalar bilan bog'lanishlarni yoki havola bilan birga hujjat sarlavhasini namoyish etadi.

2.2 Qidiruv tizimlarning qiyosiy obzori

Likoslar ... Lycos quyidagi indeksatsiya mexanizmidan foydalanadi:

so'zlar sarlavha sarlavhalar birinchi o'ringa chiqadi;

sahifaning boshidagi so'zlar;

Ko'pgina tizimlar singari, Lycos ham oddiy so'rov va murakkab qidirish usulini taklif etadi. Oddiy so'rovda tabiiy tildagi jumla qidiruv mezonlari sifatida kiritiladi, shundan so'ng Likos so'rovni undan to'xtash so'zlari deb olib tashlash orqali normallashtiradi va shundan keyingina uning bajarilishini boshlaydi. Deyarli bir zumda har bir so'z uchun hujjatlar soni to'g'risidagi ma'lumotlar, keyinroq rasmiy ravishda tegishli hujjatlarga havolalar ro'yxati ko'rsatiladi. Har bir hujjat ro'yxati uning so'rovga yaqinligini, hujjatga tushgan so'zlarning sonini va rasmiy ravishda ko'proq yoki kamroq hisoblab chiqilgan taxminiy yaqinlik o'lchovini ko'rsatadi. Mantiqiy operatorlarni atamalar bilan bir qatorda kiritolmasangiz ham, Lycos menyu tizimi orqali mantiqdan foydalanishingiz mumkin. Ushbu imkoniyat ushbu mexanizm bilan ishlashni allaqachon o'rganib chiqqan zamonaviy foydalanuvchilar uchun mo'ljallangan ilg'or so'rov shaklini yaratish uchun ishlatiladi. Shunday qilib, Lycos "shunga o'xshash" turdagi so'rovlar tiliga ega tizimga tegishli ekanligini ko'rish mumkin, ammo uni qidirish retseptlarini tashkil qilishning boshqa usullariga kengaytirish rejalashtirilgan.

AltaVista ... Ushbu tizimda indeksatsiya robot tomonidan amalga oshiriladi. Robot quyidagi ustuvor vazifalarga ega:

sahifaning boshidagi asosiy iboralar;

so'z birikmalarining paydo bo'lish soni bo'yicha asosiy iboralar;

Agar sahifada teglar bo'lmasa, u birinchi 30 so'zdan foydalanadi, ularni indeksatsiya qiladi va tavsif o'rniga (teg tavsifi)

AltaVista-ning eng qiziqarli xususiyati - bu kengaytirilgan qidiruv. Shuni ta'kidlash kerakki, boshqa ko'plab tizimlardan farqli o'laroq, AltaVista bitta NOT operatorini qo'llab-quvvatlaydi. Bundan tashqari, NEAR operatori ham mavjud bo'lib, u hujjat matnida atamalar yonma-yon joylashgan bo'lishi kerak bo'lganda kontekstli qidirish imkoniyatini amalga oshiradi. AltaVista asosiy iboralarni izlashga imkon beradi, shu bilan birga u juda katta frazeologik lug'atga ega. Boshqa narsalar qatorida, AltaVista-da qidirishda siz so'z paydo bo'lishi kerak bo'lgan maydon nomini belgilashingiz mumkin: gipermatnli havola, applet, rasm nomi, sarlavha va boshqa qatorlar. Afsuski, tartiblash tartibi tizim uchun hujjatlarda batafsil tavsiflanmagan, ammo oddiy qidirish uchun ham, kengaytirilgan so'rov uchun ham reyting qo'llanilishini ko'rish mumkin. Aslida, ushbu tizim kengaytirilgan mantiqiy qidiruvga ega tizim sifatida tasniflanishi mumkin.

Yahoo ... Ushbu tizim Internetda birinchilardan bo'lib paydo bo'ldi va bugungi kunda Yahoo ko'plab ma'lumotlarni qidirish vositalarini ishlab chiqaruvchilar bilan hamkorlik qilmoqda va uning turli xil serverlarida turli dasturiy ta'minotlardan foydalanilmoqda. Yahoo tili juda sodda: barcha so'zlarni bo'sh joy bilan ajratish kerak, ular VA yoki OR bilan bog'langan. Chiqarishda hujjatning so'rovga muvofiqligi darajasi ko'rsatilmaydi, lekin faqat so'rovnomada hujjatdagi so'zlarning ostiga chiziladi. Shu bilan birga, so'z birikmasi normallashtirilmaydi yoki "umumiy" so'zlar uchun tahlil qilinmaydi. Yaxshi qidiruv natijalari faqat foydalanuvchi ma'lumot Yahoo ma'lumotlar bazasida ekanligini aniq bilganida olinadi. Reyting hujjatdagi so'rovlar atamalari soniga asoslangan. Yahoo izlash imkoniyatlari cheklangan oddiy an'anaviy tizimlar sinfiga kiradi.

OpenText ... OpenText axborot tizimi Internetdagi eng tijoratlashtirilgan axborot mahsulotidir. Barcha tavsiflar ma'lumot beruvchi ish yo'riqlaridan ko'ra ko'proq reklama kabi. Tizim mantiqiy ulagichlar yordamida izlashga imkon beradi, ammo so'rov hajmi uchta atama yoki iboralar bilan cheklangan. Bunday holda, biz kengaytirilgan qidiruv haqida gapiramiz. Natijalarni berishda hujjatning so'rovga muvofiqligi darajasi va hujjat hajmi haqida xabar beriladi. Tizim shuningdek, an'anaviy mantiqiy qidirish uslubida qidiruv natijalarini yaxshilashga imkon beradi. Agar reyting mexanizmi uchun bo'lmasa, OpenText an'anaviy ma'lumot qidirish tizimi sifatida tasniflanishi mumkin.

Infoseek ... Ushbu tizimda indeks robot tomonidan yaratiladi, ammo u butun saytni emas, faqat ko'rsatilgan sahifani indekslaydi. Bundan tashqari, robot quyidagi ustuvor vazifalarga ega:

sarlavhadagi so'zlar sarlavha eng yuqori ustuvorlikka ega bo'lish;

kalit so'zlardagi so'zlar, tavsif yorlig'i va matnning o'zida takrorlanishlar chastotasi;

bir xil so'zlarni yonma-yon takrorlashda ularni indeksdan chiqarib tashlaydi

Kalit so'zlar yorlig'i uchun 1024 ta belgiga, tavsif yorlig'i uchun 200 ta belgiga ruxsat beradi;

Agar hech qanday teg ishlatilmagan bo'lsa, sahifadagi dastlabki 200 so'zni indekslang va uni tavsif sifatida ishlating;

Infoseek tizimi etarlicha rivojlangan axborot qidirish tiliga ega, bu nafaqat qaysi atamalarni hujjatlarda topish kerakligini ko'rsatibgina qolmay, balki ularni o'ziga xos tarzda tortib olishga imkon beradi. Bunga "+" maxsus belgilar yordamida erishiladi - bu hujjatda atama bo'lishi kerak, va "-" - muddat hujjatda yo'q bo'lishi kerak. Bundan tashqari, Infoseek kontekstli qidiruv deb ataladigan narsalarga imkon beradi. Bu shuni anglatadiki, maxsus so'rov shaklidan foydalanib, siz so'zlarning izchil birgalikda bo'lishini talab qilishingiz mumkin. Bundan tashqari, ba'zi so'zlar nafaqat bitta hujjatda, balki alohida xatboshida yoki sarlavhada ham paydo bo'lishi kerakligini belgilashingiz mumkin. So'z tartibiga qadar bitta butunlikni ifodalovchi asosiy iboralarni ko'rsatish mumkin. Chiqarish paytida tartiblash hujjatdagi so'rovlar atamalari soni, odatiy so'zlarni olib tashlagan so'rovlar jumlalari soni bo'yicha amalga oshiriladi. Ushbu omillarning barchasi ichki protsedura sifatida ishlatiladi. Qisqacha xulosa qilib aytadigan bo'lsak, Infoseek izlanishda atamalarni vaznini aniqlash elementiga ega an'anaviy tizimlarga tegishli.

WAIS ... WAIS - bu Internetdagi eng zamonaviy qidiruv tizimlaridan biri. Unda faqat loyqa qidiruv va ehtimolli qidiruv amalga oshirilmaydi. Ko'pgina qidiruv tizimlaridan farqli o'laroq, tizim nafaqat joylashtirilgan mantiqiy so'rovlarni yaratishga, turli xil yaqinlik o'lchovlari bo'yicha rasmiy dolzarblikni hisoblashga, so'rovlar va hujjatlar atamalarini tortib olishga, shuningdek dolzarbligi bo'yicha so'rovni tuzatishga imkon beradi. Tizim shuningdek, terminlarni qisqartirish, hujjatlarni maydonlarga ajratish va tarqatilgan indekslardan foydalanishga imkon beradi. Internetda Britannica entsiklopediyasini amalga oshirish uchun ushbu tizimning asosiy qidiruvi sifatida tanlanganligi bejiz emas.

3. Robotlarni qidirish

So'nggi yillarda Butunjahon Internet tarmog'i shunchalik ommalashib ketdiki, endi Internet axborotni nashr etishning asosiy vositalaridan biri hisoblanadi. Internet bir nechta serverlardan va oz sonli hujjatlardan ulkan chegaralargacha o'sib borar ekan, resurslarni qidirishning samarali usuli u yoqda tursin, gipermatnli bog'lanish strukturasining katta qismida qo'lda harakatlanish endi mumkin emasligi aniq bo'ldi.

Ushbu muammo Internet tadqiqotchilarini "robotlar" deb nomlangan avtomatlashtirilgan veb-navigatsiya bilan tajriba o'tkazishga undadi. Veb-robot - bu Internetning gipermatnli strukturasida harakatlanadigan, hujjat talab qiladigan va ushbu hujjat murojaat qilgan barcha hujjatlarni rekursiv ravishda qaytaradigan dastur. Ushbu dasturlar ba'zida "o'rgimchak", "adashganlar" yoki "qurtlar" deb ham nomlanadi va bu ismlar yanada jozibali bo'lishi mumkin, ammo ular chalg'itishi mumkin, chunki "o'rgimchak" va "sayr qiluvchi" atamalari robotning o'zi harakat qiladi degan noto'g'ri fikrni beradi va "qurt" atamasi robot Internet-qurt virusi kabi ko'payishini ham anglatishi mumkin. Haqiqatda, robotlar oddiy tarmoq protokollari yordamida Internetdagi masofali saytlardan ma'lumot so'raydigan oddiy dasturiy ta'minot tizimi sifatida amalga oshiriladi.

3.1 Qidiruv robotlardan foydalanish

Robotlar yordamida ko'plab foydali vazifalarni bajarish mumkin, masalan, statistik tahlil, gipermatnni saqlash, resurslarni qidirish yoki sahifalarni aks ettirish. Keling, ushbu vazifalarni batafsil ko'rib chiqaylik.

3.1.1 Statistik tahlil

Birinchi robot Internetdagi veb-serverlarning sonini aniqlash va hisoblash uchun yaratilgan. Boshqa statistik hisob-kitoblarga Internetdagi bitta serverga to'g'ri keladigan hujjatlarning o'rtacha soni, serverdagi ba'zi turdagi fayllarning nisbati, o'rtacha sahifa hajmi, bog'lanish darajasi va boshqalar kiradi.

3.1.2 Gipermatnga xizmat ko'rsatish

Gipermatnli tuzilmani saqlashdagi asosiy qiyinchiliklardan biri shundaki, boshqa sahifalarga havolalar sahifani boshqa serverga o'tkazishda yoki umuman o'chirishda "o'lik havolalar" ga aylanishi mumkin. Bugungi kunga qadar bunday sahifaga havolalari bo'lgan hujjatni o'z ichiga olgan serverning xizmat ko'rsatuvchi xodimlariga uning o'zgarganligi yoki umuman olib tashlanganligi to'g'risida xabar beradigan umumiy mexanizm mavjud emas. Ba'zi serverlar, masalan, CERN HTTPD, o'lik havolalar tufayli yuzaga kelgan muvaffaqiyatsiz so'rovlarni, o'lik havola topilgan sahifa tavsiyasi bilan birga, ushbu muammo qo'l bilan hal qilinishini kutib, qayd qiladi. Bu juda amaliy emas va aslida hujjat mualliflari o'z hujjatlari o'lik havolalarni faqat ularga to'g'ridan-to'g'ri xabar berilganda yoki foydalanuvchi o'zi elektron pochta orqali xabar berganda juda kam bo'lgan hollarda topishini aniqlaydilar.

Havolalarni tekshiradigan MOMSPIDER singari robot hujjat muallifiga bunday o'lik havolalarni topishda yordam berishi va shuningdek, gipermatn tuzilishini saqlashda yordam berishi mumkin. Shuningdek, robotlar tegishli HTML hujjati, uning qabul qilingan qoidalarga muvofiqligi, muntazam yangilanishi va boshqalarni tekshirish orqali tarkib va \u200b\u200btuzilmaning o'zini saqlashga yordam berishi mumkin, ammo bu odatda qo'llanilmaydi. Ehtimol, ushbu funktsiya HTML hujjat muhitini yozishda o'rnatilishi kerak, chunki bu tekshiruvlar hujjat o'zgarganda va har qanday muammolarni darhol hal qilishda takrorlanishi mumkin.

3.1.3 Yansıtma

Mirroring - bu FTP arxivlarini saqlashning mashhur mexanizmi. Oyna FTP orqali butun katalog daraxtini rekursiv ravishda ko'chiradi va keyin o'zgartirilgan hujjatlarni muntazam ravishda qayta so'rab oladi. Bu sizga yukni bir nechta serverlarga taqsimlash, server xatolarini muvaffaqiyatli hal qilish va tezroq va arzonroq mahalliy kirishni hamda arxivlarga oflayn kirishni ta'minlash imkonini beradi. Internetda aks ettirishni robot yordamida amalga oshirish mumkin, ammo yozilish paytida buning uchun murakkab vositalar mavjud emas edi. Albatta, u erda sahifa subtree-ni qayta tiklaydigan va mahalliy serverda saqlaydigan bir nechta robotlar mavjud, ammo ular aynan o'zgartirilgan sahifalarni yangilashga qodir emaslar. Ikkinchi muammo - bu sahifaning o'ziga xosligi, ya'ni nusxalangan sahifalardagi havolalar ustiga yozilishi kerak, ular oynalar aks etgan va yangilanishi kerak bo'lgan sahifalarga bog'langan joyda. Ular nusxalarga o'zgartirilishi kerak va nisbiy havolalar aks ettirilmagan sahifalarga ishora qilsa, ularni mutlaq havolalarga kengaytirish kerak. Ishlash sabablari bo'yicha aks ettirish mexanizmlariga bo'lgan ehtiyoj keshlangan hujjatning yangilanmaganligini va asosan o'z-o'ziga xizmat qilishini ta'minlaydigan tanlab yangilanishlarni taklif qiladigan murakkab keshlash serverlaridan foydalanish bilan sezilarli darajada kamayadi. Biroq, kelajakda aks ettirish moslamalari to'g'ri rivojlanishi kutilmoqda.

3.1.4 Resurs tadqiqotlari

Ehtimol, robotlarning eng hayajonli qo'llanilishi resurslarni qidirishda bo'lishi mumkin. Odamlar juda ko'p miqdordagi ma'lumot bilan ishlashga qodir bo'lmagan joyda, barcha ishlarni kompyuterga o'tkazish juda jozibali ko'rinadi. Internetning aksariyat qismidan ma'lumotlarni to'playdigan va natijalarni ma'lumotlar bazasiga etkazib beradigan bir nechta robotlar mavjud. Bu shuni anglatadiki, ilgari faqat veb-navigatsiyani qo'lda ishlatgan foydalanuvchi endi kerakli ma'lumotlarni topish uchun qidiruvni sahifalarni ko'rish bilan birlashtirishi mumkin. Ma'lumotlar bazasida unga kerak bo'lgan narsalar aniq bo'lmasa ham, ushbu qidiruvda sahifalarga ko'plab havolalar topilishi ehtimoli katta, bu esa o'z navbatida uning qidirish mavzusiga bog'lanishi mumkin.

Ikkinchi afzallik shundaki, ushbu ma'lumotlar bazalari ma'lum vaqt ichida avtomatik ravishda yangilanib turilishi mumkin, shu bilan ma'lumotlar bazasida o'lik havolalar topiladi va o'chiriladi, aksincha hujjatlarni qo'lda saqlashdan farqli o'laroq, tekshirish ko'pincha o'z-o'zidan va to'liq bo'lmaydi. Resurslarni o'rganish uchun robotlardan foydalanish quyida muhokama qilinadi.

3.1.5 Kombinatsiyalangan foydalanish

Oddiy robot yuqoridagi vazifalardan bir nechtasini bajara oladi. Masalan, RBSE Spider roboti so'ralgan hujjatlarni statistik tahlilini amalga oshiradi va resurslar bazasini saqlaydi. Biroq, bunday kombinatsiyalangan foydalanish, afsuski, juda kam uchraydi.

3.2 Qidiruv robotlardan foydalanishda xarajatlarning ko'payishi va yuzaga kelishi mumkin bo'lgan xavf

Robotlar qimmatga tushishi mumkin, ayniqsa Internetda masofadan foydalanilganda. Ushbu bo'limda biz robotlar xavfli bo'lishi mumkinligini ko'rib chiqamiz, chunki ular Internetga juda katta talablar qo'yadilar.

Robotlar muhim server o'tkazuvchanligini talab qiladi. Birinchidan, robotlar doimiy ravishda uzoq vaqt, hatto oylar davomida ishlaydi. Operatsiyalarni tezlashtirish uchun ko'plab robotlar serverdan parallel sahifa so'rovlarini yuborishadi, bu esa keyinchalik serverning o'tkazuvchanligi kengligidan foydalanishni kuchayishiga olib keladi. Agar robot qisqa vaqt ichida juda ko'p so'rovlarni amalga oshirsa, hatto Internetning uzoq qismlarida ham tarmoqdagi yukni sezish mumkin. Bu boshqa foydalanuvchilar uchun, ayniqsa, tarmoqli o'tkazuvchanligi past bo'lgan serverlarda serverlar o'tkazuvchanligi vaqtincha etishmasligiga olib kelishi mumkin, chunki Internetda ishlatilgan protokolga qarab yuklarni muvozanatlash vositasi mavjud emas.

An'anaga ko'ra Internet "bepul" deb qabul qilingan, chunki individual foydalanuvchilar undan foydalanish uchun pul to'lamagan. Biroq, bu endi savol tug'dirmoqda, chunki ayniqsa korporativ foydalanuvchilar Internetdan foydalanish bilan bog'liq xarajatlarni to'laydilar. Kompaniya o'z mijozlariga (potentsial) xizmatlari to'langan pulga arziydi, deb o'ylashi mumkin, ammo robotlarga avtomatik ravishda o'tkaziladigan sahifalar bunday emas.

Robot Internetga talablar qo'yishdan tashqari, serverning o'ziga ham qo'shimcha talablar qo'yadi. Hujjatlarni serverdan tez-tez so'rashiga qarab, bu butun serverga katta yuk tushishiga va serverga kiradigan boshqa foydalanuvchilarning kirish tezligining pasayishiga olib kelishi mumkin. Bundan tashqari, agar asosiy kompyuter boshqa maqsadlarda ham ishlatilsa, bu umuman qabul qilinishi mumkin emas. Eksperiment sifatida muallif Sun 4/330 da Plexus server vazifasini bajaruvchi serveridan 20 ta bir vaqtning o'zida so'rovlarni simulyatsiya qildi. Bir necha daqiqa davomida o'rgimchak yordamida sekinlashtirilgan mashinadan umuman foydalanish imkonsiz edi. Ushbu effekt sahifalarni doimiy ravishda talab qilish orqali ham sezilishi mumkin.

Bularning barchasi bir vaqtning o'zida sahifa so'rovlari bilan bog'liq vaziyatlardan qochish kerakligini ko'rsatadi. Afsuski, hatto zamonaviy brauzerlar (masalan, Netscape) hujjatdagi rasmlarni bir vaqtning o'zida so'rab, bu muammoni keltirib chiqaradi. HTTP tarmoq protokoli bunday o'tkazmalar uchun samarasizligini isbotladi va ushbu ta'sirlarga qarshi kurashish uchun yangi protokollar ishlab chiqilmoqda.

3.2.2 Hujjatlarni yangilash

Yuqorida aytib o'tganimizdek, robotlar tomonidan yaratilgan ma'lumotlar bazalari avtomatik ravishda yangilanishi mumkin. Afsuski, Internetda sodir bo'layotgan o'zgarishlarni kuzatishning samarali mexanizmlari hanuzgacha mavjud emas. Bundan tashqari, havolalardan qaysi biri o'chirilgan, ko'chirilgan yoki o'zgartirilganligini aniqlaydigan oddiy so'rov ham mavjud emas. HTTP protokoli "If-Modified-since" mexanizmini taqdim etadi, uning yordamida foydalanuvchi agenti keshlangan hujjatning qachon o'zgartirilishini hujjatning o'zi talab qilish bilan bir vaqtda aniqlay oladi. Agar hujjat o'zgartirilgan bo'lsa, server faqat o'z tarkibini uzatadi, chunki bu hujjat allaqachon keshlangan.

Ushbu vositadan faqat hujjat olingan jami summalar o'rtasidagi munosabatni saqlagan holda robot foydalanishi mumkin: bu havolaning o'zi va hujjat so'ralgan vaqt tamg'asi. Bu ma'lumotlar bazasining hajmi va murakkabligi uchun qo'shimcha talablarni kiritadi va keng qo'llanilmaydi.

3.3 Robotlar / mijozlar agentlari

Veb-yuklash oxirgi foydalanuvchilar tomonidan ishlatiladigan va umumiy maqsadli veb-mijozning bir qismi sifatida amalga oshiriladigan (masalan, Fish Search va tkWWW roboti) robotlar toifasidan foydalanish bilan bog'liq alohida muammo hisoblanadi. Ushbu robotlar orasida keng tarqalgan xususiyatlardan biri bu Internetda harakatlanayotganda topilgan ma'lumotlarni qidiruv tizimlariga uzatish qobiliyatidir. Bu resurslarni qidirish usullarini takomillashtirish deb hisoblanadi, chunki bir nechta masofali ma'lumotlar bazalari avtomatik ravishda so'raladi. Biroq, muallifning fikriga ko'ra, bu ikki sababga ko'ra qabul qilinishi mumkin emas. Birinchidan, qidiruv jarayoni oddiy hujjat so'roviga qaraganda ko'proq server yuklanishiga olib keladi, shuning uchun oddiy foydalanuvchi bir nechta serverlarda odatdagidan kattaroq ish haqida ishlashda sezilarli noqulayliklarga duch kelishi mumkin. Ikkinchidan, bir xil qidiruv kalit so'zlari bir xil darajada dolzarb, sintaktik jihatdan to'g'ri, turli xil ma'lumotlar bazalari uchun maqbulligi haqida gapirmaslik xato, va ma'lumotlar bazalari assortimenti foydalanuvchidan butunlay yashiringan. Masalan, "Ford va Garaj" so'rovi 17-asr adabiyotlarini saqlaydigan ma'lumotlar bazasiga, mantiqiy operatorlarni qo'llab-quvvatlamaydigan ma'lumotlar bazasiga yoki mashinalar uchun so'rovlar "mashina:" so'zi bilan boshlanishi kerakligini ko'rsatadigan ma'lumotlar bazasiga yuborilishi mumkin. Va foydalanuvchi buni hatto bilmaydi.

Mijoz robotidan foydalanishning yana bir xavfli tomoni shundaki, u Internet orqali tarqatilgandan so'ng, hech qanday xatolarni tuzatib bo'lmaydi, muammoli joylar to'g'risida bilimlarni qo'shib bo'lmaydi va yangi samarador xususiyatlar uni yaxshilay olmaydi, chunki keyinchalik har bir foydalanuvchi buni qila olmaydi. ushbu robotni so'nggi versiyasi bilan yangilaydi.

Biroq, eng xavfli jihat - bu potentsial robot foydalanuvchilarining ko'pligi. Ehtimol, ba'zi odamlar bunday qurilmadan oqilona foydalanishlari mumkin, ya'ni Internetning ma'lum bir sohasidagi ma'lum bir maksimal havolalar bilan cheklangan va qisqa vaqt ichida, lekin johillik yoki takabburlik tufayli uni suiiste'mol qiladigan odamlar bo'ladi. Muallifning fikriga ko'ra, masofaviy robotlar oxirgi foydalanuvchilar bilan bo'lishmasligi kerak va xayriyatki shu paytgacha hech bo'lmaganda ba'zi bir robot mualliflarini ularni ochiq tarqatmaslikka ishontirish mumkin edi.

Mijoz robotlarining potentsial xavfini hisobga olmasdan ham, axloqiy savol tug'iladi: qaerda robotlardan foydalanish butun Internet hamjamiyati uchun mavjud bo'lgan barcha ma'lumotlarni birlashtirish uchun foydali bo'lishi mumkin va qaerda uni qo'llash mumkin emas, chunki bu faqat bitta foydalanuvchiga foyda keltiradi.

Internetdan ma'lumot qidirayotgan oxirgi foydalanuvchi foydalanishi uchun "aqlli agentlar" va "raqamli yordamchilar" hozirgi kunda kompyuter fanida eng mashhur tadqiqot mavzusi bo'lib, ko'pincha Internetning kelajagi sifatida qaralmoqda. Shu bilan birga, bu haqiqatan ham shunday bo'lishi mumkin va allaqachon aniqki, avtomatlashtirish resurslarni tadqiq qilish uchun bebahodir, garchi ularni samarali qilish uchun ko'proq izlanishlar zarur. Oddiy foydalanuvchi tomonidan boshqariladigan robotlar aqlli tarmoq agentlaridan juda yiroq: agent ko'r-ko'rona qidirish o'rniga ma'lum ma'lumotlarni qaerdan topish (ya'ni qanday xizmatlardan foydalanish) to'g'risida bir oz tasavvurga ega bo'lishi kerak. Biror kishi kitob do'konini qidirayotgan vaziyatni ko'rib chiqing; u o'zi yashaydigan hudud uchun Yellow Pages-dan foydalanadi, do'konlarning ro'yxatini topadi, ulardan birini yoki bir nechtasini tanlaydi va ularga tashrif buyuradi. Mijoz-robot atrofdagi barcha do'konlarga kitob so'rab yurar edi. Haqiqiy hayotda bo'lgani kabi, Internetda ham bu kichik darajada samarasiz bo'lib, keng miqyosda taqiqlanishi kerak.

3.3.1 Robotlarning dasturiy ta'minotning yomonligi

Tarmoq va serverlarga yuk ba'zida dasturiy ta'minotning yomon tatbiq etilishi, ayniqsa, yaqinda yozilgan robotlar tomonidan ko'payadi. Robot tomonidan yuborilgan protokol va havolalar to'g'ri bo'lsa ham va robot qaytarilgan protokolni to'g'ri ishlasa ham (boshqa tayinlash kabi boshqa funktsiyalarni ham o'z ichiga olgan holda), unchalik aniq bo'lmagan muammolar mavjud.

Muallif bir nechta shunga o'xshash robotlar o'z serveriga qo'ng'iroqni boshqarishini kuzatgan. Ba'zi hollarda salbiy oqibatlarga odamlar o'zlarining saytlarini sinovdan o'tkazishda (mahalliy server o'rniga) foydalanganliklari sabab bo'lgan bo'lsa, boshqa holatlarda ular robotning o'zi noto'g'riligi tufayli yuzaga kelgan. Bunday holda, agar allaqachon so'ralgan havolalar haqida yozuvlar bo'lmasa (bu kechirilmas bo'lsa) yoki robot bir nechta havolalar sintaktik jihatdan teng bo'lganda, masalan, bir xil IP-manzil uchun DNS taxalluslari farq qilsa, takroriy sahifa so'rovlari paydo bo'lishi mumkin. yoki robot tomonidan ishlov berilmaydigan havolalar, masalan, "foo / bar / baz.html" "foo / baz.html" ga teng.

Ba'zi robotlar ba'zida GIF va PS hujjatlarini so'rashadi, ular qayta ishlay olmaydi va shuning uchun ularni e'tiborsiz qoldiradi.

Yana bir xavf shundaki, Internetning ba'zi sohalari deyarli cheksizdir. Masalan, havolali sahifani bir darajaga qaytaradigan skriptni ko'rib chiqing. Masalan, "/ cgi-bin / pit /" bilan boshlanadi va "/ cgi-bin / pit / a /", "/ cgi-bin / pit / a / a /" va boshqalar bilan davom etadi. Bunday aloqalar robotni tuzoqqa tortishi mumkinligi sababli, ularni ko'pincha "qora tuynuklar" deb atashadi.

4. Axborotni kataloglashtirishdagi muammolar

Robotli ma'lumotlar bazalari ommalashganligi inkor etilmaydi. Muallif kerakli manbalarni topish uchun doimiy ravishda bunday ma'lumotlar bazalaridan foydalanadi. Biroq, Internetdagi resurslarni o'rganish uchun robotlardan foydalanishni cheklaydigan bir nechta muammolar mavjud. Ulardan biri bu erda hujjatlar juda ko'pligi va ularning barchasi doimiy ravishda o'zgarib turadi.

Axborotni qidirish yondashuvi samaradorligining o'lchovlaridan biri bu topilgan barcha tegishli hujjatlar to'g'risidagi ma'lumotlarni o'z ichiga olgan "chaqirib olish" dir. Brayan Pinkerton ta'kidlashicha, Internet-indeksatsiya tizimlarida eslash juda maqbul yondashuvdir, chunki etarli darajada tegishli hujjatlarni topish muammo emas. Ammo, agar biz Internetda mavjud bo'lgan barcha ma'lumotlarni robot tomonidan yaratilgan ma'lumotlar bazasi bilan taqqoslasak, u holda qayta aloqa juda aniq bo'lishi mumkin emas, chunki ma'lumot miqdori juda katta va u tez-tez o'zgarib turadi. Shunday qilib, amalda ma'lumotlar bazasida hozirda Internetda mavjud bo'lgan ma'lum bir resurs bo'lmasligi mumkin va bunday hujjatlar juda ko'p bo'ladi, chunki Internet doimiy ravishda o'sib boradi.

4.1. Robot tomonidan qanday ma'lumotlarni kiritish / chiqarib tashlashni aniqlash

Robot ma'lum bir veb-sahifaning uning indeksiga kiritilganligini avtomatik ravishda aniqlay olmaydi. Bundan tashqari, Internetdagi veb-serverlarda faqat mahalliy sharoitga tegishli hujjatlar, vaqtincha mavjud bo'lgan hujjatlar va boshqalar bo'lishi mumkin. Amalda, robotlar qaerda bo'lganligi haqida deyarli barcha ma'lumotlarni saqlab qolishadi. Shuni esda tutingki, agar robot ko'rsatilgan sahifani ma'lumotlar bazasidan chiqarib tashlash kerakligini aniqlasa ham, u faylni o'zi talab qilish uchun ortiqcha xarajatlarga duch kelgan va hujjatlarning katta foizini e'tiborsiz qoldirishni tanlagan robot juda isrofgarchilikka uchraydi. Ushbu vaziyatni bartaraf etish maqsadida Internet hamjamiyati Robot Istisno standartini qabul qildi. Ushbu standart serverdagi ma'lum joyda ("/robots.txt") mavjud bo'lgan va ularning havolalarining qaysi qismini robotlar e'tiborsiz qoldirishi kerakligini aniqlash uchun ishlatiladigan oddiy tuzilgan matnli fayldan foydalanishni tavsiflaydi. Ushbu vosita robotlarni qora tuynuklar to'g'risida ogohlantirish uchun ham ishlatilishi mumkin. Ushbu robotning ma'lum bir sohada ixtisoslashganligi ma'lum bo'lsa, har bir robot turiga aniq buyruqlar berilishi mumkin. Ushbu standart bepul, ammo uni amalga oshirish juda sodda va robotlarga mos kelishi uchun katta bosimga ega.

4.2. Fayl formati /robots.txt.

/Robots.txt fayli barcha qidiruv robotlariga ushbu faylda aniqlangan ma'lumot serverlarini indekslash bo'yicha ko'rsatmalar berishga mo'ljallangan, ya'ni. faqat /robots.txt-da tavsiflanmagan kataloglar va server fayllari. Ushbu faylda u yoki bu robot bilan bog'liq bo'lgan 0 yoki undan ortiq yozuv bo'lishi kerak (agent_id maydonining qiymati bilan belgilanadi) va har bir robot uchun yoki birdaniga nimani indekslashi shart emasligini ko'rsatishi kerak. /Robots.txt faylini yozadigan foydalanuvchi har bir robot indekslangan serverning HTTP so'roviga chiqaradigan User-Agent maydonining Product Token substringini ko'rsatishi kerak. Masalan, amaldagi Lycos roboti User-Agent maydoni kabi so'rovga javob beradi:

Lycos_Spider_ (Rex) / 1.1 libwww / 3.1

Agar Lycos roboti /robots.txt-da o'z tavsifini topmasa, u kerakli narsani bajaradi. /Robots.txt faylini yaratishda e'tiborga olinadigan yana bir omil bu fayl hajmi. Indekslanmasligi kerak bo'lgan har bir fayl va hattoki ko'plab turdagi robotlar uchun, indeksatsiya qilinmasligi kerak bo'lgan juda ko'p fayllar bilan tavsiflanganligi sababli, /robots.txt hajmi juda katta bo'ladi. Bunday holda, /robots.txt hajmini kamaytirish uchun quyidagi usullardan birini yoki bir nechtasini ishlatishingiz kerak:

indekslanmasligi kerak bo'lgan katalogni ko'rsating va shunga ko'ra, unda indeksatsiya qilinmasligi kerak bo'lgan fayllar joylashgan bo'lishi kerak

/robots.txt-da istisnolar tavsifini soddalashtirishni hisobga olgan holda server tuzilishini yaratish

barcha agent_id uchun bitta indekslash usulini ko'rsating

kataloglar va fayllar uchun maskalarni ko'rsating

4.3. /Robots.txt faylining yozuvlari

Yozib olish formatining umumiy tavsifi.

[# izoh satri NL] *

Foydalanuvchi-agent: [[WS] + agent_id] + [[WS] * # izoh satri]? NL

[# izoh satri NL] *

# sharh satri NL

Ruxsat berish: [[WS] + path_root] * [[WS] * # izoh satri]? NL

Tanlovlar

/Robots.txt yozuvlarida ishlatiladigan parametrlarning tavsifi

[...] + Kvadrat qavslar, undan keyin + belgisi bir yoki bir nechta shartlar parametr sifatida ko'rsatilishi kerakligini bildiradi. Masalan, "User-Agent:" dan keyin bo'sh joydan keyin bir yoki bir nechta agent_id ko'rsatilishi mumkin.

[...] * Kvadrat qavslar va undan keyin * belgisi nol yoki undan ortiq atamalarni parametr sifatida ko'rsatish mumkinligini ko'rsatadi. Masalan, siz sharh yozishingiz yoki yozmasligingiz mumkin.

[...]? Belgidan keyin kvadrat qavslarmi? parametr sifatida nol yoki bitta atamani ko'rsatish mumkinligini anglatadi. Masalan, "User-Agent: agent_id" dan keyin izoh yozilishi mumkin.

.. | .. yoki satr oldida nima borligini yoki keyin nima ekanligini anglatadi.

WS belgilaridan biri - bo'shliq (011) yoki yorliq (040)

NL belgilaridan biri - satr oxiri (015), vagonning qaytishi (012) yoki ikkalasi ham (Enter)

Foydalanuvchi-agent: kalit so'z (katta va katta harflar muhim emas). Parametrlar qidiruv robotlarining agent_id.

Ruxsat berish: Kalit so'z (katta va kichik harflar yo'q). Parametrlar - bu indekslanmagan fayllar yoki kataloglarga to'liq yo'llar.

# sharh satrining boshi, sharh satri - haqiqiy sharhlar tanasi.

agent_id - har xil brauzerlarning agent_id-ni belgilaydigan har qanday sonli belgilar, shu jumladan WS va NL. * Belgisi barcha robotlarni birdaniga aniqlaydi.

path_root - bu indeksatsiya qilinmasligi kerak bo'lgan fayllar va kataloglarni aniqlaydigan har qanday sonli belgilar, jumladan WS va NL.

4.4. Kengaytirilgan formatdagi sharhlar.

Har bir yozuv User-Agent liniyasi bilan boshlanadi, unda ushbu yozuv qaysi yoki qaysi qidiruv robotiga mo'ljallanganligi tasvirlangan. Keyingi qator: Ruxsat berish. Indekslash mumkin bo'lmagan yo'llar va fayllar bu erda tavsiflangan. HAR KIRISH kamida ikkita satrga ega bo'lishi shart. Boshqa barcha qatorlar variantlardir. Xabarda istalgan miqdordagi sharh satrlari bo'lishi mumkin. Har bir izoh satri # belgidan boshlanishi kerak. Izoh satrlari User-Agent va Disallow qatorlari oxirida joylashtirilishi mumkin. Ushbu satrlarning oxiridagi # ba'zida katakchaga uzun agent_id yoki path_root mag'lubiyati tugaganligini ko'rsatish uchun qo'shiladi. Agar User-Agent qatorida bir nechta agent_idlar ko'rsatilgan bo'lsa, u holda yo'l qo'ymaslik satridagi path_root sharti hamma uchun teng ravishda bajariladi. User-Agent va Disallow satrlari uzunligi bo'yicha cheklovlar mavjud emas. Agar brauzer /robots.txt faylida agent_id-ni topmagan bo'lsa, u holda /robots.txt-ni e'tiborsiz qoldiradi.

Agar har bir qidiruv robotining ish xususiyatlarini hisobga olmasangiz, barcha robotlar uchun birdaniga istisnolarni belgilashingiz mumkin. Bunga chiziqni belgilash orqali erishiladi

Agar qidiruv robot /robots.txt faylida mos keladigan agent_id qiymatiga ega bo'lgan bir nechta yozuvlarni topsa, u holda robot ulardan birini tanlashda erkindir.

Har bir brauzer /robots.txt yozuvlari yordamida serverdan o'qish uchun mutlaq URL manzilini aniqlaydi. Path_root dagi katta va kichik harflar DO MATTER.

Misol 1:

Foydalanuvchi-agent: Lycos

Ruxsat berish: / cgi-bin / / tmp /

1-misolda /robots.txt fayli ikkita yozuvni o'z ichiga oladi. Birinchisi, barcha qidiruv robotlariga taalluqlidir va barcha fayllarni indekslashni taqiqlaydi. Ikkinchisi Lycos qidiruv robotiga taalluqlidir va u serverni indeksatsiya qilganda / cgi-bin / va / tmp / kataloglarini taqiqlaydi va qolganlariga ruxsat beradi. Shunday qilib, server faqat Lycos tomonidan indekslanadi.

4.5. Internetda harakatlanish tartibini aniqlash

Internetda qanday harakatlanishni aniqlash nisbatan qiyin. Ko'pgina serverlar ierarxik tarzda tashkil etilganligini hisobga olgan holda, birinchi marta cheklangan uyalash chuqurligidan yuqoridan havolalar bo'ylab harakatlanayotganda, chuqurroq ketishdan ko'ra tezroq dolzarbligi va xizmatlari yuqori bo'lgan hujjatlar to'plamini topish ehtimoli yuqori va shuning uchun bu usul juda afzaldir. resurslarni o'rganish. Bundan tashqari, birinchi joylashish darajasidagi havolalar bo'ylab harakatlanayotganda, boshqa, potentsial yangi serverlarga havolalari bo'lgan foydalanuvchi uy sahifalarini topish ehtimoli yuqori va shuning uchun yangi saytlarni topish imkoniyati katta.

4.6. Ma'lumotlarni sarhisob qilish

Internetda o'zboshimchalik bilan hujjatni indekslash juda qiyin. Dastlabki robotlar hujjatning nomi va langarini matnning o'zida saqlagan, ammo yangi robotlar allaqachon rivojlangan mexanizmlardan foydalangan va umuman hujjatning to'liq tarkibini ko'rib chiqishgan.

Ushbu usullar yaxshi umumiy o'lchovdir va avtomatik ravishda barcha sahifalarda qo'llanilishi mumkin, ammo afsuski, ular muallifning o'zi tomonidan sahifani indekslash kabi samarali bo'lishi mumkin emas. HTML hujjat muallifi uchun unga umumiy ma'lumotni biriktirish vositasini taqdim etadi. Bu elementni belgilashni anglatadi, masalan ". Ammo, bu erda berilgan HTML yorlig'ining o'ziga xos atributlari qiymatlari uchun semantika aniqlanmagan, bu uning ishlatilishini va shuning uchun foydaliligini keskin cheklaydi. Bu so'ralgan hujjatlarning umumiy soniga nisbatan past" aniqlik "ga olib keladi. mantiqiy operatorlardan foydalanish, WAIS-da bajarilgan so'z og'irliklarini topish yoki dolzarbligi uchun teskari aloqa kabi xususiyatlarni o'z ichiga olgan hujjatlarning to'g'riligini yaxshilashi mumkin, ammo hozirgi vaqtda Internetdagi ma'lumotlar juda xilma-xil. , bu muammo jiddiy bo'lib qolmoqda va eng samarali echimlar hali topilmagan.

5. Xulosa

Ushbu ish, albatta, taqdimotning to'liqligi yoki to'g'riligini talab qilmaydi. Materiallarning aksariyati chet el manbalaridan olingan, xususan Martin Koster (Martijn Koster) tomonidan berilgan sharhlar asos bo'lib xizmat qilgan. Shu sababli, ushbu hujjatda tarjima bilan ham, axborot texnologiyalarining favqulodda jadal rivojlanishi bilan bog'liq bo'lgan har qanday noaniqliklar mavjudligini istisno etmayman. Biroq, men ushbu maqola Butunjahon Internet tarmog'i, uning rivojlanishi va kelajagi bilan qiziqqan har bir kishiga foydali bo'lishiga umid qilaman. Qanday bo'lmasin, men o'zimning ishim to'g'risida elektron pochta orqali javob olishdan mamnun bo'laman: [elektron pochta bilan himoyalangan]

6. Ishlatilgan adabiyotlar ro'yxati

Pavel Xramtsov "Internetda qidirish va navigatsiya". http://www.osp.ru/cw/1996/20/31.htm

Intranet qidirish vositalari va o'rgimchaklari qanday ishlaydi http://linux.manas.kg/books/how_intranets_work/ch32.htm

Martijn Koster "Internetdagi robotlar: tahdidmi yoki muomaladami?" http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html

Internet-kasblar uchun trening. Ekspert qidiruvi. http://searchengine.narod.ru/archiv/se_2_250500.htm

Andrey Alikberov "Qidiruv tizim robotlari qanday ishlashi haqida bir necha so'z". http://www.citforum.ru/internet/search/art_1.shtml