přihlásit  


Přezdívka:
Heslo:
  MENU  
MENU


HOUBAŘENÍ


ATLAS HUB
HERBÁŘ
KDE ROSTOU
URČOVNA
SLOVNÍK
LITERATURA


TOP 10
AKCE
BLOGY
DISKUSE
INZERCE
RECEPTY
UŽIVATELÉ
XICHTOVNÍK


REGISTRACE
NOVINKY
PRAVIDLA
NASTAVENÍ
SPRÁVCI
ODKAZY
KONTAKT

Internetová prasátka všeho druhu


Aneb jak jsem se dnes při prohlížení logu rozčílil nad nenasytností a pompézností některých Internetových vyhledávačů a jejich "sbíracích" programů.

Hned na začátku tohoto blogu bych rád případného čtenáře upozornil, že zcela nesouvisí s náplní těchto stránek, ale jen s těmito stránkami samotnými. Pokud tedy čekáte cokoliv lesního, přírodního, houbového, mykologického apod., rovnou přestaňte číst toto mé vylévání srdéčka.

V průběhu dneška jsem sledoval log přístupů na tyto stránky, abych si udělal trochu představu o běžném návštěvníkovi, jeho pohybu po stránkách, předmětech zájmu apod., když tu jsem narazil na sekci, která mnou skutečně otřásla. V intervalu dvou stránek za sekundu se z jedné a té samé Internetové adresy dobýval na tyto stránky nějaký blíže neznámý program či prohlížeč, uvádějící sám sebe coby: "SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/)".

I nelenil jsem a na uvedené WWW stránky hodil očkem. Může jít o podvrh, do pole UserAgenta dokáže dnes vyplnit jakýkoliv nesmysl v podstatě libovolný počítačů trochu znalejší jedinec. Nechtěl bych tedy osočovat pány ze Seznamu jmenovitě, neb se vskutku může, ale také nemusí jednat o jejich aktivitu i když podle IP adresy, ze které toto pochází (77.75.73.123) a jejího přeloženého jména (fulltextrobot.seznam.cz) je skutečně veliká pravděpodobnost, že popsané máslo na hlavě mají.

Doba ve které se tento příběh časově odehrával začíná údajem 15:41:58, tedy čas, který lze bez uzardění prohlásit za část odpolední návštěvní špičky na většině běžných WWW stránek. Záměrně jsem se podíval i zpětně na dny předešlé a objevil jsem podobné či zcela stejné chování v jejich rámci, tedy co do času tak i co do počtu 2 stránek za sekundu.

Jak každý dobře ví, možnosti žádného počítače nejsou neomezené, stejně jako možnosti propustnosti silnic, pokud použiji toto přirovnání. A každý z nás jistě již zažil odpolední dopravní špičku ať již v autě či jiném dopravním prostředku používajícím silnici či jen jako nezúčastněný pozorovatel. Lze si tedy představit, co by asi na již tak přeplněných silnicích dokázaly provést další 2 auta vypouštěná každou jednu vteřinu.

Jistě, lze namítnout, že toto přirovnání není docela přesné, jak už to s přirovnáními většinou bývá. Ovšem nic to nemění na faktu, že k němu prostě dochází. Většina ostatních slušných vyhledávačů poštvává své roboty na jednotlivé stránky s podstatně většími časovými odstupy, ohleduplně k cílovým stránkám, přenosovým kapacitám Internetu a provozovatelům stránek jako takových. Sami totiž dobře vědí, co dokáže nešetrné zacházení způsobit a uznávají jisté etické zákony a kodexy slušnosti na Internetu. Ba lze říci, že čím větší firma s honosnějším jménem a podílem na daném trhu vyhledávačů, tím rozumnější a slušnější přístup.

Upřímně nevím, pokud se skutečně nejedná o podvrh, omyl či naopak záměr, kam zařadit pány "SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/) - fulltextrobot.seznam.cz".

Na stránkách http://fulltext.sblog.cz/robot/ se lze dopátrat alibistické zmínky hovořící o možnosti ukáznění takovýchto indexovacích programů jakýmsi parametrem, ale ruku na srdce, proč jiné vyhledávače a jiní indexovací roboti takovýto problém a takovéto speciální nastavení nepotřebují? Jsme tu tedy, v konečném důsledku, všichni provozovatelé WWW stránek pro vyhledávací roboty, nebo naopak jsou tu vyhledávací roboti "pro nás"?

Ostatně vezměme si jiný vzor - WWW stránky, sice velmi rozsáhlé stran jejich celkového objemu, ale jinak ne až tak moc navštěvované ať už z jakýchkoliv důvodů, jakými mohou být úzká cílová skupina, malá známost stránek, obsahová nezajímavost, ... Předpokládajme, že jen textové informace na takovýchto stránkách budou činit kolem 100MB. Vezměme si, že takovýto bezohledný robot denně projde a to ještě superrychlostí celý obsah těchto stránek denně. Za měsíc jsme na 3GB dat jen pro robota. Přitom běžný návštěvník těchto hypotetických rozsáhlých stránek staré informace již zná a vrací se k nim v míře minimální, stránky navštěvuje denně a sleduje jen nové informace. Jeho běžná denní "spotřeba" činí jednotky MB maximálně. Počítejme 3MB (vycházím z reálných dat). Kupecké počty nám ukáží, že cca 33 návštěvníků vygeneruje ten samý datový tok za jeden den, co jeden jediný bezohledný robot.

Ale podívejme se na to i z jiné stránky - stále se bavíme o hypotetických WWW stránkách s úzkou cílovou skupinou. Jako každé WWW stránky si přejí být indexovány vyhledávači a umožnit tak potencionálním uživatelům, kteří je ještě neznají, aby je mohly nalézt a používat. A slušné vyhledávače toto dokáží za cenu přibližně stejné zátěže jako jeden průměrný návštěvník denně. Samy o sobě, bez toho, aby je musel každý jeden provozovatel každých jedněch WWW stránek k tomuto nutit. Vždyť co je pro stránky důležitější? Absolutní obsahová aktuálnost indexace vyhledávači za cenu velké zátěže ať již stran datového toku nebo frekvence stahování dat v průběhu času, či mírná denní zátěž v rámci datového toku i frekvence stahování za cenu ne zcela aktuálních dat ve vyhledávačích?

Zapojme do hry ještě jeden faktor - webhosting. Vždy u každého webhostingu krom několika pominutelných vyjímek existují limity. Víceméně to samé platí i pro hostingy celých serverů, kde náklady bývají v konečném důsledku (správce celého serveru apod.) několikanásobně vyšší než u webhostingu jako takového. A teď si vezměme, že narazíte na poměr jednoho bezohledného indexovacího robota k cca. 30ti živým lidem, kteří mohou v konečném důsledku přinést stránkám i nějaký profit a kteří jsou hlavně tím, kdo je pro stránky důležitým. Mějme u tohoto webhostingu například měsíční limit 5GB přenesených dat. Výše uvedená kalkulace nám ukazuje, že nadpoloviční většinu si uzurpuje takovýto neohleduplný robot a do zbytku se musejí vejít ti skuteční, cíloví klienti. Taky se vám z toho dělá blivno?

Osobně nemám rád cestu síly, kterážto by v tomto konkrétním případě mohla spočívat v okamžitém zablokování IP adresy 77.75.77.123, ze které tento nadměrný provoz přichází. Dovolil jsem se ozvat tedy na odkazovaných stránkách a stejně tak i v tomto blogu. Doufám, že se lidé, zodpovědní za tohoto z řetězu utrženého robota či jeho podvrh chytí za hlavu a případné jiné části těla a v brzké době sjednají nápravu.

Přečteno 2600x
robi - 2010-03-10


Nejnovější blogy
Učíme se hledat houby - penízovka smrková
Drobnější houba, objevující se brzy zjara, první z jedlých hub v nové sezóně.
Učíme se hledat houby - žilnatka oranžová
Celkem nenápadná, i když velice krásná houba s neobvyklou strukturou a celoročním růstem. Kde se před námi tedy nejčastěji skrývá?
Učíme se hledat houby - ohnivec rakouský
Krásná zimní a jarní houba, kterou lze nalézt pod sněhem a po jeho odtání, lákající hlavně svou barvou a hojností v místech růstu. Kde ji tedy hledat?
Jedovaté čirůvky zelánka a zemní!
V nedávné době byl zaznamenán zvýšený výskyt otrav po požití čirůvky zelánky a čirůvky zemní ve Francii a Polsku. Po provedení výzkumů byly shledány jedovatými.
Co vše nám řekne latinský název houby?
Pokud se podíváme na latinský název houby, co vše se z něj vlastně můžeme dozvědět?
Výstavy hub v roce 2016
Tak jako každý rok, i letos se budou na podzim konat výstavy hub po celé naší republice.


Komentáře k blogu - 0 komentářů