Cum sa-ti ajuti concurenta sa aiba un site mai bun

Titlul poate părea ilogic, dar dacă-l parcurgeți o să descoperiți că are logica lui. Dar haideți să încep cu începutul: internetul e prin de roboți (sau boți, sau crawler-e, sau spider-e - spuneți-le cum vreți) folosiți pentru indexarea site-urilor, pentru a le umple de spam (mesaje și comentarii nesolicitate), pentru a copia conținutul, etc., etc. în perioada asta cam oricine știe puțin p hp (de exemplu, dar nu este singurul limbaj de programare care poate fi folosit) poate face un robot din ăsta - nu e decît un script sau un program care rulează pe un calculator cu acces la internet. Sau îl poate descărca de pe internet.

Oricum, ideea e că internetul colcăie de așa ceva. Foarte multe sînt folosite pentru cules de date (cum ar fi cele aparținînd motoarelor de căutare) și cică-s folosite în scopuri bune. E discutabil, dar nu asta e problema acum. Problema apare cînd numărul foarte mare de accesări simultane face probleme serverului pe care e găzduit un site (orice server, orice site). Chiar dacă nu este vorba de un atac (de tipul denial of service), configurarea și limitările anumitor servere pot duce la probleme temporare din cauza roboților.

Soluția este prezentată mai jos și are două variante. Ambele implică adăugarea codului de mai jos în fișierul .htaccess și încărcarea lui pe server (dacă nu știți ce-i fișierul .htaccess și care e rolul lui nu vă apucați de așa ceva, puneți pe cineva care le știe). Prima dintre ele duce la refuzul accesului boților (însoțit de un mesaj de eroare), celălalt îi redirecționează spre un alt site. Poți folosi a doua variantă pentru a trimite roboții ăștia pe site-ul concurenței sau al vreunui individ care scrie tone de tîmpenii. Faceți o favoare ambelor părți: îi arăți destinatarului că site-ul lui nu este protejat de boți (atunci cînd este cazul).

Lista poate fi mult mai lungă... Poate fi folosită pe oricare dintre site-urile pe care le administrați.

# deny access to robots crawlers spiders
RewriteBase /

RewriteCond %{HTTP_USER_AGENT} ^(.*)crawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Teoma [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)alexa [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)froogle [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)inktomi [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)looksmart [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Firefly [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)NationalDirectory [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)TECNOSEEK [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)InfoSeek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)galaxy.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Scooter [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Slurp [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)appie [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)FAST [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)WebBug [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Spade [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)ZyBorg [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)rabaz [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)TechnoratiSnoop [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)zelist.ro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Judy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)WordPress/MU [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Twitturls [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Me.dium [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Feedfetcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)spider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Twitturly [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)butterfly [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Python-urllib [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Twiceler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Yandex [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Bitacoras.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Java [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Rambler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)accoona [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)archiver [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)curl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)python [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)nambu [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)perl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)sphere [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)PEAR [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)radian [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)eventbox [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)monitor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)mechanize [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)facebookexternal [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)UnwindFetchor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)SolomonoBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Yeti [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Mail.Ru [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)bot [NC]

RewriteRule ^.* - [F,L]

Notă: NU include [OR] în ultima RewriteCond pentru că serverul va da eroarea 500 internal error pentru toate accesările.

Ultima linie poate fi înlocuită cu cea de mai jos, după ce înlocuiești "hellish-website.com" cu cel dorit.

RewriteRule ^.*$ http://www.hellish-website.com [R,L]