Arrêter les Aspirateurs !

Un script PHP Anti Aspirateur pour arrêter et stopper
Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer / etc... !

MySql nécessaire. Instructions dans le zip.

Lisez ces instructions et comprenez bien
ce que ce script implique avant de l'utiliser!
Télécharger la version du 15/01/2003

Ce script n'est pas basé sur les user-agent (facilement modifiables)
ou sur le fichier robots.txt
(la plupart des aspirateurs proposent de ne pas en tenir compte).
Il est basé sur le nombre de pages php chargé dans la dernière minute.
Au dela d'une certaine limite l'IP est bloquée.

Mail

Il existe également 2 variations réalisées par Janfy
Une utilisant des tables MySQL HEAP (en mémoire)
Une utilisant des fichiers à la place de MySQL

Pourquoi ?
En ayant marre des aspirateurs qui balaient régulièrement le site et surtout des dégats qu'ils provoquent (lenteur et surcharge du serveur), j'ai développé un script pour en arrêter le plus possible.

Début 2003, j'ai demandé aide et conseil sur la liste de webmasters 'bar' d'ovh.fr.

Les tests ont donné de bons résultats: Teleport, Offline explorer, Httrack, Memoweb et WebReaper ont été détectés et arrêtés. L'IP des personnes utilisant un aspirateur est interdite en moins d'1 minute.

 

Le cas des moteurs de recherche

Google et les moteurs similaires ne déclenchent pas le blocage. Google est sur plusieurs IP différentes et lors de son passage il fait largement moins d'accès q'un aspirateur.

Les moteurs sérieux intègrent tous des mécanismes pour ne pas surcharger les sites qu'ils explorent!

 

Sites pour lesquels le système ne fonctionne pas

Les sites équipés de frames qui se rechargent, où les sites 'rapides' qu'un utilisateur connaît par coeur et qu'il parcours à grande vitesse (les sites imode ou il y a peu d'information par page et ou on passe très vite de page en page sont typiques (avec un navigateur internet)) peuvent dans certains cas et si la limite est trop basse bloquer des utilisateurs légitimes. Effectuer donc vos propres tests pour trouver la valeur de blocage qui sera adpaté à votre site.

Pour les sites sur des serveurs 'lents' ce système ne fonctionne pas. Il est inutile de l'installer.

 

Ressources utilisées
Ce script consomme des ressources:
+ 3 requêtes SQL/page dans une 30taine de lignes de code.
(Les idées d'optimisation sont les bienvenues).

Le script est dépouillé pour prendre le moins de ressources possible, néanmoins il doit tourner au début de chaque page, et rester le plus léger possible. Ajouter des tests en long et en large ne ferait que l'alourdir et consommer plus de ressources.

Tout dépend donc de votre site, de l'usage que vos visiteurs en font, et si les aspirateurs représentent une gène régulière dans votre activité.Vous devez comprendre ce que vous faites en l'installant!

 

Todo
Les choses a ajouter sont éventuellement des scripts à part:
- Pour libérer les IP bloquées,
- faire un historique.
- installer des url piègées qui vérifient la provenance du referer et l'IP pour voir s'il s'agit d'un robot légitime.

 








 


Warning: include(../visiteurs-2.0.1/include/new-visitor.inc.php) [function.include]: failed to open stream: No such file or directory in /public_html/stop_aspirateurs/index.php on line 129

Warning: include(../visiteurs-2.0.1/include/new-visitor.inc.php) [function.include]: failed to open stream: No such file or directory in /public_html/stop_aspirateurs/index.php on line 129

Warning: include() [function.include]: Failed opening '../visiteurs-2.0.1/include/new-visitor.inc.php' for inclusion (include_path='.:/usr/share/php:/usr/share/pear') in /public_html/stop_aspirateurs/index.php on line 129