Comment définir et éviter les pièges du Spamdexing ?
Par Steve Perinard,
jeudi 8 juin 2006 à 13:25 (Divers)
![]()
Le Spamdexing provient du mot "spam" et "indexing" (signifiant "indexation" voire "référencement"). L'une des définitions de Wikipedia est tout à fait juste : "référencement abusif destiné aux robots d'indexation de moteur de recherche qui consiste à modifier des pages Web en utilisant des mots-clés d'une façon abusive pour améliorer le classement dans les moteurs de recherche.". Wikipedia nomme un certain nombre de techniques utilisées. J'ai souhaité rendre cette liste de spamdexing plus exhaustive et la rendre plus synthétique pour que chaque webmaster puisse faire son check-up lors de l'optimisation de son site web.
Définition du Spamdexing par les moteurs de recherche
Le référencement manuel et naturel de votre site est-il optimisé ? Certainement, mais n'abuse t-il pas des techniques d'optimisation de référencement ? Si tel est le cas, il semble utile de définir le Spamdexing (référencement abusif en quelque sorte). Tim Mayer, directeur de gestion du produit pour la recherche de Yahoo définissait le Spamdexing comme des « pages créées délibérément pour duper les moteurs de recherche donnant des résultats inadaptés, superflus ou de mauvaises qualités. ». Les définitions du Spam et donc du Spamdexing par Google et MSN sont semblables à celle donnée par Yahoo. Il faut toujours vous demander si le contenu de chacune de vos pages est en adéquation avec les techniques d'optimisation dédié à votre référencement naturel et n'est pas, à contrario, destiné à tromper les algorithmes des moteurs. Mais ceci reste vague tout de même.
Voici donc une liste plus complète des possibilités de Spamdexing qu'il vaut mieux éviter d'utiliser :
- Abus du nombre de mot-clé
Les moteurs de recherche n'apprécient pas une liste trop longue de mots clé, surtout lorsqu'ils sont génériques au site sans aucun rapport avec une page de ce même site. Comptez une vingtaine de mots maximum pour vos Meta Keyword. - Mots clé trompeurs
Ce sont les mots clé qui ne sont pas en adéquation avec le contenu du site. Une pratique courante pour les sites à caractère pornographique. - Répétition de mots clé
Certes il est en général intéressant de répéter certaines occurences sur lesquelles on souhaite ressortir, mais dans une certaine mesure. La densité de mots clé doit être impérativement inférieure à 8-10% du contenu d'une page pour la première occurence. - Empilement de mot-clé
Ce sont les mots clés que l'on retrouve souvent en bas de page sous forme de longue liste, bien souvent suivis de liens Href internes. - Redirections non permanentes
Une redirection non permanente doit être utilisée de manière temporaire. C'est peut être une évidence pour tous, mais combien utilise une redirection de type 302 sans le savoir et finisse par être bannis ! - Redirections trompeuses
Ca veut bien dire ce que ça veut dire... - Liens masqués
Liens cachés volontairement pour ne pas être vus de l'internaute tout en étant vus par les robots. - Site miroir
Site identique en contenu et pas forcément en graphisme ou même encore en code source mais générant du contenu similaire (duplicate content). Il faut savoir à ce titre, que les mots clé d'une page ne sont plus réactifs lorsque le moteur de recherche les considère comme du duplicate content. - Texte caché
Texte blanc sur fond blanc par exemple, pour dissimuler à l'internaute l'existence de ce texte tout en étant vu par les robots. - Texte minuscule
Idem que le texte caché, mais dans ce cas, on dissimule le texte en l'écrivant en tout petit, de manière à ce que l'internaute ne puisse pas le lire. - Ferme de liens (linking farm) : Application de méthodes visant à augmenter artificiellement le nombre de liens vers une page. Par exemple, un site hébergeant des listes de liens vers tous les autres sites qu'on contrôle pour améliorer le classement de ces derniers en les faisant apparaître populaires.
- Pages permutée (cloaking)
Technique qui permet pour une même page web, de proposer plusieurs versions selon l'utilisateur. Bien souvent une pour l'internaute et une autre destinée aux robots. Attention les robots arrivent désormais à changer d'IP pour se faire passer pour un internaute. - Pages répétées
Un peu comme le site miroir, mais dans ce cas, il s'agit d'une page que l'on répète en changeant très peu d'éléments et en laissant apparaître une liste de mots clé génériques. Comme toutes ces pages ont un contenu similaire, les moteurs de recherche risquent de les considérer comme du duplicate content et finissent par les désindexer simultanément. - Pages satellites (doorway)
Page web satellite qui propose un empilement de mots clé en liens pour augmenter la popularité du site et pour être réactif sur certaines occurences. Par exemple,grâce au Javascript, ces pages sont redirigées vers le site principale, sans que l'internaute puisse le voir. Quant aux robots, ils s'arrêtent eux, sur cette page technique bourrée de mots clé sans voir la redirection en Javascript. - Baragouinage
Phrases non construites, n'utilisant q'une suite de mots clé. Attention les robots arrivent de plus en plus à déceler ce genre de page, notamment dans les balises Meta Description et Title. Par exemple, si la phrase contient énormément de virgules, tirets, parenthèses, etc. - Domain Spam
Noms de domaine à rallonge utilisant une succession de mots clé ou URL rewritée avec trop de mots ou proposant une répétition inutile d'occurence. - Typo Spam
Déclinaison sous plusieurs formes typographique des mêmes mots clé. Par exemple, mettre la même série d'occurence en italique, gras, souligné, majuscule, minuscule, etc. En théorie ceci améliore grandement la réactivité de cette occurence - Cybersquatting
Utilisation de nom de domaine proche ou décliné de ceux de grands sites pour les rediriger vers un site à contenu différent. Voire identique : évitez d'utiliser des dizaines de noms de domaine (contenant les mots clé qui vous intéressent) qui pointent vers votre site principale, même avec une redirection permanente.
Les sites web sont-ils bannis systématiquement lorsqu'un webmaster ou un référenceur utilise tout ou partie de ces techniques ?
Une chose est sûre : les moteurs de recherche n'arrivent pas encore à déterminer de manière automatique une partie de ces techniques de triche par le spam, mais ils ont des moyens qui évoluent à vitesse grand V pour y arriver. Et c'est sans compter sur la priorité qu'ils s'en sont faite. Alors pour y arriver, ils ont plutôt mis en place des outils leur permettant de contrôler la montée trop rapide d'un site. Et si cette alarme se déclenche, c'est à terme l'intervention humaine et là, ce n'est plus la même chose : le site est banni immédiatement !
Il faut donc rechercher la limite à ne pas dépasser. Car beaucoup de sites web optimisés au référencement naturel utilisent une partie de ce que les moteurs de recherche considèrent comme du spam, mais bien souvent de manière "frienly" ou "light". En fait pour comprendre ou se trouve la ligne jaune, il suffit d'optimiser votre site en utilisant peut-être quelques techniques de spamdexing mais tout en gardant à l'esprit, que le but n'est pas de tromper les outils de recherche et les utilisateurs, mais simplement de mettre en exergue le contenu de votre site.
Commentaires
1. Le jeudi 1 mars 2007 à 21:41, par Kablumy
2. Le mardi 12 juin 2007 à 16:39, par Référencement
Ajouter un commentaire