Forums d'entraide informatique - Astuces - Conseils
Des experts à votre écoute pour tous vos dysfonctionnements
Vous n'êtes pas identifié.
#1 23-08-2008 20:14:31
- Admin
- Administrateur
- Date d'inscription: 30-07-2008
- Messages: 683
Le livre blanc du référencement de pages Internet
Livre Blanc
Version 1.0 - 4 mai 2007
RECOMMANDATIONS POUR
LE REFERENCEMENT INTERNET Livre blanc « Guide du Référencement Internet »
SOMMAIRE
1 AVANT-PROPOS.................................................................................... 3
2 INTRODUCTION..................................................................................... 4
2.1 Amorcer une stratégie de référencement.......................................................................... 5
2.2 Problématique................................................................................................................... 7
3 ARCHITECTURE DU SITE............................................................................ 9
3.1 Nom de domaine .............................................................................................................. 9
3.2 Architecture..................................................................................................................... 11
3.3 Liens internes.................................................................................................................. 22
3.4 Refonte / migration d'un site........................................................................................... 23
3.5 Archives Internet............................................................................................................. 24
4 CONTENU.........................................................................................25
4.1 Qualité............................................................................................................................. 25
4.2 Mots-clés......................................................................................................................... 26
4.3 Effet de longue traîne (ou Long Tail)............................................................................... 30
5 STRATÉGIE DE PUBLICATION..................................................................... 32
5.1 Blog & RSS...................................................................................................................... 32
5.2 Contenu viral (ou linkbaiting).......................................................................................... 34
5.3 Liens externes (ou backlinks).......................................................................................... 34
5.4 Référencement manuel.................................................................................................. 36
6 SUIVI............................................................................................. 38
6.1 Pages indexées par les robots......................................................................................... 39
6.2 Audience du site.............................................................................................................. 40
6.3 Provenance des visiteurs et mots clés utilisés ................................................................ 41
7 CONCLUSION..................................................................................... 43
7.1 Les techniques de référencement................................................................................... 43
7.2 Les enjeux du référencement.......................................................................................... 43
8 ANNEXE : PAGERANK........................................................................... 44
9 ANNEXE : FONCTIONNEMENT DES ROBOTS D'INDEXATION.......................................45
10 AVERTISSEMENT : DROIT DE PROPRIÉTÉ INTELLECTUELLE......................................47
4.1 Art. L 335 - 2................................................................................................................... 47
4.2 Art. L 335 - 8................................................................................................................... 47
Page 2/46Livre blanc « Guide du Référencement Internet »
1 AVANT-PROPOS
Ce document est une recommandation pour le référencement de sites Internet.
Étape par étape, nous fournissons une liste de pratiques à mettre en place pour
améliorer naturellement la visibilité d'un site, ainsi que celles à éviter dans la mesure
où elles peuvent nuire au bon référencement de votre projet Web.
L'étude fournit des exemples (notamment le site de Clever Age http://www.clever-
age.com) et quelques pistes techniques ou éditoriales.
Page 3/46Livre blanc « Guide du Référencement Internet »
2 INTRODUCTION
Le référencement Internet regroupe les moyens permettant de rendre visible un site
Web et de développer son trafic. Ces moyens peuvent être de nature technique, mais
également éditoriale.
Un référencement peut être sponsorisé (achat d'espace, marketing viral, relations de
presse, etc.), manuel ou naturel.
La suite logique du référencement est le positionnement (ou SEO : Search Engine
Optimization) : il vise à améliorer la position d'une page dans les résultats de
services de recherche.
Une stratégie de référencement efficace peut fournir des indicateurs fiables pour
piloter des activités sur Internet.
Page 4/46Livre blanc « Guide du Référencement Internet »
2.1 Amorcer une stratégie de référencement
Lancer une stratégie de référencement efficace et événementielle / pérenne vous
imposera de réfléchir plus généralement à votre activité, à la manière dont vous vous
positionnez par rapport à vos concurrents en terme de communication, aux moyens
(temps, budget) et compétences qui vous permettront d'atteindre vos objectifs.
Que vous souhaitiez déléguer votre référencement à une société tierce ou que vous
meniez vous-même vos actions de référencement :
• évitez à tout prix les espaces de discussions où les débutants propagent des
rumeurs ; réalisez des tests par vous même
• posez les bases de votre stratégie en fonction de votre contexte
Prochainement, mon site sera migré ou refait avec une/des technologies
différentes (CMS, blog, framework, etc) : comment préserver mon audience
actuelle ?
Mes sites ne sont pas visibles ou très peu : quelles sont les actions
actuelles mises en place ?
Mes concurrents bénéficient d'une bonne visibilité : comment rattraper mon
retard ?
Mon équipe de rédacteurs / contributeurs diffuse désormais du contenu sur
un site : quels réflexes à automatiser pour adapter le contenu au média
Internet ?
Le profil de mes visiteurs est inattendu ou ne correspond pas à ma cible :
comment me défaire de ce mauvais voisinage ?
Etc.
Page 5/46Livre blanc « Guide du Référencement Internet »
Trouvez les réponses à vos questions auprès de sources fiables : experts, guides
officiels, enquêtes, conférences, etc.
Nom Descriptif URL
SEOMoz Des articles complets http://www.seomoz.org/blog/
Matt Cutts: Gadgets,
Google, and SEO
1 employé de Google
qui répond aux
questions d'internautes
http://www.mattcutts.com/blog/
http://googleguy-fr.blogspot.com
Webmasterworld http://www.webmasterworld.com/p
rofilev4.cgi?action=view&member=
GoogleGuy
Actulab.net 1 site alternatif, articles
critiques et constructifs
sur le référencement
http://bvwg.actulab.net/
Go-referencement –
Référencement,
Marketing de
Recherche et Web
2.0
http://www.go-referencement.org/
Google Webmaster
Guidelines
Informations officielles
Google à destination
des webmasters
http://www.google.com/webmaster
s/guidelines.html
http://www.google.com/webmaster
s/facts.html
SEO Chat, Search
Engine Optimization,
Google Optimization
Des articles
d'optimisation pour
l'indexation
http://www.seochat.com/
Fixez-vous des objectifs réalistes et précis :
Objectifs de
l'annonceur
Organisations à but
lucratif (sociétés)
Organisations à but non
lucratif (communautés
OSS, etc.)
Informer Mettre en avant des
compétences
Diffuser des travaux
Communiquer Communiquer avec d'autres
entreprises autour de son
activité
Générer des contacts
Échanger avec des experts
Se démarquer Véhiculer l'image de
l'entreprise
Montrer la valeur ajoutée
d'un produit
Introduire des standards,
des normes, etc.
Augmenter la
visibilité
Attirer des clients
potentiels, de nouveaux
prospects
Générer des ventes
Susciter l'intérêt d'un public
large ou ciblé
Page 6/46Livre blanc « Guide du Référencement Internet »
2.2 Problématique
Malgré sa professionnalisation et sa rationalisation, le référencement reste sujet à des
controverses permanentes à cause :
• d'analyses difficiles à vérifier et à expérimenter, parfois contradictoires
• du niveau de concurrence qui défavorise l'exposition de cas réels de
référencement
• des variations de marché incontrôlables (nouveaux services publicitaires et
partenariats, rachats1
ou fusions de moteurs de recherche et bases de données,
etc...)
• des relations « conflictuelles »2
entre éditeurs d'outils de recherche (Google,
MSN, Yahoo, etc.) et référenceurs ou e-marketeurs
• des pratiques illégales de référencement ou déréférencement
3
de sites Internet
(Black Hat)
• De plus en plus de référenceurs testent les limites des outils de recherche et
trouvent de nouvelles méthodes pour (dé)référencer un site. Certains sites
arrivent ainsi en premières positions d’une recherche alors que leurs
contenus n’ont que peu de relation avec ce qui est recherché. Les services de
recherche n’hésitent plus à mettre en place des systèmes4
de pénalisation en
cas d'abus.
2002 : Google diminue le PageRank du site SearchKing, soupçonné d’être
un 'link farm'.
2003 : Google met en place une série de filtres anti-spam
2004 : Google désindexe (blackliste) certains prestataires spécialisés en
référencement, jugés peu scrupuleux. Les internautes nomment le
phénomène « BlackWave Google de 2004 »
2005 : Google désindexe les clients de ces prestataires (« Blackwave
Google de 2005 »).
1
http://www.readwriteweb.com/archives/mi … dstory.php
2
http://www.google.com/webmasters/seo.html
3
http://bvwg.actulab.net/15-eliminer-vos … pnote-15-1
4
http://www.google.com/intl/fr/webmaster … eport.html
Page 7/46Livre blanc « Guide du Référencement Internet »
Figure : site de BMW Allemagne blacklisté1
par Google pour cause de Cloaking2
Le Cloaking est une technique de référencement qui consiste à présenter au robot
indexeur un contenu de page différent de celui présenté à l'utilisateur. En pratique, le
robot voit une page avec du contenu textuel contenant des mots clés alors que
l'utilisateur est redirigé vers une autre page.
1
http://www.mattcutts.com/blog/ramping-u … l-webspam/
2
http://www.seomoz.org/blog/seomoz-vidca … s-cloaking
Page 8/46Livre blanc « Guide du Référencement Internet »
3 ARCHITECTURE DU SITE
3.1 Nom de domaine
L'URL est un critère important pour le référencement et le nom de domaine est
l'élément de base de cette URL, la représentation de votre site sous forme d'adresse.
Voici quelques conseils afin de gérer au mieux votre nom de domaine.
Recommandé A éviter
● Achetez votre nom de domaine et
conservez-le plusieurs années
● Achetez un nom de domaine sans
système de redirection
● Utilisez la/les adresses mails de ce
nom de domaine
● Privilégiez un nom percutant /
simple à retenir / contenant un
mot proche du thème du site
● Choisir une extension appropriée
au pays ciblé (.fr pour la France), à
l'activité (.com, .net, .org)
● Prévoyez des sous-domaines pour
distinguer des espaces de
communication particuliers (blog,
forums, ...)
Exemple :
www.fnac.com : site officiel de la
Fnac
spectacles.fnac.com : sous-
domaine du site Fnac.com dédié à
la vente de spectacles
● Hébergeurs gratuits
● Un site indisponible
● Un nom de domaine trop long ou
contenant plus de 2 mots
Page 9/46Livre blanc « Guide du Référencement Internet »
Étudiez ces critères grâce à un Whois de votre futur hébergeur ou de votre site actuel :
Whois est un service de recherche fourni par les registres Internet permettant
d'obtenir des informations (propriétaire, contacts, statut, prestataires...) sur une
adresse IP ou un nom de domaine.
Page 10/46
Who Is Clever- Age ? http://whois.domaintools.comLivre blanc « Guide du Référencement Internet »
3.2 Architecture
3.2.1 Guider les robots d'indexation
Les résultats des moteurs de recherche sont alimentés par des programmes nommés
robots d'indexation (ou bot ou spider ou crawler, voir l'Annexe Fonctionnement des
Robots d'indexation pour plus d'informations). Ceux-ci :
• parcourent régulièrement Internet à la recherche de nouvelles pages
• incluent de manière automatisée ces pages dans leurs bases de données
Bien que les robots soient censés réaliser automatiquement ce travail d'indexation, il
arrive qu'ils ne parcourent pas un site. Il est possible en complément de les guider à
l'aide de fichiers (« robots.txt » ou « sitemap.xml »), placés à la racine du site, qui
seront parcourus en premier par le robot, avant même les pages du site.
Par ailleurs, il faut considérer que les robots ne tiennent compte que des éléments
textuels d'une page. Pour simuler ce qu'un robot peut indexer, désactivez dans votre
navigateur Web :
• l'affichage des images
• les scripts (Javascript)
• les composants Flash et JAVA
• les styles de mises en forme (CSS externes et internes)
Vous pouvez aussi, par exemple, vous rendre sur un moteur de recherche et
visualiser la version « en cache » de votre page.
a/ Le fichier « robots.txt »
Le fichier « robots.txt » est un standard12
donnant des règles aux robots d'indexation
sur :
• les pages à indexer
• les pages et répertoires à ne pas indexer. Par exemple :
o les pages de résultats d'un moteur de recherche interne au site,
o les pages auto-générées (par exemple, celle d'un calendrier, qui peuvent
produire des crawls infinis du robot)
o les pages temporaires (par exemple, celle de votre système de mise en
cache de pages si vous en avez un)
o les pages d'erreurs (404), d'identification des utilisateurs
o les documents sans intérêt « mais en accès libre » (statistiques, liste
d'utilisateurs, etc.)
1
http://www.w3.org/TR/REC-html40/appendi … ml#h-B.4.1
2
http://www.robotstxt.org/wc/norobots.html
Page 11/46Livre blanc « Guide du Référencement Internet »
Les robots d'indexation ne sont pas forcés de respecter le fichier « robots.txt », mais
une majorité d'entre eux l'utilisent.
• Le nom du fichier doit être en minuscule
• Il n'y a qu’un fichier robots.txt par site
• Il est placé à la racine du site ou dans le répertoire contenant la page d'accueil
de manière à être accessible via http://www.site.com/robots.txt
Pour permettre à tous les robots d'indexer les pages de votre site, il faut y inclure
l'instruction suivante :
User-agent : *
# une seule instruction « User-agent: * » par robots.txt
Pour définir une règle propre à un robot en particulier, il faut spécifier son nom1
User-agent: Googlebot # Le robot de Google
Tout ce qui n’est pas spécifiquement exclu est autorisé.
Il est possible également d'interdire l'accès à certains répertoires et fichiers en
utilisant l'instruction de restriction Disallow :
Disallow : /[nom du répertoire]/
Disallow : /[nom du répertoire]/[nom de fichier] (exemple Disallow:
/404.html)
Si l'on souhaite interdire tout comme le fait webmasterworld2
,
User-agent : *
Disallow : /
Si vous n'avez aucun fichier à masquer, vous n'avez pas besoin de robots.txt en
principe. Si vous souhaitez en utiliser un quand même, vous pouvez y inclure les
instructions non restrictives suivantes :
User-agent : * # Pour tous les robots
Disallow: # Rien n’est interdit
Il est possible d'insérer des commentaires en commençant la ligne avec un dièse #.
1
http://www.iplists.com/
2
http://www.webmasterworld.com/robots.txt
Page 12/46Livre blanc « Guide du Référencement Internet »
Enfin, certains robots prennent en compte des commandes supplémentaires comme
Google, Yahoo (remplacement de caractères avec *, ? ou $, l'instruction Yahoo1
« Crawl-Delay » indiquant au robot un temps d'attente minimum avant d’accéder à
votre site).
1
http://help.yahoo.com/help/us/ysearch/s … rp-03.html
Page 13/46Livre blanc « Guide du Référencement Internet »
3.2.2 Plan du site (ou sitemap)
Le plan du site est une liste (ou classification) de toutes les pages d’un site.
a/ Plan du site HTML
Il peut être physique (HTML) auquel cas il fait l’objet d’une page à part entière du site.
Le plan de site HTML doit être mis en évidence sur toutes les pages (par exemple, sur
chaque pied de page du site).
b/ Plan du site au format Sitemaps
Ce plan du site n'est pas destiné aux visiteurs du site mais aux robots d'indexation. Il
simplifie leur travail en listant l’ensemble des pages du site à indexer.
Auparavant il s'agissait d'un fichier texte placé à la racine du site et contenant les URL
du site à indexer (une URL par ligne).
Désormais, il s'agit d'un fichier XML nommé « sitemap.xml » et basé sur le protocole
Sitemaps1
. Ce standard, soutenu au départ par Google2
, est aujourd'hui adopté3
par
les services de recherche les plus importants (Yahoo4
et Microsoft Live5
). Le format
XML permet d'associer des méta-données relatives à chaque page (dernière mise à
jour, fréquence de mise à jour, importance par rapport aux autres pages du site).
1
http://www.sitemaps.org/
2
https://www.google.com/webmasters/tools … tocol.html
3
http://www.unearaigneeauplafond.fr/site … -recherche
http://googleblog.blogspot.com/2006/11/ … nited.html
4
http://www.ysearchblog.com/archives/000380.html
5
http://blogs.msdn.com/livesearch/archiv … o-support-
sitemaps.aspx
Page 14/46
http://www.clever-age.com/navigation-tr … .htmlLivre blanc « Guide du Référencement Internet »
Voici un exemple de « sitemap.xml » bien formé (balises optionnelles en italique) :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Le « sitemap.xml » évite au robot de parcourir aveuglément un site à la recherche de
contenus nouveaux. D'une part, les webmestres peuvent guider plus finement le robot
en lui indiquant explicitement les nouveaux contenus, leur importance et fraîcheur ;
d'autre part, le travail d'indexation est optimal puisque le robot axe son parcours sur
des contenus ciblés.
Utilisez des outils automatisés pour construire votre « sitemap.xml » de départ. Par
exemple,
– applet Java : par exemple le Site Map Generator de Audit My PC
(http://www.auditmypc.com/xml-sitemap.asp)
– les plugins de blogs : par exemple, Gsitemap pour Dotclear ou Google Sitemap
Generator pour Wordpress
Page 15/46Livre blanc « Guide du Référencement Internet »
3.2.3 Accessibilité & Ergonomie HTML
Recommandé A éviter
● Utilisez les services W3C pour
assurer la validité (HTML, XHTML,
CSS, etc) de vos pages
● Assurez-vous que la navigation
repose sur des éléments textes1
● Séparez autant que possible le
code Javascript et CSS dans des
feuilles externes
● Redirigez le visiteur vers une page
d'erreur 404 en cas de liens cassés
(cf. ci-dessous la page d'erreur
d'Apple)
● Mettez en place l'URL Rewriting
(cf. a/ URLs simplifiées)
● Les sites utilisant des cadres
(frames, iframes)
En procédant directement à des
recherches sur différents outils de
recherche, vous constaterez que
peu de pages bien référencées
utilisent des cadres2
: nous
recommandons donc de ne pas les
utiliser
● Les pages trop longues (scindez
les en plusieurs pages)
● Les pages multilingues
● Les pages vides ou en construction
● Dissimulation de mots-clés ou de
contenu :
Texte, liens de la même couleur
que le fond de la page
Les bulles (ou tips) s'affichant au
passage de la souris sur un
élément de la page. Typiquement,
un balise HTML div contenant du
texte masqué en CSS (avec la
propriété display:none) ou du
texte placé hors de l'écran
● Les redirections de pages
Javascript (location.href=..). Les
robots n'extraient pas encore les
URLs contenues dans le code
Javascript
● Les éléments multimédias
nécessitant l'installation de plugins
ou de contrôles Active X (cf. b/
1
http://www.secrets2moteurs.com/chroniques4.html
http://solutions.journaldunet.com/0604/ … -web.shtml
http://s.billard.free.fr/referencement/ … benefices-
concrets
2
Comment référencer un site utilisant des frames ? (http://www.abondance.com/docs/frames.html)
Page 16/46Livre blanc « Guide du Référencement Internet »
Utilisation exclusive de Flash ou
Java)
La page d'erreur 404 est importante car elle permet de redigirer le visiteur égaré, en
lui proposant notamment un plan de site ou un moteur de recherche. Ainsi,
l'information reste accessible et la page 404 n'est plus une porte de sortie pour votre
site.
Cordialement
L'équipe Parisdepannage.fr
Hors ligne
2008 Parisdepannage |Plan du site|Forums |Blog|Lexique ![]()