14/09/2009

Comment étudier l'opinion à partir du web 2.0

Quand on veut étudier l’opinion ou les consommateurs, sur un sujet précis, on a tout un écosystème d’information gratuite à disposition : les conversations sur le web.

Mais comment utiliser ce matériau web ? Comment échantillonner les contenus présents sur le web sur un sujet donné, comment étendre les résultats obtenus à l’ensemble de la population ?

La compétence fondatrice des Etudes Marketing et Opinion (ÉMO), c’est l’échantillonnage : « s’informer à propos d’une population en interrogeant une partie seulement de cette population que l’on appelle « échantillon » afin d’étendre les résultats obtenus à l’ensemble de la population visée. »

Surfer sur des buzz, suivre les liens par lesquels les blogueurs se référencent les uns les autres, c’est sans doute participer à la vie d’une communauté d’internautes : ce n’est pas étudier l’opinion publique. Pour étudier, il faut plonger sous l’écume des buzz, échantillonner, avec un équipement technique adapté.

C’est le défi auquel nous avons répondu. Nous avons construit une méthode que nous avons baptisée « Narval ». La corne du narval est en ivoire, mais ses nerfs sont à l'extérieur – dix millions de terminaisons nerveuses sensibles à tous les composants du monde marin – courants, températures, salinité, micro-organismes… Tout à fait le web 2.0, dans une perspective d’ÉMO : découvrir et mesurer ce qui se passe dans la profondeur du monde marin, sous l’écume des vagues !

Narval transpose les méthodes de sondage classiques au terrain très différent qu’est le web : surabondance des données textuelles, imposant le recours à un logiciel d’analyse textuelle ; mouvement permanent et multidimensionnalité de l’espace Web, contrairement aux bonnes vieilles bases de sondage que sont un annuaire téléphonique ou un plan de ville.

Sur internet, ce que l’on voit et que l’on échantillonne, c’est du contenu, avant de pouvoir voir les personnes.Pour étendre les observations à une population de personnes, il faut passer par une étape intermédiaire : rattacher les interventions à des intervenants. Expliciter « qui parle ? ». Savoir « quel genre de gens dit telle ou telle chose ? ».

Comme tout processus d’enquête, la démarche « Narval » comprend trois grandes phases :

  • Échantillonner, selon un protocole défini et sans savoir ce que l’on recueillera ;
  • Recueillir auprès de l’échantillon, des contenus, et qualifier leurs auteurs ;
  • Analyser ces contenus pour en tirer des informations que l’on puisse étendre à la population de départ.

 

Échantillonner

Dans les enquêtes classiques, le terrain est bien connu – les villes et villages, les points de vente alimentaires, les gares ferroviaires … et la phase d’échantillonnage est presque implicite, elle suit des protocoles couramment appliqués au même terrain.

Au contraire, « le web » évoquant un sujet donné est un terrain rapidement mouvant, presque inconnu au départ de chaque enquête. La cartographie du terrain, avant d’y envoyer les enquêteurs, est une phase cruciale.

Le processus d’échantillonnage comprend lui-même trois étapes, que l’on peut décrire par analogie avec un échantillonnage de points de vente, préalable à une observation de consommateurs in situ.

1.Définir précisément les comportements à observer, les circonstances dans lesquelles ils seront observables.

2.Construire un échantillon de sites – magasins, rayons, angles … (échantillon de premier degré) - de nature à permettre ces observations, en représentant différents cas de figure prévisibles (stratification de l’échantillon de premier degré).

3.Sur ces points de vente, échantillonner des consommateurs. L’échantillonnage peut en pratique être constitué de grappes d’observation (jours d’enquête). Des interactions entre consommateurs peuvent être observées : les comportements individuels ne sont pas des variables indépendantes.

 

De même, échantillonner des prises de parole sur le web signifie :

1. Définir précisément les termes de recherche qui révèlent la présence, dans une conversation donnée, d’interventions en rapport avec le sujet étudié.

2. Construire un échantillon de sites sur lesquels ces termes de recherche pourront être utilisés pour trouver des conversations. Répartir l’échantillon de façon à représenter différents cas de figure (compte tenu du type de sites, de leur thématique principale…).

3. Sur ces sites, échantillonner des interventions (prises de parole). L’échantillon est constitué de grappes qui sont des conversations, généralement intégrales, menées sur une ou plusieurs pages chacune.

 

Recueillir

Recueillir les contenus échantillonnés est un travail d’enquêteur, qui comprend trois opérations successives :

  • Collecter les données présentes sur la page web : contenu de l’intervention, date, auteur…,
  • Retraiter les éléments présents dans le contenu, mais ne constituant pas un texte de l’auteur : citations, liens, images, scripts… ;
  • Chercher et renseigner des méta-données permettant, en particulier, de situer l’auteur au regard de critères pertinents pour l’étude.

Sur internet, les habitués du web 2.0 le savent bien, on sait généralement qui parle. Il s’agit de conversations entre des intervenants dont chacun a intérêt à donner les éléments qui permettent aux autres de comprendre et situer son propos, sa « position par rapport au sujet ». Par exemple, dans une étude pilote sur le vaccin contre les papillomavirus, 85% des intervenants pouvaient assez facilement être rangés dans l’une des catégories suivantes de positions par rapport au sujet:

  • Professionnels de la santé, au sens le plus large ;
  • Jeunes filles susceptibles d’être vaccinées ou de l’avoir été récemment ;
  • Mères de jeunes filles susceptibles d’être vaccinées ou de l’avoir été récemment ;
  • Autres femmes ;
  • Partenaires sexuels de jeunes filles susceptibles d’être vaccinées ou de l’avoir été récemment.

 

Analyser

L’analyse du vaste ensemble de textes recueillis est à la fois accélérée et fiabilisée par le recours à un logiciel de classification automatique : Alceste, développé et commercialisé par la société Image. Alceste traite les vocabulaires des textes, non les articulations logiques du discours, ce qui prépare bien le travail du qualitativiste, en faisant apparaître un contenu latent derrière le déclaratif.

Il permet de mettre en évidence des intervenants aberrants ; il facilite l’aller-retour permanent entre interprétations et contenus, en particulier par tous les croisements statistiques qu’il permet entre classes de contenus et caractérisation des intervenants. Il donne à l’analyse qualitative de contenu sur internet un niveau d’objectivité, de réfutabilité, de reproductibilité exceptionnels.

Pour en savoir plus sur nos résultats, contacter l'un des membres du collectif CristalResearch, comme Françoise Frisch (frisch point francoise arobase gmail point com).



« Etudes Marketing et Opinion, fiabilité des méthodes et bonnes pratique », Syntec EMO, Dunod 2007, sous la direction de Françoise Frisch.

Sauf sur l’univers des blogs personnels. Mais les personnes qui bloguent fréquemment ne sont qu’une petite minorité, et ce mode d’expression est très particulier – c’est rarement le plus instructif dans une perspective d’ÉMO.

22/06/2009

Première présentation !

Demain mardi 23 juin, à Paris, c'est la première présentation de la méthode et des outils sur lesquels nous travaillons depuis plus d'un an.

Notre axe de travail : repenser cette boîte à outils classique, pour traiter les nouveaux types de données, en particulier le web 2.0, avec le même niveau de qualité que dans les études classiques.

Nous montrerons, dans cette première présentation,

  • Comment repérer les auteurs et propos les plus significatifs, ou représentatifs, des attitudes et comportements dans la vie réelle.
  • Comment le fait de transposer sur la toile la boîte à outils des Etudes Marketing et Opinion permet d’étendre le périmètre des études en ligne, de la protection (se défendre contre les attaques) vers la construction (compréhension des marchés et publics).

Nous exposerons en particulier des éléments de méthode pour échantillonner les prises de parole sur le web.

  • Comment viser la représentativité de l’échantillon recueilli, par la constitution du corpus et par un marquage des prises de parole (métadonnées) qui permette, à l’étape de l’analyse, d’intégrer les sources de biais pour les corriger ou compenser autant que possible,
  • Comment modéliser les opérations, pour les rendre réfutables et barométrables,
  • Comment faciliter le traitement automatique du corpus par un logiciel qui prépare l'analyse de contenu qualitatif.

Si votre activité est concernée par ce qui se dit sur internet ... si vous avez ou pouvez avoir des budgets à consacrer à des études !... si vous aimeriez passer de l'étude des buzz et leaders d'opinion, à celle du grand public à travers son expression en ligne ... c'est certainement l'outil et la méthode qu'il vous faut !

18/03/2009

Comment trouver ce qui est fiable dans l'actuelle jungle d'informations ?

par Frédéric Lefebvre-Naré

À la journée d’échange Association Française du Marketing – Syntec Etudes Marketing & Opinion de l'automne dernier, j'ai eu le plaisir de présenter cet exposé : "Une grille d’appréciation des aléas et biais : applications aux enquêtes en ligne pendant la présidentielle 2007."

La problématique : la "part de marché" des sondages traditionnels diminue, face à de nouveaux types de données, mesures de comportement sur des bases de données clientèle (CRM), access panels et autres enquêtes sur des "communautés en ligne".

Que faire ?

  • renoncer à la "rigueur méthodologique" des sondages classiques, et … croiser les doigts ?
  • ou étendre cette même méthodologie aux données web, pour une information plus complète, plus diverse, plus digne de confiance ?

 


Regardez cette présentation sur SlideShare ou téléchargez-la.



-----

Liens vers les références citées dans la présentation :
* agoravox.fr ;
* tripadvisor.com ;
* vote-de-paille.fr (qui avait un autre nom ;-) ) n'est plus en ligne ;
* "Une théorie des enquêtes par quotas", J.-C. Deville, 1990 : présentation par Michel Lejeune : PDF.