Les auteurs ont mis en évidence une association entre le taux de messages reliés aux thématiques du VIH (voir limites) et la prévalence de l’infection à VIH et ce même en ajustant sur de potentiels facteurs confondants liés à la démographie des zones considérées. Ce point est très  intéressant car il valide la faisabilité de la démarche, c’est-à-dire l’hypothèse qui sous-tend ce type de d’approche que l’indicateur mesuré (les tweets à thématique VIH) est bien corrélé au phénomène épidémiologique que l’on souhaite mesurer (la prévalence de l’infection à VIH, même si l’objectif affiché serait plutôt la transmission). 

L’article précise bien qu’il s’agit d’une phase de faisabilité dont les premiers résultats sont encourageants.

Il illustre la nouvelle tendance en épidémiologie d’exploiter les données issues d’Internet pour évaluer leur utilisation dans un contexte de surveillance. Comme le cite les auteurs, plusieurs expériences ont été réalisées concernant la grippe1, et plus récemment d’autres pathologies23 voir des indicateurs globaux comme les sentiments positifs ou négatifs4. Il s’agit d’un champ de recherche en plein développement 56

L’approche est également envisagée d’un point de vue de la prévention, les réseaux sociaux étant de plus en plus utilisés (et évalués) comme outils de prévention à part entière. Tant du point de vue de la diffusion que de l’interaction possible avec les personnes.

Mieux comprendre comment les sujets sont abordés, circulent et évoluent avec les campagnes de prévention et d’information peut aider à ajuster ces mêmes campagnes ou à identifier des points d’accroche pour construire des outils de prévention.

Méthode

Les auteurs ont utilisé une interface de twitter fournissant un échantillon des tweets (Sample API aka « gardenhose ») pour récolter environ 500 millions de tweets sur 6 mois (mai à décembre 2012) dont ils n’ont conservé que la fraction comportant des informations sur la géolocalisation (< 1% des tweets). Ils ont ensuite identifié les messages contenant au moins une occurrence de termes prédéterminés pour les classer comme « relié sexe » (les attitudes et comportement à risque sexuel), « relié à l’usage de drogue », « relié au VIH ». Cette dernière catégorie étant issue de la combinaison des deux précédentes. Ce comptage a été effectué après un traitement de racinisation des termes. Certains tweets ont pu également être exclus (l’exemple du terme « coke » dans un contexte de boisson par exemple).

Young et collègues ont ensuite calculé le taux de tweets identifiés (sur l’ensemble des tweets collectés) par zone géographique américaine puis ont associé ces informations à des indicateurs démographiques et de prévalence du VIH pour construire un modèle de régression afin de quantifier les associations entre ces données.

En appliquant ce modèle, les auteurs ont mis en évidence une association significative entre la proportion de tweets identifiés comme «relié au sexe», «relié à l’usage des drogues » ou «relié au VIH» (combinaison des 2 précédentes) avec la prévalence du VIH dans chaque zone géographique aussi bien en univarié qu’en multivarié en ajustant sur certains indicateurs sociaux démographiques de chaque zone géographique (pauvreté, niveau d’éducation, inégalité par l’index de GINI).

Limites de l’étude

Les auteurs ont utilisé une base d’échantillon de tweets (~ 1% d’après l'article mais la procédure d'échantillonnage est peu documentée par Twitter) pour conduire leur analyse. Ceci leur a permis de disposer d’un nombre total de tweets (le nombre de tweets n’est pas fourni par Twitter) sur lequel baser leur calcul de proportion. Ils ont ensuite réduit l’échantillon collecté aux seuls tweets comportant des informations de géolocalisation, ce qui a considérablement réduit leur échantillon (0.4%) mais cela leur a permis de s’assurer de la provenance géographique des tweets. D’autre part la réduction par la géolocalisation a pu introduire un biais car il peut exister un lien entre le fait d’utiliser ou non la géolocalisation et les sujets traités (notoirement dans le cas de l’usage de drogue, comme le souligne Stoové et al.7)

La catégorisation des messages est basée sur un ensemble d’expression a priori (non décrite dans l’article), concernant les attitudes et comportements à risque sexuel et d'usage de drogues (« reliés » au VIH) et la catégorie dénommé « HIV-related » , combinaison des deux catégories. Il est malheureusement difficile de bien comprendre de quoi est au final constitué cette catégorie (quels risques ont été considérés, quel « poids » a chaque type de risque dans l’échantillon ? Y’a-t-il des expressions spécifiques du VIH dans les expressions recherchées, comme par exemple les traitements post-exposition ? des références aux traitements ?).

D’autre part, l’analyse a porté sur l’ensemble des tweets, or il est probable que la distribution des tweets par utilisateur ne soit pas homogène. L’article ne précise pas si les utilisateurs ont été pris en compte (un même utilisateur pouvant être à l’origine de plusieurs messages sur la même thématique). L’existence de «super diffuseurs», responsables de nombreux tweets étant probable dans ce type de réseau.

Une des limites de ce type d’approche, discutée par les auteurs est le lien de causalité entre l’expression d’une prise de risque et la réalité de cette prise de risque. Ce point est d’ailleurs bien détaillé dans le commentaire publié par Stoové et Pédrana8.

Stoové et al. nous alertent également sur la population capturée par l’expérience (qui représente 0.01% des tweets). Il faut également signaler que la population des personnes utilisant le réseau social Twitter est probablement particulière (en termes de niveau d’éducation, de revenus, d’âge) et probablement aussi par les modes d’expression de ses conduites à risques et de leur gestion.

L’absence de donnée concernant la transmission (obligeant les auteurs à utiliser les données de prévalence) est également une des limites à la validation de l’approche «temps-réel» qu’offre un réseau social comme Twitter. L’utilisation des nouveaux cas de séropositivité (incidence) pourrait être envisagée pour améliorer cette approche.

Enfin la place de ces données pour la « surveillance » de la transmission du VIH est questionnée par Stoové et al., car, outre le problème de causalité évoqué plus haut, un tel système devrait alors être évalué selon les critères habituels d’un système de surveillance épidémiologique.

  • 1. Chew, C. and G. Eysenbach, Pandemics in the age of Twitter: content analysis of Tweets during the 2009 H1N1 outbreak. PLoS One, 2010. 5: p. e14118.
  • 2. Dodds, P.S., et al., Temporal patterns of happiness and information in a global social network: hedonometrics and Twitter. PLoS One, 2011. 6: p. e26752.
  • 3. Velardi, P., et al., Twitter mining for fine-grained syndromic surveillance. Artificial intelligence in medicine, 2014.
  • 4. Dodds, P.S., et al., Temporal patterns of happiness and information in a global social network: hedonometrics and Twitter. PLoS One, 2011. 6: p. e26752.
  • 5. Milinovich, G.J., et al., Internet-based surveillance systems for monitoring emerging infectious diseases. The Lancet infectious diseases, 2014. 14: p. 160-168.
  • 6. Salathe, M., et al., Digital epidemiology. PLoS Comput Biol, 2012. 8., les chercheurs évaluant l’intérêt de ces sources dans différents contextes
  • 7. Stoové, M.A. and A.E. Pedrana, Making the most of a brave new world: Opportunities and considerations for using Twitter as a public health monitoring tool. Preventive medicine, 2014.
  • 8. Stoové, M.A. and A.E. Pedrana, Making the most of a brave new world: Opportunities and considerations for using Twitter as a public health monitoring tool. Preventive medicine, 2014.