Quand les experts en Text Analytics de SixFoisSept collaborent avec ceux de 42 DLP, spécialistes de l’affichage graphique (Broadcast), on assiste à une petite révolution numérique : celle de l’analyse et de l’affichage, en temps réel, de l’humeur des fans d’une des plus célèbres émissions de télé-crochet française, The Voice !
L’analyse de sentiment n’est pas une nouveauté. Contrairement à ce que beaucoup estiment, elle n’est pas apparue avec internet et le web 2.0. « Ce que disent et pensent les gens » a été successivement un sujet d’intérêt scientifique (la rumeur en tant qu’objet sociologique), d’intérêt politique depuis la fin de la guerre (l’opinion publique existe puisque les sondages peuvent la mesurer) et désormais d’intérêt commercial (la notoriété médiatique ou e-réputation mesurée sur les media).
Avec l’adoption massive des réseaux sociaux, l’intérêt pour l’analyse de la tonalité, positive ou négative, de l’humeur s’est renforcé, devenant le nouveau terrain de jeu des directions marketing et publicité. Un intérêt compréhensible lorsqu’on sait que 42% de la population mondiale est inscrit sur les réseaux sociaux (source hubspot).
A ce titre, Twitter est un canal souvent analysé car il possède différents avantages : 145 millions d’utilisateurs quotidiens, des tweets accessibles à tous grâce à son API, des textes brefs, aujourd’hui de 280 signes contre 140 auparavant, et la réactivité des utilisateurs sur le fil.
Le but de l’analyse de données, menée par Sophie Guerin, Directrice de projet de Data Science chez SixFoisSept, a été d’automatiser l’attribution d’un sentiment pour chaque tweet, permettant une retranscription de l’émotion générale en direct pendant l’émission The Voice. C’est donc un pipeline de 35 000 tweets, comportant le #TheVoice, #TheVoice2020 et #TheVoiceFrance qui ont été aspirés, nettoyés et analysés.
Ironie ou critique ?
Une des difficultés de la classification en « positif et négatif » réside dans la nécessité d’une bonne analyse syntaxique du texte, au cœur même de l’utilisation de la langue. Car le sentiment exprimé dans un tweet dépend du contexte, du type de langage utilisé et bien sûr de la personne qui l’a écrit. Dans les faits, une multitude de facteurs peuvent altérer un sentiment suscité par un propos. Par exemple, lorsqu’un tweet est une critique, il n’induit pas forcément un sentiment négatif. Tout comme il n’est pas si simple de dire si un tweet ironique porte une émotion négative… Les sentiments les plus difficiles à analyser sont donc l’ironie et la critique.
2heures d’émissions…4 heures de pub, c’est bien quand on a une gastro…#TheVoice
#TheVoice ça revient encore plus vite que les impôts !
On en parle de la veste à Obispo ? #TheVoice
« Après avoir aspiré les 35 000 tweets, nous avons procédé en deux étapes. Une phase de nettoyage, grâce au traitement automatique du langage naturel – le NLP pour Natural Language Processing en anglais. Cette première étape assimilée à du « data cleaning » permet d’ôter des textes bruts tous les mots qui ne sont pas essentiels à une analyse de sentiment. » précise Sophie Guérin.
Les 35 000 tweets sont alors labellisés positifs, négatifs ou neutres.
Et de poursuivre « La seconde étape consiste à fournir à l’algorithme une majorité de tweets labellisés pour qu’il apprenne à reconnaître un tweet positif d’un tweet négatif : c’est l’étape d’apprentissage. Cet apprentissage se fait par l’exemple : on n’indique pas à la machine qu’un tweet positif possède tel et tel mot, mais on lui montre une série de tweets positifs et on la laisse apprendre seule. C’est le machine learning (…)
(…) Les tweets restants sont ensuite utilisés pour vérifier que le modèle n’a pas simplement appris par cœur en se basant sur les textes qu’il a vu et qu’il sait donner un sentiment correct à un tweet jamais rencontré auparavant. Au final, ce sont 70% des tweets qui sont « bien prédits » c’est à dire dont l’algorithme est arrivé à bien identifier le sentiment ». Un pourcentage de « fiabilité » qui peut augmenter si l’algorithme est nourri avec d’autres exemples.
Comme le résume Sophie Guérin « plus il y a de données, plus les résultats sont fiables. »
Quelle est la pertinence d’associer le Text Analytics et le broadcast ?
Aujourd’hui l’analyse qualitative est devenue une priorité pour une marque : celle de détecter les nouvelles tendances, les centres d’intérêts et/ou mesurer l’engagement. Analyser et obtenir le sentiment autour d’une émission en temps réel c’est la possibilité d’identifier rapidement les bad buzz comme les good buzz et d’adapter la stratégie de social media, d’effectuer du ciblage publicitaire mais surtout de piloter une émission ou un évènement.
L’analyse en temps réel permet de surveiller les réactions de l’audience, de savoir ce qui plaît ou ne plaît pas et surtout d’identifier pourquoi. Dans le cas des émissions de télé-réalité, posséder ces informations c’est avoir la possibilité de réajuster, rebondir sur les « mini-buzz » et ainsi d’aiguiller la prise de parole des producteurs.
D’un point de vue de l’habillage,« les équipes de 42DLP récupèrent les données Json fournies par SixFoiSept dans un logiciel développé spécifiquement. A partir de ces data, nous créons une moyenne glissante qui exprime le sentiment des téléspectateurs à l’instant T. La mise en flux des images est réalisée à travers un moteur de rendu broadcast piloté en temps réel. Ainsi l’affichage permet de ressentir la volumétrie des tweets et le sentiment lié à chaque tweet » explique Robert Laplante, fondateur de 42DLP.
Dans le cas de notre exemple avec The Voice, l’affichage du sentiment général en temps réel, comme le décrit la vidéo ci-dessus, peut ainsi donner le « la » sur la performance d’un candidat, ou sur ce que les téléspectateurs ressentent face au verdict ou au comportement des jurés. De permettre aux « coachs » de l’émission d’être au plus près des attentes du public. Mais par-dessus tout, pour un téléspectateur voir s’afficher en temps réel le sentiment qu’il vient d’exprimer, peut être un facteur déterminant d’engagement et de fidélisation.
SixFoisSept + 42 DLP, et votre sentiment s’affiche en temps réel sur votre écran télé !
Le direct et la gestion de la donnée, deux notions que connaît bien 42DLP, spécialiste de l’habillage graphique télévisuel. Le quotidien des équipes ? La gestion de la remontée des datas et sa mise en image et/ou en valeur que ce soit pour des données sportives avec l’affichage d’une statistique, pour des cotes évolutives du PMU à transmettre aux parieurs ou bien des données électorales.
La société conçoit des applications et des workflows adaptés aux besoins de ses clients. Elle automatise le remplissage de templates, les envoie avec ou sans intervention humaine à l’antenne et propose désormais l’intégration de décors virtuels (modélisation 3D des décors) depuis que 42 DLP s’est rapprochée de Parallaxes, un studio de création. S’associer à l’expertise en Text Analytics de SixFoisSept a donc été une évidence. La preuve en images.
SixFoisSept couvre l’ensemble des expertises data d’un projet, que ce soit pour le Data Management et la mise en qualité des flux de données, ou la Data Science avec des algorithmes d’intelligence artificielle.