Code et données utilisées pour un article sur la présence des médias québécois dans trois réseaux sociaux (Facebook, Instagram et TikTok) publié dans Le Trente, magazine annuel de la Fédération professionnelle des journalistes du Québec (FPJQ).
De façon générale, pour Facebook et Instagram, l’extraction de données a été effectuée grâce à CrowdTangle, un outil d’analyse des contenus de Meta Platforms.
Pour TikTok, un script en langage python a permis d’utiliser le module TikAPI. L’extraction a été effectuée au printemps 2023 et complétée le 5 juin.
- Sur Facebook, l’extraction concerne 309 pages de médias québécois;
- sur Instagram, 85 comptes et
- sur TikTok, 24 comptes.
Les données sur les contenus journalistiques québécois dans Facebook et Instagram ont été obtenues à partir de deux tableaux de bord créés dans CrowdTangle, un outil d'analyse de contenus appartenant à Meta Platforms, la société mère des deux réseaux sociaux. Dans ces tableaux de bord, deux listes ont été créées:
- une liste de 309 pages Facebook médiatiques appelée MediasQuebec
- une liste de 85 comptes Instagram médiatiques appelée MediasQC
J'ai ensuite demandé à CrowdTangle de me fournir toutes les publications qu'il contient et qui ont été faites par les 309 pages Facebook et les 85 comptes Instagram identifiés entre le 1er janvier 2011 et le 31 mai 2023.
- Pour Facebook, CrowdTangle a retourné 60 fichiers différents contenant en tout 4 549 559 publications.
- Pour Instagram, CrowdTangle a retourné 15 fichiers différents contenant en tout 140 542 publications.
Un premier traitement de l'ensemble de ces fichiers a été effectué à l'aide de pandas, module python d'analyse de données. Les carnets qui détaillent cette première étape sont accessibles dans ce répertoire:
J'ai ensuite extrait les publications des 17 mois s'échelonnant du 1er janvier 2022 au 31 mai 2023 et les ai analysées, notamment à l'aide du module de traitement du langage naturel spacy, dans deux autres carnets:
Pour recueillir les métadonnées des vidéos diffusées par les médias du Québec dans TikTok, l'API TikAPI ($) a été utilisée. Ce moissonnage a été effectué en trois étapes.
La méthode d'échantillonnage boule de neige a été utilisée. À partir de comptes préalablement identifiés, comme ceux de certains médias (@tvanouvelles, @ledevoir, etc.) ou de certaines organisations qui ont à traiter régulièrement avec des médias (@quebecsolidaire, @uqam, etc.), un premier script fouille dans la liste des autres comptes TikTok qui sont suivis par ce compte afin d'identifier des comptes de médias:
Une fois les comptes de médias établie, un deuxième script va chercher des métadonnées sur ces comptes. À noter que j'ai ajouté des médias européens dans ce script pour d'autres projets de recherche:
À partir des métadonnées de base sur les comptes qui nous intéressent, ce troisième script recueille des données sur toutes les vidéos diffusées dans TikTok par ces comptes depuis qu'ils y sont abonnés.
Une analyse textuelle a également été effectuée sur un sous-ensemble composé des publications TikTok diffusées en 2022 et en 2023 (jusqu'au 31 mai 2023). Elle est décrite dans ce carnet:
Les conditions d'utilisation de CrowdTangle ne me permettent pas de rendre accessible l'ensemble des données colligées. Je demeure ouvert à les faire parvenir à toute personne chercheuse qui m'en ferait la demande dans le cadre d'un projet de recherche (s'applique aussi aux personnes étudiantes aux cycles supérieurs à l'université).
Je peux cependant donner accès à ces données agrégées qui donne une idée de l'activité Facebook d'un peu plus de 300 pages de médias québécois entre le 1er janvier 2022 et le 31 mai 2023:
Les conditions d'utilisation de CrowdTangle s'appliquent également à mon corpus Instagram. Je suis disposé à y donner accès, mais sur demande seulement.
Et je peux donner accès à l'agrégation présentée dans le fichier CSV suivant, qui donne une idée de l'activité Instagram d'un peu plus de 80 comptes de médias québécois entre le 1er janvier 2022 et le 31 mai 2023:
Je n'ai pas les même restrictions avec TikTok. Je peux rendre accessible l'ensemble des données que j'ai récoltées grâce à la métho décrite ci-dessus dans le fichier suivant:
L'espace restreint dans Le Trente a conduit à supprimer plusieurs tableaux que j'avais réalisés pour accompagner cet article.
Tableau 1 - Médias québécois sur TikTok, par nombre moyen de vues par vidéo.
Média | Nombre de vidéos | Nombre de vues | Vues par vidéo |
---|---|---|---|
@rds.ca | 355 | 34 150 656 | 96 199 |
@tvasports | 127 | 8 982 792 | 70 731 |
@tvanouvelles | 238 | 13 404 200 | 56 320 |
@lesacdechips | 107 | 5 802 452 | 54 229 |
@_urbania | 346 | 15 170 617 | 43 846 |
@lapochebleue | 100 | 4 192 005 | 41 920 |
@mtlblog | 580 | 24 071 769 | 41 503 |
@24heuresca | 263 | 9 529 778 | 36 235 |
@majmonactu | 113 | 3 737 001 | 33 071 |
@radio.canada.info | 223 | 6 038 150 | 27 077 |
Tableau 2 - Catégorisation des 100 mots-clics les plus couramment utilisés sur TikTok par les médias québécois.
Catégorie de mot-clic | Exemples | Nb de mentions |
---|---|---|
Localisation | #MTL, #514, #québec, #sherbrooke, etc. | 4 480 |
Propre à TT | #tiktokquebec, #quebectiktok, #fyp, #pourtoipage, etc. | 2 825 |
Sujet précis | #hockey, #nhl, #lnh, #ukraine, #climat, #françoislegault, etc. | 1 897 |
Autoréférentiel | #narcityquebec, #tvanouvelles, #ledevoir, etc. | 1 377 |
Sujet vague | #actualité, #news, #voxpop, #sports, #humour, etc. | 1 132 |
Tableau 3 - Données de base sur 15 comptes Instagram de médias québécois (nombre de followers, de publications, de vues et d’interactions), classés en fonction du nombre d’interactions (commentaires + likes) par publication (janvier 2022 à mai 2023).
Média | Followers maximum | Albums | Photos | Vidéos | Vues | Vues moyennes | Commentaires | Likes | Interactions moyennes |
---|---|---|---|---|---|---|---|---|---|
Rad | 105 491 | 406 | 1 | 11 | 1 921 040 | 4 607 | 21 208 | 1 154 503 | 2 813 |
RDS | 123 929 | 471 | 3 597 | 201 | 7 469 861 | 11 116 | 73 526 | 6 594 962 | 1 562 |
TVA Nouvelles | 152 242 | 303 | 141 | 87 | 6 611 697 | 16 953 | 37 851 | 498 875 | 1 011 |
TVA Sports | 54 120 | 136 | 851 | 228 | 918 963 | 2525 | 17 482 | 928 290 | 778 |
URBANIA | 80 774 | 236 | 73 | 163 | 5 677 126 | 14 228 | 9 602 | 349 308 | 760 |
Le Devoir | 135 010 | 1 170 | 1 207 | 101 | 2 134 280 | 1 679 | 38 759 | 1 400 016 | 581 |
Radio-Canada Information | 211 273 | 1 104 | 57 | 86 | 1 915 122 | 1 609 | 19 240 | 658 635 | 544 |
La Presse | 179 474 | 510 | 85 | 20 | 644 119 | 1 215 | 10 353 | 312 898 | 526 |
CBC Montreal | 49 873 | 244 | 176 | 76 | 919 888 | 2 875 | 12 817 | 239 561 | 509 |
Le Journal de Montréal | 93 613 | 118 | 888 | 5 | 123 548 | 1 004 | 40 205 | 469 144 | 504 |
Radio-Canada Environnement | 19 693 | 267 | 16 | 61 | 468 812 | 1 429 | 3 121 | 160 578 | 476 |
Montreal Gazette | 75 456 | 198 | 1 570 | 2 | 28 188 | 141 | 64 015 | 774 360 | 474 |
Radio-Canada Science | 30 142 | 196 | 72 | 42 | 346 047 | 1 454 | 2 506 | 115 342 | 380 |
Narcity Québec | 184 098 | 380 | 6 784 | 8 | 501 995 | 1 294 | 108 074 | 2 601 118 | 378 |
24 heures | 14 956 | 544 | 69 | 65 | 404 214 | 664 | 5 114 | 209 744 | 317 |
Tableau 4 - 20 mots-clics les plus souvent mentionnés sur Instagram par les médias québécois (2022-2023)
Mot-clic | Nombre de mentions |
---|---|
#polqc | 1 248 |
#environnement | 891 |
#assnat | 507 |
#ukraine | 481 |
#covid19 | 435 |
#Hockey | 410 |
#science | 405 |
#musique | 401 |
#climat | 394 |
#culture | 361 |
#Santé | 341 |
#Politique | 332 |
#sports | 321 |
#art | 314 |
#hiver | 304 |
#polcan | 296 |
#russie | 281 |
#LNH | 274 |
#nhl | 274 |
#changementsclimatiques | 265 |
Si les mots-clics sont un mode de communication propre aux réseaux sociaux, les emojis le sont également, sinon davantage. Le tableau 5 présente les vingt emojis les plus souvent rencontrés dans les publications que les médias québécois ont faites sur Instagram et TikTok en 2022 et 2023. Le pourcentage représente la proportion de mentions d’un emoji en particulier dans le total des emojis utilisés sur une plateforme donnée.
Tableau 5 - 20 emojis les plus utilisés par les médias québécois sur TikTok et sur Instagram en 2022-23.
Emoji | TikTok | Ensemble | |
---|---|---|---|
📸 | 12,05 % | 2,33 % | 14,38 % |
👉 | 1,13 % | 3,25 % | 4,37 % |
📷 | 4,22 % | 0,12 % | 4,34 % |
👀 | 0,80 % | 2,62 % | 3,42 % |
🎥 | 0,34 % | 2,51 % | 2,84 % |
😂 | 0,22 % | 2,44 % | 2,65 % |
😍 | 0,50 % | 1,77 % | 2,26 % |
🔥 | 0,49 % | 1,49 % | 1,99 % |
📍 | 0,08 % | 1,62 % | 1,70 % |
👈 | 1,46 % | 0,18 % | 1,63 % |
🤯 | 0,26 % | 1,33 % | 1,59 % |
🤔 | 0,20 % | 1,14 % | 1,34 % |
👏 | 0,50 % | 0,65 % | 1,15 % |
👆 | 0,20 % | 0,94 % | 1,15 % |
🤩 | 0,40 % | 0,69 % | 1,09 % |
🏒 | 0,36 % | 0,73 % | 1,09 % |
✍️ | 1,00 % | 0,00 % | 1,00 % |
❤️ | 0,16 % | 0,76 % | 0,93 % |
❄️ | 0,19 % | 0,61 % | 0,80 % |
🤤 | 0,11 % | 0,66 % | 0,77 % |
On remarque que les appareils photo dominent sur Instagram, alors que du côté de TikTok, c’est davantage la caméra de cinéma (et la paire d’yeux pour inviter les abonnés à regarder). TikTok carbure davantage aux émotions (le rire, les yeux en cœur, les flammes, la tête qui explose, le doute), alors qu’Instagram sert davantage à mettre en valeur le contenu visuel (avec les deux emojis d’appareil photo qui sont en tête du palmarès).
On peut également observer que les médias font pointer plutôt à droite quand ils publient dans TikTok, mais plutôt à gauche quand ils publient sur Instagram. Rien dans l’interface n’invite les utilisateurs à pointer d’un côté ou de l’autre. C’est peut-être simplement le fruit du hasard.
Pour des articles dans La Presse (« Le désert d'un Facebook sans nouvelles ») et dans Les Cahiers du journalisme, j'ai par ailleurs demandé à CrowdTangle toutes les publications réalisées en français par des pages Facebook administrées au Canada du 1er janvier 2021 au 31 mai 2023.
Pour chacun des 29 mois dans cet intervalle, CrowdTangle a retourné les 300 000 publications ayant généré le plus d'interactions. Les conditions d'utilisation de CrowdTangle m'empêchent de partager ici les 29 fichiers CSV que ma requête a produits, mais il me fera plaisir de les fournir aux chercheuses ou chercheurs qui en feraient la demande s'ils n'ont pas déjà accès à CrowdTangle.
Ensemble, ces 29 fichiers comptent plus de 8,1 millions de publications Facebook.
Les 29 fichiers ont d'abord été traités avec pandas dans le carnet FB_CanFranco_parMois_pourGithub.ipynb Ce carnet lit les fichiers. Il sépare ensuite les publications des 309 pages de médias du reste grâce à leur identifiant unique Facebook, formant ainsi deux sous-ensembles : médias et non-médias. Il compte enfin le nombre de publications et la somme des interactions de chaque sous-ensemble (médias et non-médias).
Les résultats (avec le nombre de publications, la somme des interactions et la moyenne d'interactions par publication) pour chaque page Facebook dans mon échantillon sont présentés dans deux fichiers CSV, un pour chaque sous-ensemble de mon échantillon: