Tableau de bord européen de l’innovation

23 juin 2021 Innovation

Réutilisation des données utilisées par l’UE dans le cadre de l’évaluation de l’index 2021 de l’innovation des pays.

Cet article illustre une méthode d’analyse des données.

Les documents de l’UE, dont rapport, données brutes et méthodologie sont disponibles sur cette page.

L’article utilise les dernières données disponibles.

1. Calculer les indicateurs

Les indicateurs utilisés par l’UE sont des rapports, ce qui est nécessaire pour effectuer des comparaisons. En fonction des indicateurs les valeurs sont ramenées par habitant, par population d’une tranche d’âge, au PIB, aux exportations … Des indicateurs moins usuels sont également proposés ( particules émises (t) /€; PIB / kg de matériel consommé; inventions /brevets …), nous verrons qu’ils sont souvent dispensables.


Les valeurs nulles sont écartées
des analyses, car elles empêchent les comparaisons (problème des divisions par 0).

2. Passer les valeurs en niveaux

Les valeurs des indicateurs sont passées sous forme de niveaux variant, arbitrairement, de 0 à 5. Les niveaux sont calculés en tenant compte du min et du Max de chaque indicateur :

Niveau = log(Valeur/Max × min/Max; Base)
Base = (min/Max)1/5

Les niveaux permettent une lecture intuitive de valeurs pouvant fortement varier : ils offrent une lecture linéaire d’indicateurs exponentiels. C’est un calcul logarithmique : le rapport entre les niveaux est constant; par opposition à une échelle linéaire ou la différence entre chaque niveau est constante.

3. Observer les corrélations entre les indicateurs

Les coefficients de corrélation entre chaque couple d’indicateurs sont calculés, soit pour 32 indicateurs : 32 × 31 / 2 = 496 corrélations. L’idée est d’identifier les indicateurs qui “racontent la même chose” et ceux qui “génèrent du bruit”.

Ci-dessous le résultat des calculs, les valeurs sont empilées, le détail est affiché au passage de la souris, les indicateurs sont classés selon la valeur moyenne des corrélations :

Lecture : les corrélations varient de -1 (parfaite corrélation inverse) à +1 (parfaite corrélation) en passant par 0 (pas de corrélation).

À noter : l’indicateur relatif aux émissions de particules a une corrélation négative : sa dynamique est inverse aux autres indicateurs. Par analogie avec le monde du médical, on peut qualifier cet indicateur de risque, là où les autres sont des bénéfices vis-à-vis du phénomène mesuré (ici : “l’innovation”).

4. Sélectionner les indicateurs utiles

Les indicateurs sont écartés si :

  • ils sont faiblement corrélés aux autre indicateurs (< 0.5 en moyenne); et/ou
  • ils sont significativement décorrélés avec d’autres indicateurs (au moins 2 valeurs corrélées négativement); et/ou
  • ils sont indisponibles pour au moins 1 zone (Israël, Ukraine et Bosnie exclus du fait des nombreuses données manquantes).
Les corrélations sont recalculées au fil de l’élimination des indicateurs.

Finalement, on retiendra 7 indicateurs :

5. Calculer les scores finaux

Le calcul du score de chaque pays utilise les indicateurs retenus :

Score : log( Σ ( ki × 10niveau) / Σ ki)

Avec ki d’un indicateur = moyenne de ses corrélations avec les autres indicateurs, ceci permet de pondérer, même si (ici) cela ne change quasi-rien au résultat final.

Comparaison avec l’index innovation

Ci-dessous les scores calculés et les valeurs de l’index UE de l’innovation pour chaque pays :

Les écarts (notamment pour la Belgique et pour l’Islande) sont causés par les différences des méthodes, l’index UE représentant la moyenne non-pondérée de tous les indicateurs disponibles pour un pays.

Conclusion

Il semble plus judicieux de travailler sur un faible nombre d’indicateurs pertinents et pondérés plutôt que de moyenner tous les indicateurs qui nous tombent sous la main. En plus, c’est moins de boulot.

Bonus : représentation par tranches vs représentation en dégradé

Ci-dessous une représentation de l’index UE de l’innovation, la carte de gauche utilise un dégradé de couleur, la carte de droite (proposée par l’UE) utilise des tranches, ce choix fait perdre énormément de finesse à l’analyse.

index innovation