Fonction Excel CORREL - Calculer la corrélation statistique

Télécharger un exemple de classeur

Téléchargez l'exemple de classeur

Ce didacticiel montre comment utiliser le Fonction CORREL d'Excel dans Excel pour calculer la corrélation.

Présentation de la fonction CORREL

La fonction CORREL Calcule la corrélation de deux séries de nombres.

Pour utiliser la fonction de feuille de calcul Excel CORREL, sélectionnez une cellule et tapez :

(Remarquez comment les entrées de formule apparaissent)

Fonction CORREL Syntaxe et entrées :

1 =CORREL(tableau1,tableau2)

tableau1 - Tableaux de nombres.

Qu'est-ce que la fonction CORREL ?

La fonction Excel CORREL renvoie le coefficient de corrélation (Pearson r) de deux plages de données.

Qu'est-ce que le coefficient de corrélation ?

Le coefficient de corrélation, généralement appelé coefficient de Pearson r (du nom de Karl Pearson, la personne qui l'a développé), est une statistique qui vous indique à quel point deux variables sont liées.

Pearson r est un chiffre compris entre -1 et 1, ce qui peut conduire à trois interprétations possibles : une corrélation positive, une corrélation négative et aucune corrélation.

Correlation positive

Une corrélation positive (r > 0) signifie que lorsque les deux variables sont en tandem - lorsque vous observez un score élevé dans une variable, vous avez tendance à observer également un score élevé dans l'autre. De même, lorsqu'une variable est faible, l'autre a tendance à l'être également.

Par exemple, la taille et le poids ont une corrélation positive. Voir le tableau ci-dessous, qui indique la taille et le poids d'un petit échantillon de joueurs de baseball :

Les r de ce petit échantillon est de 0,73 - une très forte corrélation positive. Cela a du sens logiquement - les personnes plus grandes ont tendance à être plus lourdes, en moyenne, car cette hauteur supplémentaire est constituée d'os et de muscles et d'autres tissus qui pèsent tous quelque chose.

Mais la corrélation n'est pas parfaite (dans une corrélation parfaite avec un r de 1, tous les scores tomberaient sur la ligne de tendance). Certaines personnes plus petites peuvent être plus lourdes - peut-être qu'elles portent un peu plus de graisse ou qu'elles s'entraînent au gymnase. De même, certaines personnes de grande taille peuvent être très maigres et peser en fait moins que de nombreuses personnes plus petites.

La corrélation ici est probablement si élevée parce que nous avons affaire à des athlètes, elle serait plus faible dans la population globale. N'oubliez pas de garder cela à l'esprit lorsque vous utilisez CORREL - le r vous obtenez n'est pas définitif - vous devez réfléchir à ce que sont vos données et comment vous les avez obtenues lorsque vous faites vos interprétations.

Corrélation négative

Une corrélation négative (r < 0) signifie que lorsque vous observez un score élevé dans une variable, vous avez tendance à observer un score faible dans l'autre variable, et vice-versa.

Par exemple, les résultats des tests des élèves et le nombre d'absences de l'école sont corrélés négativement. C'est-à-dire que plus ils manquent de jours, plus leurs scores ont tendance à être bas. Moins ils manquent de jours, plus les scores ont tendance à être élevés :

Encore une fois, la corrélation n'est pas parfaite (comme ils ne le sont presque jamais). Nous avons un étudiant ici qui a raté 5 jours, mais a quand même réussi à marquer 85%. Nous en avons également un qui a marqué 52%, bien qu'il n'ait manqué que deux jours.

Nous avons toujours une nette tendance négative. Mais il y a encore beaucoup de variations dans les résultats des tests qui ne peuvent pas être expliquées par la seule absence. Cela peut être dû à d'autres variables, comme l'aptitude, la motivation, la santé et de nombreux autres facteurs potentiels.

Ainsi, lorsque vous utilisez CORREL, gardez à l'esprit qu'il existe une image plus large que vos données pourraient ne pas expliquer complètement.

Aucune corrélation

Pas de corrélation (r = 0 ou est proche de 0) signifie que vous ne pouvez pas prédire le score d'une variable en fonction d'une autre. Si vous tracez les données, vous ne verrez aucune tendance discernable et la ligne de tendance sera plate ou presque plate.

Voici quelques données sur la longueur de l'annulaire et le QI :

Comme vous pouvez le voir, il n'y a aucun lien entre ces deux variables dans cet échantillon, nous pouvons donc supposer qu'elles ne sont pas liées.

En pratique, il est peu probable que vous obteniez un r d'exactement 0. N'oubliez pas que lors de la collecte de données, il y a souvent une certaine variation due à une erreur, peut-être dans la mesure ou le rapport. Alors juste parce que votre r n'est pas exactement 0, cela ne veut pas dire que vous avez trouvé quelque chose.

La corrélation n'est pas la causalité

Il est crucial de garder à l'esprit que CORREL ne peut pas vous dire quelle variable influence l'autre - ou même s'il existe une quelconque relation de causalité entre les variables. Par exemple, une corrélation a été trouvée entre les variables suivantes :

  • La quantité de crème glacée vendue et le nombre de crimes violents
  • À quel point vous êtes heureux et à quel point vous réussissez dans votre carrière
  • Le nombre de noyades dans une piscine et le nombre de films dans lesquels Nicolas Cage est apparu par an

Le premier exemple est le problème de la troisième variable. Bien sûr, la crème glacée ne rend pas les gens violents, et le fait de se livrer à la violence ne déclenche pas non plus une envie de lait et de sucre congelés. La troisième variable est la météo. Par temps chaud, les gens sortent simplement plus - il y a plus de contacts entre les gens, et donc plus de chances qu'un conflit éclate. Par temps chaud, les gens achètent également plus de crème glacée. Ainsi, les ventes de crème glacée et les crimes violents ne sont corrélés que parce qu'ils sont tous deux liés à une troisième variable.

La seconde pourrait être un exemple de double causalité. Réussir au travail peut être bon pour votre bonheur - vous gagnerez plus d'argent et aurez généralement plus de contrôle sur le travail que vous faites et avec qui vous le faites. Mais le bonheur peut aussi être bénéfique pour le succès, peut-être que les personnes plus heureuses sont plus faciles à vivre et à développer des relations de travail plus solides, ou peut-être qu'elles sont plus résistantes mentalement aux revers. Dans ce cas, les deux variables s'influencent mutuellement.

Le troisième est simplement un corrélation fausse. Ce n'est pas parce que deux variables sont corrélées dans vos données qu'elles interagissent de quelque manière que ce soit dans la vie réelle.

En fin de compte, une corrélation ne peut pas vous dire si deux variables sont causalement liées.

Comment utiliser CORREL

Utilisez la fonction Excel CORREL comme ceci :

1 = CORREL(B3:B15,C3:C15)

Avec CORREL, vous définissez deux arguments - les deux plages de données que vous souhaitez corréler.

Voici quelques points clés à garder à l'esprit avec CORREL :

  • Le texte, les valeurs booléennes (TRUE/FALSE) et les cellules vides sont ignorées.
  • Les deux plages de données doivent avoir un nombre égal de points de données, sinon vous obtiendrez une erreur #N/A
  • Si l'une des plages de données est vide, ou s'il n'y a aucune variation dans les données (c'est-à-dire si tous les points de données sont le même nombre), vous obtiendrez un #DIV/0 ! Erreur

Fonction CORREL dans Google Sheets

La fonction CORREL fonctionne exactement de la même manière dans Google Sheets que dans Excel :

Notes complémentaires

Exemples CORREL en VBA

Vous pouvez également utiliser la fonction CORREL en VBA. Taper:
application.worksheetfunction.correl(array1,array2)
Pour les arguments de la fonction (tableau1, etc.), vous pouvez soit les entrer directement dans la fonction, soit définir des variables à utiliser à la place.

Revenir à la liste de toutes les fonctions dans Excel

wave wave wave wave wave