Chapitre 3 - Types de variables et Représentation
Les histogrammes dans STATISTICA
STATISTICA offre plusieurs possibilités pour construire les histogrammes - elles ne sont pas toutes adéquates. Par défaut, les options suivantes sont cochées : 1. Fit type : normal 2. Intervals : Integer mode (auto) Il est conseillé pour l'instant d'enlever l'option Fit type : normal. Pour une vision plus précise, on peut choisir les intervalles d'intérêt avec l'option boundaries. Pour une vision plus précise, on peut aussi laisser choisir au logiciel les centres des rectangles avec l'option Categories (10). Pour une vision encore plus précise, choisir Integer Mode. Ceci marche car l'âge est arrondi à l'unité "année". Attention à ne pas laisser l'option Auto cochée.
Les variables qualitatives
Ses différentes formes sont des catégories ou des attributs.
Exemples de variables qualitatives
Sexe, langue maternelle, programme d'études, intérêt pour les études, degré de satisfaction à l'égard du programme d'études
Quelle échelle utiliser ?
Toujours utiliser l'échelle la plus puissante et précise disponible !
Le traitement de deux variables avec beaucoup de modalités ou de valeurs - Concepts de base
Un tableau à double entrée n'est pas pratique pour représenter toutes les combinaisons de valeurs de deux variables quantitatives continues. Deux solutions : 1. Soit on rend les deux variables quantitatives discrètes avec peu de valeurs et on procède comme vu ci-dessus 2. Soit on a recours à une autre représentation graphique, le diagramme de dispersion (scatterplot, scattergram, scatterdiagram)
Tableau de fréquences - données groupées par classes de même amplitude
Une variable quantitative discrète avec un grand nombre de valeurs est souvent considérée comme une variable quantitative continue.
Variable quantitative discrète
Variable quantitative qui ne peut pas, en théorie, couvrir toutes les valeurs d'un intervalle.
Variable quantitative continue
Variable quantitative qui peut, en théorie, couvrir toutes les valeurs d'un intervalle.
Exemples de variables quantitatives continues
aAge, temps consacré à une tâche, revenu, masse
Exemples de ce à quoi peut ressembler un diagramme de dispersion
1. Chaque point est représenté par ses coordonnées cartésiennes sur un graphique ou 2. Plusieurs points se chevauchent. Nous faisons recours à l'option Frequency. ou 3. Plusieurs points se chevauchent. Nous faisons recours à l'option Bubble. ou 4. Le diagramme de dispersion peut être enrichi avec les histogrammes des deux variables représentées. ou 5. Le diagramme de dispersion peut être enrichi avec les boxplots des deux variables représentées. Mieux que le graphique précédent.
L'échelle nominale
1. Échelle de mesure qui attribue des codes arbitraires distincts aux différentes formes d'une variable. Cette échelle ne sert qu'à distinguer les formes de la variable ; c'est l'échelle de mesure la plus faible. 2. Lorsque les modalités d'une variable ne présentent pas de hiérarchie, on utilise une échelle nominale, et on attribue de façon arbitraire un code numérique distinct à chacune. 3. Lorsqu'on utilise ce type d'échelle, on ne peut pas effectuer d'opérations arithmétiques sur les codes ni comparer les codes au moyen d'une relation d'ordre. On ne peut que distinguer les modalités entre elles.
L'échelle ordinale
1. Échelle de mesure qui classe selon une hiérarchie les différentes formes d'une variable. Elle distingue et ordonne ces formes. 2. L'échelle ordinale ne permet pas d'établir un écart constant entre des modalités consécutives. Autrement dit, on ne peut pas interpréter les écarts.
Les échelles de mesure
1. L'échelle nominale 2. L'échelle ordinale 3. L'échelle d'intervalles 4. L'échelle de rapports
Le diagramme à bandes rectangulaires
1. Le diagramme à bandes rectangulaires utilise un graphique cartésien pour représenter une ou plusieurs variables qualitatives. Un graphique cartésien fait appel à un système d'axes perpendiculaires. L'axe horizontal s'appelle l'axe des abscisses ou axe des x, l'axe vertical s'appelle axe des ordonnées ou axe des y. 2. Il existe plusieurs variantes du diagramme à bandes rectangulaires. Nous en verrons 3 : le diagramme à bandes rectangulaires horizontales, le diagramme à bandes rectangulaires verticales, et le diagramme à bandes rectangulaires chevauchées.
Le diagramme à secteurs
1. Le diagramme à secteurs (ou camembert) sert surtout à représenter graphiquement des données groupées par modalités dans un tableau de fréquences relatives. 2. Le diagramme à secteurs est une surface circulaire (un disque) qu'on a découpée en autant de secteurs qu'il y a de modalités pour la variable. La part de la surface totale occupée par chaque secteur correspond à la fréquence relative de la modalité qu'il représente. 3. En principe, on ne devrait pas utiliser un diagramme à secteurs pour représenter une variable qui comporte plus de sept modalités. 4. On doit indiquer la modalité que représente chaque secteur, soit à côté du secteur ou à l'aide d'une légende.
Le diagramme à bandes rectangulaires horizontales
1. Les bandes horizontales correspondent à la fréquence absolue ou relative des différentes modalités. Tous les rectangles doivent être de la même épaisseur et il faut laisser un espace égal entre chacun. 2. Cette représentation est plus efficace qu'un diagramme à secteurs ou un diagramme linéaire.
Le diagramme à bandes rectangulaires verticales
1. Les bandes rectangulaires horizontales se prêtent bien à la représentation d'une variable qualitative nominale. 2. Toutefois, lorsqu'on traite une variable qualitative ordinale, il est conseillé d'opter pour des bandes verticales afin de bien marquer la hiérarchie entre les différentes modalités. 3. On place alors par ordre croissant les différentes modalités de la variable sur l'axe des abscisses. L'axe des ordonnées est utilisé pour les fréquences absolues ou relatives.
Le graphique pour les données d'un tableau à double entrée
1. Les données peuvent être représentées en fréquence absolue ou en pourcentage du total du nombre d'individus de chaque sexe. 2. Un diagramme à bandes rectangulaires chevauchées se prête bien à la représentation de ce type de données.
Exemple d'échelles de rapport
1. Nombre d'enfants d'une famille 2. Age 3. Longueur
Le diagramme à bandes rectangulaires chevauchées
Le diagramme à bandes rectangulaires permet également de comparer deux ou plusieurs groupes différents par rapport aux modalités d'une variable. Lorsqu'on compare ainsi deux groupes, on utilise un diagramme à bandes rectangulaires chevauchées. On emploie des barres horizontales lorsque la variable est qualitative nominale et des barres verticales lorsque la variable est qualitative ordinale.
Le diagramme à bâtons
Le diagramme en bâton est similaire au diagramme à bandes rectangulaires, mais on dessine un segment de droite plutôt qu'un rectangle (dans STATISTICA, on précisera Bar options , puis Type : Lines)
Le tableau à double entrée
Le tableau à double entrée (ou tableau à deux entrées, tableau de contingence, ou tableau croisé) nous permet de présenter la relation entre les fréquences de deux variables.
Tableau de fréquences - données groupées par modalités
Les données sont groupées dans un tableau de fréquences (ou tableau de distributions) selon leur modalité.
Exemples de variables quantitatives discrètes
Nombre de frères et soeurs, nombre de cigarettes consommées par jour
Exemple de tableau de fréquence - données groupées par valeurs
Nombre de personnes avec qui les personnes qui ont répondu au questionnaire IMAD partagent leur salle de bain.
Les représentations graphiques
Plusieurs graphiques sont utiles pour des données groupées par modalités : 1. Diagramme à secteurs (camembert - pie chart) 2. Diagramme linéaire 3. Diagramme à bandes rectangulaires (bar/column plots)
Exemple de manière de faire avec une échelle ordinale
Pour déterminer l'opinion sur un sujet : - Tout à fait en désaccord = 1 - En désaccord = 2 - D'accord = 3 - Tout à fait d'accord = 4
Exemple de codage dans l'échelle nominale
Pour le sexe, un codage pourrait être : - Féminin = 1 - Masculin = 0
Le diagramme linéaire
1. Plutôt qu'utiliser un disque, on peut employer un rectangle : on dresse alors un diagramme linéaire. On divise le rectangle en autant de parties qu'il y a de modalités. On accorde ensuite à chacune de ces parties l'importance relative de la modalité correspondante par rapport à l'ensemble. 2. On peut se servir de cette représentation graphique pour comparer plusieurs groupes par rapport aux mêmes modalités ; on trace alors autant de rectangles qu'il y a de groupes. 3. On lit plus facilement les pourcentages qui correspondent aux deux rectangles situés aux extrémités. Comme les extrémités constituent des points de référence fixes, on peut en tirer profit pour comparer, de façon visuelle, certains faits.
Introduction
1. Si l'on compare l'analyse de données au jardinage, nous entrons dans une période où nous allons devoir bien connaître les plantes que nous allons cultiver. 2. Si l'on doit utiliser différents outils pour faire pousser des fleurs ou des plantes, il apparaît évident qu'il ne faut pas utiliser une tronçonneuse pour couper une rose et qu'un sécateur ne permettra pas d'abattre un chêne. 3. Dans le cadre du cours IMAD, les analyses (les outils) que nous allons apprendre à utiliser au cours de l'année ne nous seront utiles que si nous connaissons bien les caractéristiques des variables (les plantes) d'intérêt.
Exemple d'échelle d'intervalles
1. Temps à l'aide du calendrier grégorien (zéro relatif = naissance du Christ, unité de mesure normalisée = année) 2. Température à l'aide d'un thermomètre gradué en degrés Celsius (zéro relatif = point de congélation de l'eau, unité de mesure normalisée = degré) 3. Altitude mesurée comme distance verticale au-dessus du niveau de la mer (zéro relatif = niveau de la mer, unité de mesure normalisée = mètre)
Les variables quantitatives
1. Une variable est quantitative si la caractéristique observée s'exprime sous la forme d'une valeur numérique. Donc la magnitude des chiffres est importante ! 2. Les formes prises par des variables quantitatives (discrètes ou continues) sont numériques et s'appellent valeurs.
Variable qualitative nominale
1. Variable qualitative dont les modalités ne peuvent pas être ordonnées. 2. Pour les variables qualitatives nominales, il n'y a pas de relation d'ordre entre les modalités. Elles ne peuvent pas être classées de la plus petite à la plus grande (ou vice-versa), de la pire à la meilleure, etc. 3. On ne peut pas dire que féminin > masculin (ou féminin < masculin). 4. Si on utilise des chiffres pour identifier des modalités, c'est uniquement pour distinguer les catégories.
Variable qualitative ordinale
1. Variable qualitative dont les modalités peuvent être ordonnées. 2. Pour les variables qualitatives ordinales, par contre, il existe une relation d'ordre entre les modalités. Elles peuvent être classées de la plus petite à la plus grande (ou vice-versa), de la pire à la meilleure, etc. 3. On peut dire que 'très insatisfait' < 'satisfait' (ou 'satisfait' > 'très insatisfait'). 4. Si on utilise des chiffres pour identifier des modalités, c'est pour (a) distinguer et (b) ordonner les catégories.
Les types de variables qualitatives
1. Variable qualitative nominale 2. Variable qualitative ordinale
Les types de variables quantitatives
1. Variable quantitative discrète 2. Variable quantitative continue
Exemples de modalités
1. le sexe a deux modalités : masculin ou féminin. 2. "Opinion sur un sujet" pourrait présenter quatre modalités : tout à fait en désaccord, en désaccord, d'accord, tout à fait d'accord.
Qu'appelle-t-on les différentes formes que peut revêtir une variable qualitative ?
Ce sont des modalités. Les modalités d'une variable qualitative doivent être exhaustives et mutuellement exclusives.
Comment place-t-on les classes de la variable et les fréquences ?
Comme le diagramme à bandes rectangulaires et le diagramme à bâtons, l'histogramme est tracé dans un graphique cartésien. On place les classes de la variable en abscisse et les fréquences en ordonnée.
Quelle est la différence de l'histogramme avec le diagramme à bandes rectangulaires ?
Contrairement aux diagrammes à bandes rectangulaires, les rectangles se touchent, car les bornes des intervalles des classes se chevauchent. Tous les rectangles ont la même largeur puisque toutes les classes ont la même amplitude.
Comment choisir le nombre de classes ?
En fonction des données. Voici un tableau à titre indicatif seulement.
L'échelle de rapports
Échelle de mesure caractérisée par la présence d'un zéro absolu. Outre qu'elle possède toutes les propriétés des autres échelles de mesure, l'échelle de rapports permet la multiplication et la division. C'est l'échelle de mesure la plus précise, donc la plus puissante.
L'échelle d'intervalles
Échelle de mesure caractérisée par la présence d'une unité de mesure normalisée et d'un zéro relatif. Cette échelle permet de distinguer et de comparer les valeurs ; elle permet également d'évaluer des écarts. Seules les opérations d'addition et de soustraction sont possibles avec cette échelle.
Tableau de fréquences - données groupées par valeurs
Il s'agit de compter le nombre de fois (la fréquence absolue) où la variable prend une valeur, ou encore de calculer le pourcentage (la fréquence relative) des données de l'échantillon (ou de la population) qui prennent cette valeur.
Quels sont les types de tableau avec les données groupées par modalités ?
Il y a en a deux : 1. Tableau avec fréquences absolues : représente le nombre (effectif) de données qui présentent une modalité (ci-dessous). 2. Tableau avec fréquences relatives : représente la proportion (pourcentage) de données qui présentent une modalité (dia. suivante).
Classe
Intervalle utilisé pour le groupement des données d'une variable quantitative continue. Par convention, la classe est fermée à gauche et ouverte à droite (par ex. [2 − 5[)
A quoi sert l'histogramme ?
L'histogramme sert à représenter graphiquement une variable quantitative continue, dont les données ont été groupées par classes dans un tableau de fréquences. On peut y faire figurer les fréquences absolues ou les fréquences relatives.