Modalisa

création et exploitation d'enquêtes par questionnaire

Seconde partie : recoder et analyser les réponses

Pierre Mercklé (ENS-LSH), novembre 2003

 

Table des matières

Recoder les réponses (« Classement »)

Le recodage

Le redressement

Créer des sous-populations

Analyser les réponses (« Analyse »)

Tris à plat

Tris croisés

 

 

Recoder les réponses (« Classement »)

Le recodage

Seules les questions à réponses uniques ou multiples peuvent être utilisées pour produire des tris croisés. Il faut donc, pour pouvoir les analyser, souvent recoder les variables numériques et les variables textes.

Recoder une question à réponse numérique

Exemple de l’enquête « défilé danseurs » : la variable numérique « Age ».

D’autres recodages des questions numériques sont possibles (variables calculées sur une ou plusieurs variables, scores, etc.) sont accessibles en sélectionnant « Recoder » ou « Variables calculées » dans le menu « Classement ».

Recoder une question à réponse ouverte (type texte)

Exemple de l’enquête « défilé danseurs » : la variable texte « Nationalité ».

De nombreux autres recodages sont possibles. Pour les découvrir, essayez de formaliser ce que vous voulez faire, puis explorez les commandes « Recoder », « Dupliquer en changeant le type », « Fusionner », « Variables spéciales », etc., du menu « Classement ».

Recoder une question fermée à réponse uniques ou multiples

Exemple de l’enquête « défilé danseurs » : la variable fermée « Nationalité ».

L’objectif de ce type de recodages est de regrouper des modalités dans différentes catégories :

Quelles activités avez-vous pratiquées au cours de votre vie ?

soirée karaoké

668

42,3%

théâtre amateur

514

32,6%

jouer d'un instrument de musique

527

33,4%

chanter

533

33,8%

faire des arts plastiques

490

31,1%

pratiquer l'écriture

409

25,9%

aucun

325

20,6%

Total / répondants

1578

 
Interrogés: 1581 / Répondants: 1578 / Réponses: 3466
Pourcentages calculés sur la base des répondants

Résultat : un tiers des danseurs interrogés (soit 527 d’entre eux) ont déjà joué d’un instrument de musique au cours de leur vie. Sauf que… Vu la construction du questionnaire, ceux qui avaient joué d’un instrument au cours des 12 derniers mois pouvaient parfaitement être tentés de ne cocher que cette case, et pas la case « au cours de votre vie ». De fait, c’est le cas de… 342 personnes interrogées. Donc, en réalité 869 personnes ont déjà joué d’un instrument au cours de leur vie. La question, telle quelle, est donc inexploitable. Il faut arriver à en fabriquer une qui tienne compte de ce problème.

Voici une solution possible :

Et voilà le résultat :

Activités pratiquées au cours de la vie version finale

 

questionnaire

version corrigée
des 12 derniers mois

soirée karaoké

668

42,3%

954

60,4%

théâtre amateur

514

32,6%

695

44%

jouer d'un instrument de musique

527

33,4%

869

55%

chanter

533

33,8%

809

51,2%

faire des arts plastiques

490

31,1%

808

51,2%

pratiquer l'écriture

409

25,9%

727

46%

aucun

325

20,6%

840

53,2%

Total / répondants

1578

-

1579

-

Interrogés: 1581 / Répondants: 1579 / Réponses: 5702
Pourcentages calculés sur la base des répondants

On peut ensuite s’amuser à calculer un coefficient multiplicateur pour chaque activité, et s’interroger sur les variations…

Le redressement

Redresser un échantillon consiste à affecter aux différentes modalité d’une variable donnée de l’échantillon des coefficients multiplicateurs calculés en fonction de la proportion des différentes catégories non pas dans l’échantillon, mais dans la population de référence de l’enquête.

Exemple de l’enquête « défilé danseurs » : nous connaissions le nombre de danseurs dans chaque groupe de répétition, et donc nous avons pu constater que nous avons eu des « taux d’échantillonnage » très différents selon les groupes. Pour pouvoir parler des « danseurs », et non pas seulement des « danseurs interrogés », et donc supprimer le « biais » lié à la variation du taux d’échantillonnage, il faut « redresser » l’échantillon en fonction de la variable « groupe de répétition ».

Comment effectuer un redressement :

 

 

Créer des sous-populations

Créer une sous-population permet de restreindre ensuite l’analyse des données à un sous-ensemble d’individus sélectionnés dans l’échantillon en fonction de leurs réponses à une ou plusieurs questions du questionnaire.

Exemple de l’enquête « défilé danseurs » : créer une sous-population regroupant seulement les danseuses de 15 ans et plus.


Analyser les réponses (« Analyse »)

Tris à plat

Un tri à plat correspond à ce qu’en statistiques on appelle un « tableau de fréquences » : c’est un tableau statistique permettant de connaître la distribution, en nombre et en proportion, des individus entre les différentes modalités d’une question à réponse unique ou multiple.

Exemple de l’enquête « défilé danseurs » : la variable « Diplôme le plus élevé ».

Pour créer un tri à plat :

La présentation du tri à plat obtenu peut très largement être modifiée en fonction des besoins : suppression ou affichage  des non-réponses, des pourcentages cumulés, calcul des proportions sur les réponses ou sur les répondants pour les questions à réponses multiples, restriction à une sous-population, application d’un redressement, modification de l’ordre des modalités, regroupement de modalités…

Tris croisés

Un tri croisé correspond à ce qu’en statistiques on appelle un « tableau de contingence » : c’est un tableau statistique dans lequel sont confrontées les réponses à deux questions différentes, l’une étant figurée en lignes et l’autre en colonnes. Un tel tableau permet de tester l’existence d’une « relation » statistique entre deux variables, et le cas échéant d’établir la forme de cette relation.

Exemple de l’enquête « défilé danseurs » : y a-t-il une relation entre la date de la passation (variable : passation le jour du défilé) et la façon dont ils se sont inscrits pour participer au Défilé (variable : Pour les répétitions de cette année, est-ce que vous vous êtes incrit-e ?…) ?

Construire un tri croisé

La présentation du tri croisé obtenu peut très largement être modifiée en fonction des besoins : suppression ou affichage  des non-réponses, calcul des proportions sur les réponses ou sur les répondants pour les questions à réponses multiples, affichage des effectifs, des proportions en lignes ou en colonnes, restriction à une sous-population, application d’un redressement, modification de l’ordre des modalités, regroupement de modalités, inversion des variables en lignes et en colonnes…

Analyser un tri croisé

Y a-t-il une relation entre les variables ?

Pour le déterminer on compare le tri croisé obtenu au tri croisé fictif qu’on obtiendrait s’il n’y avait aucune relation entre les deux variables (mêmes proportions pour chaque modalité que pour le total). Plus la somme des écarts entre le réel et cette fiction est grande, plus la relation entre les deux variable est forte. Cette « somme des écarts à l’indépendance » s’appelle le Khi-deux.

Khi-2 =

Pour déterminer si le Khi-deux obtenu est significatif, autrement dit s’il est suffisamment important, compte tenu de la dimension du tableau, il faut se reporter à la table de Bravais-Pearson, dite table du Khi-Deux :

Table de Bravais-Pearson (table de Khi-2)

La table donne la probabilité pour que égale ou dépasse une valeur donnée sous l’hypothèse d’indépendance, en fonction du nombre de degrés de liberté (d.d.1.) .

\

0.95

0.90

0.50

0.30

0.20

0.10

0.05

0.02

0.01

0.001

1

0.004

0.016

0.455

1.074

1.642

2.706

3.841

5.412

6.635

10.827

2

0.1

0.211

1.386

2.408

3.219

4.605

5.991

7.824

9.210

13.815

3

0.35

0.584

2.366

3.665

4.642

6.251

7.815

9.837

11.345

16.266

4

0.71

1.064

3.357

4.878

5.989

7.779

9.488

11.668

13.277

18.467

5

1.15

1.610

4.351

6.064

7.289

9.236

11.070

13.388

15.086

20.515

6

1.64

2.204

5.348

7.231

8.558

10.645

12.592

15.033

16.812

22.457

7

2.17

2.833

6.346

8.383

9.803

12.017

14.067

16.622

18.475

24.322

8

2.73

3.490

7.344

9.524

11.030

13.362

15.507

18.168

20.090

26.125

9

3.33

4.168

8.343

10.656

12.242

14.684

16.919

19.679

21.666

27.877

10

3.94

4.865

9.342

11.781

13.442

15.987

18.307

21.161

23.209

29.588

11

4.57

5.578

10.341

12.899

14.631

17.275

19.675

22.618

24.725

31.264

12

5.23

6.304

11.340

14.011

15.812

18.549

21.026

24.054

26.217

32.909

13

5.89

7.042

12.340

15.119

16.985

19.812

22.362

25.472

27.688

34.528

14

6.57

7.790

13.339

16.222

18.151

21.064

23.685

26.873

29.141

36.123

15

7.26

8.547

14.339

17.322

19.311

22.307

24.996

28.259

30.578

37.697

16

7.96

9.312

15.338

18.418

20.465

23.542

26.296

29.633

32.000

39.252

17

8.67

10.085

16.338

19.511

21.615

24.769

27.587

30.995

33.409

40.790

18

9.39

10.865

17.338

20.601

22.760

25.989

28.869

32.346

34.805

42.312

19

10.12

11.651

18.338

21.689

23.900

27.204

30.144

33.687

36.191

43.820

20

10.85

12.443

19.337

22.775

25.038

28.412

31.410

35.020

37.566

45.315

21

11.59

13.240

20.337

23.858

26.171

29.615

32.671

36.343

38.932

46.797

22

12.34

14.041

21.337

24.939

27.301

30.813

33.924

37.659

40.289

48.268

23

13.09

14.848

22.337

26.018

28.429

32.007

35.172

38.968

41.638

49.728

24

13.85

15.659

23.337

27.096

29.553

33.196

36.415

40.270

42.980

51.179

25

14.61

16.473

24.337

28.172

30.675

34.382

37.652

41.566

44.314

52.620

26

15.38

17.292

25.336

29.246

31.795

35.563

38.885

42.856

45.642

54.052

27

16.15

18.114

26.336

30.319

32.912

36.741

40.113

44.140

46.963

55.476

28

16.93

18.939

27.336

31.391

34.027

37.916

41.337

45.419

48.278

56.893

29

17.71

19.768

28.336

32.461

35.139

39.087

42.557

46.693

49.588

58.302

30

18.49

20.599

29.336

33.530

36.250

40.256

43.773

47.962

150.892

59.703

Exemple : avec = 6 d.d.l. , pour = 26,5, la probabilité est inférieure à 0,001.

Cela signifie que la probabilité de rejeter par erreur l’hypothèse d’indépendance est de moins de 0,1%. On dit alors que la relation entre les deux variables est significative au seuil de 99,9%.

Quelle est la relation entre les deux variables ?

- La description de la relation

Examiner systématiquement les couples de modalités surreprésentées ou au contraire sous-représentées. En tirer une description synthétique de la relation entre les deux variables.

- L’interprétation de la relation

Cette phase correspond à la recherche d’un schéma causal permettant d’expliquer la corrélation. Plusieurs schémas sont envisageables : la variable en lignes est la cause de la variable en colonnes ; la variable en colonnes est la cause de la variable en lignes ; les deux variables sont les effets d’une troisième variable absente de l’analyse.

Ce troisième cas, le plus fréquent, oblige à réaliser de nouveaux tris croisés pour tester les hypothèses interprétatives ainsi formulées… Bon courage !

Exploiter un tri croisé

Comment récupérer les résultats obtenus pour les intégrer dans un article, ou bien dans un logiciel permettant de les modifier à sa guise, ou encore d’en tirer une représentation graphique ?

Pour intégrer un tableau dans un texte :

Pour récupérer un tableau dans Excel :

Le passage par Excel a l’avantage de faciliter grandement le traitement mathématique des données obtenues (par l’écriture de formules de calcul) et leur représentation graphique.

 

 

 

ENS-LSH
Sommet de la page
Section de Sociologie