Modèles et modélisation en SVT

Biodiversité et productivité primaire
d'un agrosystème

Aide technique : Analyse du graphe
Courbes de tendance et coefficient de détermination R²

L'objectif est d'exploiter certaines fonctionnalités du tableur permettant d'argumenter une prise de décision

Vous pouvez soit visionner une petite vidéo, soit lire le texte plus détaillé ci-dessous

Graphe et modèle(s)

En mathématiques, si je dispose de deux séries de données numériques x et y, je peux tracer un graphe y = f(x) ou un graphe x = f(y).
En SVT, les variables x et y ne sont pas interchangeables. En fonction de notre hypothèse, il y a une variable expliquée (y) et une variable explicative (x). Si j'ai émis l'hypothèse que le nombre d'espèces observées (variable expliquée) dépend / est fonction du nombre d'espèces plantées, je peux tracer le graphe x = f(y), mais son interprétation n'a pas de sens : le nombre d'espèces observées en août ne peut influencer le nombre d'espèces semées au printemps précédent !

Lorsque je trace mon graphe (image ci-contre), c'est dans le but de tester la relation entre la variable expliquée (= Nombre d'espèces observées) et la variable explicative (= Nombre d'espèces plantées).

Ce graphe peut me laisser imaginer une relation symbolisée par la flèche rouge. Cette relation est un modèle mathématique y = f(x). Remarquons que ce modèle n'est - sans doute* - qu'une évolution d'un modèle plus intuitif construit précédemment, lors de l'émission de l'hypothèse. L'élève impliqué dans la démarche aura pu "imaginer" que plus il y a d'espèces plantées, plus il y aura d'espèces observées. Ou l'inverse. Ou même que le nombre d'espèces plantées n'influence pas le nombre d'espèces observées.

* L'élève qui applique une technique sans se poser de questions, donc sans voir
les implications de l'hypothèse testée, fait oeuvre de technicien, pas de scientifique.

Peu importe le modèle intuitif de départ. Ce qui est important, c'est de prendre conscience que :

  1. Un modèle scientifique est évolutif, en fonction des nouvelles informations dont on disposera
  2. Le modèle imaginé à la vue du graphe va encore évoluer
  3. Un modèle ne représente que certains éléments de la réalité. Celle-ci ne peut pas être totalement appréhendée. Un modèle n'est jamais "parfait", "définitif".

Courbe de tendance

Tous les tableurs proposent la possibilité d'insérer des "courbes de tendance" sur les graphes.

Celles-ci sont la représentation d'un modèle mathématique ajusté aux données ayant permis de construire le graphe.

Open Office Calc Linéaire Logarithmique Exponentielle - - - Puissance - - -
Libre Office Calc Linéaire Logarithmique Exponentielle Polynomiale Puissance Moyenne glissante
Microsoft Excel Linéaire Logarithmique Exponentielle Polynomiale Puissance Moyenne mobile

Mise en oeuvre :

  • Sélectionner le graphe (double clic gauche sous Open Office et Libre Office : les poignées sont noires, pas vertes)
  • Clic droit sur un point du graphe pour ouvrir le menu contextuel
  • Insérer / Ajouter une courbe de tendance...
  • Sélectionner un type de régression. Préciser éventuellement l'ordre / le degré* du modèle polynomial
  • Sélectionner "Afficher l'équation"
  • Valider

* "Ordre" ou "Degré" selon le tableur.
y = ax + b degré = 1
y = ax2 + bx + c degré 2
y = ax3 + bx2 +cx + d degré 3
...

 

Paramètres de la courbe de tendance sous MS Excel →

Remarques :

  • Les courbes de tendance sont construites par un procédé mathématique appelé "régression". On parle de droite de régression, de courbe de régression...
     
  • Certains types de régression donnent des modèles mathématiques connus des élèves de Seconde : Linéaire, Polynomiale, Puissance. D'autres sont inconnus ; mais rien n'empêche d'ajouter une courbe de tendance d'un modèle inconnu, pour voir ce que cela donne...
     
  • Open Office Calc ne propose pas le tracé direct d'une courbe de tendance "Polynomiale". Il faut passer par une fonction complexe appelée DROITEREG. C'est très handicapant pour nous... (il existe des plug-in - à tester - corrigeant ce défaut ; voir l'administrateur du réseau pour installation)
     
  • Il est toujours possible de faire passer une courbe de tendance par un nuage de points : Le fait de tracer une courbe de tendance n'apporte aucune information sur l'adéquation du modèle à la série de données !

Coefficient de détermination R²

Il est possible de tracer de nombreuses courbes de tendance sur un même nuage de points.

Comment choisir la "moins mauvaise" ?

MS Excel →
Plusieurs courbes de tendance du même nuage de points
Bleu = Linéaire
Vert = Puissance
Rouge = Polynomiale de degré 2

Le coefficient de détermination R², associé à chaque courbe de tendance, est une grandeur sans unité comprise entre 0 et 1. Il peut être affiché de la même manière que l'équation de la courbe.

Le coefficient de détermination R² estime la proportion de la variation de Y expliquée par la variable X (autrement dit expliquée par le modèle) :

  • R² = 0 Le modèle utilisé n'explique pas du tout l'influence de X sur les variations de Y
  • R² = 1 Le modèle utilisé explique parfaitement l'influence de X sur les variations de Y
  • R² = 0,45 45% des variations de Y sont expliqués par le modèle utilisé (et donc 65% des variations de Y ont une autre cause)

 

Modèle Equation Coeff. R²
Linéaire y = 0,036x + 12.75 0,00006
Polynomial y = 4.33x2 - 22.2x + 34.42 0,4475
Puissance y = 11.74 x-0.064 0,0042

Equation et coeff. de détermination de nos 3 courbes de tendance

Avantage du coefficient de détermination R² : Très simple à utiliser

Inconvénients (parmi beaucoup d'autres) :

  • Valable uniquement sur l'intervalle de mesure de x (donc pas valable si on utilise le modèle pour faire des prévisions au-delà des valeurs xmin et xmax)
  • Sur des échantillons de faible effectif, R² est très influencé par des points "extrêmes" (voir exemple page 28 : Taille et poids moyen de rugbymen...)

Interprétation du coefficient de détermination :

  • de 0 à 0,24 ⇒ Régression faible
  • de 0,25 à 0,49 ⇒ Régression moyenne
  • de 0,50 à 0,74 ⇒ Régression forte
  • de 0,75 à 1 ⇒ Régression très forte

Source

Afficher le R², c'est bien, mais cela ne dispense pas de réfléchir ...

Avec notre nuage de points, le coefficient de détermination est de 0,45. ce qui correspond à une régression "moyenne", ce qui est pas mal pour des données biologiques.

Sauf que, pour s'approprier la technique, nous avons volontairement choisi un échantillon d'effectif très faible.

Si on refait la régression polynomiale sur le graphe des moyennes (image ci-contre), l'équation est la même mais le R² est de ... 1,00.
Parfait ? Pas du tout ! Avec 3 points, il est toujours possible de faire passer par tous le points une courbe de régression polynomiale de degré 2. Idem avec 2 points et une droite.
Donc le R² idéal (R² = 1) s'obtient avec une équation de degré n = Nombre de points - 1

Le degré de l'équation est lié au nombre de paramètres insérés dans l'équation :

Modèle Equation Paramètres
Linéaire degré 1 y = ax + b 2 paramètres : a et b
Polynomiale degré 2 y = ax2 + bx + c 3 paramètres : a, b et c
Polynomiale degré 3 y = ax3 + bx2 + cx + d 4 paramètres : a, b, c et d

Sous Libre Office

Plus le nombre de paramètres dans l'équation sera important, plus l'interprétation biologique du modèle construit sera complexe.

Conclusion : Refaire la manip avec plus d'années, plus de types de parcelles et plus de parcelles de chaque type : les résultats seront sensiblement différents !
En ayant en tête que si j'ai un grand nombre de points par (exemple n = 1000), je peux toujours obtenir une régression mathématiquement "parfaite" de degré n-1 = 999, mais sans interprétation biologique possible...

Approche d'un test de la régression

 

 

 

 

 

 

Vidéo (Windows 7, Microsoft Excel 2007, Open Office Calc 4.1.1.)

Retour Début de page