B Contexte historique

La plateforme pédagogique LearnIt::R n’a pas été conçue hors contexte. Au contraire, c’est le fruit de vingt ans d’expérience d’enseignement des statistiques à des étudiants en formation universitaire en biologie. À l’Université de Mons (UMONS dans le Hainaut, en Belgique), nous enseignons l’analyse statistique de données biologiques depuis la seconde année (Licence en France, Bachelier en Belgique) jusqu’à la dernière année du Master. Nous abordons donc tous les aspects depuis les base jusqu’aux notions les plus avancées.

Les outils LearnIt::R sont utilisables dans un contexte bien plus vaste que celui décrit ici : formations diverses en présentiel (formation d’entreprise, en haute école…) ou en distanciel (MOOC, tutoriels en ligne…). Le contexte dans lequel ils ont été développés permet, néanmoins, de mieux comprendre l’architecture de la plateforme complète.

De même, cette plateforme est utilisable pour enseigner bien d’autres matières que la science des données à des biologistes, bien entendu. Sa grande force est tout de même de faire la part belle au langage R. Mais elle est parfaitement adaptable pour enseigner, par exemple, Python, Julia, ou même, une matière qui ne nécessite pas l’apprentissage d’un langage de programmation.

La formation en science des données biologiques telle qu’enseignée en 2023-2024 et au delà n’a plus rien à voir avec la formation en biostatistique de 2003-2004, année académique du premier cours donné par l’un des auteurs. En voici l’évolution, et surtout, les raisons qui en ont motivé les changements :

En 2003-2004, cours théoriques et séances d’exercices à volume horaire égal. Les cours de biostatistiques étaient constitués initialement de cours ex cathedra avec support de type PowerPoint pour autant d’heures que d’exercices. Ces derniers étaient réalisés sur ordinateurs avec le logiciel R. Les étudiants soumettaient un rapport de leurs analyses au format Word. Ce rapport était coté et la partie théorique était évaluée indépendamment lors d’un examen oral en session. Constatation : l’objectif pour des biologistes étant plus la capacité à réaliser des analyses statistiques de données biologiques que de connaissances théoriques en statistiques, nous avions la volonté de privilégier les séances d’exercices.
À partir de 2008-2009, même mode d’enseignement, mais volume horaire de 1 pour 2 entre cours théoriques et séances d’exercices. Il en résulte une partie théorique raccourcie, avec notamment moins de développements mathématiques et plus de données biologiques réelles analysées avec R par les étudiants sur les ordinateurs. Constatation : les étudiants restent réfractaires à la partie théorique, mais s’investissent plus dans les séances pratiques. Ils ne s’intéressent à la théorie qu’après avoir constaté l’intérêt dans le cadre du travail d’un biologiste sur base des cas concrets traités durant les séances d’exercices. C’est le problème de l’œuf et de la poule. Il faut une base théorique minimale pour aborder les exercices, mais nos étudiants ne s’intéressent à la théorie qu’après avoir fait les exercices.
À partir de 2013-2014, même mode d’enseignement et volume horaire que ci-dessus, mais répartition différente dans le temps (les séances de cours et d’exercices étaient totalement découplées jusqu’ici). Une séance “composite” est constituée d’un partie théorique avec démonstration immédiate sur un cas concret. Les étudiant effectuent les exercices directement par la suite. Tant la démonstration plus théorique que l’application pratique se font dans la salle informatique. Les étudiants peuvent donc exécuter les scripts R de la démonstration sur leurs ordinateurs. Les parties “cours théoriques” sont donc moins passives de la part des étudiants. Constatation : intégration des deux séances est bénéfique, mais le cours théorique en amont reste une partie où les étudiants sont les moins attentifs.
En 2018-2019, suite à notre intérêt pour les techniques pédagogiques alternatives, et notamment les classes inversées et les enseignement hybrides où une partie du travail est réalisé par l’étudiant à domicile avant les séances, nous sommes repartis d’une page blanche. La même année, nous avons décidé d’élargir la matière au delà des biostatistiques en transformant les anciennes UE de biostatistiques en UE de science des données où nous abordons aussi plus en détails le stockage et la manipulation des données, ainsi que la présentation des résultats et l’esprit critique statistique. Une nouvelle UE est ajoutée en Master 2 et les volumes horaires et ECTS des autres UE sont augmentés pour atteindre cet objectif. Il n’y a plus du tout d’heures de cours théoriques. Toutes les séances en présentiel deviennent des heures d’exercices encadrés, ainsi que de coaching pour répondre à leurs questions sur la matière théorique ou la réalisation de leurs analyses. La présence à ces séances devient obligatoire. La matière est divisée en 30 modules dispensés une semaine sur deux pour assurer l’apprentissage progressif et sur la durée. Le contenu est réécrit en bookdown pour être accessible en ligne (https://wp.sciviews.org). Les étudiants doivent lire le chapitre correspondant et réaliser des tutoriel learnr avant la première séance du module. Les exercices se font maintenant avec R, RStudio et GitHub pour gérer les dépôts des projets des étudiants. Le format des rapports passe à R Markdown. Il n’y a plus d’examen théorique, uniquement des projets cotés. Constatation : l’approche progressive en différents modules et l’évaluation continue sont bien utiles. Les tutoriels learnr sont très appréciés. Mais seule une petite fraction des étudiants prépare la matière à l’avance. Les autres réalisent les tutoriels learnrs ou lisent le cours en ligne en classe. Ils ne passent pas assez de temps à poser des questions et à réaliser leurs analyses en séances. Ensuite, ils bâclent généralement leurs rapports pour les finir chez eux avant la deadline. Une enquête auprès des étudiants montre que le cours en ligne n’est pas suffisant pour appréhender efficacement la matière chez eux avant les séances. Notez qu’à partir de cette année académique 2018-2019, toutes les versions du matériel en ligne sot accessibles.
À partir de 2020-2021, la scénarisation des diverses séances est revue et le timing défini plus clairement. Des exercices sont rajoutés dans le cours en ligne (H5P et application interactives Shiny) pour vérifier l’auto-apprentissage des étudiants et leur permettre de déterminer s’ils ont bien compris les différents concepts. Les tutortiels learnrs sont complétés de suggestions à l’aide du package gradethis. Une base de données MongoDB est mise en place comme LRS (“learning record store”) de fortune et du code est créé pour collecter les traces de l’activité des étudiants dans les exercices H5P, Shiny et learnr (c’est le point de départ du package learnitdown de la plateforme LearnIt::R). Comme le nombre d’exercices est en augmentation, une section récapitulative (“table des exercices”) est ajoutée à la fin de chaque chapitre. Des fonctions sont implémentées dans le package {learnitdown} pour automatiser la création de cette section récapitulative et encore mieux intégrer les exercices H5P, Shiny et learnr dans le cours. Des points sont attribués (5 à 10% de la note finale selon les années) à la résolution de ces exercices. Constatation : le cours en ligne agrémenté d’exercices d’auto-évaluation avec suggestions automatisées pour corriger les erreurs, notamment dans le code R des tutoriels learnrs est une formule bien plus efficace pour l’approche classe inversée. Les points attribués à la résolution de ces exercices incite fortement les étudiants à les faire avec un taux de participation aux exercices en augmentation. La préparation est bien meilleure, mais encore perfectible. Un trop grand nombre d’étudiants ne préparent toujours pas suffisamment à l’avance.
À partir de 2021-2022, un rapport de progression dans les exercices destiné aux étudiants est ajouté à la fin de chaque chapitre du cours (voir par exemple ici). Le rapport de progression individuel s’appuie sur les données collectées dans le LRS et est écrit en R et en Shiny. Il deviendra plus tard le package learnitprogress de la plateforme LearnIt::R. Constatation : le taux de participation aux exercices atteint des niveaux inespérés (plus de 90% et certaines années jusqu’à 98% des exercices réalisés par les étudiants en moyenne). Des difficultés deviennent plus apparentes dans la transition entre théorie et pratique maintenant que les outils ad hoc sont en place pour la partie d’apprentissage à domicile (classe inversée).
En 2022-2023, les projets GitHub individuels deviennent plus guidés (voir un exemple ici et ici). Des projets en groupes de deux à quatre étudiants non guidés forment toujours le niveau de difficulté ultime. Les projets individuels guidés ont de nombreuses instructions et une batterie de tests basés sur le package testthat qui permet aux étudiants de vérifier par eux-mêmes s’il ont obtenu la bonne réponse et de leur faire des suggestions dans le cas contraire (feedback immédiat et détaillé) est ajoutée en 2023-2024. L’interprétation des résultats se fait en sélectionnant les bonnes phrases dans une section à choix multiple dans le document R Markdown ou Quarto. Cela leur montre comment rédiger leur interprétation et ce à quoi il faut faire attention à ce niveau-là (ils devront rédiger leur interprétation par eux-mêmes ensuite dans les projets de groupe). Les projets sont corrigés selon une grille critériée remplie de manière semi-automatique. Du code R est écrit pour gérer tout cela. Ce code se concrétise finalement par le package learnitgrid de la plateforme LearnIt::R. Constatation : la transition entre théorie et pratique est plus douce. Nous avons maintenant quatre niveaux de difficulté croissante dans les exercices (H5P et Shiny dans le cours = niveau 1, tutoriels learnrs = niveau 2, projets GitHub individuels cadrés = niveau 3, projets GitHub en groupe libres = niveau 4). L’apprentissage est plus progressif et plus homogène au niveau de la classe. Des différences temporelles importantes s’observent cependant toujours au sein de la classe entre les étudiants qui respectent le timing proposé et ceux qui font tout à la dernière minute avant les deadlines. Cela pose problème pour la bonne progression dans les travaux de groupes.
Pour 2024-2025, un outil d’analyse des traces d’apprentissages des étudiants telles que récoltées dans notre LRS est écrit en Shiny (il deviendra le package learnitdashboard de la plateforme LearnIt::R). Il nous permettra de repérer plus facilement les difficultés restantes et d’y remédier à l’avenir. La scénarisation des séances est encore revue en séparant clairement le travail dans les projets individuels durant une première séance et les travaux de groupe lors d’une seconde séance. Une courte interrogation écrite sur la matière du module, y compris le projet individuel en début de seconde séance vient forcer les étudiants à mieux respecter le timing. Ces dernières modifications feront l’objet d’une réévaluation l’année prochaine. Une pondération plus judicieuse entre exercices, les projets individuels, les projets de groupe et les interrogations permettra une notation la plus adéquate possible de l’acquis de chaque étudiant.

Un aspect important à noter ici, c’est que notre approche pédagogique n’a pas été élaborée d’un seul coup et sur des bases uniquement théoriques de pédagogie. Nous avons observé et amélioré année après année notre méthode. Nous avons inclus des outils pédagogiques et logiciels nouveaux pour nous (ou les avons programmés nous-mêmes s’il n’existaient pas) très progressivement sur un intervalle de vingt années, et surtout durant les six dernières années sur la période 2003-2004 à 2023-2024. Nous ne retenons au final que ce qui permet une amélioration significative de l’apprentissage. Faites-en de même : incluez vos changements de manière très progressive en vous assurant de bien maîtriser les nouveaux outils ou les nouvelles techniques avant de les inclure dans vos approches pédagogiques. Les étudiants ne sont pas des cobaye ! Méfiez-vous de ce que vous conseillent les techno-pédagogues et n’adoptez que les techniques et les outils qui vous donnent de bons résultats dans le contexte particuliers de vos cours.