Home »

Sujet de thèse - 2022

Sur la recommandation et la réutilisation de ressources éducatives sous licence


Niveau : Doctorat

Période : 2022 - 2025

Encadrantes : 

  • MC HDR Patricia Serrano Alvarado, Lab LS2N mail, page web. Directrice de thèse.
  • CR CNRS Margo Bernelin, Lab. Droit et Changement Social (DCS), mail, page web. Co-encadrante de thèse.

En collaboration avec l’expertise de Colin de la Higuera, Chaire UNESCO RELIA, mail.

Mots clés : Ressources éducatives sous licence, interface utilisateur, Machine learning, Web sémantique, graphe de connaissances.

Résumé : Ce sujet de thèse s’inscrit dans le cadre du projet CLARA qui vise à faciliter la création de ressources éducatives sous licence basées sur des ressources existantes. Le travail dans CLARA se concentre sur la création d’un graphe de connaissances reliant de ressources éducatives sous licence et l’interrogation du graphe avec de requêtes SPARQL dont les contraintes peuvent être assouplies. Les travaux de cette thèse seront consacrés quant à eux à améliorer la qualité d’expérience des enseignants. En particulier, nous cherchons à contribuer avec (a) un système de recommandation de ressources éducatives combinant des techniques du Machine learning et du Web sémantique, (b) une solution pour proposer une licence juridiquement conforme aux licences des ressources utilisées la moins restrictive possible, et (c) une interface Web qui offre aux enseignants la meilleure expérience utilisateur possible.

Contexte et Motivation

Lorsqu’un enseignant souhaite faire un nouveau cours, il va généralement consulter des manuels ou des livres mais aussi des ressources éducatives sur le Web qui pourraient être réutilisées. Il existe de nombreuses ressources utiles et pertinentes sur le Web (diapositive, vidéo, figure, texte, code, etc.), mais les trouver et les organiser dans un plan de cours est un défi. De plus, l’enseignant peut faire face à des problèmes de droits d’utilisation car il est illégal de combiner des ressources si leurs licences ne sont pas compatibles avec la licence de leur nouveau cours. Idéalement, l’analyse des ressources disponibles ainsi que la vérification de leurs licences devrait être rapide.

Le projet CLARA, financé par le LABEX CominLabs, vise à faciliter la création de nouvelles ressources éducatives sous licence à partir de ressources existantes. Il existe de nombreuses ressources pédagogiques sous licence et réutilisables qui ne peuvent pas être découvertes car elles ne sont pas bien connectées. Les annotations sémantiques lisibles par machine nous permettront de connecter et d’enrichir les ressources éducatives grâce à des ontologies bien connues. Les correspondances sémantiques apporteront une valeur ajoutée considérable lors de la recherche de ressources pertinentes. L’interrogation du graphe avec des requêtes SPARQL dont les contraintes peuvent être relaxées, grâce à la sémantique, permettra de garantir des réponses non vides. Ainsi, basée sur un plan de cours, CLARA proposera un ensemble pertinent de ressources éducatives ayant des licences compatibles.

Cependant, le succès des contributions du projet CLARA dépendent de la qualité d’expérience des enseignants qui les utilisent. Sans connaissances en informatique ou juridiques, un enseignant devrait pouvoir bénéficier aisément des apports de CLARA. Il doit pouvoir : (a) fournir facilement un plan de cours (thèmes à traiter, niveau de la formation, domaine du cours, licence du cours, etc.) et obtenir des recommandations de ressources pertinentes pour son cours, (b) savoir quelle licence pourra protéger son nouveau cours conformément aux licences des ressources utilisées, et (c) affiner et visualiser les résultats de ses recherches afin de sélectionner au mieux les ressources qu’il juge pertinentes.

Objectifs 

L’objectif général de cette thèse est de rendre les ressources pédagogiques accessibles aux enseignants afin de faciliter la création de nouveaux cours. Nous envisageons de proposer :

  1. des solutions de recommandation de thèmes et de ressources éducatives le plus pertinentes possibles et cela de manière efficace et rapide,
  2. une solution pour proposer une licence conforme aux ressources sélectionnées la moins restrictive possible,
  3. une interface Web qui apporte aux enseignants la meilleure expérience utilisateur possible.

Les algorithmes d’intelligence artificielle ont été largement utiisés pour des applications de recommandation. Cependant, les combiner avec le Web sémantique est nouveau. Afin de recommander à l’enseignant les ressources pédagogiques les plus pertinentes, nous envisageons de marier les techniques de Machine Learning avec le Web sémantique. L’idée est d’injecter des informations sémantiques dans les techniques de système de recommandation. Cela pourrait améliorer la qualité des recommandations mais aussi leur interprétabilité. Par exemple, nous envisageons d’annoter sémantiquement les modèles des ressources éducatives issus des techniques telles que TF-IDF, ce qui permettra de calculer une similarité sémantique entre les ressources afin de pouvoir recommander à l’enseignant des ressources (les KNN par exemple) basés sur une distance sémantique [3]. Wikifier [4] est un outil qui permet de déterminer les concepts les plus importants d’un texte et de les annoter sémantiquement à l’aide des ontologies de DBpedia et Wikidata, nous pourrions donc par exemple calculer une distance liée à la sémantique des cours via ces annotations. Il existe déjà des outils de machine learning sur les données que nous comptons réutiliser comme par exemple [5] qui propose d’ordonner des ressources pédagogiques de manière à identifier une progression d’apprentissage pédagogique, de tels résultats peuvent aussi aider à recommander des ressources éducatives.

Concernant l’objectif 2, l’enjeu est de fournir une ou plusieurs licences conformes juridiquement aux licences des ressources à combiner. Les travaux à développer seront dédiés à la description sémantique des licences, la vérification de leur compatibilité et la proposition d’une licence la moins restrictive possible et conforme aux licences des ressources utilisées. L’analyse automatique des licences est possible grâce à des licences lisibles par machine. Les langages d’expression tels que CC REL ou ODRL [6] permettent une description fine des licences. D’un point de vue informatique, des solutions existent pour établir la compatibilité entre licences automatiquement [7][8]. Nous avons proposé CaLi [7], un modèle basé sur un treillis qui positionne automatiquement une licence sur un ensemble de licences en termes de compatibilité et de conformité. D’un point de vue juridique, établir la compatibilité entre des licences est une tâche complexe [9], nécessaire et paradoxalement peu investiguée par les juristes [10]. Il est pourtant crucial de s’intéresser à l’incompatibilité juridique des licences, tant leur multiplication dans le champ de la science ouverte est créatrice de frein à la circulation des informations plutôt que d’opportunités nouvelles [11]. Dans ce cadre, la présente recherche permettra d’étendre CaLi afin de développer un volet théorique concernant le concept de compatibilité juridique des licences. Les travaux doctoraux prendront ici appui sur le droit des contrats et sur les instruments juridiques dédiés aux partages des données. D’autre part, la recherche s’attachera aux raisons expliquant la complexité d’établir la compatibilité juridique entre les différentes clauses contractuelles de ces documents et montrera qu’elles peuvent être les solutions techniques pour y remédier, faisant ici le pont entre le droit et l’informatique. 

En ce qui concerne l’objectif 3, nous avons l’intention de fournir une interface Web qui apporte la meilleure expérience utilisateur possible. Pour cela, nous aurons besoin d’interagir avec les enseignants tout au long du développement de nos contributions afin de masquer au mieux les technologies utilisées dans le projet (OWL, RDF, RDFS, SPARQL, etc.). L’objectif est de produire des interfaces utilisateur intuitives, ergonomiques et bien adaptées aux pratiques et habitudes des enseignants. C’est en effet un défi important pour le Web des données que de savoir comment faciliter l’accès et l’exploration des graphes de connaissances aux utilisateurs finaux [12]. Parmi les approches existantes, Sparklis [13] combine de manière intégrée différents paradigmes : recherche par facettes, générateurs de requêtes et interfaces en langage naturel. Nous comptons nous inspirer de ce type de contribution pour concevoir une interface adaptée aux enseignants. 

Références

[1] Vito Walter ANELLI, Vito BELLINI, Tommaso DI NOIA, and Eugenio DI SCIASCIO. « Knowledge-Aware Interpretable Recommender Systems. » Studies on the Semantic Web 47 (2020): 101-124.

[2] Vito Walter ANELLI. « Knowledge-Enabled Recommender Systems in the Linked Data Era. » PhD, Politecnico de Bari, Department of Electrical and Information Engineering (2019).

[3] Alexandre PASSANT. « Measuring semantic distance on linking data and using it for resource recommendations. » Association for the Advancement of Artificial Intelligence Spring Symposium Series (2010).

[4] Brank JANEZ, Gregor LEBAN, and Marko GROBELNIK. « Annotating documents with relevant wikipedia concepts. » Proceedings of SiKDD Conference on Data Mining and Data Warehouses (2017).

[5] Victor CONNES, Colin DE LA HIGUERA, and Hoel LE CAPITAINE. « What should I learn next? Ranking Educational Resources. » Annual Computers, Software, and Applications Conference. IEEE (2021).

[6] Iannella RENATO, and Serena VILLATA. « ODRL information model 2.2. » W3C Recommendation (2018).

[7] Moreau BENJAMIN, Patricia SERRANO ALVARADO, Matthieu PERRIN, and Emmanuel DESMONTILS. « Modelling the compatibility of licenses. » European Semantic Web Conference. Springer, Cham (2019).

[8] Guido GOVERNATORI, Antonino ROTOLO, Serena VILLATA, and Fabien GANDON. « One license to compose them all. » International semantic web conference. Springer, Berlin, Heidelberg (2013).

[9] Margo BERNELIN. « The compatibility of open/free licenses: a legal imbroglio. » International Journal of Law and Information Technology 28.2 (2020): 93-111.

[10] Mélanie DULONG DE ROSNAY.  « Traduction et localisation des licences Creative Commons » Net.lang : Réussir le cyberespace multilingue (2012): 239-244.

[11] Niva ELKIN-KOREN. “What Contracts Cannot Do:  The Limits of Private Ordering in Facilitating a Creative Commons”, 74 Fordham L. Rev. 375 (2005).

[12] Jakub KLÍMEK, Petr ŠKODA, and Martin NEČASKÝ. « Survey of tools for linked data consumption. » Semantic Web 10.4 (2019): 665-720.

[13] Sébastien FERRÉ. « Sparklis: An expressive query builder for SPARQL endpoints with guidance in natural language. » Semantic Web 8.3 (2017): 405-418.

 

Copyright : LS2N 2017 - Mentions Légales - 
 -