Description des modules


SEMESTRE 1

Matières de la spécialité

Bases du TAL (24h)
Connaissances nécessaires et conditions préalables pour le traitement automatique de la langue. Reconnaissance et génération de la langue ; méthodes et techniques de base pour leur mise en œuvre.
Théorie des langages (24h)
Ce cours aborde la notion de langage formel qui occupe une place centrale tant en informatique que traitement automatique des langues. Basé sur la classification chomskienne des langages, ce cours traite plus spécifiquement des langages réguliers et des langages hors-contexte ainsi que des outils formels qui leur sont associés : automates à états finis, transducteurs, expressions régulières, grammaire hors-contexte, automate à pile.
Algorithmique (24h)
Vie d’un programme ; rôle et nécessité de la modélisation ; processus de résolution d’un problème ; notion et rôle des variables et constantes ; étude et mis en oeuvre du schéma conditionnel ; étude et mise en oeuvre du schéma itératif.
Programmation en Javascript (24h)
Apprentissage du langage Html et des Css à travers la création de pages Web. Apprentissage du langage Javascript : analyse de problèmes en termes de programmation ; méthodologie pour élaborer et évaluer les scripts ; application des structures algorithmiques standards.
Modélisation de la langue écrite (24h)
Cette partie aborde différents niveaux de traitement de la langue écrite (morphologie, lexique, syntaxe) et examine les différents types de modélisation linguistique proposés pour les analyser.
Synthèse vocale (24h)
Les technologies de la parole s’articulent autour de plusieurs briques principales : le codage de la parole, la synthèse vocale, la génération de parole, ou la reconnaissance de la parole, la compréhension de la parole, la traduction parole vers parole, l’identifcation de la langue et l’identification du locuteur.
Ce cours pose d’abord la question de « pertinence » de ce que doivent réaliser ces briques par rapport aux applications réelles dans lesquelles elles sont ou pourraient être utilisées, puis se focalise sur la synthèse vocale : l’évolution « historique » des problèmes de modélisation et de techniques posés dans les systèmes (jusqu’aux systèmes actuels : « corpus based » ou par « rush » d’une part et synthèse audio-visuelle/agent virtuel, d’autre part), les verrous et contraintes techniques vs. théoriques des systèmes ; la description d’un système modulaire « type » ; les principes d’évaluation des briques vs. des applications ; les questions nouvelles que doit résoudre le clonage de parole.

haut de page

SEMESTRE 2

Matières de la spécialité

Représentation des connaissances (24h)
Introduction aux différentes méthodes de représentation des connaissance. Etude approfondie des connaissances déclaratives et mise en application avec un langage expert (CLIPS) sur des problèmes classiques d’intelligence artificielle.
Algorithmique (24h)
Etude et mise en oeuvre algorithmique des variables tableaux à une, deux ou plusieurs dimensions. Etude et mise en oeuvre algorithmique des fichiers. Premiers éléments pour la modélisation et la mise en oeuvre des listes.
Corpus électroniques écrit (12h)
Ce cours vise à aborder sous un angle méthodologique la constitution et l’exploitation de corpus écrits. Le cours, comportant de nombreux TP, aborde les points suivants : généralités sur l’utilisation des corpus, typologie ; principes de constitution et traitements de base : codage, reformatage et nettoyage ; balisage structural, XML, TEI ; annotation et étiquetage : segmentation et tokenisation, normes CES ; Indexation et concordances, occurrences et cooccurrences, statistiques de base ; corpus multilingues alignés - application pour la traduction automatique statistique.
Corpus parole (12h)
Les corpus sont soit des bases de données utilisées en tant que telles comme connaissances et/ou technologies, soit dédiés à la construction de système de traitement automatique de la parole. Dans ce deuxième cas, deux approches a priori orthogonales impliquent méthodologiquement le recueil de corpus : l’approche experte par modèle, qui analysent des « exemplaires » afin d’étayer des « règles » (typiquement inspirée de la méthodologie expérimentale en phonétique), ou l’approche stochastique, qui construit des modèles statistiques à partir d’échantillons de taille représentative, c’est-à-dire pertinente en terme de contenu et suffisante en taille pour la convergence/la significativité des modèles. Les méthodes « mixtes » combinent les deux approches experte & statistique.
Il s’agira de montrer que les corpus doivent être construits en amont à partir d’une description très rigoureuse du problème posé par le système qui se basera sur ce corpus, quelque soit l’approche, puis seront donnés les principaux principes méthodologiques des corpus construits pour une approche par règles d’une part et pour une approche statistique d’autre part.
L’évaluation sera un projet dans lequel doit être créé et décrit un problème réel très spécifique, puis la réalisation effective d’un corpus dans des conditions justifiées et concrètes d’enregistrement puis de premières analyses , selon le sujet retenu, des signaux de parole ou de leur transcription orale.
Projet tutoré (12h)
Elaboration du dossier de conception et de celui de réalisation. Mise en œuvre pour le projet de l’année. Le projet est commun aux deux parcours (TALEP/EIAL) avec comme objectif l’élaboration d’un produit d’apprentissage des langues utilisant le TAL.
Gestion de projets (12h)
Présentation des grandes phases d’un projet et des délivrables intermédiaires. Elaboration du cahier de charges.
Insertion professionnelle (12h)
Appréhender la démarche de projet professionnel. Comprendre l’environnement professionnel dans lequel les étudiants s’engagent afin de mieux se situer et afin de faire le lien avec la formation. Se mettre en perspective. 6 heures portées par la maison de l’entreprenariat : « A la découverte de l’entreprise ». Acquérir les notions de base caractérisant l’univers des entreprises : marché, concurrence, stratégie, performance, fonctions.
Conception de produits écrit (24h)
Ce cours fait suite à l’enseignement de Prolog du 1er semestre. Il s’intéresse à la conception et à réalisation de produits informatiques pour le traitement de l’écrit. L’ensemble de la chaîne de développement est abordée : analyse du problème, spécifications, modélisation, conception informatique et développement. Les programmes, réalisés en Prolog, traitent notamment de la tokenisation, de l’analyse et de la génération morphologique ainsi que de l’analyse syntaxique.
Traitement du signal de parole (24h)
Les traitements automatiques de la parole (TAP) interviennent dans de multiples domaines : identification du locuteur, de la langue, du dialecte, le plus emblématique étant bien sûr la reconnaissance de parole. Ce cours décrit les principaux outils utilisés en traitement automatique. Il se concentre plus précisément sur les étapes de la modélisation du signal de parole, depuis la caractérisation acoustique jusqu’aux outils de type programmation dynamique, mixtures de gaussienne, chaînes de Markov cachées… L’objectif est de comprendre les principes de fonctionnement et de savoir utiliser ces outils dans un cas précis, de connaître leur potentiel et leurs limites.
Lexiques (12h)
Dans ce cours, on s’intéressera à la modélisation du lexique dans les applications de TAL. Des modèles formels comme le lexique génératif de Pustejovsky et le DEC de Mel’cuk seront abordés.
Programmation en PERL (12h)
Ce cours constitue une introduction au langage Perl pour des applications de base du TAL, telles que la tokenisation (analyse lexicale), le comptage de fréquence d’occurrence, la segmentation en phrases, la correction orthographique, le reformatage de textes, etc. Notions abordées : structures de données de base (scalaire, liste, hachage) ; principes de la lecture/écriture de fichiers ; formalisme des expressions régulières pour la recherche et le remplacement de motifs (patterns).
Formalismes pour le TAL (24h)
Présentation de la notion de formalisme. Etude contrastive et appliquée de deux formalismes syntaxiques (respectivement générativiste et constructiviste). Conclusion sur l’évaluation et la comparaison des formalismes.
Programmation (24h)
Au travers du langage de programmation en ligne PHP, les étudiants reverront et mettront en pratique dans ce cours applicatif : les fondements du développement client-serveur, la programmation fonctionnelle et l’interfaçage avec les systèmes de gestion de bases de données (MySQL en l’occurrence).

haut de page

SEMESTRE 3

Matières de la spécialité

Structures des données (24h)
Analyser, modéliser et élaborer l’algorithme pour des problèmes simples et complexes du domaine, nécessitant des structures algorithmiques standard et relativement complexes : files, piles, arbres, tris.
TAL et apprentissage des langues (12h)
Présentations d’outils TAL, de logiciel d’ALAO et réflexions sur l’intérêt/la possibilité d’intégrer les outils TAL dans les logiciel d’ALAO
Séminaires (24h)
Interventions des professionnels du domaine des IdL (en particulier d’anciens étudiants du cursus) ainsi que des chercheurs du domaine. Dix interventions au minimum par an.
Insertion professionnelle (12h)
Définir un projet professionnel en cohérence avec soi (motivation, valeurs, personnalité) et son parcours de formation. Valoriser son champ de compétences et savoir communiquer de dessus.
Développer une meilleure compréhension du marché de l’emploi, appréhender la démarche réseau.
Acquérir des méthodes, des outils de communication (CV, lettre, argumentaire d’embauche) afin de faciliter sa recherche de stage et anticiper son entrée dans la vie active.
Méthodologie du mémoire (6h)
Méthodologie d’élaboration du mémoire de stage et du mémoire de recherche. Aspects formels, structuration du mémoire, règles pour la soutenance.
Modèles et problèmes en syntaxe et lexique (18h)
Dans ce cours, on s’intéressera à la modélisation de la syntaxe et du lexique dans les applications de TAL. Des modèles syntaxiques et des modèles lexicaux utilisés en TAL seront comparés et évalués.
Sémantique pour le TAL (18h)
L’idée générale de ce cours est de repartir des fondamentaux de la sémantique pour montrer comment ces phénomènes sémantiques se retrouvent dans les applications TAL d’aujourd’hui, soulever les difficultés que cela pose et décrire les solutions apportées par la communauté TAL. Nous commençons par un petit rappel de certains phénomènes sémantiques importants pour le TAL puis nous abordons les difficultés liées à la construction et l’accès aux ressources lexicales. Nous étudions ensuite différentes problématiques du TAL telles que la désambiguïsation lexicale, la reconnaissance d’entités nommées, la relation d’implication entre phrases. Pour chaque problématique, nous identifions les phénomènes sémantiques/linguistiques entrant en jeu et décrivons des outils développés pour les traiter.
Programmation en PERL (12 h)
Ce cours aborde les techniques de programmation classiques du TAL avec le langage PERL. Principales notions abordées : lecture/écriture/manipulations de fichiers ; reconnaissance de motifs avec les expressions régulières, recherche de patterns ; structures de liste et de hachage ; modules et librairies.
Des applications de TAL sont abordées en cours sous la forme de projet variables selon les années : manipulation de lexiques structurés, correction orthographique, aspiration et analyse de pages web, parsage XML, comptage de tri-grammes, étiquetage et désambiguïsation, etc.
Programmation en PHP (24h)
Le cours se positionne dans le prolongement immédiat du cours PHP en M1. Organisé autour d’un projet de développement, l’enseignement vise à former à la conception de site Web dynamiques, à la gestion de projets de développement tout en approfondissant les connaissances du langage de programmation et de ses principales fonctionnalités.
Génération automatique de textes (18h)
Ce cours est divisé en 2 parties. La première aborde de manière plutôt théorique la problématique et le processus complet de génération automatique en détaillant chacune des grandes étapes ; les systèmes marquants de génération automatique sont également présentés. La deuxième partie, plus pratique, est dispensée par des intervenants extérieurs pour présenter et faire manipuler par les étudiants les systèmes développés dans leur entreprise.
Signaux sociaux (18h)
Les interfaces personne-machine, grâce aux avancées technologiques très rapides de la dernière décennie, donne à la personnalisation des agents virtuels une place si « réaliste » , que ce lieu technologique nécessite et permet de poser de façon aussi bien théorique que applicative la notion de « pertinence » de l’agent virtuel : sera-t-il accepté/rejeté/adapté par l’humain en fonction de ses compétences langagières, de son adaptation culturelle, de son adéquation à son « rôle » (majordome, assistant, tuteur…), de sa personnalité ?
Ce cours montre qu’un robot virtuel ou réel, quand il communique en interaction face à face, ou même « parole à parole », avec un humain, ne peut pas être dénué de compétences relationnelles impliquant des affects sociaux (attitudes : doute, surprise, autorité, intimité etc), ni d’expressions des émotions, ni de comportements emprunts de personnalisation.
On aborde dans ce cours les théories majeures de la psychologie des émotions, de la pragmatique, linguistique et phonostylistique des affects sociaux, de l’expression de la personnalité, ainsi que les méthodes d’implémentation des émotions faciales et de la synthèse expressive.
Méthodologies expérimentales pour la parole (12h)
Du signal acoustique aux mots, le chemin n’est pas si simple. Ce cours s’intéresse aux mécanismes de perception chez l’humain. Après une description des capacités des nouveau-nés, nous abordons les différentes théories de la perception de la parole et la façon dont elles peuvent prendre en compte les aspects audiovisuels de la parole. Ce cours est construit autour de publications anglaises et/ou françaises en insistant sur les méthodes expérimentales mises en œuvre.
Reconnaissance automatique de la langue parlée (12h)
Les cours qui composent cette UE offrent un ensemble théorique et pratique de haut niveau qui couvre le domaine du traitement automatique de l’oral. Les applications de technologies vocales sont tout d’abord présentées. Ensuite, le traitement automatique du langage parlé est abordé du point de vue des méthodes empiriques (modèles de langages n-grammes, etc.). Le module se termine par la présentation d’outils (open-source), permettant de développer des systèmes complets et présente un aperçu des problèmes ouverts du domaine et les méthodes avancées associées. Ce cours s’adresse à tous les étudiants désireux d’utiliser des outils ou de mener des recherches dans le domaine du traitement automatique de la langue parlée.
Préparation du mémoire ou projet
Orientation Recherche : préparation du mémoire de recherche, méthodologie du domaine.
Orientation Professionnelle : Préparation d’un projet professionnel (conception et développement. d’un produit IdL).

haut de page

SEMESTRE 4

Orientation Recherche

Mémoire de recherche
Travail de recherche sur un sujet donné ; rédaction d’un mémoire, soutenance.
Stage de 2 mois minimum.

Orientation Professionnelle

Projet professionnel
Réalisation du projet professionnel préparé au semestre 3
Stage en entreprise
Stage en entreprise de 4 à 6 mois à temps plein ; rédaction d’un rapport de stage, soutenance.

haut de page

SEMESTRES 1 à 4

Pour l’ensemble des étudiants

Langue sur objectifs spécifiques
En fonction des connaissances de l’étudiant et du parcours choisi : approfondissement, étude de la langue technique, apprentissage d’une nouvelle langue.

haut de page
 
Plan du site| Credits | Site réalisé avec SPIP