(Atelier TAL) Processus de construction d’un taggeur pour une langue peu dotée: application à la langue ghomala (Cameroun) - NTeALan

Blog

(Atelier TAL) Processus de construction d’un taggeur pour une langue peu dotée: application à la langue ghomala (Cameroun)

Programme atelier 2022
Facebook
Twitter
LinkedIn
WhatsApp

NTeALan Group / Université de Douala (Cameroun) : 4 janvier 2022

Présentation de l’atelier

Dans le cadre des activités de l’association NTeALan Social Network (NSN), l’équipe NTeALan Research and Developpement organise un atelier scientifique annuel autour de la problématique de l’outillage des langues peu dotées du Cameroun, en particulier la langue ghomala. Il s’agira d’exposer une méthodologie de conception d’un taggeur (étiqueteur morpho-syntaxique) à partir de la traduction et l’annotation POS d’un corpus initial en français. Cet atelier fait suite au projet Lacuna en partenariat avec le collectif Masakhane dont l’objectif était de produire un corpus parallèle de 5000 phrases français-ghomala utile à l’annotation POS/NER en ghomala.

L’atelier sera l’occasion pour l’équipe de recherche NTeALan, de présenter ses travaux de numérisation et d’outillage des langues camerounaises. Ainsi, il a pour principal objectif de susciter un travail de synergie entre les chercheurs et étudiants actifs dans la recherche et le développement autour des langues africaines, dans le but de réfléchir et travailler en collaboration pour la création de ressources et outils à implanter dans les systèmes scolaires africains pour la transmission de nos langues.

L’atelier se déroulera le 21 janvier 2022 de 10h – 14h en présentiel (Université de Douala) et à distance via la plateforme Zoom de NTeALan. Il est ouvert à tous les étudiants, enseignants ou toute personne voulant mettre ses compétences et son savoir-faire, que ce soit en linguistique, lexicographie, informatique ou en intelligence artificielle (TAL/NLU), etc. au service de la digitalisation de l’outillage didactique pour l’enseignement des langues camerounaises.

Programme atelier 2022

Présentation de NTeALan Social Network

Créée en 2017 à Douala au Cameroun par Elvis Mboning et Jean-Marc Bassahak, l’association NTeALan (New Technologies for African Languages) Social Network œuvre pour l’émergence numérique des langues africaines en formant des communautés de contributeurs volontaires autour des langues et cultures africaines d’une part, et des technologies du traitement automatique des langues et de intelligence artificielle d’autre part.

NTeALan Social Network est essentiellement formée de bénévoles passionnés de langues africaines et désireux de contribuer à leur développement. Toutefois, cette association travaille en partenariat avec des ministères (au Cameroun), des laboratoires de recherche (en France), des entreprises et également des entrepreneurs représentant différents secteurs d’activités. La recherche et le développement faisant partie de ses principales activités, NTeALAN dispose d’une équipe, NTeALan Research and Developpement, exclusivement consacrée à la recherche. Sa mission est de diriger tous les travaux de recherche scientifique de l’association au niveau national, continental et international.

Programme de l’atelier

L’atelier sera construit autour de plusieurs axes avec des séances pratiques intermédiaires. Nous voulons permettre à chaque participant de pouvoir s’approprier la méthodologie dans une application personnelle.

  • Exposé 1: Étiqueteur morpho-syntaxique : contexte théorique
  • Exposé 2: Comment construire un étiqueteur morpho-syntaxique pour une nouvelle langue ?
  • — construire un corpus parallèle
  • — définir un guide d’annotation
  • — annoter le corpus parallèle (langue cible)
  • — modéliser et entraîner un taggeur
  • Exposé 3: Construire un corpus parallèle
  • TD 1 : Comment construire un corpus parallèle pour le ghomala ?
  • Exposé 4: Définir un guide d’annotation
  • TD 2 : Comment rédiger un guide d’annotation pour le ghomala ?
  • Exposé 5: Annoter un corpus à partir d’un guide d’annotation
  • TD 3 : Comment annoter un corpus sur une plateforme d’annotation ?
  • Exposé 6: Comment modéliser et entraîner un taggeur
  • TD 4 : Construire un taggeur à partir des données annotées

Pour permettre à chaque participant de faire les TD de cet atelier, il leur sera demandé de préparer un corpus de 100 phrases dans leur langue maternelle. A défaut, les corpus du ghomala seront utilisés.

Contact intervenant :

  • MBONING TCHIAZE Elvis (Data scientist NLP / Membre associé ERTIM-NRD)
  • Pr Jules Assoumou (Chef de département LLNA)
  • Contacts : levismboning@ntealan.org ; workshop@ntealan.org
Facebook
Twitter
LinkedIn
WhatsApp

Contribuer à l’évolution de NTeALan

1% récoltés
Sélectionnez un moyen de paiement
Informations personnelles

Information de carte bancaire
Paiement sécurisé par SSL.

Total du don : 50.00€

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *