NTeALan et ses dictionnaires électroniques: exemple du dictionnaire yemba-français - NTeALan

Blog

NTeALan et ses dictionnaires électroniques: exemple du dictionnaire yemba-français

Vue globale de l'article malēm du dictionnaire yemba-français
Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp

Les dictionnaires électroniques en langues peu dotées vers un marché de la donnée


Votre entreprise s’intéresse t-elle à l’essor des dictionnaires électroniques, notamment celui des dictionnaires des langues africaines peu dotées ? Ces langues sont dites « peu dotées » car celles-ci n’ont pas ou sinon très peu d’outils et de ressources pour leur traitement automatisé.

L’enjeu pour ces langues est donc de constituer différentes ressources pour pouvoir faciliter le travail d’ingénieurs en Traitement Automatique des Langues ou encore celui de linguistes étudiant ces différentes langues par exemple.

Votre entreprise s’intéresse au marché de la donnée mais souhaite en savoir davantage concernant ces langues peu dotées ?

Cette présentation a justement pour but de vous montrer l’intérêt de soutenir le travail des personnes engagées dans la création et le maintien de ressources pour ces langues peu dotées ! 💬 💭

Afin d’illustrer cette présentation à propos des ressources en langues peu dotées, nous avons choisi de vous présenter un dictionnaire collaboratif provenant de la plateforme de dictionnaires de NTeALan. Ce dictionnaire est plus particulièrement une « plateforme de dictionnaire collaboratif pour les langues nationales africaines » (https://ntealan.net) dont le logo peut être visible ci-dessous.

Le logo officiel de la plateforme du dictionnaire collaboratif de NTeALan

Cette plateforme présente différents dictionnaires de langues nationales africaines. Nous avons choisi ici de vous présenter un seul afin de rester concis, celui du yemba (API: yɛmba), une langue parlée à l’Ouest du Cameroun.

Ce dictionnaire, structurellement bilingue comme d’ailleurs tous ses paires, met en valeur des mots et leurs équivalents en français et en anglais. Nous avons fait le choix de vous présenter uniquement les traductions françaises des mots par souci de clarté du propos.

Le dictionnaire que nous allons présenter tout au long de cet exposé est donc le dictionnaire yemba-français.

Présentation du dictionnaire du yemba


Ci-dessous en citation, est présentée une petite description du dictionnaire dont il est question ici, ainsi qu’un petit paragraphe sur la langue en elle-même.

Ces deux textes sont issus de la plateforme du dictionnaire collaboratif.

Le Petit Dictionnaire yémba-français est paru au mois de mai 1997 pour sa première édition et fut publié par l’Association Nationale des Comités de Langues (ANACLAC) sous l’égide du Comité d’Etude de la Langue Yémba (CELY). Il a vu participer à son élaboration d’éminents chercheurs d’horizons divers. Entre autres, on peut citer : les deux principaux responsables, le regretté Professeur Maurice Tadadjeu de l’Université de Yaoundé 1 et le Professeur associé Steven Bird de l’Université de Melbourne, auxquels s’ajoutent d’autres contributeurs comme, Jean Romain Kouesso, Gretchen Harro, Jean Réné Kenfack. etc. Destiné principalement à la communauté yɛmbaphone, il avait d’une part pour prétention de standardiser la forme écrite et prosodique de ses différents dialectes et d’autre part de devenir un support didactique, utile à l’enseignement du yɛmba.

Préface du Dictionnaire yemba-français (Tadadjeu et Bird). Page:

La langue yɛmba est parlée en plein cœur du territoire Bamiléké. Ce territoire est situé entre le 4° et le 6° de latitude Nord, et le 9° et 10° de longitude Est, Il couvre une superficie de 6200 km² (TOUNKAM, 2001). Le peuple yɛmba, partie intégrante de ce vaste territoire, est un groupe culturel qui prend corps dans l’ensemble du département de la Ménoua, dans la région de l’Ouest Cameroun.

Préface du Dictionnaire yemba-français (Tadadjeu et Bird). Page:

Localisation de la zone yɛmba à l’Ouest du Cameroun

Description d’une entrée de dictionnaire


La consultation de tout dictionnaire dans la plateforme se fait assez simplement en accédant aux différents blocs prévus à cet effet. Pour consulter une entrée, il suffit de vous rendre sur le bloc gauche où sont listées les 100 premières entrées d’articles (radicaux des mots précisément) du dictionnaire courant. Vous pouvez soit rechercher dans la barre de recherche le mot voulu en langues nationales africaines et/ou en langues étrangères, ou soit cliquer sur le mot voulu dans la liste des entrées d’article. Choisissez une entrée de dictionnaire dans le menu déroulant. Prenons l’exemple de malēm/mɛ́lēm (en saisissant sa traduction en français épice dans la barre de recherche).

Le contenu de chaque article est identique en fonction de la famille de langue auquel appartient le dictionnaire. Dans le cas du dictionnaire yemba, il s’agit d’une langue sémi-bantu et donc une langue à classe. Un accent sera donné sur le regroupement en classes des articles de type noms. Le tableau ci-dessous, donne quelques détails des acronymes utilisés.

ÉlémentSignification
BAMVariante Bambara
YNVariante du Yémba Nord
YSVariante du Yémba Sud
Simplearticle composé d’une seule variante dialectale
Composéarticle composé d’au moins deux variantes dialectales
Classes d’accord(uniquement pour les noms et adjectifs) composée de la classe du singulier à gauche et du pluriel à droite

Fiche de l’entrée choisie

  • Informations sur la forme
MotFormeTypeCatégorie grammaticaleClasses d’accord
malēmsimpleYSNom (n.)1/2
mɛ́lēmsimpleYNNom (n.)1/2
  • Traduction(s)
Sens
sorte d’épice
  • Statistiques de cette entrée du dictionnaire

Nombre de vues : 200 | Nombre de symboles like : 0 | Nombre de symboles dislike : 2

Quelques statistiques générales


Vous trouverez sur cette page quelques statistiques concernant les entrées de dictionnaire extraites (par les moyens automatiques). Celles-ci apportent quelques informations supplémentaires sur la consultation du dictionnaire en elle-même.

Statistiques concernant le nombre de vues des articles

En parcourant les articles, on observe plus précisément le nombre de vues par entrée du dictionnaire pour la comparer avec la moyenne du nombre de vues par entrée. On peut observer dans ce dictionnaire une variation entre 1 et 300 vues sur les articles. L’ordre des entrées du dictionnaire est toujours le même que sur la page précédente. La moyenne de nombre de vues par entrée de dictionnaire est de : 104 vues.

Vous pouvez voir ci-dessous un graphique montrant le nombre de vues par entrée du dictionnaire dans le même ordre d’apparition que sur la page précédente.

Nous pouvons voir sur ce graphique que les quelques entrées de dictionnaire sont relativement bien consultées sur la plateforme. Il est très intéressant de pouvoir vérifier le nombre de vues du dictionnaire car l’on peut alors savoir l’intérêt suscité par celui-ci. On constate alors qu’il existe une véritable demande de ressources pour ces langues peu dotées et l’on peut imaginer agrandir l’offre en soutenant des projets de création de ressources pour ces langues dans le but de constituer un véritable marché de la donnée pour ces langues peu dotées.

C’est un véritable enjeu à notre époque, où le Traitement Automatique des Langues souhaite pouvoir traiter ces langues pour lesquelles il n’existe pas encore ou sinon très peu de ressources et outils disponibles. Soutenir la création de ressources pour ces langues est donc une opportunité très intéressante.

Bilan: vers un marché de la donnée pour les langues africaines peu dotées


A travers cet article, nous avons voulu vous montrer la nécessité de soutenir la communauté des bénévoles travaillant sur les langues peu dotées dans l’objectif de créer un véritable marché de la donnée autour de ces langues. Nous nous sommes appuyés sur un exemple de dictionnaire électronique collaboratif d’une langue africaine pour réaliser notre exposé.

Nous avons vu au travers des différents exemples présentés que les dictionnaires électroniques présentent différents avantages non négligeables, tels que :

  • Les dictionnaires électroniques sont toujours accessibles, pour tout le monde, peu importe là où nous vivons. Il s’agit d’un réel avantage puisqu’ils peuvent ainsi intéresser et sensibiliser un plus grand nombre de gens qu’une ressource au format papier (format physique).
  • Ces dictionnaires électroniques permettent de transmettre un savoir qui n’a auparavant pas forcément été disponible pour une majorité de personnes. Il s’agit alors d’une véritable transmission de connaissances nécessaires et utiles qu’il faut à tout prix faire perdurer dans le temps grâce aux nouveaux moyens de communication digitaux de notre époque.
  • Ces dictionnaires électroniques permettent également de mettre à disposition des enregistrements sonores de chaque entrée du dictionnaire, comme vous avez pu le constater pour notre exemple de dictionnaire choisi. Cette opportunité présente un réel intérêt puisqu’il est alors possible d’avoir des enregistrements de locuteurs et ceux-ci permettent par exemple un apprentissage de la langue pour des apprenants ou encore la constitution de corpus sonores en vue de faire des apprentissages automatiques dessus pour par exemple de la reconnaissance du locuteur ou encore de la reconnaissance de la parole.
  • Les internautes peuvent également contribuer à ces dictionnaires électroniques collaboratifs en s’enregistrant ou en ajoutant de nouvelles entrées, de nouvelles données sur ces entrées et en donnant par exemple leur avis sur les données déjà présentes dans le dictionnaire. Ainsi, ces dictionnaires électroniques deviennent réellement vivants et interactifs, ce qui est très intéressant pour le public général mais également pour les entreprises souhaitant utiliser ces dictionnaires puisque ceux-ci peuvent être constamment enrichis, révisés et corrigés.
  • Enfin, puisque ces dictionnaires sont électroniques et donc dématérialisés, il est possible de les utiliser comme ressources (lexiques par exemple) pour le domaine du Traitement Automatique des Langues afin de pouvoir créer de véritables chaînes de traitements sur des langues peu dotées, ce qui est une opportunité actuelle à ne pas manquer.

Pourquoi devriez-vous soutenir ce type de travail autour des langues peu dotées ?


Il est dans votre intérêt de soutenir les bénévoles travaillant sur des projets similaires à celui que nous vous avons présenté ici, tout simplement parce-que ceux-ci représentent des opportunités inédites de pouvoir créer par la suite un véritable marché de la donnée.

En effet, les données, dans le domaine du Traitement Automatique des Langues notamment, sont des denrées rares à conserver précieusement et à enrichir constamment. De nombreuses ressources et outils existent par exemple pour l’anglais, le français, l’espagnol ou le chinois. En investissant dans la création de ressources pour les langues peu dotées vous serez un véritable précurseur dans ce domaine et pourrez créer davantage de ressources et d’outils que le font les bénévoles travaillant sur des projets. Ainsi, votre entreprise deviendra un distributeur connu des données et ressources pour ces langues peu dotées.

Il est bon de noter que la création de ressources et de données pour les langues peu dotées peut servir à différents aspects dans le domaine du Traitement Automatique des Langues. En effet, les dictionnaires électroniques par exemple peuvent constituer une véritable terminologie afin d’améliorer des systèmes de traduction automatique ou des systèmes de transcription automatique de la parole par exemple.

Enfin, il est également envisageable de pouvoir créer des étiqueteurs morphosyntaxiques, outil de base nécessaire à la plupart des applications dans ce domaine. Ainsi, votre soutien dans l’industrie de la donnée pour les langues peu dotées est primordial afin dans le futur de doter ces langues de véritables boîtes à outils.

Cet article a été rédigé par Clémence Laurent dans le cadre du cours Techniques Web (Master 2 TAL – INALCO), promotion 2019 -2020.

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp

Contribuer à l’évolution de NTeALan

1,110 of 1,000,000 donors
Sélectionnez un moyen de paiement
Informations personnelles

Information de carte bancaire
Paiement sécurisé par SSL.

Total du don : 50.00€

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.