Centre Arabe de Recherches et d’Études Politiques de Paris

09/09/2025

Vers l’« achèvement » du Dictionnaire historique de la langue arabe de Doha

Par Azmi Bishara
Cérémonie lancement dictionnaire de langue arabe de Doha
Cérémonie lancement dictionnaire de langue arabe de Doha. Photo : ACRPS.

Fruit de treize années de recherches et d’un travail collectif sans précédent, le Dictionnaire historique de la langue arabe de Doha touche à son « achèvement » en décembre 2025. Plus qu’un simple lexique, il rassemble 300 000 entrées retraçant l’histoire et l’évolution des mots arabes à travers vingt siècles, des inscriptions anciennes aux emprunts contemporains, grâce à un corpus numérique monumental.

Après treize années de travail continu sur un projet linguistique novateur, porté par des centaines d’experts arabes réunis autour d’outils informatiques de pointe et encadrés par un conseil scientifique d’exception, le Dictionnaire historique de la langue arabe de Doha s’achèvera en décembre 2025. Il rassemblera alors 300 000 entrées lexicales, incluant des inscriptions, des textes anciens et les racines communes aux langues sémitiques.

Employer le mot “achèvement” pour annoncer cette étape relève presque de l’oxymore, car un dictionnaire historique n’est jamais vraiment terminé. Nous parlons ici de l’histoire de la langue arabe : qui pourrait prétendre en avoir fait le tour ? Ce qui s’achève, en réalité, c’est le vaste projet adopté par le Centre arabe de recherche. Sa mission : retracer l’évolution des sens des mots arabes, des vocabulaires et des termes, dans leurs contextes d’usage, à partir d’exemples tirés des textes. Le travail inclut aussi l’étude des mots étrangers arabisés, en cherchant à dater leur première apparition dans l’écrit, puis à préciser quand de nouvelles significations ont émergé. Une tâche d’autant plus ardue quand il s’agit de textes antérieurs à l’ère de la transcription. Les lexicographes tiennent à une datation précise à l’année, mais j’ai pu constater qu’elle n’est réaliste que pour les périodes plus tardives. Pour les temps plus anciens, la précision à la décennie, voire au siècle, me paraît suffisante. L’essentiel reste de saisir le sens d’un mot à un moment donné et son évolution à un autre.

Je suis certain que des erreurs apparaîtront, ou nous seront signalées, et nous les corrigerons. Il faudra parfois ajuster les dates d’usage de certains mots, ou rectifier des entrées après avoir décelé une erreur dans les sources. Nous continuerons aussi de suivre l’évolution de la langue, ses dérivés, ses sens nouveaux nés de l’interaction avec la réalité, ainsi que l’intégration de mots étrangers.

Nous avons dû élaborer nos propres règles de recherche et d’édition lexicographique, puisqu’aucun dictionnaire historique de la langue arabe n’existait auparavant. Présentation et structure des entrées, procédures d’approbation avant publication : tout a été défini et consigné dans un guide normatif. Les délibérations du conseil scientifique ont également été soigneusement enregistrées dans des procès-verbaux, qui constituent en eux-mêmes une ressource précieuse pour les chercheurs. Aujourd’hui, nous touchons à l’achèvement de ce projet colossal.

Pour permettre aux lexicographes d’étudier les mots et l’évolution de leurs sens dans leur contexte, un corpus de la langue arabe a été constitué sur une dizaine d’années, selon une méthodologie d’une ampleur inédite. Les techniques modernes ont été mobilisées pour classer et interroger ce corpus. Les entrées du dictionnaire reposent sur un corpus principal, spécialement conçu par les experts en informatique du lexique et appelé corpus ouvert du lexique. Élaboré selon des critères précis — collecte et sélection des sources, datation des textes, mise en relation des mots avec leur contexte — il compte environ 600 millions de mots, auxquels s’ajoutent 400 millions tirés d’un corpus moderne construit sur les mêmes bases.

Ce socle est enrichi de deux autres bases : Le blog arabe, dont la version moderne rassemble 6,5 milliards de mots, et Le blog arabe chronologique, qui en compte environ 5 milliards. Ensemble, ces ressources offrent un vaste champ de recherche sur les mots arabes et leurs significations à travers les textes.

Nous avons choisi pour le dictionnaire la voie difficile : rechercher les sources originales des mots plutôt que de nous appuyer sur des dictionnaires, qui ne reflètent pas l’usage vivant. Cela nous a conduits à constituer une immense base de données couvrant tous les domaines du savoir et offrant d’innombrables applications, tant pour la recherche que pour la création lexicographique. Une plateforme informatique reliant les experts au corpus a été développée afin de gérer l’édition, la révision, la vérification et l’approbation. Le résultat est publié sur le portail électronique, ouvert à tous depuis la fin de la première phase, lorsque le traitement des significations avait atteint l’année 200, à l’occasion du lancement officiel du dictionnaire le 10 décembre 2018.

Nous avons choisi de publier le lexique en ligne, sans édition papier pour l’instant, afin de le rendre accessible au plus grand nombre, en particulier aux chercheurs, et pour disposer de plus de temps pour la vérification, la correction et la prise en compte des retours des utilisateurs. C’est une responsabilité majeure et un projet d’intérêt national.

Fin 2022, nous avons annoncé l’achèvement de la deuxième phase, couvrant la période historique allant jusqu’à la fin du Ve siècle de l’Hégire, soit le début du XIe siècle de notre ère. Les contenus édités, représentant dix siècles d’histoire, ont été publiés sur le portail et rassemblent près de 200 000 entrées lexicales. Nous avons ensuite poursuivi la rédaction des articles jusqu’à fin 2023, après avoir préparé la bibliographie de la troisième phase, enrichi le corpus textuel et mis à jour l’environnement informatique.

Azmi Bishara

Intellectuel arabe, écrivain et chercheur, Azmi Bishara a publié de nombreux ouvrages en arabe, en anglais et en français, dans les domaines de la pensée politique, de la théorie sociale et de la philosophie. Ses recherches portent principalement sur l’État, les révolutions arabes, la démocratie, la citoyenneté et l’islam politique.

Parmi ses publications récentes figurent The Question of the State: An Essay in Philosophy, Theory and Contexts (2023) et The Arab State: On Genesis and Trajectory (2024), parus initialement en arabe. Son ouvrage Palestine: Matters of Truth and Justice (Hurst, Londres, 2022) a été traduit en français sous le titre La question de la Palestine : vérité et justice (2024). Il est également l’auteur de Al-Tufan: al-Harb ʿala Filastin fi Ghazza (2024), consacré à la guerre contre Gaza.

Ses travaux en anglais incluent aussi On Salafism: Concepts and Contexts (Stanford University Press, 2022) et Sectarianism without Sects (Oxford University Press, 2021). En français, on lui doit Qu’est-ce que le salafisme ? (Orients, 2021). Il a par ailleurs consacré une trilogie à l’histoire et à l’analyse des révolutions arabes de 2011, publiée chez I.B. Tauris : Understanding Revolutions: Opening Acts in Tunisia (2021), Egypt: Revolution, Failed Transition and Counter-Revolution (2022) et Syria 2011–2013: Revolution and Tyranny before the Mayhem (2023).

Azmi Bishara est actuellement directeur général du Centre arabe de recherche et d’études politiques (CAREP) et président du conseil d’administration de l’Institut d’études supérieures de Doha.

Nous avons dû surmonter un certain nombre de défis thématiques, que l’on peut résumer comme suit :

À l’assaut d’un corpus historique colossal

L’un des principes fondateurs du Dictionnaire historique de la langue arabe de Doha est de ne retenir que les termes attestés dans des textes imprimés fiables. Les mots figurant dans les dictionnaires anciens ou modernes ne répondent pas toujours aux critères essentiels d’un dictionnaire historique : leur présence dans un texte authentique et l’ancienneté de ce dernier. Comme ces exigences ne peuvent être garanties à partir des seuls dictionnaires, il a été indispensable de constituer une vaste collection d’ouvrages – littéraires, scientifiques, artistiques et savants – couvrant la période allant du VIᵉ siècle de l’Hégire (XIᵉ siècle de notre ère) jusqu’à la fin de l’année 2023.

Cette collecte n’a pas été effectuée au hasard. Des critères précis ont été définis pour assurer une représentation équilibrée des œuvres provenant de tous les pays arabes, de toutes les époques et de tous les domaines de la création littéraire. Pour les productions des XXᵉ et XXIᵉ siècles, une méthode d’échantillonnage a permis de garantir la représentativité de la langue selon les lieux, les périodes et les disciplines. L’entreprise s’est ainsi appuyée sur une bibliographie représentative d’environ 250 000 titres.

Une fois les sources sélectionnées et rassemblées, le défi suivant a été de numériser les textes non encore digitalisés, puis de les traiter pour construire un corpus textuel indexé, structuré et daté. Ce corpus permet désormais de retrouver chaque mot arabe dans son contexte, accompagné de sa source, du nom de son auteur et de la date de rédaction de l’œuvre, ou, à défaut, de celle du décès de l’auteur.

Explorer les mots et leurs nouvelles significations

Au cours de la première phase, les principaux défis consistaient à retrouver la plus ancienne utilisation d’un mot, à déterminer les dates de décès des poètes et écrivains, à vérifier l’authenticité de textes souvent transcrits à une autre époque, et à relire minutieusement les textes validés. La troisième phase a cependant ajouté une difficulté supplémentaire : le nombre de contextes d’un même mot dans le corpus textuel pouvait atteindre des dizaines de milliers, voire des millions. Le rédacteur du lexique devait alors identifier parmi tous ces contextes les mots et significations nouveaux, non répertoriés lors de la phase précédente, arrêtée à l’année 500 de l’Hégire.

La méthode traditionnelle — lire et analyser les contextes un par un — n’était plus viable face à l’ampleur du corpus et au temps requis. Certains mots, comme أَمْر (amr), نَفْس (nafs) ou حَدَث (ḥadath), comptaient chacun plus d’un million de contextes dans le dictionnaire en ligne, tandis que des verbes tels que أراد (arāda), جَعَل (jaʿala) ou أَخَذ (’akhadha) dépassaient le demi-million d’occurrences, sans compter d’autres sources numériques.

Pour relever ce défi, des outils de recherche avancés ont été utilisés, tels que le moteur de recherche contextuelle et l’analyse des cooccurrences, ainsi que d’autres méthodes employées dans la création de dictionnaires internationaux contemporains. Le filtrage automatique des mots et significations extraits de plusieurs lexiques a également permis de repérer ceux devant être considérés comme nouveaux, tandis que l’environnement informatique de la lexicographie a été enrichi par des services facilitant l’édition lexicale.

Malgré ces technologies sophistiquées, le processus restait complexe et exigeant, et il n’aurait jamais été complet sans les remarques des lecteurs et les alertes des plus attentifs, qui permettaient de corriger ce qui aurait pu échapper aux éditeurs.

Capter la précision des termes techniques

Le Dictionnaire historique de la langue arabe de Doha accorde autant d’importance aux termes techniques qu’aux mots courants, car ces termes reflètent souvent des changements sémantiques importants qu’il ne faut pas manquer d’enregistrer. Les expressions propres à des disciplines comme les mathématiques, la physique, la philosophie, la logique, la linguistique, la psychologie, la sociologie, l’économie ou d’autres domaines sont mieux extraites et définies par des spécialistes, qui apportent leur expertise pour en cerner le sens conceptuel et précis.

Pour relever ce défi, chaque domaine scientifique a été confié à des experts chargés de rédiger les termes de leur spécialité, tandis que des linguistes et rédacteurs lexicaux vérifiaient ces entrées afin d’assurer leur conformité aux règles du dictionnaire avant intégration dans les articles. Cette collaboration entre spécialistes et lexicographes a permis de créer un lexique à la fois rigoureux sur le plan technique et fidèle à l’usage linguistique.

L’intégration des mots étrangers dans l’arabe

Le Dictionnaire historique de la langue arabe de Doha a également pris en compte les mots issus d’autres langues ayant influencé l’arabe, telles que le grec, le latin, le persan, l’hindi, le chinois, l’égyptien, le copte, le turc, l’amazigh, l’allemand, le russe, l’anglais, le français, l’italien, et bien d’autres. Les spécialistes ont déterminé l’origine de ces mots avant leur adoption dans l’usage arabe et ont construit les entrées en fonction de ces informations.

Certains mots étrangers se sont profondément enracinés dans l’arabe, acquérant racines et dérivés, témoignant de la vitalité et de l’adaptabilité de la langue face aux nouveautés de chaque époque. Le dictionnaire n’a pas seulement enregistré ces mots : il a également mis en lumière la capacité de l’arabe à intégrer et transformer des éléments étrangers tout en respectant son système linguistique.

Le véritable défi ne réside pas dans la langue elle-même, mais dans les complexités liées à son histoire, à son évolution et aux multiples contextes dans lesquels ces mots étrangers ont été absorbés — des questions vastes et profondes que ce texte ne fait qu’effleurer.

Assurer la rigueur et la fiabilité

Tout au long du projet, une attention constante a été portée à l’exactitude des informations pour chaque mot : orthographe, marque morphologique, définition, exemple, histoire du mot, ainsi que le nom de ses utilisateurs. Pour garantir cette précision, le travail a été suivi en continu, et des experts en rédaction linguistique, terminologie et transcription ont été formés et mobilisés pour réviser et valider l’ensemble des textes.

Le dictionnaire a été ouvert au public afin de recueillir des remarques susceptibles d’améliorer son contenu, avec une rubrique spécifique sur le portail dédiée à ces contributions. Cette interaction avec les lecteurs a permis de compléter le travail des éditeurs, d’affiner les entrées et de s’assurer qu’aucun détail n’échappe au contrôle qualité.

Respecter le calendrier malgré l’ampleur

Le développement de la langue est un processus sans fin, mais tout projet doit avoir un début et une fin. Personne ne peut prétendre maîtriser tous les mots et toutes les significations d’une langue en constante évolution, et il devient difficile de la suivre au quotidien. Il était donc nécessaire de fixer une date butoir pour l’achèvement de la troisième et dernière phase du dictionnaire, tout en prenant les mesures nécessaires pour présenter les articles révisés et approuvés à la fin de l’année en cours.

Cette échéance n’a pas empêché la mise en place d’un système de mises à jour continues, à l’image des grands dictionnaires internationaux. Le projet a ainsi su conjuguer rigueur méthodologique et flexibilité, permettant de respecter le calendrier tout en garantissant la qualité et la fiabilité du dictionnaire.

Conclusion

La construction d’un lexique historique de la langue arabe a relevé de nombreux défis thématiques et méthodologiques. Se limiter à compiler les dictionnaires anciens et modernes aurait été simple et rapide, mais n’aurait pas reflété la richesse de la langue telle qu’elle apparaît dans les textes littéraires, religieux, culturels, scientifiques, techniques et artistiques.

Grâce à des méthodes de travail efficaces, à l’engagement d’experts et de chercheurs, et à l’usage des techniques modernes de collecte et de traitement des données, le Dictionnaire historique de la langue arabe de Doha a pu être réalisé en un temps relativement court, là où les grands dictionnaires internationaux prennent souvent cinquante à cent ans.

La flexibilité méthodologique a permis de constituer une bibliographie représentative de la langue arabe, couvrant toutes les époques, régions et disciplines. Les outils informatiques ont permis de gérer l’ampleur du corpus et d’extraire les mots et leurs significations à travers les siècles. La spécialisation des chercheurs a garanti la précision des termes scientifiques et l’intégration des mots étrangers.

Chaque élément du lexique a été révisé et approuvé avant publication, assurant l’exactitude des informations fournies au public. En 2025, le dictionnaire offre un panorama historique complet : mots arabes et étrangers, termes issus d’inscriptions et de textes, transformations structurelles et sémantiques sur vingt siècles, accompagnées de leurs équivalents sémitiques.

Au-delà de sa valeur lexicographique, le corpus textuel constitue une réalisation sans précédent, donnant aux chercheurs un accès direct aux contextes d’utilisation, aux sources et à l’histoire des mots. Dans une période difficile pour la nation arabe, ce dictionnaire témoigne de la vitalité de la langue et de l’engagement de ceux qui, dans chaque pays arabe, poursuivent leur travail avec conscience, responsabilité et excellence.