Question

Oui le CLDR Survey est très lourd, très lent quand il est en opération, prend énormément de mémoire dans le navigateur (au point de le faire planter facilement), et pas ouvert en permanence. En gros, il avance surtout parce que les plus gros contributeurs utilisent autre chose, l'édition "en masse" en soumettant des fichiers complets qui sont ensuite intégrés mais passés en revue seulement pendant 2 ou 3 semaines, avec l'interface sur Survey, très lente, et qui ne parvient pas à enregistrer les votes de tout le monde. De fait, à chaque tour (en gros 2 saisons par an), seule une partie parvient à passer le seuil de validation et le reste n'est pas publié et il faut encore attendre des mois le scrutin suivant (pour certaines données on doit les réapprouver plusieurs fois, si on y arrive).

Au final, la progression est très très lente et le plus gros des mises à jour de CLDR vient de quelques contributeurs "privilégiés" (en gros venant des GAFA qui ont des comptes spéciaux leur petmettant aussi des votes en masse et avecv un poids plus élevé que tous les autres: s'ils se trompent, c'est long de leur faire changer d'avis et il faut beaucoup argumenter par courriel via les mailing lists ou par des courriels directs).

CLDR n'est donc pas parfait, il est économiquement orienté par les intérêts économiques des membres du CLDR (où l'adhésion est chère pour avoir un droit de vote suffisant, mais où il manque aussi une administration assez efficace et suffisante pour suivre les demandes: en dépit du prix d'adhésion demandé, le projet manque de moyens financiers et dépend aussi énormément du bon vouloir de ceux qui lui fournissent des moyens techniques, dont les serveurs mais aussi le développement qui malheureusement n'est pas assez ouvert).

On fait avec, même si certains membres de la communauté libre sont présents (mais ils ne peuvent fournir la plateforme technique et ont un poids relativement faible dans les décisions). CLDR est un beau projet mais qui manque un peu d'envergure et d'audace pour faire tout ce qu'il pourrait faire. De fait, les meilleures sources compélmentaires restent aujourd'hui Wikidata (et les articles Wikpédia liés qui citent les références), mais où là encore beaucoup trop de choses ne se documentent qu'en anglais: il y a un biais certain dans le traitement des langues (et même la Fondation Wikimedia en convient en tentant de lancer un projet pour une meilleure prise en charge des langues régionales ou minoritaires, mais aussi des langues officielles et majoritaires des pays les plus pauvres, où on manque d'acteurs locaux.

Bref les initiatives séparées sont toujours bienvenues : tout ce qu'on peut ici, ou sur Wikipédia ou Wikidata est important, de même les portails de langues ici ne sont pas tant là pour documenter les données mais comme moyen de prise de contacts en fournissant le moyen pour les intéressés de travailler à faire avancer les choses, et peut-être parvenir aussi à intéresser et impliquer plus de contributeurs capables de travailler dans ces langues minoritaires (où la connaissance technique de base nécessaire est aussi peu disponible : il faut les aider au moins sur la partie technique et fournir des éléments de base, quitte à ce qu'ensuite ils prennent les mains dessus et décident de changer sereinement, une fois leur poids acquis et pouvant finalement emporter ou contredire les décisions prises dans de plus hauts comités qui jusqu'à présent n'ont pas trouvé d'intérêt à consacrer plus de ressources à ce projet de base).

Je ne critique pas les données de CLDR, s'il avance trop peu à notre goût, CLDR a aussi intérêt à voir se développer des efforts indépendants (qui ne seront pas "parfaits" non plus mais auront moins de biais et prendront en compte plus de diversité : quoi de plus diversifié et changeant que les langues humaines, difficiles à encadrer dans des standards techniques qui ne les suivent pas vraiment?).

Donc oui, la base est qu'au moins chaque langue puisse se désigner elle-même, et lever les ambiguités/homonymies nombreuses (certaines venant justement d'erreurs commises par des non locuteurs, les plus nombreuses étant justement en anglais et en français). C'est pour ça qu'il est important aussi de documenter les noms alternatifs permettant de retrouver les classifications (sachant aussi que les classifications établies sont aussi pas entièrement établies, faute d'assez de recherches financées et publiées, beaucoup étant aussi trop anciennes). Ces efforts indépendants (et qui ne visent pas à une uniformité par des standards trop durs) existent : Glottolog, Linguist List, Wikipedia, Commons, Wikidata, du fait que leurs listes de références ne sont pas fermées et qu'ensembles ils proposent aussi des espaces d'échanges et se référencent mutuellement). Ici aussi ce site s'est joint à l'effort (mais séparément de Wikimedia, car il y a d'autres projets soutenus, y compris pour des usages à but commercial ou non "éducatifs" comme les jeux et d'autres logiciels encore non utilisés ou peu utilisés par Wikimedia: on n'est pas limité ici seulement à traduire et adapter MediaWiki).

Mieux on organisera les choses ici (autant qu'on peut), plus ce site sera utile et aidera à faire converger plus rapidement les efforts pris aussi dans d'autres projets comme CLDR et même les normes ISO ou les standards techniques des RFCs/BCP ou du W3, qui ne sont là normalement que pour recadrer et éviter les non-interopérabilités malgré la prise en compte de la diversité et soutenir une base "minimale" commune (et ne peuvent pas prétendre à l'exhaustivité: tout ne sera jamais couvert par ces standards et normes, moins que ce à quoi on peut attendre et toujours avec beaucoup de retard et souvent une lourdeur importante pris par les décisions passées, notamment en linguistique). Mais ce qu'on fait ici doit aussi savoir évoluer et ne pas s'enfermer non plus.

On fait donc tous ce qu'on peut, mais pas avec les mêmes moyens et pas avec la même agilité, mais les deux approches (normative et communautaire) ne sont pas concurrentes elles sont complémentaires et nécessaires l'une à l'autre.

Verdy p (talk)‎