Problèmes liés aux locales

Cette page contient des informations sur les problèmes liés aux locales. Dans les paragraphes suivants, vous trouverez un aperçu générique de ce qui peut arriver lors de la configuration de votre système pour diverses locales. Beaucoup (mais pas tous) de problèmes existants liés aux locales peuvent être classés et rangés sous un des en-têtes ci-dessous. Les niveaux de sévérité indiqués ci-dessous utilisent les critères suivants :

Critique : le programme ne remplit pas sa fonction principale. Une correction serait très intrusive, il vaut mieux chercher un remplaçant.
Haute : une partie des fonctionnalités fournies par le programme n'est pas utilisable. Si cette fonctionnalité est nécessaire, il vaut mieux chercher un remplaçant.
Basse : le programme fonctionne dans tous les cas d'utilisation classiques, mais certaines fonctionnalités normalement fournies par ses équivalents sont absentes.

Si un contournement connu existe pour un paquet donné, il apparaîtra sur la page de ce paquet.

L'encodage nécessaire n'est pas une option valide du programme

Sévérité : critique

Certains programmes exigent que l'utilisateur spécifie l'encodage de caractères pour leurs données d'entrée et de sortie mais ne présentent qu'un choix limité d'encodages. C'est le cas de l'option -X d'Enscript-1.6.6, de l'option -input-charset de Cdrtools-3.02a09 non corrigé et des encodages disponibles pour l'affichage du menu de Links-2.30. Si l'encodage requis n'est pas dans la liste, le programme devient généralement totalement inutilisable. Pour les programmes non interactifs, on peut contourner cela en convertissant le document dans un encodage d'entrée pris en charge avant de le soumettre au programme.

Une solution à ce type de problème consiste à implémenter le support nécessaire de l'encodage manquant avec un correctif du programme d'origine ou de trouver un remplaçant.

Le programme suppose l'encodage basé sur la locale de documents externes

Sévérité : haute pour des documents non-textes, basse pour des documents textes

Certains programmes, nano-8.6 ou JOE-4.6 par exemple, supposent que les documents sont toujours dans l'encodage impliqué par la locale actuelle. Si cette supposition peut être valide pour les documents créés par l'utilisateur, ce n'est pas sûr pour ceux externes. Quand cette supposition échoue, les caractères non-ASCII s'affichent mal et le document peut devenir illisible.

Si le document externe est entièrement basé sur du texte, il peut être converti dans l'encodage de la locale actuelle en utilisant le programme iconv.

Pour les documents non textuels, ce n'est pas possible. En effet, la supposition du programme peut être complètement invalide pour les documents où le système d'exploitation Microsoft Windows a fixé des normes de facto. Un exemple de ce problème réside dans les attributs ID3v1 des fichiers MP3. Dans ces cas-là, la seule solution est de trouver un programme remplaçant qui n'a pas ce problème (comme un qui vous permettra de spécifier l'encodage supposé du document).

Au sein des paquets BLFS, ce problème s'applique à nano-8.6, JOE-4.6 et à tous les lecteurs multimédias à l'exception de Audacious-4.5.

Un autre problème dans cette catégorie est quand une personne ne peut pas lire les documents que vous leur avez envoyés car leur système d'exploitation est programmé pour gérer différemment les encodages de caractères. Cela peut souvent se produire quand l'autre personne utilise Microsoft Windows, qui ne fournit qu'un encodage de caractère pour un pays donné. Cela pose des problèmes avec les documents TeX encodés en UTF-8 créés sous Linux par exemple. Sur Windows, la plupart des applications supposeront que ces documents ont été créés en utilisant l'encodage 8 bits de Windows par défaut.

Dans les cas extrêmes, les problèmes de compatibilité de l'encodage de Windows ne peuvent être résolus qu'en lançant des programmes Windows sous Wine.

Le programme utilise ou crée des noms de fichiers dans le mauvais encodage

Sévérité : critique

Le standard POSIX suppose que l'encodage des noms de fichiers est l'encodage impliqué par la catégorie de locale LC_CTYPE actuelle. Cette information est bien cachée sur la page qui spécifie le comportement des programmes Tar et Cpio. Certains programmes ne le font pas par défaut (ou n'ont tout simplement pas assez d'informations pour le faire). En conséquence, ces derniers créent des noms de fichiers qui sont ensuite mal affichés par ls ou refusent d'accepter des noms de fichiers affichés correctement par ls. Pour la bibliothèque GLib-2.84.4, on peut corriger le problème en réglant la variable d'environnement G_FILENAME_ENCODING sur la valeur spéciale « @locale ». Les programmes basés sur Glib2 qui ne respectent pas cette variable d'environnement sont bogués.

Le format .zip a ce problème car il ne sauvegarde pas l'encodage du nom des fichiers archivés. Lorsqu'unzip (en fait un lien symbolique vers bsdunzip de libarchive-3.8.1) l'extrait, par défaut il est supposé que le nom est encodé en CP850, la page de code Windows pour les langues d'Europe de l'ouest. Cependant les noms peuvent avoir été encodés d'une manière différente s'ils contiennent les caractères non-latins (par exemple CP936 pour le chinois simplifié). Ainsi, si on ne spécifie pas l'encodage manuellement, ces caractères non-latins seraient transformés en séquences illisibles par bsdunzip.

La règle générale pour éviter ce type de problème est d'éviter d'installer des programmes cassés. Si c'est impossible, vous pouvez utiliser l'outil convmv en ligne de commande pour corriger les noms de fichiers créés par ces programmes endommagés ou rogner volontairement les noms de fichiers existants pour satisfaire les attentes de ces programmes.

Dans d'autres cas, un problème similaire vient de l'importation de noms de fichiers d'un système utilisant une locale différente avec un outil non conscient de la locale (comme OpenSSH-10.0p1). Pour éviter de rogner les caractères non-ASCII lors du transfert de fichiers vers un système ayant une locale différente, vous pouvez utiliser une des méthodes suivantes :

Transférer malgré tout et réparer les dommages avec convmv.
Côté expéditeur, créer une archive tar en passant le paramètre --format=posix à tar (cela sera le réglage par défaut dans une version à venir de tar).
Envoyer les fichiers en pièces jointes. Les clients de messagerie spécifient l'encodage des noms de fichiers joints.
Écrire les fichiers sur un disque amovible formaté avec un système de fichiers FAT ou FAT32.
Transférer les fichiers en utilisant Samba.
Transférer les fichiers par FTP en utilisant un serveur (actuellement, cela signifie seulement wu-ftpd qui a de mauvais antécédents en matière de sécurité) et un client (comme lftp) conscient du RFC2640.

Les quatre dernières méthodes fonctionnent car les noms de fichiers sont automatiquement convertis de la locale de l'expéditeur en UNICODE et stockés ou envoyés sous cette forme. Ils sont alors convertis de façon transparente de l'UNICODE à l'encodage de la locale du destinataire.

Le programme casse les caractères multi-octets ou ne compte pas bien les cellules de caractères

Sévérité : haute ou critique

De nombreux programmes ont été écrits à une époque plus ancienne où les locales multi-octets n'étaient pas courantes. De tels programmes supposent que les types de données C "char", qui sont un octet, peuvent être utilisés pour stocker des caractères uniques. De plus, ils supposent que n'importe quelle séquence de caractères est une chaîne valide et que chaque caractère occupe une seule cellule de caractère. De telles suppositions échouent complètement dans les locales UTF-8. La conséquence évidente est que le programme tronque les chaînes de façon prématurée (c'est-à-dire aux octets 80 au lieu des caractères 80). Les programmes basés sur le terminal ne placent pas bien le curseur à l'écran, ne réagissent pas à la touche « Effacement » en effaçant un caractère et laissent les mauvais caractères affichés lors du rafraîchissement de l'écran, transformant généralement l'écran en désordre complet.

La correction de ce type de problème est une tâche pénible du point de vue d'un programmeur, comme tout cas de modernisation d'un design défectueux par de nouveaux concepts. Dans ce cas, il faut concevoir de nouveau toutes les structures de données pour s’accommoder du fait qu'un caractère complet peut s'étendre sur un nombre variable de « char » (ou basculer sur wchar_t et convertir au besoin). Pour chaque utilisation des fonctions « strlen » et équivalent, il faut aussi trouver ce que veut vraiment dire un nombre d'octets, de caractères ou la largeur de la chaîne. Il est parfois plus rapide d'écrire un programme ayant la même fonctionnalité en partant de zéro.

Au sein des paquets de BLFS, ce problème s'applique àxine-ui-0.99.14 et tous les shells.

Au-delà de Linux^® From Scratch (édition System V) - Version r12.3-1385-wip

Chapitre 2. Informations importantes

Problèmes liés aux locales

L'encodage nécessaire n'est pas une option valide du programme

Le programme suppose l'encodage basé sur la locale de documents externes

Le programme utilise ou crée des noms de fichiers dans le mauvais encodage

Le programme casse les caractères multi-octets ou ne compte pas bien les cellules de caractères

Au-delà de Linux® From Scratch (édition System V) - Version r12.3-1385-wip

Chapitre 2. Informations importantes

Problèmes liés aux locales

L'encodage nécessaire n'est pas une option valide du programme

Le programme suppose l'encodage basé sur la locale de documents externes

Le programme utilise ou crée des noms de fichiers dans le mauvais encodage

Le programme casse les caractères multi-octets ou ne compte pas bien les cellules de caractères

Au-delà de Linux^® From Scratch (édition System V) - Version r12.3-1385-wip