La série UTF
-
Unicode transformation format
-
Représentation mémoire des textes Unicode (encodage)
-
UTF-8 est la forme la plus élaborée. Séquence d'octets (1,
2
ou plus) pour représenter un point code.
-
Adapté aux outils classiques (C/UNIX...) qui manipulent des
données de type char.
-
Compatible ASCII. A = 0x41, 1 octet en UTF-8 (Un texte
latin sans accents est identique en ASCII ou en UTF8)
-
Caractères arabes sont des séquences de deux octets. "d8 a8" est la lettre
Ba et "d9 8a" est la lettre
Ya.
-
Un texte doit s'accompagner de l'information (meta)
sur son encodage.
-
-
Exemple Content-Type:
text/plain; charset=UTF-8 (format MIME)