Unicode et ISO/IEC 10646
-
Unicode et ISO/IEC
10646 définissent en parallèle le Universal Character Set
(UCS) sur deux octets ou plus..
-
C'est un codage qui assigne un nombre unique, code point, à
(actuellement) quelques 50.000 caractères dans le
monde.
-
U+0627, U+0041, ...
-
Il couvre (il est sur ensemble) tous les codes
habituellement utilisés (ASCII, ISO-8859-1 (Latin-1),
ISO-2022-JP, etc.
-
Actuellement version 4.0
-
Unicode est utilisé par toutes les spécifications W3C depuis
fin 1996.
-
Définit aussi des propriétés sémantiques comme le sens
d'affichage.
-
L'IETF recommande (RFC 2277)
que tous les formats protocoles Internet de type texte
soient UCS, en particulier en UTF-8