Internationalisation Du Web
-
Le Web est l'univers des informations accessibles à travers
le réseaux.
-
Le Web tire sa force de son universalité. Accessibilité,
Indépendance.
-
L'infrastructure sous-jacente est basée sur XML
-
XML s'appuie sur Unicode, le codage universel de plus de
5000 caractères dans toutes les langues.
-
XHTML (1.1) est l'expression XML (1.0) de HTML (4.01), le
langage populaire d'écriture des pages Web.
-
C'est l'aspect arabisation que nous abordons ici
-
-
Unicode
-
L'Arabe en (X)HTML
-
Il faut une bonne connaissance de ces outils.
(pourquoi on voit des textes avec ????? ou إلى
...)
Unicode
-
De l'ASCII à ISO-8859-n
-
Unicode et ISO/IEC 10646
-
UTF-8
De l'ASCII à ISO-8859-n
-
Caractères occidentaux (anglais) sur un octet,
valeurs de 0 à 127 (7 bits). Exemple 64 = 'A' = \0x41
-
Extension de 128 à 255 pour des codes par pays. (voir Tableau.)
-
ISO-8859-1
(Europe occidentale), ISO-8859-7
(Grecque), ISO-8859-6
(Arabe)
-
-
Equivalents à la série windows-1552,
windows-1553,
... windows-1556
...
-
Un même code correspond à plusieurs caractères
-
Difficile d'atteindre une population dans plusieurs
pays
Unicode et ISO/IEC 10646
-
Unicode et ISO/IEC
10646 définissent en parallèle le Universal Character Set
(UCS) sur deux octets ou plus..
-
C'est un codage qui assigne un nombre unique, code point, à
(actuellement) quelques 50.000 caractères dans le
monde.
-
U+0627, U+0041, ...
-
Il couvre (il est sur ensemble) tous les codes
habituellement utilisés (ASCII, ISO-8859-1 (Latin-1),
ISO-2022-JP, etc.
-
Actuellement version 4.0
-
Unicode est utilisé par toutes les spécifications W3C depuis
fin 1996.
-
Définit aussi des propriétés sémantiques comme le sens
d'affichage.
-
L'IETF recommande (RFC 2277)
que tous les formats protocoles Internet de type texte
soient UCS, en particulier en UTF-8
La série UTF
-
Unicode transformation format
-
Représentation mémoire des textes Unicode (encodage)
-
UTF-8 est la forme la plus élaborée. Séquence d'octets (1,
2
ou plus) pour représenter un point code.
-
Adapté aux outils classiques (C/UNIX...) qui manipulent des
données de type char.
-
Compatible ASCII. A = 0x41, 1 octet en UTF-8 (Un texte
latin sans accents est identique en ASCII ou en UTF8)
-
Caractères arabes sont des séquences de deux octets. "d8 a8" est la lettre
Ba et "d9 8a" est la lettre
Ya.
-
Un texte doit s'accompagner de l'information (meta)
sur son encodage.
-
-
Exemple Content-Type:
text/plain; charset=UTF-8 (format MIME)
La plage des caractères arabes dans Unicode
Aspects plus sémantiques
-
L'affichage contextuel est une caractéristique
d'un programme client.
L'Arabe dans le Langage HTML
XHTML vs HTML
-
XHTML est la forme XML de HTML.
-
Cela lui donne l'avantage de bénéficier des
applications et outils XML (e.g. XSLT)
-
HTML 4.01 est l'ultime version de HTML
-
XHTML offre 3 possibilités (DTD) de transitions: Transitional, Strict et frameSet
Attention particulière à l'Arabe en HTML
-
Affichage de droite à gauche.
-
Textes bidirectionnels
-
Spécificités particulières (ponctuations, jointure ou non
de caractères, diacretiques)
-
Marquage HTML propre
-
Intégrité structurelle et transparence par rapport à
Unicode. ‎ vs U+200E,
Recommandations: le marquage HTML
-
Entête de page: Information d'accompagnement et de
décodage
-
Corps de page: indication/changement de direction,
styles
-
Pièges à éviter
Entête de Page
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html dir="rtl" lang="ar" xml:lang="ar">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>نص عربي<title>
-
La déclaration XML est facultative.
-
On peut spécifier "ar-MA"
-
Attribut dir
="rtl" right to
left, dans balise html pour tout le
texte (défaut ltr)
-
Balise meta importante pour bien décoder la page.
Corps de page
-
Indication/changement de directions de partie de
texte.
<p dir="ltr"> texte en
français</p>
-
Parfois utile pour aligner à gauche.
-
Inhiber l'algorithme de bi direction (forcer la direction
de texte)
<bdo dir="rtl">ab cd ef</bdo>
fe dc ba
propriétés {direction:rtl; unicode-bidi:embed;
}
-
HTML recommande néanmoins les balises de marquage de
texte.
Petites Déconvenues
abc
<span
dir="rtl">المغرب
</span>
efg
abc المغرب efg
<p>العبارة Langage "HTML" هي</p>
هي "Langage "HTML العبارة
<p>العبارة Langage "HTML"‎
هي</p>
هي Langage "HTML" العبارة
-
Texte gauche droite non désiré
<p> منظمه w3c: world wide web consortium هي
</p>
هي w3c: world wide
web consortium منظمه
<p> منظمه w3c:‏ world wide web
consortium هي </p>
هيworld wide web consortium
:w3c منظمه
Outils Auteurs
-
Entités numériques vs séquence code
utf-8 (moins volumineux)
-
-
ابج
ابج
-
Conversions entres différents charsets (cf Mozilla).
-
Mozilla vs Frontpage (Mozilla offre plusieurs
charsets possibles)
-
Amaya du W3C
-
Parfois trois modes
d'édition
-
-
Wysiwyg, usage courant, facilité, ergonomie
-
HTML source (balise + texte en arabe),
finition/optimisation niveau HTML
-
Plain HTML source (fichier éditeur de texte ascii,
merci Editplus), finition très
pointue, professionnelle
-
outil Tidy.
-
Il existe des traducteurs sur le Web (ajeeb.com)
-
HTML résultat d'autres outils/scripts.
-
voir
http://www.w3c.org/TR/2003/WD-i18n-html-tech-20031009/
Authoring Techniques for
HTML/XHTML Internationalization 1.0,
Richard Ishida & I18N GEO working Group, W3C
Validation ou clean
HTML
En savoir plus
Merci
Merci pour votre attention