Діяльність Тех. звіти Індекс сайту Переклади Програми Пошук
На даній сторінці: набір символів документа - позначення кодування - перевірка функціональності кодування - додатково - додаткові матеріали

Очікувана аудиторія: для тих, хто коротко хоче отримати основну інформацію про кодування символів XML. Для більш детальної інформації читайте далі.

Набір символів документа

Набір символів документа для XML та HTML 4.0 - це Unicode (також відомий як ISO 10646). Це означає, що HTML браузери та XML процесори повинні працювати так, ніби вони використовують Unicode. Але це не значить, що документи, які передаються, повинні бути в Unicode. Якщо клієнт і сервер узгоджені на використання будь-якого кодування, вони можуть використовувати будь-яке кодування, яке може бути переведене на Unicode. Детальніше про це в документі "Набір символів документа".
Даний документ є перекладом. У разі будь-яких невідповідностей чи помилок остання версія документу англійською мовою повинна розглядатися як оригінальна. Початкове авторське право належить W3C як вказано нижче.

Перекладач: Наталія Панченко

Пов'язані посилання:

Алфавітний показник тематичних розділів

Алфавітний показник технологій

Позначення кодування

Дуже важливо чітко позначити кодування символів в XML та (X)HTML документах для того, щоб клієнти могли легко перетворити кодування в Unicode. Цього можна досягти наступним чином:
- Позначити 'charset' параметр в заголовку HTTP Content-Type.

Наприклад:

Content-Type: text/html; charset=utf-8

Для цього потрібно мати доступ до установок сервера чи позначити документ мовою сценаріїв (детальніше http://www.w3.org/International/O-HTTP-charset).

- Для XML (включаючи HTML) використовуйте псевдо-атрибут в декларації XML на початку документа чи в текстовій декларації на початку запису.

Наприклад:

<?xml version="1.0" encoding="utf-8" ?>

Існує ряд потенційних складностей про які потрібно знати, використовуючи даний метод при XHTML 1.0, який функціонує як HTML.

- Для HTML або XHTML, що функціонують як HTML, завжди потрібно використовувати <meta> тег всередині <head>.

Наприклад:

<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >

Для XHTML потрібен символ / в кінці рядка:

<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >

Для дискусії, який спосіб (X)HTML документа краще, передивіться посібник "Набори символів і кодувань в XML, HTML I CSS".

Вищевказані приклади показують декларації для UTF-8 кодування вмісту. Передбачається, що це найкращий вибір кодування для різних типів документів, але не єдиний.

Якщо не використовується UTF-8, то потрібно замінити UTF-8 текст у вищевказаних прикладах обраним кодуванням. Повний перелік можна подивитися у "Назвах кодувань символів, зареєстрованих ІANA". Скоріше за все, привабливішими будуть декілька видів кодування: ISO-8859-1, US-ASCII, UTF-16, інші кодування з переліку ISO-8859, ISO-2022-JP, EUC-KR і т.д.

Перевірка функціональності кодування

Важливо не тільки позначити декларацію кодування, як показано вище в HTTP або в змісті, а й зробити наступне: - Зберегти всі дані в певному кодуванні в середовищі редактування. - Впевніться в тому, що немає конфлікту між декларацією в документі кодування, яке автоматично використовує сервер, так як установки сервера переписуються замість декларації документа. Не дивлячись на те, що стаття написана з перспективи UTF-8, інформація статті може відноситися до будь-якого кодування, що використовується.

Додатково

Значення атрибута кодування можна знайти в "Реєстрі IANA". Зауважте, що значення - це так звані імена charset, хоча в дійсності вони відносяться до кодувань, а не до наборів символів.

Для більш поглибленої інформації, що відноситься до терміну 'charset', прочитайте статтю Дена Коннолі (Dan Connolly) "Вважається, що "Набір символів" приносить шкоду" і відповідь Глена Едамс (Glenn Adams) "Термінологія набору символів, SC2 в порівнянні з SC18 і Стандартів Інтернету".

Примітка: Рік Джелліфе (Rick Jellife) запропонував використовувати записи SPREAD з ERCS

Додаткові матеріали

Корисні ввідні статті:

- Вступ про Набори символів і кодувань
- Посібник: "Набори символів і кодувань в XHTML, HTML, CSS"
- ЧАВО: Набір символів документа

Посилання на специфікації:

- Параметри набору символів
- Кодування псевдо-атрибута
- Декларація xml
- Декларація тексту
- UTF-8
- <meta>

Інші посилання:

- Використовуючи елементи символів і цифрових знаків
- Перевірка заголовків HTTP
- Встановлення даних 'charset' в .htaccess
- Цікаві сторінки: Десята Міжнародна Конференція по Unicode
- Набір символів і кодувань в Переліку методик
- Набір символів і кодувань в Переліку тем


Автор: Bert Bos, W3C. Изменения внес: Martin J. D?rst, W3C; Richard Ishida, W3C. Перекладач: Наталія Панченко (Nataly Panchenko).



Переклад з англійської 2007-12-07.

Для перегляду історії внесення змін натисніть qa-doc-charset в блозі i18n.

Copyright © 2003-2006 W3C® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.