Encoding e charsets
Os
encodings, ou codificações, descrevem como os caracteres de um determinado arquivo devem ser representados pela aplicação que as lê e nelas escreve.
Dois dos encodings mais utilizados em sistemas web são o
UTF-8 (formato Unicode de 8 bits,
Wikipedia:UTF-8) e o
ISO-8859-1 (
Wikipedia:Latin-1).
O formato ISO-8859-1 é o mais antigo dos dois, e é utilizado para representar os caracteres mais utilizados pelos idiomas oriundos do Oeste Europeu, como nosso
português, daí o nome
Latin. O número
1, por sua vez, mostra que existem outros encodings do tipo Latin, pois os países do Leste Europeu utilizam um alfabeto diferente.
Esta multiplicidade de encodings deve-se a utilizamos apenas 1 byte/8 bits para representarmos um caractere. Isto nos disponibiliza 256 caracteres, tanto gráficos quanto de controle (carriage return, backspace...), o que não basta para representarmos todos os carateres do mundo.
Já o formato UTF-8 vem de um esforço em criar apenas uma codificação (Unicode), utilizável em qualquer idioma, acabando com vários problemas decorrentes da multitude de encodings (quem sabe um dia...). O UTF-8 utiliza 8-bits para representar seus caracteres, assim como os da família Latin, mas padroniza o código referente a cada caractere, que pode mudar de Latin-1 para Latin-2, por exemplo.
Além do UTF-8 temos outros padrões Unicode:
UTF-16 e
UTF-32 (16 e 32 bits, respectivamente). Como usam mais bits para representar cada caractere, estes outros encodings englobam muito mais caracteres.
Um link útil para se configurar alguns aplicativos a utilizar determinado encoding:
categorias:
textos programacao
Últimos comentários
Últimas modificações
Seiti Yamashiro
Cursando ciência da computação no IME-USP. Atualmente desenvolvo sistemas em PHP/Smarty e PostgreSQL.Nas horas vagas programo em PHP/MySQL ou Fenix, neste site e no da Abeuni.
Nas horas vagais jogando GP2X ou navegando na internet...