seiti.eti.br : Encodings

RSS

Encoding e charsets


 

Os encodings, ou codificações, descrevem como os caracteres de um determinado arquivo devem ser representados pela aplicação que as lê e nelas escreve.

Dois dos encodings mais utilizados em sistemas web são o UTF-8 (formato Unicode de 8 bits, Wikipedia:UTF-8) e o ISO-8859-1 (Wikipedia:Latin-1).

O formato ISO-8859-1 é o mais antigo dos dois, e é utilizado para representar os caracteres mais utilizados pelos idiomas oriundos do Oeste Europeu, como nosso português, daí o nome Latin. O número 1, por sua vez, mostra que existem outros encodings do tipo Latin, pois os países do Leste Europeu utilizam um alfabeto diferente.

Esta multiplicidade de encodings deve-se a utilizamos apenas 1 byte/8 bits para representarmos um caractere. Isto nos disponibiliza 256 caracteres, tanto gráficos quanto de controle (carriage return, backspace...), o que não basta para representarmos todos os carateres do mundo.

Já o formato UTF-8 vem de um esforço em criar apenas uma codificação (Unicode), utilizável em qualquer idioma, acabando com vários problemas decorrentes da multitude de encodings (quem sabe um dia...). O UTF-8 utiliza 8-bits para representar seus caracteres, assim como os da família Latin, mas padroniza o código referente a cada caractere, que pode mudar de Latin-1 para Latin-2, por exemplo.

Além do UTF-8 temos outros padrões Unicode: UTF-16 e UTF-32 (16 e 32 bits, respectivamente). Como usam mais bits para representar cada caractere, estes outros encodings englobam muito mais caracteres.

Um link útil para se configurar alguns aplicativos a utilizar determinado encoding:


categorias: textos programacao
Comments [Hide comments/form]

Page was generated in 0.2852 seconds