Unicode
— стандарт кодирования символов, включающий знаки почти всех письменных языков мира. Его использование началось после того, как стало понятно, что для разных языков нужны различные кодировки и поэтому их необходимо собрать воедино. Кодировкой называют представление цифр, букв и всех остальных символов в памяти компьютера и на понятном ему языке. Кодировки бывают разные, такие как, например, cp1251
или ISO-8859-1
, но с течением времени их использование стало неудобным т.к. во-первых, для корректного отображения символов разных языков необходимо использовать разные кодировки. А во-вторых, числовое представление того или иного символа может быть одинаковым для разных букв в разных языках. Например, двоичное представление 0b11011111
в кодировке cp1251
— это буква «Я», но в то же время в кодировке ISO-8859-1
это немецкая Eszett. С появлением Unicode
ситуация улучшилась и теперь все буквы и символы всех языков мира находятся в одной огромной таблице. Unicode
— это стандарт, по которому символы связаны с некоторым числовым значением, а уже для представления этих чисел разработанны Unicode
-кодировки, самыми распространенными из которых стали UTF-8
и UTF-16
.