Hệ thống Unicode
Tại sao Java sử dụng Hệ thông Unicode
Trước khi có Unicode, đã có rất nhiều tiêu chuẩn khác:
- ASCII (American Standard Code for Information Interchange) được sử dụng ở Hoa Kỳ
- ISO 8859-1 được sử dụng ở Tây Âu
- KOI-8 được sử dụng ở Nga
- GB18030 and BIG-5
Và như vậy, có 2 vẫn đề xảy ra!
- Thứ nhất, Một giá trị mã cụ thể tương ứng với ký tự khác nhau trong các tiêu chuẩn ngôn ngữ khác nhau.
- Thứ hai, Các kiểu mã hóa cho các ngôn ngữ với tập các ký tự lớn có biến length. Nhiều ký tự thông dụng được mã hóa thành 1 byte, những ký tự khác yêu cầu 2 hoặc nhiều byte.
Để giải quyết vấn đề này, có một vài chuẩn mã hóa ký tự được ra đời, trong đó có Unicode.
Trong Unicode, mỗi ký tự chiếm 2 byte, Vì thế java cũng sử dụng 2 byte cho mỗi ký tự.
Giá trị nhỏ nhất: \u0000
Giá trị lớn nhất: \uFFFF