유니코드 (문단 편집)

=== UTF-32 ===
유니코드 문자 하나에 32비트를 이용하는 고정 길이 인코딩이다. 인터넷에서 정보 교환용으로는 거의, 아니 사실상 전혀 이용되지 않는데 이는 낭비되는 용량이 너무 크기 때문이다. 유니코드 문자가 U+10FFFF까지 있으므로 총 21비트를 이용하는데, 이는 32비트 중 11비트는 전혀 쓰일 일이 없다는 것이다. 그나마도 현재 이용되는 대부분의 문자가 U+FFFF 아래에 있으므로 16비트로도 거의 충분하므로 실제 낭비는 더 크다. 라틴 문자나 유럽 문자를 주로 쓴다면 1바이트로도 충분한 걸 4바이트씩이나 쓰므로 거의 3/4이 낭비되는 셈이다. 또한 실제로 데이터가 저장될 때는 문자들의 위치가 32비트 단위로 딱딱 정렬되지 않는 경우가 많기 때문에[* 문자가 4바이트(32비트)를 차지하므로 파일에서 각 문자가 0, 4, 8, 12, 16...같이 4의 배수로 배열되면 좋겠지만 실제로는 0, 6, 10, 14, 18...같은 식으로 4의 배수 형태가 아닌 경우가 생길 수 있다.] 처리 속도가 그리 빨라지지도 않는다. 게다가 [[HTML5]]에서는 UTF-16과의 구별에 문제가 생길 수 있다는 이유로 쓰지 말 것을 권고받는 굴욕도 받고 있다.

하지만 프로그램 내부적으로는 UTF-32가 자주 이용되는데, 이는 UTF-32에서는 가변 길이 부호화를 고려할 필요가 없어서 처리가 간단해지고, 현재의 컴퓨터 환경에서는 가장 기본적인 데이터 크기가 32비트이기 때문에 8비트나 16비트를 이용하는 것에 비해 성능 저하가 없으며 메모리 용량도 충분하기 때문이다. 예를 들어 [[Python]] 3.3 이상에서 내부적으로 UTF-32를 이용한다. 위의 UTF-16이 사용되는 것과 비슷한 논리.

UTF-32의 경우 고정 길이이기 때문에 U+FFFFFFFF까지 [math(2^{32})] = 약 43억 개의 문자를 인코딩하는 것이 가능하다. 이는 U+7FFFFFFF까지 약 21억 개([math(2^{31})])의 문자를 인코딩 가능한 UTF-8의 두 배이다. 만에 하나 미래에 인류가 43억 개의 문자 이상의 코드를 부여해야 하는 사태가 발생하면 UTF-32로 표현 불가능한 문자들이 생겨나게 되는데, 이는 당분간은 상당한 미래 이야기일 것이다. 글자의 개수가 점점 줄어들고 있는 시대에 미래에도 필요할지 의문일 수도 있으나 실제론 늘어나고 있다. 현재 쓰이지 않는 고대의 모든 문자들도 유니코드의 일부로 포섭하고 있기 때문이다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

유니코드 (문단 편집)

캡챠