유니코드 (문단 편집)

== [[인코딩]] ==
유니코드와 유니코드 인코딩을 가장 쉽게 설명하는 방법은 유니코드는 각 글자에 숫자를 배당하는 방식, 규격이고 인코딩은 유니코드 숫자를 저장하는 방식, 표현이라고 보면 된다. 유니코드는 문자 하나를 4바이트(32비트) 테이블에 배당한다. 하지만 이걸 그대로 사용할 경우 (가장 사용 비중이 높은) 로마자(혹은 프로그래밍, url 등의 통신 포함) 입장에서는 기존의 [[ASCII]]에 비해 용량이 4배가 되어 엄청나게 비효율적이 된다.

이 점을 보완하기 위한 것이 가변길이 문자 인코딩으로, 자주 쓰이는 문자 테이블을 1바이트(UTF-8) 또는 2바이트(UTF-16)으로 표현할 수 있는 대신 자주 쓰이지 않는 문자 테이블을 표현하는데는 더 많은 바이트가 필요해진다. 대표적으로 UTF-8에서 한글을 표현하는데는 3바이트가 필요하며, 6바이트가 필요한 테이블도 있다.(호환성 문제로 현재는 4바이트까지만 사용) UTF-8 같은 경우 [[ASCII]]와 호환된다는 특성도 있다. 흔히 우리가 웹 브라우저의 인코딩을 설정하면서 자주 보는 UTF-8이라는 말이 이것이다.

예를 들어 A(65)를 보자. A라는 글자를 숫자 65에 배당하는 것(65를 읽으면 A라고 표현하라는 것)이 유니코드의 개념이다. 이 65라는 숫자를 2진수로 저장할 때, 8자릿수로 표현해서 0100 0001 이라고 쓰거나, 혹은 규모를 키우기 위해 16자릿수로 표현해서 0000 0000 0100 0001 이라고 쓰거나, 혹은 구버전 호환성을 높이거나 처리속도를 빠르게 하기 위해 0001 0100 (8자리)와 0001 0100 --0000 0000-- (16자리) 처럼 거꾸로 쓰거나, 헷갈리지 말라고 110(+2) 0100 0001, 11110(+4) 0000 0000 0100 0001 처럼 가변정보를 넣어 쓰는 등, 이런 논리와 방식을 결정하는 것이 인코딩의 종류다.

참고로 유니코드의 인코딩 방식 종류로는 위에서 언급된 것을 포함하여 대략 다음과 같은 것들이 있다.

> UTF-7, UTF-8, UTF-16, UTF-32, UTF-16BE, UTF-16LE, UTF-32BE, UTF-32LE

많은 서적이나 자료에서 유니코드를 두고 아직까지 "2바이트 인코딩"이라는 표현을 사용하고 있는데, 유니코드 2.0 (1996년 발표) 부터는 맞지 않는 말이다. 현대의 유니코드 표준에는 여러 인코딩 체계가 정의되어 있으며, 과거 유니코드 1.x 시절의 UCS-2를 제외하고는 고정 2바이트 인코딩이라고 할 수 있는 것은 없다. 게다가 유니코드에 할당된 문자의 수가 이미 (2바이트로 표현할 수 있는 최대 수치인) 65,535개를 넘어선 지 오래되었기 때문에...

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

유니코드 (문단 편집)

캡챠