문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 일본어 (문단 편집) == 문자 인코딩 == [include(틀:넘겨주기(문단)1, n1=Shift_JIS)] 일본어 표기에는 주로 Shift_JIS라는 특이한 형태의 [[인코딩]]이 사용된다(물론 [[유니코드]] 시대가 도래하면서 UTF-8도 많이 쓰이고 있다). 한국어나 간체 중국어 표기에는 일반적인 EUC 인코딩이 쓰이는데(0xA1A1부터 0xFEFE까지), Shift_JIS는 첫 바이트의 범위가 좁고(0x81 ~ 0x9F, 0xE0 ~ 0xEF), 둘째 바이트의 범위가 굉장히 넓다(0x40 ~ 0x7E, 0x80 ~ 0xFC). 이런 특이한 구조로 이루어져 있는 이유는 JIS X 0201(0xA0부터 0xDF를 쓴다)과 호환되면서 JIS X 0208을 사용할 수 있게 하기 위해서다. 둘째 바이트에 0x5C(\, 백슬래시)가 쓰이는데, 이 0x5C는 윈도에서 디렉터리 구분자로 쓰이고 많은 프로그래밍 언어에서 이스케이프 문자로 쓰이기 때문에 여러 환경에서 문제가 일어날 수 있다. 둘째 바이트에 0x5C를 포함하는 문자 중에는 ソ, 十, 申, 能, 表, 暴, 予 등의 자주 쓰이는 글자들도 꽤 있다. 반면 KS X 1001([[완성형]])의 마이크로소프트 확장인 CP949는 첫째 바이트에 0x81부터 0xC6을 쓰고, 둘째 바이트에 0x41 ~ 0x5A(A ~ Z), 0x61 ~ 0x7A(a ~ z), 0x81 ~ 0xFE(첫째 바이트가 0xA1 이상일 경우 KS X 1001과 겹치지 않도록 둘째 바이트에 0x81 ~ 0xA0까지만 쓴다)만을 쓰기 때문에 0x5C 문제가 생기지 않는다. 마이크로소프트가 Shift_JIS로 엄청 데여서 한국어 문자 인코딩을 확장할 때는 0x5C 문제 같은 골치 아픈 일이 생기지 않도록 둘째 바이트의 범위를 조절한 것이다. Shift_JIS에 대한 자세한 설명은 [[http://pub.mearie.org/shift_jis|여기]]와 [[http://mearie.org/journal/2006/04/brief-note-on-shift-jis|여기]] 참고. 물론 일본어에도 EUC-JP라는 EUC 인코딩이 있지만(0x5C 문제도 없다), EUC-JP보다는 Shift_JIS를 더 많이 쓴다.저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기