Oracle과 한글 그리고 UTF-8

Unicode와 한글 그리고 UTF 계열에 관해 살펴보자.
 
한글과 Unicode

존에 KSC5601에 문제점이 많았었는지 아니면 비 Latin 계열 문자의 설움인지 잘 모르지만, 한국은 처음부터 Unicode
표준 제정에 참가 하였다. 그 결과 Unicode에 독립적으로 한글만 표현할 수 있는 영역이 있을 정도다.
모든 표준이 그렇듯이 지금 Unicode 버전은 3.0이다.
– Unicode 1.X : KSC5601에 정의되어 있는 글자만 표현가능
– Unicode 2.X : 새로운 한글 영역에 한글 정의
– Unicode 3.X : Unicode 2.X 이후 한글부분에서는 변화된 내용없음
 
Unicode에서 한글 자모음은  1100~11FF에 240글자가 정의되어 있으며, 이는 훈민정음 이후 없어진 모든 글자들을 포함하고 있다. 그리고 이 부분에는 한글의 초성/중성/종성이 모두 포함되어 있다.
 
Unicode
에서 한글 음절은 한글영역인 AC00~D7A3에 한글자모음으로 정의된 조합형 코드인 초성(19개) X 중성(21개) X
종성(27개+1개(받침 없음)) = 11172개의 완성형 한글이 가나다 순으로 정의되어 있으며, 이 방식은 자모 조합과 자모
분리가 용이하여 모든 현대 한글 및 한글 고어도 표현이 가능하다.
 
Unicode
에서 한자는 CJK 상형문자 영역인 4E00~9FFF에 중국->일본->중국->한국 순으로 발음 기준으로 정의되어
있으며, CJK 상형문자 영역에 없는 한자는 CJK Compatibility Area adn Specials(F900~FA2D)에
별도 정의되어 있다.
 
Unicode CES
Unicode는 CCS이며 이런 Unicode를 표현하는 CES가 여러 개 존재한다. 대표적인 UTF-8도 Unicode를 표현하는 CES중 하나이다.
 – UCS 2 : Unicode를 표현하는 CES에 표준이며 ISO/IEC10646의 CCS의 모든 문자를 2Bytes로
   인코딩하여 검색, display, 구문해석에 용이한 특징이 있다.
 – UTF-8 : ASCII 문자는 동일한 값에 1Byte로 표현, 유럽 및 기타 1Byte 글자는 2Bytes로 표현,
   한국, 중국, 일본 한자 등은 3Bytes로 표현
 

참고적으로 UTF-16이라는 것이 있으나 거의 사용하지 않고 내용도 난해하여 여기서는 설명하지 않는다

You may also like...

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다