Oracle과 한글 그리고 UTF-8

이 때까지 언급한 한글 문제를 한번에 해결할 수 있는 방법은 없을까? 이러한 문제를 해결하기 위한 고심의 산물이 바로 Unicode이다.
그렇다고 해서 Unicode가 만병통치약은 아님을 분명히 하고 시작을 하자.
 
CCS와 CES
Coded
Character Set(CCS)은 각각의 문자에 대하여 비트로 표현할 수 있는 정수값에 각각의 문자 하나씩을 할당하는 방식을
말하며 한국에서는 KSC-XXXX 또는 ISO-XXXX로 표현하는 Character Set이 대표적인 예이다.
 
Character Encoding Schema(CES)는 각각의 문자에 대하여 16진수(Octet) 하나씩 할당하는 방식으로 CCS방식보다 많은 문자를 표현할 수 있다는 장점을 가지고 있다. 대표적인 CES는 UTF-8이다.
 
KO16MSWIN949( Code Page 949)

명 CP949로 불리우는 KO16MSWIN949는 MS가 기존에 사용하던 KSC5601에서 표현할 수 있는 한글 수 2350개
제한된 영역을 확장하여 추가적인 글자를 지원하는 Character Set이다. 일반적으로 조합형으로 알려져 있으나 실제는
MS에서는 확장완성형이라는 이름으로 발표했으며, Win98이후에 MS에 기본 코드로 사용되고 있다.
 
Unicode
Any
platform, any program, any language라는 슬로건으로 모든 문자에 대하여 고유 번호(Code)가 할당된
것을 말하며, 이는 모든 나라의 언어를 하나의 CCS로 정의해 놓았으며, 이러한 CCS를 표현하는 여러 개의 CES가 존재한다는
개념이다.
– General Scripts Area(0000~1FFF) : Latin 계열 문자와 중동, 태국 문자 등의 할당 영역
– Symbol Area(2000~27BF) : 마침표, 느낌표와 같은 문자 기호와 숫자 등의 할당 영역
– CJK Phonetics and Symbols Area(3000~33FF) : 한국, 중국, 일본(CJK)에서 사용하는 음성/기호문자 할당영역
– CJK Ideographs Area(4E00~9FFF) : 한국, 중국, 일본(CJK)에서 사용하는 한자를 할당하는 영역
– Hangul Syllables Area(AC00~D7A3) : 한글 11172자를 할당하는 영역
– Surrogates Area(D800~DFFF) : 차후 사용목적으로 비어 있는 영역
– Private Use Area(E000~F8FF) : 사용자 및 공급자가 마음대로 사용할 수 있는 영역
– Compatibility Area and Specials (F900~FFFF) : 기존 Unicode안에 존재하는 값과 또 다른 값을 가지는 글자들을 할당하는 영역(일부 한자 포함)

You may also like...

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다