Oracle과 한글 그리고 UTF-8

by 지기 · 2013-03-28

출처 : http://devideby0.egloos.com/2201091

Unicode와 한글 그리고 UTF 계열에 관해 살펴보자.

한글과 Unicode

기
존에 KSC5601에 문제점이 많았었는지 아니면 비 Latin 계열 문자의 설움인지 잘 모르지만, 한국은 처음부터 Unicode
표준 제정에 참가 하였다. 그 결과 Unicode에 독립적으로 한글만 표현할 수 있는 영역이 있을 정도다.

모든 표준이 그렇듯이 지금 Unicode 버전은 3.0이다.

– Unicode 1.X : KSC5601에 정의되어 있는 글자만 표현가능

– Unicode 2.X : 새로운 한글 영역에 한글 정의

– Unicode 3.X : Unicode 2.X 이후 한글부분에서는 변화된 내용없음

Unicode에서 한글 자모음은 1100~11FF에 240글자가 정의되어 있으며, 이는 훈민정음 이후 없어진 모든 글자들을 포함하고 있다. 그리고 이 부분에는 한글의 초성/중성/종성이 모두 포함되어 있다.

Unicode
에서 한글 음절은 한글영역인 AC00~D7A3에 한글자모음으로 정의된 조합형 코드인 초성(19개) X 중성(21개) X
종성(27개+1개(받침 없음)) = 11172개의 완성형 한글이 가나다 순으로 정의되어 있으며, 이 방식은 자모 조합과 자모
분리가 용이하여 모든 현대 한글 및 한글 고어도 표현이 가능하다.

Unicode
에서 한자는 CJK 상형문자 영역인 4E00~9FFF에 중국->일본->중국->한국 순으로 발음 기준으로 정의되어
있으며, CJK 상형문자 영역에 없는 한자는 CJK Compatibility Area adn Specials(F900~FA2D)에
별도 정의되어 있다.

Unicode CES

Unicode는 CCS이며 이런 Unicode를 표현하는 CES가 여러 개 존재한다. 대표적인 UTF-8도 Unicode를 표현하는 CES중 하나이다.

– UCS 2 : Unicode를 표현하는 CES에 표준이며 ISO/IEC10646의 CCS의 모든 문자를 2Bytes로

인코딩하여 검색, display, 구문해석에 용이한 특징이 있다.

– UTF-8 : ASCII 문자는 동일한 값에 1Byte로 표현, 유럽 및 기타 1Byte 글자는 2Bytes로 표현,

한국, 중국, 일본 한자 등은 3Bytes로 표현

참고적으로 UTF-16이라는 것이 있으나 거의 사용하지 않고 내용도 난해하여 여기서는 설명하지 않는다

Oracle과 한글 그리고 UTF-8

You may also like...

답글 남기기 응답 취소

카테고리

최신 댓글

방문통계

메타

Oracle과 한글 그리고 UTF-8

You may also like...

RHEL3에 Oracle 8i 설치

오라클 11g PIVOT 기능 활용

데이터파일, 테이블스페이스 정보 확인 SQL

답글 남기기 응답 취소

카테고리

최신 댓글

방문통계

태그

메타