[자료구조] 자료(문자)의 표현 방법
컴퓨터 내부에서는 문자 자료도 1과 0의 2진수 조합으로 표현한다. 이때 문자에 대한 이진수 코드를 정의하여 사용하며, BCD 코드, EBCDIC 코드, ASCII 코드, 유니코드가 있다.
1. BCD(Binary Coded Decimal) 코드
- 6bit 사용
- 상위 2bit는 존 비트, 하위 4bit는 2진수 비트이다.
존 비트 (상위 2bit) |
00 | 숫자 0(1010), 1~9(0001~1001) | 10개 |
01 | 문자 A~I(0001~1001) | 9개 | |
10 | 문자 J~R(0001~1001) | 9개 | |
11 | 문자 S~Z(0010~1001) | 8개 |
2. EBCDIC(Extended Binary Coded Decimal Interchange) 코드
- 8bit 사용
- 상위 4bit는 존 비트, 하위 4bit는 2진수 비트이다.
존 비트 (상위 4bit) |
2bit | 2bit | ||
00 | 여분 | 00 | 문자 A~I(0001~1001) | |
01 | 특수문자 | 01 | 문자 J~R(0001~1001) | |
10 | 영어 소문자 | 10 | 문자 S~Z(0010~1001) | |
11 | 영어 대문자 | 11 | 숫자 0~9(0000~1001) |
3. ASCII(American Standard Code for Information Interchange) 코드
- 7bit 사용
- 상위 3bit는 존 비트, 하위 4bit는 2진수 비트
- ASCII 코드를 데이터 통신용으로 사용할 때는 최상위 비트에 패러티 비트(오류 확인)를 추가하여 8bit 사용
- A는 65(100 0001), a는 97(110 0001)의 ASCII 코드 값 가짐
- C언어에서 문자 자료형 표현은 char 키워드 사용
- 존 비트와 숫자 비트를 조합한 코드로 아라비아 숫자 0~9, 영어 대·소문자, 제어(특수) 문자 정의
4. 유니코드
- EBCDIC 코드, ASCII 코드 등은 문자 코드 표에 정의되어 있지 않은 문자 표현 불가능. 이를 위해 세계 여러 나라의 언어를 통일된 방법으로 표현할 수 있도록 국제 표준 코드(ISO/IEC 10646) 정의
- 2byte 사용
- 모든 나라 문자 표현 가능
- XML, Java, CORBA 3.0, WML 등 인터넷 기반 프로그램 및 제품에 사용
참고: 메가존아이티평생교육원, 자료구조 1주 2회