Chapter02 데이터
1 0과 1로 숫자를 표현하는 방법
2 0과 1로 문자를 표현하는 방법
컴퓨터는 0과 1만 이해할 수 있다고 하는데, 어떻게 키보드로 입력한 문자들을 실시간으로 모니터에 띄워 줄까?
문자 집합과 인코딩
문자 집합 : 컴퓨터가 인식하고 표현할 수 있는 문자의 모음
컴퓨터는 문자 집합에 속해 있는 문자를 이해할 수 있고, 반대로 속해 있지 않은 문자는 이해할 수 없다.인코딩 : 문자를 0과 1로 변환하는 과정
디코딩 : 0과 1로 이루어진 문자 코드를 사람이 이해할 수 있는 문자로 변환하는 과정
아스키 코드
초창기 문자 집합 중 하나
영어 알파벳, 아라비아 숫자, 일부 특수 문자로 이루어짐 문자들은 각각 7비트로 표현된다. 실제로는 8비트가 사용되지만 8비트 중 1비트는 오류 검출을 위해 사용되는 비트이기에 실질적으로 사용되는 비트는 7비트이다.
27, 총 128개의 문자를 표현할 수 있다.
0부터 127까지 총 128개의 숫자 중 하나의 고유한 수에 일대일로 대응된다.
한글을 표현할 수 없다는 단점이 존재한다.
EUC-KR
완성형 인코딩 : 초성, 중성, 종성의 조합으로 이루어진 완성된 하나의 글자에 고유한 코드를 부여하는 인코딩 방식
조합형 인코딩 : 초성을 위한 비트열, 중성을 위한 비트열, 종성을 위한 비트열을 할당
EUC-KR
은 대표적인 완성현 인코딩 방식
즉 초성,중성,종성이 모두 결합된 한글 단어에 2바이트 크기의 코드를 부여한다.
2바이트 = 16비트
네 자리 16진수로 표현할 수 있다.
![]()
아스키코드보다 다양한 2350개 정도의 한글 단어를 표현할 수 있지만뷁
,뷇
,믜
같은 글자는 표현할 수 없다.CP949 : 마이크로소프트에서 개발한 EUC-KR의 확장된 버전, EUC-KR로는 표현할 수 없는 더욱 다양한 문자를 표현할 수 있지만, 이마저도 한글 전체를 표현하기엔 넉넉한 양은 아님
유니코드와 UTF-8
유니코드 : EUC-KR보다 훨씬 다양한 한글을 포함하며 대부분 나라의 문자,특수문자,이모티콘까지 코드로 표현할 수 있다.
현대 문자를 표현할 때 가장 많이 사용되는 표준 문자 집합이다.
![]()
한
: D55C(16)글
: AE00(16)UTF-8 : 유니코드 문자에 부여된 값을 인코딩하는 방식 중 하나
통상 1바이트부터 4바이트까지 인코딩 결과를 만들어낸다.
![]()
Leave a comment