프로그래밍 언어/C++

[게임 프로그래머 입문 올인원] 모던 C++ : 멀티바이트와 유니코드(81강)

순정법사 2024.03.30

A. 모던 C++ : 문자 인코딩 방식

1. 멀티바이트

a. 멀티바이트란?

🌟 문자를 여러 개의 바이트로 나타내는 문자 인코딩 방식

 

보통 1바이트에서 여러 바이트까지 다양한 길이로 표현

ASCII, ISO 8859, EUC-KR 등이 이 방식으로 표현됨

 

b. ASCII

🌟 American Standard Code for Information Interchange

 

7비트로 문자를 표현하는 인코딩 방식

128개의 문자를 포함(영문 알파벳, 숫자, 특수 문자 등)

 

 

👉 아스키코드 자세히 공부하기

 

[문자 표현의 이해] 아스키코드(ASCII)와 유니코드

💙 배경지식 컴퓨터 내부는 전기 신호로 작동하는 스위치인 트랜지스터가 존재 전기 신호가 있으면 1, 없으면 0 즉, 컴퓨터는 트랜지스터를 통해 사용자가 입력한 데이터를 0과 1로 처리 비트 : 0

monamu.tistory.com

 

c. EUC-KR

🌟 Extended Unix Code-Korea

 

한글을 비롯한 한국어 문자를 표현하기 위한 멀티바이트 문자 인코딩 방식

 

2. 유니코드

a. 유니코드란?

🌟 전 세계의 모든 문자를 일관되게 표현하기 위한 국제 표준 문자셋

 

  • 각 문자에 고유한 코드 포인트(code point)를 할당하여 문자를 표현
  • 코드 포인트는 16진수로 표기되며 U+로 시작 ex) A = U+0041 / '가' = U+AC00
  • UTF-8, UTF-16, UTF-32 등의 다양한 인코딩 방식을 사용

 

👉 유니코드 utf-8, utf-16에 대한 공부하기

 

[문자 표현의 이해] 아스키코드(ASCII)와 유니코드

💙 배경지식 컴퓨터 내부는 전기 신호로 작동하는 스위치인 트랜지스터가 존재 전기 신호가 있으면 1, 없으면 0 즉, 컴퓨터는 트랜지스터를 통해 사용자가 입력한 데이터를 0과 1로 처리 비트 : 0

monamu.tistory.com

 

1) UTF-32 (Unicode Transformation Format - 32-bit)

 

고정 길이의 문자 인코딩 방식, 각 문자를 32비트로 표현

이 방식은 모든 문자를 동일하게 4바이트로 표현하여 유니코드 코드 포인트에 직접 대응

 

 

utf-8로 코드를 바꿔줘야 잘 나온다

 

u는 utf-16

 

3. MBCS vs WBCS

Multi Byte Character Set vs Wide Byte Character Set

 

멀티바이트 집합 = 가변 길이 인코딩 (UTF-8, ANSI) vs 유니코드 집합 = 고정 길이 인코딩 (UTF-16)

 

고정 길이 캐릭터

 

 

 


출처 : https://www.inflearn.com/course/%EA%B2%8C%EC%9E%84-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%A8%B8-%EC%9E%85%EB%AC%B8-%EC%98%AC%EC%9D%B8%EC%9B%90-rookiss#curriculum

 

[게임 프로그래머 입문 올인원] C++ & 자료구조/알고리즘 & STL & 게임 수학 & Windows API & 게임 서버 |

Rookiss | 어디부터 시작할지 막막한 게임 프로그래밍 입문자를 위한 All-In-One 커리큘럼입니다. C++, 자료구조/알고리즘, STL, 게임 수학, Windows API, 게임 서버 입문으로 이어지는 알찬 커리큘럼으로

www.inflearn.com