UTF-8, ASCII 코드

KangHo Lee's avatar
Dec 05, 2024
UTF-8, ASCII 코드
UTF-8과 ASCII 코드는 문자 인코딩 방식으로, 텍스트 데이터를 컴퓨터 시스템에서 표현하고 저장하는 방법입니다.
이 두 인코딩 방식은 서로 다른 범위의 문자를 지원하며, 사용하는 방식에도 차이가 있습니다.

ASCII (American Standard Code for Information Interchange)

  1. 범위:
      • ASCII는 7비트 인코딩 방식으로, 총 128개의 문자를 지원합니다.
      • 0부터 127까지의 숫자를 사용하여 영어 알파벳, 숫자, 구두점, 제어 문자 등을 표현합니다.
  1. 특징:
      • 단순하고 빠르며, 영어권의 텍스트 데이터를 처리하는 데 주로 사용됩니다.
      • 예시: 문자 'A'는 ASCII 코드 65에 해당하며, 'a'는 97에 해당합니다.
  1. 제한:
      • 제한된 범위 때문에 다국어 문자나 특수 문자를 표현할 수 없습니다.

UTF-8 (Unicode Transformation Format - 8-bit)

  1. 범위:
      • UTF-8은 가변 길이 인코딩 방식으로, 1바이트에서 최대 4바이트까지 사용하여 문자를 표현합니다.
      • 유니코드의 모든 문자를 지원하며, 전 세계의 다양한 언어와 기호를 포함합니다.
      • 한글의 1글자는 3바이트(초성 + 중성 + 종성)입니다.
  1. 특징:
      • ASCII와 호환됩니다: ASCII의 범위 내 문자는 동일하게 1바이트로 인코딩됩니다.
      • 영어와 같은 단순한 텍스트는 효율적으로 표현할 수 있으며, 다양한 언어의 복잡한 문자를 표현할 수 있습니다.
      • 예시: 영어 알파벳은 1바이트로 표현되며, 한글이나 중국어와 같은 다국어 문자는 2바이트 이상으로 표현됩니다.
  1. 장점:
      • 다국어 지원: 전 세계 모든 문자를 표현할 수 있어 국제화된 애플리케이션에 적합합니다.
      • 효율성: 자주 사용하는 문자에 대해 짧은 바이트를 사용하여 저장 공간을 절약할 수 있습니다.

요약

  • ASCII는 주로 영어 알파벳과 숫자 등 기본 문자만을 지원하며, 단순한 텍스트 데이터를 처리하는 데 적합합니다.
  • UTF-8은 전 세계의 모든 문자를 표현할 수 있는 강력한 인코딩 방식으로, 국제화된 애플리케이션에 널리 사용됩니다.
Share article

devleekangho