수색…


비고

UTF-8이란 무엇입니까 ?

UTF-8은 가변 길이이며 8 비트 코드 단위를 사용하는 인코딩입니다. 이것이 UTF- 8 입니다. 인터넷 UTF-8이 지배적 인 인코딩입니다 (2008 ASCII가 나오기 전에 모든 유니 코드 코드 포인트를 처리 할 수 ​​있습니다.).

UTF-8은 유니 코드와 같은가요?

"유니 코드"는 인코딩이 아닙니다. 코드화 된 문자 집합입니다. 즉, 문자 집합과이를 나타내는 정수 코드 포인트 간의 매핑입니다. 그러나 많은 문서에서이를 사용하여 인코딩 을 참조합니다. 예를 들어, Windows에서 유니 코드라는 용어는 UTF-16을 나타 내기 위해 사용됩니다.

UTF-8은 유니 코드를 인코딩하는 유일한 방법 중 하나이며 인코딩으로 바이트 시퀀스를 문자 시퀀스로 또는 그 반대로 변환합니다. UTF-16 및 -32는 다른 유니 코드 변환 형식입니다.

UTF-8의 BOM

세 가지 모두 특정 바이트 순서 표시 (Byte Order Marks)를 가질 수 있는데, 이는 마법 번호가 프로그램 (예 : 메모장 ++)에 중요한 몇 가지 신호를 보냅니다. 예를 들어, 가져온 텍스트 스트림이 유니 코드이고, 또한이 스트림에 사용 된 유니 코드 기술을 감지하는 데 도움이됩니다. 그러나 유니 코드 컨소시엄은 서명없이 UTF-8을 저장하도록 권장합니다. 파일에 UTF-8 서명이 포함되어 있으면 gcc 컴파일러와 같은 일부 소프트웨어에서 불만이 생깁니다. 반면에 많은 Windows 프로그램은 서명을 사용합니다. 그리고 바이트 스트림의 인코딩을 탐지하려고 시도하는 것이 항상 효과적이지는 않습니다.

프로젝트에 UTF-8 인코딩이 있는지 확인하는 방법

UTF-8은 아직 보편적이지 않으며 소프트웨어 엔지니어와 데이터 과학자는 종종 텍스트 스트림의 인코딩 문제에 직면합니다. 때로는 UTF-8이 프로젝트에서 사용되기도하지만 또 다른 ecndoing이 사용되고 있습니다. 파일의 인코딩을 검색하는 데는 몇 가지 도구가 있습니다.

  • 리눅스 명령 행 도구 ' 파일 '이나
    powershell ;
  • 파이썬 패키지 "chardet"
  • 메모장 + + 아마 수동 검사를위한 가장 인기있는 도구로.

파이썬에서 UTF-8 데이터의 바이트 배열을 유니 코드 문자열로 변환하는 방법

def make_unicode(data):
    if type(data) != unicode:
        data =  data.decode('utf-8')
        return data
    else:
        return data

UTF-8로 서버의 기본 인코딩을 변경하는 방법

영어를 사용하지 않는 지역의 사용자는 PHP 프로젝트를 프로그래밍하는 동안 인코딩에 문제가있을 수 있습니다. 서버에 UTF-8 인코딩이 추가되어이 서버에서 UTF-8로 PHP 프로젝트를 만들려면 텍스트가 잘못 표시 될 수 있습니다.

예 : 서버의 기본 인코딩이 Windows-1251 일 수 있습니다. 그런 다음 .htaccess 서버 파일에서 AddDefaultCharset windows-1251 을 삭제하고 AddDefaultCharset utf-8 합니다.

서버에서 어떤 인코딩을 사용하는지 확인하려면 <META charset> 태그를 설정하지 말고 브라우저에서 "automatic encoding detection" 를 활성화하십시오.

Excel 파일을 UTF-8로 저장

Excel -> 다른 이름으로 저장 -> 파일 형식 -> "쉼표로 구분 된 값 (* .csv)"및 도구 (저장 버튼 왼쪽) -> 웹 옵션 -> 인코딩 -> 유니 코드 (UTF-8) )

여기에 이미지 설명을 입력하십시오.



Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow