Python Language
Юникод и байты
Поиск…
Синтаксис
- str.encode (кодирование, errors = 'strict')
- bytes.decode (encoding, errors = 'strict')
- open (имя файла, режим, кодирование = нет)
параметры
параметр | подробности |
---|---|
кодирование | Используемая кодировка, например 'ascii' , 'utf8' и т. Д. ... |
ошибки | Режим ошибок, например, 'replace' чтобы заменить плохие символы вопросительными знаками, 'ignore' чтобы игнорировать плохие символы и т. Д. ... |
основы
В Python 3 str
- тип строк с поддержкой unicode, а bytes
- это тип для последовательностей необработанных байтов.
type("f") == type(u"f") # True, <class 'str'>
type(b"f") # <class 'bytes'>
В Python 2 случайная строка представляла собой последовательность необработанных байтов по умолчанию, а строка юникода - каждая строка с префиксом «u».
type("f") == type(b"f") # True, <type 'str'>
type(u"f") # <type 'unicode'>
Юникод в байтах
Строки Unicode могут быть преобразованы в байты с .encode(encoding)
.
Python 3
>>> "£13.55".encode('utf8')
b'\xc2\xa313.55'
>>> "£13.55".encode('utf16')
b'\xff\xfe\xa3\x001\x003\x00.\x005\x005\x00'
Python 2
в py2 стандартная консольная кодировка - это sys.getdefaultencoding() == 'ascii'
а не utf-8
как в py3, поэтому ее печать, как и в предыдущем примере, напрямую не возможна.
>>> print type(u"£13.55".encode('utf8'))
<type 'str'>
>>> print u"£13.55".encode('utf8')
SyntaxError: Non-ASCII character '\xc2' in...
# with encoding set inside a file
# -*- coding: utf-8 -*-
>>> print u"£13.55".encode('utf8')
£13.55
Если кодировка не может обрабатывать строку, создается «UnicodeEncodeError»:
>>> "£13.55".encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character '\xa3' in position 0: ordinal not in range(128)
Байты для unicode
Байты могут быть преобразованы в строки unicode с .decode(encoding)
.
Последовательность байтов может быть преобразована только в строку юникода через соответствующую кодировку!
>>> b'\xc2\xa313.55'.decode('utf8')
'£13.55'
Если кодировка не может обрабатывать строку, создается UnicodeDecodeError
:
>>> b'\xc2\xa313.55'.decode('utf16')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/csaftoiu/csaftoiu-github/yahoo-groups-backup/.virtualenv/bin/../lib/python3.5/encodings/utf_16.py", line 16, in decode
return codecs.utf_16_decode(input, errors, True)
UnicodeDecodeError: 'utf-16-le' codec can't decode byte 0x35 in position 6: truncated data
Обработка ошибок кодирования / декодирования
.encode
и .decode
имеют режим ошибок.
Значение по умолчанию - 'strict'
, что приводит к возникновению исключений при ошибке. Другие режимы более прощающие.
кодирование
>>> "£13.55".encode('ascii', errors='replace')
b'?13.55'
>>> "£13.55".encode('ascii', errors='ignore')
b'13.55'
>>> "£13.55".encode('ascii', errors='namereplace')
b'\\N{POUND SIGN}13.55'
>>> "£13.55".encode('ascii', errors='xmlcharrefreplace')
b'£13.55'
>>> "£13.55".encode('ascii', errors='backslashreplace')
b'\\xa313.55'
расшифровка
>>> b = "£13.55".encode('utf8')
>>> b.decode('ascii', errors='replace')
'��13.55'
>>> b.decode('ascii', errors='ignore')
'13.55'
>>> b.decode('ascii', errors='backslashreplace')
'\\xc2\\xa313.55'
боевой дух
Из сказанного ясно, что очень важно сохранить ваши кодировки прямо при работе с unicode и байтами.
Файловый ввод-вывод
Файлы, открытые в недвоичном режиме (например, 'r'
или 'w'
), обрабатывают строки. Кодировка deafult - 'utf8'
.
open(fn, mode='r') # opens file for reading in utf8
open(fn, mode='r', encoding='utf16') # opens file for reading utf16
# ERROR: cannot write bytes when a string is expected:
open("foo.txt", "w").write(b"foo")
Файлы, открытые в двоичном режиме (например, 'rb'
или 'wb'
), обрабатываются байтами. Аргумент кодирования не может быть указан, поскольку кодировка отсутствует.
open(fn, mode='wb') # open file for writing bytes
# ERROR: cannot write string when bytes is expected:
open(fn, mode='wb').write("hi")