Основы работы в ОС Linux



         

Программы-перекодировщики кодовых страниц - часть 2


где :

  • <SourceFile> - исходный (нечитаемый) файл;
  • <DestFile> - перекодированный файл;
  • ? - сообщает RE, что кодировка исходного файла не известна и re должна проанализировать файл и самостоятельно определить его кодировку;
  • K - задает кодировку для результирующего файла (в данном случае KOI-8).

Если вы знаете кодировку исходного файла, вы можете указать ее вместо символа "?". Например, если вы хотите перекодировать файл letter.txt, который был создан в Windows, и вы знаете, что файл сохранен в кодировке 1251, то надо дать команду:

[user]$ re letter.txt letter-koi.txt W K

После этого, просмотрев файл letter-koi.txt, вы увидите вполне читаемый русский текст в KOI8-R.

Полный формат вызова перекодировщика:

[user]$ re options filename_from filename_to cp_from cp_to [s/d/f] [u/l/s]

где options: [-v][-E|-R|-N][-e|-s]

  • -v - выдавать информацию о ходе обработки;
  • -n - не выдавать информацию о ходе обработки (задано по умолчанию);
  • -E - преобразовывать все символы p, H из русских в английские;
  • -R - преобразовывать все символы p, H из английских в русские;
  • -N - оставлять все p, H (русские и английские) как в исходном тексте (задано по умолчанию);
  • -e - перекодировать все символы 0x80 - 0xFF;
  • -s - перекодировать только 64 символа русского алфавита (задано по умолчанию),

а cp_from и cp_to - любой из следующих символов, обозначающих возможные кодировки (по умолчанию - W, K).

Таблица 12.1. Обозначение кодировок в программе re

СимволКодировкаСимволКодировка
WWindows_ (подчеркивание)_xxe
DDos%%hex
KKOI-8\\\'hex
LLatinGGraph_win
IIso<binhex
HHEX++UTF7-
SShiftKbrdCC_MIC
MMacYY_c16
AAFFZZ_c32
OOdd(UTF8_1)FF(UTF8_2)
BBase64PPict
EExpressNN_Estl
TT-HtmlVV_Vpp855
UUserXX_sp
- (тире)uueJJ_diff

Как уже было сказано, если cp-from="?", то программа пытается самостоятельно определить кодировку исходного файла.

Если у вас по каким-либо причинам не оказалось ни одной из указанных программ-перекодировщиков, то для просмотра содержимого файла можно воспользоваться одним из браузеров Интернет, которые изначально ориентированы на работу с разными кодировками. Например, сгодится обычный lynx:

[user]$ lynx -assume_local_charset cp866 file.txt

Можно также загрузить "нечитаемый" файл в Netscape Navigator, после чего поменять кодировку через меню View / Character Set.




Содержание  Назад  Вперед