Linux 系统下查看文件编码与使用 iconv 解决中文乱码

2015-08-15 · Ryan · 发表评论

一、查看文件编码

在 Linux 系统中，可以使用 file 命令查看文件的编码信息。例如，查看 example.txt 文件的编码：

file -bi example.txt | sed -e 's/.*[ ]charset=//' | tr '[a-z]' '[A-Z]'

命令执行后，若输出类似 ISO-8859-1，则表示该文件的字符编码为 ISO-8859-1（即 Latin-1）。

在转换编码前，建议先确认 iconv 工具是否支持源文件的编码格式。使用以下命令列出所有支持的编码并过滤：

iconv -l | grep ISO-8859-1

如果输出中包含 ISO-8859-1//，则表示支持该编码的转换。

了解当前系统的默认语言环境编码，有助于确定目标转换编码。通常使用以下命令：

echo $LANG

若输出为 zh_CN.UTF-8，则表示当前系统环境编码为 UTF-8。在中文环境下，通常建议将文件转换为 UTF-8 编码以避免乱码。

使用 iconv 命令进行编码转换的基本语法如下：

iconv -f 源编码 -t 目标编码 输入文件

例如，将 example.txt 从 ISO-8859-1 转换为 UTF-8 编码：

iconv -f ISO-8859-1 -t UTF-8 example.txt

该命令会将转换后的内容输出到终端。若要将结果保存为新文件，可以使用输出重定向：

iconv -f ISO-8859-1 -t UTF-8 example.txt > example_utf8.txt

修正说明：原始命令 tr '[a-z]' '[A-Z' 存在括号不匹配的错误，已修正为 tr '[a-z]' '[A-Z]'。
乱码处理：中文文本出现乱码，通常是因为文件存储编码（如 GBK、GB2312）与系统环境或查看工具使用的编码（如 UTF-8）不一致。通过 iconv 转换为统一的 UTF-8 编码是常见的解决方案。
编码识别：file -bi 命令并非总能 100% 准确识别编码，尤其是对于纯文本文件。若转换后仍乱码，可尝试其他源编码（如 GB18030、GBK）。
批量转换：如需批量转换多个文件，可以结合 find 与 shell 循环脚本实现。