解决 curl 与 wget 下载文件时中文乱码的完整指南

2015-08-15 · Ryan · 发表评论

问题背景

在使用 curl 或 wget 命令从某些服务器下载文件时，如果服务器返回的文件名或内容使用了非 UTF-8 编码（例如 GB2312、GBK 等），可能会导致下载后的文件名或文件内容出现乱码。这在处理中文环境下的资源时尤为常见。

针对 curl 和 wget 命令，分别有不同的方法来解决中文乱码问题。

如果下载的文件内容本身编码是 GB2312 等，可以使用管道 (|) 配合 iconv 命令进行实时转码。

curl -s http://www.example.com/123.txt | iconv -f gb2312 -t utf-8 > 123.txt

命令说明：

此方法适用于文件内容乱码，但无法解决服务器返回的 HTTP 头中文件名乱码的问题。

wget 提供了 --restrict-file-names 选项来控制如何保存文件名，可以避免因编码问题导致的文件名乱码。

wget --restrict-file-names=nocontrol http://www.example.com/123.txt

命令说明：

--restrict-file-names=nocontrol：此选项会剥离文件名中的非 ASCII 控制字符，通常能有效防止因编码不一致导致的乱码文件名。下载的文件将以一个安全的名称保存。

如果希望更精确地控制编码，可以结合使用 --remote-encoding 选项（注意：较新版本的 wget 已移除此选项，推荐使用 --restrict-file-names）。

对于更复杂的情况，可以结合以下方法：

注意： 上述方法主要针对 GNU/Linux 或 macOS 系统。在 Windows 的命令提示符或 PowerShell 中，乱码问题可能源于系统控制台本身的编码设置，需要额外调整系统区域设置或使用支持 UTF-8 的终端。

解决 curl 或 wget 下载中文乱码的关键在于识别源编码并进行转换。对于内容乱码，使用 iconv 转换；对于文件名乱码，使用 wget --restrict-file-names=nocontrol 选项。根据实际情况选择合适的方法，即可有效避免乱码问题。