テキストファイルのエンコードを自動検出する方法は?
変形文字セットでエンコードされたプレーンテキストファイルがたくさんあります。
それらを全てUTF-8に変換したいのですが、iconvを実行する前に元のエンコーディングを知る必要があります。ほとんどのブラウザではエンコーディングにAuto Detect
オプションが付いているのですが、テキストファイルが多すぎて一つ一つ確認できません。
元のエンコーディングを知っているだけで、iconv -f DETECTED_CHARSET -t utf-8
でテキストを変換することができます。
プレーンテキストファイルのエンコーディングを検出するユーティリティはありますか?100%完璧である必要はありません。100万個のファイルの中に100個のファイルが間違って変換されていても気にしません。