2011-04-24 07:36:29 +0000 2011-04-24 07:36:29 +0000
155
155

Windowsで拡張子なしでファイルの種類を判断するにはどうすればいいですか?

私は時々クライアントから間違った拡張子を持つファイルを受け取ることがあります。例えば、ファイル名は「image.jpg」となっているが、実際にはTIFF画像である。多くの場合、テキストエディタでファイルを開き、最初の数バイトを見て、それがどのファイルタイプであるかを推測することで、それを明らかにすることができます。

これは、JPEG、TIFF、GIF、PDFファイルで動作します。しかし、世の中にはもっと多くのファイルタイプがあります。

含まれるデータを分析することで、正しいファイルタイプの識別を自動化することは可能ですか?

回答 (5)

147
147
147
2011-04-24 07:47:21 +0000

TrID](http://mark0.net/soft-trid-e.html)ツールを使用すると、ファイルを識別するためのファイルタイプ定義のライブラリが増えています。

ワイルドカードがサポートされているので、この例では、検査対象となる全ての画像をフォルダ(例:C:verifyimages)に入れて、コマンドを使用することができます。

trid C:\verifyimages\*

これは、verifyimagesフォルダ内の全てのファイルを検査します。


GUI 版の TrIDNet もあります。

Windows Explorer と Total Commander に TrID または TrIDNet を簡単に統合する方法についてのドキュメントが用意されています。

Windows Explorer

Total Commander

53
53
53
2011-04-24 07:38:08 +0000

file

File は、各引数を分類するために各引数をテストします。ファイルシステムテスト、マジックナンバーテスト、言語テストの順に実行されます。最初のテストが成功した場合、ファイルの種類が表示されます。

印刷されるファイルの型は通常、text (このファイルは印刷文字といくつかの一般的な制御文字のみを含んでおり、おそらく ASCII 端末で読んでも安全である)、executable (このファイルは、UNIX カーネルなどで理解できる形でプログラムをコンパイルした結果を含んでいる)、または他の何かを意味する data のいずれかを含んでいます (データは通常、「バイナリ」か印刷不可能です)。例外として、バイナリデータを含むことが知られているよく知られたファイル形式 (コアファイルや tar アーカイブ) があります。

14
14
14
2011-04-24 13:16:09 +0000

私は以前、フランス国立図書館で、デジタル化された書籍だけでなく、あらゆる種類の奇妙なファイル形式を持つ何百万ものデジタルアーティファクトを含むデジタルアーカイブシステムを構築するために働いていました。私たちはファイルフォーマットを認識するために JHOVE を使用していました。

JHOVEはオープンソースで、JSTORとハーバード大学図書館によって管理されています。(http://hul.harvard.edu/jhove/using.html)を使うのは割と簡単です。

1
1
1
2018-06-04 11:24:55 +0000

ファイルの種類は、 http://www.checkfiletype.com でWindowsを含むどのコンピュータからでも確認することができます。

1
1
1
2011-04-24 11:30:15 +0000

私のプログラムでは、 OracleのOutsideInライブラリ を使用しています。無料ではありませんが、特に画像の場合には十分に機能します。市場では500以上のファイルタイプをサポートしていると言われています。