2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Wgetを使ってすべてのフォルダ、サブフォルダ、ファイルをダウンロードする

Wgetを使っていて、問題に遭遇しました。私のサイトでは、サイト内にいくつかのフォルダとサブフォルダがあります。各フォルダとサブフォルダ内のすべてのコンテンツをダウンロードする必要があります。Wgetを使っていくつかの方法を試してみましたが、完了を確認すると、フォルダ内には「インデックス」ファイルが表示されます。インデックスファイルをクリックするとファイルに移動しますが、実際のファイルが必要です。

誰か見落としているWget用のコマンドを持っている人はいませんか?

www.mysite.com/Pictures/ Pictures DIrの中にいくつかのフォルダがあります…..。

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

全てのファイル、フォルダ等が必要です…..

回答 (3)

38
38
38
2013-10-07 16:23:25 +0000

これは試していないと思いたい。

wget -r --no-parent http://www.mysite.com/Pictures/

とか、「index.html」ファイルをダウンロードせずにコンテンツを取得するとか。

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

参照。任意のファイルを含むディレクトリを再帰的に取得するために wget を使用する ](https://stackoverflow.com/a/273776)

20
20
20
2014-12-20 09:22:17 +0000

wget -rkpN -e robots=off http://www.example.com/

-r は再帰的に

-k はリンクの変換を意味します。つまり、ウェブページ上のリンクは example.com/bla ではなく localhost になります。

-p は全てのウェブページのリソースを取得し、画像やjavascriptファイルを取得してウェブサイトを正常に動作させることを意味します。

-N はタイムスタンプを取得するため、ローカルファイルがリモートウェブサイト上のファイルよりも新しい場合には、それらをスキップします。

-e はフラグオプションです。

robots=off はロボットファイルを無視することを意味します。

私はこのコマンドにもrobots=offを入れていたので、もし接続が切れてしまった場合、コマンドを再実行した時に元に戻っていたところから継続していました。-c-N と相性が良いと考えました。

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ 全てのタイプのファイルをローカルにダウンロードして、htmlファイル から指定し、robotsファイルは無視します。