ウェブページのファイルをダウンロードするPython実装

あるウェブページを見つけたところ、そこには数百個の PDF ファイルリンクが含まれていました。

エンジニアとして、一つずつ手動でクリックしてダウンロードするのは、ちょっと違いますよね？

そこで、小さなプログラムを書いて、すべてのファイルをダウンロードしてみましょう。

パッケージのインストール

まず、必要なパッケージをインストールする必要があります。まだインストールしていない場合は、以下のコマンドを実行してください：

pip install requests beautifulsoup4 urllib3

プログラムコード

さて、プログラムが完成したので、早速コードを共有します！

重要な箇所は枠で囲まれている部分で、あなたのニーズに応じて調整する必要があります。

file_crawler.py
import os
from urllib.parse import urljoin

import requests
from bs4 import BeautifulSoup

# ブラウザのヘッダーを模倣
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
}

# ウェブページのURL
url = "put_your_url_here"

# 対象ファイル形式
target_format = ".pdf"

# HTTP GETリクエストを送信し、ヘッダーを追加
response = requests.get(url, headers=headers)

# リクエストが成功したか確認
if response.status_code == 200:
    # BeautifulSoupでHTMLを解析
    soup = BeautifulSoup(response.text, "html.parser")

    # すべての<a>タグを検索し、href属性が対象形式に一致するリンクを抽出
    target_links = []
    for link in soup.find_all("a"):
        href = link.get("href")
        if href and href.endswith(target_format): # ここでダウンロードするファイル形式を指定
            target_links.append(urljoin(url, href))

    # ファイルを保存するフォルダを作成
    os.makedirs("downloads", exist_ok=True)

    # 各ファイルをダウンロード
    for url in target_links:
        file_name = url.split("/")[-1]  # URLからファイル名を抽出
        file_path = os.path.join("downloads", file_name)

        # リクエストを送信してダウンロード
        response = requests.get(url, headers=headers)  # ヘッダーを同様に追加
        if response.status_code == 200:
            with open(file_path, "wb") as f:
                f.write(response.content)
            print(f"ダウンロード完了: {file_name}")
        else:
            print(f"ダウンロード失敗: {url}")
else:
    print(f"ウェブページにアクセスできません。ステータスコード: {response.status_code}")

プログラムの実行

コードが完成したら、プログラムを実行して、対象形式のすべてのファイルをダウンロードできます。

python file_crawler.py

☕ 1杯のコーヒーが支えになります

AIやフルスタックの情報発信を続けるため、ご支援お願いします。

ALL

AI・開発・運用まで一括対応

アイデアからリリースまで、技術面はまるごとお任せください。

対応内容

技術相談 + 開発 + デプロイ
継続サポート & 拡張

🚀 次のプロジェクト、始めましょう！

カスタム開発や長期支援をご希望の方は、ぜひご相談ください。