ssig33.com

クローラー運用について

  1. fl.ssig33.com を公開した
  2. LDR ユーザーの中で ssig33.com を読むような人達は蛮族だった
  3. 15 万フィードほどいきなりクロールすることになった

という問題が発生しました。以下やった対処。

  1. クローラの UA に連絡先を入れる
    • これ多分一番重要
  2. 並列クロールするようにする
    • 同じドメインは並列にクロールしない
    • このドメインとこのドメインは並列にクロールしないみたいなブラックリストも作る
      • ドメイン違うけど裏側は一緒っぽいみたいのをアレするため
      • 手作業でリスト作るのもだるいので IP アドレス一緒だったドメインを全部ぶっこんだ
  3. 更新頻度が低いフィードのクロール頻度を下げた
    • 更新頻度の 1/2 もしくは 2 週間に 1 度のうち、頻度の高い方をクロール頻度とした
      • これで全然更新されてないやつは 2 週間に 1 度のクロールとした
      • さらに、クロールした結果フィードが更新された場合、かつ更新頻度からの次回クロールが 2 日以上先に設定されていた場合、翌日もクロールするようにした
        • これにより、長らく更新されてなかったブログがいきなり高頻度で更新されるようになってもある程度カバー出来るようになった(はず)

back to index of texts


Site Search

Update History of this content