「クロールエラー」ととことんつきあう

本ブログでは、クロールエラーに対処するための基本的な考え方やその方法、URL検査ツールの活用などを、実体験をまじえて紹介していきたいと思います。このブログを書こうと思ったきっかけは、私が昨年、2018年の8月に、「送信されたURLのクロールに問題があります」というエラーの急な増加に遭遇したことでした。このエラーは「インデックス カバレッジ レポート」のヘルプページを見ると、下記の様に記載されています。

送信された URL のクロールに問題があります: インデックスに登録するために送信したページで、上記のいずれにも該当しない不明のクロールエラーが発生しました。URL 検査ツールを使用して、ページをデバッグしてみてください。

「上記の」というのは、「サーバーエラー(5xx)」や「送信された URL はソフト 404 エラーのようです」などの、エラーとして分類されている他の項目を指すのですが、そのどれにも該当しない「不明のクロールエラー」が、このエラーです。このエラーに遭遇してから、私は悩みました。「不明のクロールエラー」にどう対処したら良いのか。なかなか糸口がつかめずにいました。そこで、GoogleのJohn Mueller(ジョン・ミューラー)氏にTwitterで質問してみました。

“Hello. I have “Submitted URL has crawl issue” error at GSC. I did “fetch as google” about some URLs with this error, they were succeeded to be indexed. These errors depend on a server status at that time, such as request timeout? I’d like to know the possible cause.”

「SearchConsoleで「送信された URL のクロールに問題があります」エラーに遭遇しましたが、Fetch as Googleをしても問題なく、普通にインデックス登録することができました。これらのエラーは、リクエストのタイムアウトなど、そのときのサーバーの状態に依存するのでしょうか。考えられる原因を知りたいと思っています。」

そうしたところ、John Mueller氏から以下の返答をいただきました。

“If you’re seeing crawl errors, and they’re for URLs that you care about, then I’d recommend chasing them down to find the source. Some might be accidental blips on the internet, some might be real issues on your site.”

「クロールエラーが大事なURLで起きているなら、その原因を見付けるまで掘り下げてみることを勧める。それはたまたまの事故かもしれないし、あなたのウェブサイトにおける本当の問題であるかもしれない」

この返答をうけて、私はこのエラーと、とことん付き合ってみようと心を決めました。

なお、このブログでの「クロールエラー」は、カバレッジレポートの除外項目にある「クロールエラー」とは違い、Search Consoleでアラートされるエラー、特に「送信されたURLのクロールに問題があります」のエラーを指します。除外項目にある「クロールエラー」は、サイトマップで送信していないURLのうち、「不特定。レスポンス コードが 4xx または 5xx レベルの可能性のあるエラー」となります。詳しくは、先日公開した弊社のブログ「US情報から読み解く、新サーチコンソール最新キャッチアップ【2019年2月版】」を参照ください。

「クロールエラー」の基本的な考え方と対処方法

さて、John Mueller氏のアドバイスも参考にしながら、クロールエラーについての基本的考え方をまとめると、おそらく以下のようなものになると思います。

  • クロールエラーは、効率的、効果的なクロールのためにも、解消することが望ましい。
  • 「エラーの発生数・発生頻度」及び「エラーが起きているURLの重要性」により優先順位を判断。
  • 特に、急激なエラー増加が観測された場合は注意が必要。

クロールエラーは、ないにこしたことはありませんが、大きなサイトであればあるほど、それを0にするのは困難が伴います。そのためまずは、その「重要度」や「緊急度」を見極める必要があります。その見極めに必要なのが、それが「いつ」検出されたのか、そして「どこで」起きているのかの情報です。

カバレッジレポートでは、エラーのサンプル※をCSVで、最大1,000件ほどダウンロードできます。ダウンロードしたCSVファイルには、そのエラーを検出したURLと、そのエラーを検出したクロール日とが含まれていますので、そのエラーが「いつ」「どこで」発生したのかを、サンプルチェックではありますが、分析することができます。

※ただしこのサンプルは、標本調査のようにランダムで抽出されたサンプルではありませんので、厳密な意味での「サンプル」ではないことを、留意する必要があります。とはいえおおまかな傾向をつかむには、非常に有用な情報となります。

上記の図は、

  • 送信された URL のクロールに問題があります(クロールエラー:青い線)
  • 送信された URL はソフト 404 エラーのようです(ソフト404:緑の線)

の2つのエラーについて、その発生月を横軸に、発生件数を縦軸に、Tableauを用いてプロットした図となります(データはサンプルとなります)

この図を見ると、青色のクロールエラーが、最近になって多く検出されるようになっていることが分かります。緑色のソフト404は、月によって波がありますが、急激な変化はありません。このように検出日を詳しくみてみることで、エラーの発生頻度の傾向をつかむことができるのです。

次に、これらのエラーを発生箇所ごとに整理したのが上の図となります。先ほどと同様に、青色がクロールエラー、緑色がソフト404です。こちらを今回は、URLの第一ディレクトリによって分類し、Tableauを用いて図示してみました(データはサンプルとなります)

これをみると、特定のディレクトリ(ここではcolumnディレクトリ)でエラーが発生していることがわかります。ただし、もともとcolumnディレクトリのURL数が多いのであれば、エラー数が多いのはある意味当然である場合もありますし、厳密なサンプルを抽出している訳ではないことは、留意する必要があります。ただこの方法により、エラーが起きている場所を集計することで、サイトのどこで問題が起きているのかを、おおまかにつかむことができます。

発生頻度と発生場所の傾向をつかめば、そのエラーの「緊急度」や「重要度」が判断できます。そのサイトにおける「重要なページ」で「急激に」エラーが増加しているのならば、その対処は早めに行った方が良いでしょう。逆に「あまり重要ではないページ」で「たまに」エラーが検出されるくらいでしたら、経過観察(様子見)でも当面は問題はないかもしれません。

私が遭遇した「送信された URL のクロールに問題があります」の場合、残念ながらそのエラーは、サイトにおける重要なディレクトリで多く検出されており、しかも急激な増加が見られました。このまま経過観察、という訳にはいかないので、私は、何とかして原因をつかむ必要がありました。

URL検査ツールの活用

緊急度や重要度を見極め、このエラーは対処した方がよいと分かったのならば、次はその原因を特定します。クロールエラーの原因は、「送信された URL が robots.txt によってブロックされました」や「送信された URL に noindex タグが追加されています」など、ものによっては分かりやすい(=すぐ特定できる)ものもありますが、私が遭遇した「送信された URL のクロールに問題があります」のように、原因がなかなか特定できないものもあります。その場合はURL 検査ツールを使用して、ページをデバックしてみると、何かをつかむことができるかもしれません。

あるページの原因を調査する際は、以前はFetch as Googleを用いることが多かったと思いますが、こちらのヘルプページにあるように、Fetch as Googleは2019年3月28日以降は利用できなくなり、代わりにURL検査ツールを使用することが推奨されています。

URL検査ツールの具体的な使い方はヘルプページに詳しく記載されていますが、最近では様々な機能が追加され、かなり便利になっています。エラー原因を特定する際には、「公開URLをテスト」してみるのがまずは良いと思います。

ライブテストが成功すると、「テスト済みのページを表示」から、そのページのHTMLソースやスクリーンショット、レスポンスコードやページのリリース、JavaScriptのコンソールメッセージなどの、その他の情報を詳細に確認することができます。

クロールエラーの原因は本当に多種多様で、なかなかその原因を特定することが難しい場合もありますが、まずはこのURL検査ツールを使ってみることをおすすめします。

私の場合、残念ながら「送信された URL のクロールに問題があります」のエラーについては、このURL検査ツールを使っても、原因を特定することはできませんでした。ただ、同時期に発生していた「ソフト404」については、このURL検査ツールを用いることで、原因を特定し、解消までこぎつけることができました。

オフィスアワーなどの公式情報からヒントを得る

URL検査ツールを使っても、それでも原因が特定できない場合、そんなときは、GoogleのUSオフィスアワーや、フォーラムでの投稿を確認してみるのも1つの方法です。例えば2018年10月19日のオフィスアワーでは、私が悩んでいた「送信された URL のクロールに問題があります」が取り上げられました(https://youtu.be/mDzkW2eX82s ※30分頃に質疑応答があり)。ここでは、サイトのURL数が多い場合にこの不明なクロールエラーが出ることがあるとの発言がありました。

また、Webmaster Central Forum や 新しいWebmasters Help Community などで関連の投稿を探してみたり、自分から投稿してみたりすることでも、有用な情報を得ることができます。私の場合は、「送信された URL のクロールに問題があります」エラーは、ウェブサーバーの生ログ上にクロールの形跡があるかを調べることが良いことや、JavaScriptのレンダリング・タイムアウトなどによっても、このエラーが発生することなどを知ることができました。

※生ログについては、こちらの「SEOにおける「生ログ」分析のススメ」も参照ください。

その後、私が直面した「送信された URL のクロールに問題があります」という原因不明なクロールエラーは、生ログを調査し、エラーが検出された時期に他の兆候がないかを調査した結果、Googleのクローラーが集中する時期に頻出するということが分かり、完全ではないですが、解決に向けて目処をつけることができました。その道のりは長かったですが、John Mueller氏をはじめ、多くの方々からの具体的なアドバイスやサポートをいただくことで、ここまでこぎつけることができました。この場を借りてお礼申し上げます。

最後に

以上、今回のブログではクロールエラーに対処するための基本的な考え方やその方法、URL検査ツールの活用などについて紹介してきました。クロールエラーを0にするのは困難が伴いますが、かといって、全く無視してよいものではありません。John Mueller氏が私にアドバイスしてくれたように、クロールエラーにはそのウェブサイトの「本当の問題」が潜んでいる可能性があります。

今回の記事が、原因不明の「クロールエラー」に悩む皆様の、何らかの助けになれば、幸いに思います。

デジタルマーケティング戦略、Web解析、SEO、リスティング広告、Facebook広告、Linkedin広告、Tableauでのデータビジュアライズなどなど、何か弊社でお役に立てそうなことがございましたら、こちらよりお気軽にご相談ください。ご相談は無料で承っております。

プリンシプルでは業界最高レベルの専門家として一緒にご活躍いただける方を募集しています。詳しくは採用情報のページをご覧ください。

お気軽にご質問、ご相談ください

関連タグ

外山大

東京大学大学院、修士課程修了。11年間の文部科学省勤務の後、ITベンチャーにてメール配信システムやウェブサイトの開発に従事。

関連ブログ