Webサイトを運営していると、さまざまなエラーに遭遇するかと思います。その中の1つに「ソフト404エラー」があります。
このソフト404エラーは、SEOへの影響はあるのでしょうか?本記事では、ソフト404エラーがSEOに与える影響やソフト404エラーの具体的な原因、そして対処法について詳しく解説いたします。
ソフト404エラーへの正しい認識を持つことで、迷うことなくアクションを講じる一助となれば幸いです。
ソフト404エラーとは
ソフト404エラーとは、ページのコンテンツがないにもかかわらず、HTTPステータスコード200を返しているページのことを指します。
以下、Googleの公式ドキュメントより。
soft 404 とは、URL にアクセスしたときに、ページが存在しないことと 200 (success) のステータス コードをユーザーに伝えるページを返す URL のことを指します。場合によっては、メイン
コンテンツのないページや空白のページなどもこれに該当します。
つまり、ソフト404エラーのページは本来404エラーを返すべきページである、ということです。
通常の404エラーとの違い
ソフト404エラーと通常の404エラーの違いは、返されるHTTPステータスコードの違いにあります。
HTTPステータスコードが違うにせよ、いずれもクローラーからの認識としては「コンテンツはない」と判断されています。
ソフト404エラー | 通常の404エラー | |
---|---|---|
HTTPステータスコード | 200 | 404 |
ページのコンテンツ | 無し(or有る場合も) | 無し |
クローラーからの認識 | コンテンツは無い | コンテンツは無い |
ソフト404エラーがSEOに与える影響
2024年7月、GoogleのGary Illyes(ゲイリー・イリース)氏がLinkedInの投稿でソフト404エラーに関する注意喚起をしました。
そこでは、ソフト404エラーが良くない点として、以下の2つを挙げています。
- ソフト404エラーのページが有効であるとクローラーは考え、再訪問することでクロールバジェットをムダに消費する。
- ソフト404エラーのページは、インデックス作成時に除外されるため、検索結果に表示される可能性は低い。クロールに使用されたサーバーのリソースのムダ使いになる。
(ゲイリー氏の投稿:日本語訳)
ソフト404や他のソフト/クリプトエラー。それは私や他のロボットにとっての悩みの種です。
お気に入りのコーヒーショップのオンラインメニューを見て、コーンスパイスラテ(ヤクミルク入り)を注文します。でも、メニューにはあるのに在庫切れです。仕方なくハーフエスプレッソを頼みますが、それも在庫切れ。じゃあ、マッチャラテ(水栗ミルク入り)を注文しますが、それも在庫切れ。イライラしますよね。ここはコーヒーショップなのか、それともウェンディーズなのか?!
ユーザーにとっては、エラーページがHTTP
200(OK)ステータスコードで返ってくることはあまり気にならないかもしれませんが、クローラーはステータスコードを使ってフェッチが成功したかどうかを判断します。ページの内容が基本的にエラーメッセージであっても、クローラーはそのページに何度も戻ってきて、リソースを無駄に使ってしまいます。そして、こうしたページが多ければ多いほど、無駄に使われるリソースも指数関数的に増えます。その間、クローラーは実際に役立つコンテンツのある実際のページをフェッチするためにリソースを使うことができたはずです。クローラーは多くのリソースを持っていますが、あなたのサイトにはそうとは限りません。ソフトエラーが悪いのは以下の理由からです:
1.限られた「クロールバジェット」がソフトエラーに使われると、本来クロールすべき実際のページに使われません。
2.インデックス作成時にフィルタリングされるため、こうしたページは検索結果に表示されにくく、サーバーリソースを費やしてもほとんどROIがありません。
サーバーやクライアントでエラーが発生した場合は、適切なHTTPステータスコードを返して、私たちに理解させてください。
また、Google検索セントラル:大規模なサイト所有者向けのクロールバジェット管理ガイドには、下記のような記述もあります。
soft 404 ページは引き続きクロールされるため、バジェットが無駄になります。
ソフト404エラーは直接的なランキング要因ではないものの、クロールバジェットの観点でSEOに与える影響があるということです。
クロール量削減の動き
少し話はそれますが、クロール量を削減する動きも見られています。
Gary Illyes(ゲイリー・イリース)氏は、2024年のミッションはクロールを少なくし、ネットワーク上の通信量を減らす方法を見つけることだとLinkedInで投稿しました。
生成AIツールの普及により、コンテンツ数(=URL数)はこれまで以上に増えていくことが予想されます。Googleにとっては、本当に有益なコンテンツだけをクロールするということの重要性が増しているのでしょう。
(ゲイリー氏の投稿:日本語訳)
今年の私のミッションは、さらにクロールを減らし、ネットワーク上の通信量を減らす方法を見つけることです。
数日前、Redditのコミュニティに、投稿者が「Googleが過去の年に比べてクロールが減っているようだ」と感じているという投稿がありました。全体的にはそうではありません。私たちは以前とほぼ同じ量をクロールしていますが、スケジューリングがより賢くなり、クロールに値する可能性の高いURLにより焦点を当てています。
しかし、実際にはもっとクロールを減らすべきです。例えば、キャッシュの管理やユーザーエージェント間での内部キャッシュ共有をもっと賢く行うべきですし、ネットワーク上の通信量も減らすべきです。
もし、この取り組みに役立つようなIETF(または他の標準化団体)のインターネットドラフトや、私が見逃しているかもしれない実際の標準があれば、ぜひ教えてください。クロールの質を犠牲にすることなくクロールを減らすことは、皆にとって利益となります。
とくに大規模サイトの場合は、これまで以上に、クロールバジェットを重視することが求められるでしょう。
ソフト404エラーが発生する原因
ソフト404エラーが発生する原因としては、以下のようなものが考えられます。
- 404エラーの設定ができていない
- ページのコンテンツを読み込むことができない
- コンテンツの質や量に問題がある
- Googleの誤判定
404エラーの設定ができていない
ソフト404エラーの原因として、そもそも404エラーの設定を失念しているということがあります。
意図せずして、「.htaccess」の設定・記述ミスをしている場合もあるでしょう。
ページのコンテンツを読み込むことができない
以下のような理由で、ページのコンテンツを正しく読み込むことができない場合、ソフト404エラーになる可能性があります。
- ページ内でクローラーが読み込めないリソースを多く参照している
- ページの表示速度が遅く、正常にレンダリングできない
クローラーはページのHTML/CSS、JavaScriptなどを元に読み込んでいるので、コードの記述が原因になっている可能性があります。
コンテンツの質や量に問題がある
ソフト404エラーの原因の1つに、本来404エラーのHTTPステータスコードを返すべきページにおいて、正しく404設定ができていないことがあります。
ECサイトなど、ページを自動生成するようなデータベース型サイトでは、低品質なコンテンツ(質や量がないコンテンツ)が発生しやすいです。
たとえば、
- サイト内検索ヒット0件ページの「見つかりませんでした」の表示をする
- 条件絞り込みなどをして「該当する商品がありません」の表示をする
といったメインコンテンツがないページは、ソフト404エラーと判定されやすいです。
Googleの誤判定
上記のような理由にいずれも該当しない場合でも、Googleの誤判定でソフト404エラーとされてしまうことがあります。
この場合は、Google Search Console(Googleサーチコンソール)から対象URLをインデックス登録申請してみましょう。
ソフト404エラーの確認方法
ソフト404エラーは、Google Search Console(Googleサーチコンソール)で確認できます。
Webサイトでソフト404エラーが発生している場合、左メニューの「インデックス作成」>「ページ」>「ページがインデックスに登録されなかった理由」に表示されます。
ソフト404エラーの対処法
ソフト404エラーと判定されているページに対しては、以下のように対処します。
- HTTPステータスコードを確認し、必要であれば「404」を返す
- noindexを設定する
- canonicalを設定する
- ページのコンテンツを読み込める状態にする
- コンテンツの質を見直す
HTTPステータスコードを確認し、必要であれば「404」を返す
削除したページなどに対しては、必ず404エラーの設定をするようにしましょう。また、検索結果に表示させる必要がなく、ユーザーにも見せる必要がないコンテンツに対しては404エラーを設定することを推奨します。
私が実際に遭遇したケースでは、カスタム404ページのHTTPステータスコードが200で返されていました。カスタム404ページは404エラーのHTTPステータスコードを返す必要があり、200で返されているとソフト404エラーと判定される可能性がありますので、注意が必要です。
各ページにおいて、正しくHTTPステータスコードを返すことができているか確認することを基本としておさえておきましょう。
noindexを設定する
検索結果に表示する必要がないページにおいて、noindexを設定することで、ソフト404エラーが解消されます。また、noindexを設定すると、クロールバジェットの確保に間接的に寄与することもおさえておきましょう。
Google検索セントラル:大規模なサイト所有者向けのクロールバジェット管理ガイドに、下記のような記述があります。
クロールされる URL はすべてクロール バジェットに影響します。そして、Google が noindex ルールを見つけるには、ページをクロールする必要があります。
ただし、noindex はページをインデックス登録から除外するのに役立ちます。ページが最終的に Google のインデックスに登録されないようにしたい場合は、クロール バジェットを気にせずに、引き続き noindex
を使用してください。また、noindex などの方法を使用して Google のインデックスから URL を削除すると、Googlebot はサイト上の他の URL に集中できるという点も重要です。つまり、noindex
を使用すると、長期的にはサイトのクロール バジェットを間接的に解放できます。
なお、noindexを設定するための記述は以下の通りです。
<meta name="robots" content="noindex">
canonicalを設定する
ソフト404エラーと判定されているページで別ページをcanonical設定することで、ソフト404を解消することが可能です。
有効なのは、主に、自動生成ページなどで重複が発生していてソフト404エラーと判定されている場合です。
canonicalを設定するための記述は以下の通りです。
<link rel="canonical" href="正規ページURL">
ここで、404エラー、noindex、canonical、それぞれの設定シーンを整理しておきます。
検索結果に表示する必要性 | ユーザーに表示する必要性 | |
---|---|---|
404エラー | × | × |
noindex | × | ○ |
canonical | × | ○(別ページが正規) |
「検索結果に表示する必要があるのかどうか」「ユーザーにコンテンツを表示する必要があるのかどうか」を判断軸にすると考えやすいでしょう。
ページのコンテンツを読み込める状態にする
前述の通り、ページのコンテンツを正しく読み込むことができない場合、ソフト404エラーになる可能性があります。
そのため、以下のような観点に注意してクローラーがページのコンテンツを読み込める状態にしておくことが重要です。
- クローラーが各種リソースにアクセスできるようにする
- 必要ないリソースは削除し、ページの読み込み速度を改善する
コンテンツの質や量を見直す
コンテンツの質や量が原因でソフト404エラーになっている場合は、コンテンツそのものを改善しましょう。
極端に情報量が少ないページなどは、十分な情報量と質を確保するように心掛けます。たとえば、ターゲットにしているキーワードの検索意図に対し、情報の網羅性や独自性があるか、といった観点でコンテンツを見直すと良いでしょう。
詳しくは、検索セントラル:有用で信頼性の高い、ユーザー第一のコンテンツの作成を確認してみてください。
そもそも、こうした質の低いコンテンツがWebサイト内に多いことは、SEOに直接的な悪影響を与える可能性があります。
まとめ:SEOにおいてソフト404エラーは無視できない存在
この記事では、SEOにおけるソフト404エラーの影響をお伝えしてきました。
ソフト404エラーはSEOに直接的な影響を及ぼすものではないものの、クロールバジェットには影響を及ぼします。昨今、Googleのクロール量を減らす動きも見られるため、より一層クロールバジェットを確保することの重要性が高まっていると言えるでしょう。
クロールバジェットを気にする必要があるのは、基本的に大規模サイトの場合のみです。とはいえ、それ以外のサイトでもソフト404エラーが発生していた場合、何らかの問題を解決する糸口になるでしょう。
ソフト404エラーを侮ることなく、しっかり対処していきましょう。