クローラーとは?仕組みや重要性・巡回してもらうための対策を解説
クローラーとは、インターネット上にある全てのWEBサイトを巡回しているロボット(bot)のことです。クローラーが収集した情報を元に検索順位を決めているため、SEO対策を行う上で理解しておきたい存在です。
当記事では、クローラーの種類や仕組み、SEOにおける重要性について解説します。クローラーについて知りたい方はぜひ参考にしてください。
【この記事はこんな方におすすめです】
- 検索結果に表示されずに悩んでいる方
- 検索結果の上位を狙っている方
- クローラーの仕組みや対策について知りたい方
- WEBサイトを公開してから検索結果に表示されるまでの流れを知りたい方
クローラーとは?
クローラーとは、検索結果の表示順位を決めるために、インターネット上にある世界中のWEBサイトの情報を収集している巡回プログラムのことです。這い回る(crawling)という意味でクローラーと名付けていますが、「ロボット(bot)」や「スパイダー」と呼ばれることもあります。
クローラーが巡回することを「クローリング」といい、クローラーが集めた情報をデータベースに登録することを「インデックス」といいます。
Google等の検索エンジンは、ユーザーに最新の情報を適切に届けるため、常にクローリングを行い検索結果の表示順位を決定しています。
クローラーの種類
クローラーは検索エンジンごとに存在しているため、いくつかの種類があります。下記は、日本で主要なクローラーの一覧です。
クローラー | 検索エンジン |
---|---|
Googlebot |
|
Yahoo Slurp |
Yahoo! ※日本以外 |
Bingbot |
Bing(マイクロソフト) |
Baiduspider |
百度 |
AppleBot |
Apple |
Yetibot |
Naver |
世界で最も利用されている検索エンジンは、Googleです。日本国内でも、検索エンジン利用者の7割以上がGoogleを使用しています。また、次いで利用者の多いYahoo!JapanもGoogleの検索アルゴリズムを用いているため、2つ合わせると9割以上のシェアを占めています。
そのため、日本人に向けてSEO対策をする際はGooglebotを意識して作ることが重要です。
SEOにおけるクローラーの重要性
検索結果の表示順位は、検索エンジン独自のアルゴリズムで決定されます。しかし、クローリングされなければ、そもそも検索結果に表示されることはありません。
つまり、どれだけ質の良いコンテンツを作成しても、クローラーに発見されなければ見てもらうことが出来ないということです。
SEO対策をするためには、「クローラーが理解しやすいサイト構造にしておくこと」が重要です。
クローラー含む検索エンジンの仕組み
検索エンジンとは、欲しい情報をインターネットで検索するために構築されたシステムのことです。私たちは、Google等の検索エンジンにアクセスして、調べたいキーワードを検索窓に入力すると、そのキーワードに関連したWEBページを一覧で見ることができます。
どのようにして私たちに検索結果を表示しているのか、その仕組みを解説します。
クローラーが巡回する
検索結果に何をどの順番に表示させるのかを決定するためには、まずインターネット上にどのようなWEBページがあるのかを把握する必要があります。そのためにGoogle等の検索エンジンは、クローラーを巡回させて、新しいページや更新された情報を常に検出しています。
このように、クローラーが巡回して情報を収集することをクローリングと言い、新しく公開されたコンテンツはクローリングされて初めて検索エンジンに認知されます。
ただし、クローラーはインターネット上に公開されている全てのページを巡回しているため、クローリングされるまで時間を要する場合があります。
インデックス登録される
インデックスとは、クローラーが集めたWEBページの情報をデータベースに登録することです。
クローラーは、巡回した全てのページをインデックス登録するわけではありません。巡回したサイトの中から、検索結果に表示するページを選んでインデックス登録しています。つまり、クローリングされただけでは検索結果には表示されず、インデックス登録されて初めて検索結果のランキング対象になるということです。
クローラーは、巡回したサイトの内容を分析するために、テキストコンテンツや主要なコンテンツタグなどを処理しています。その際、正規ページと認められなければインデックス登録はされません。コンテンツの質が低かったり、他のページと内容が重複していれば登録されない可能性が高いです。
検索結果に表示される
クローラーは、インデックスしたページの中から、検索ユーザーが求めていると推測される情報を検索結果に表示しています。この際、検索されたキーワードを元に、関連性が強いページや信憑性の高いページから順番に表示しています。
検索結果に表示する順番を決める仕組みのことを「検索アルゴリズム」といい、Googleは独自の基準で検索結果を表示しています。数百におよぶアルゴリズムがあり、アップデートを繰り返しながら精度を高めています。
クローラーに巡回されたか確認する方法
サイトを更新してからクローリングされるまで時間がかかる場合があります。そこで、無事にインデックスされたかどうかを確かめる2つの方法をご紹介します。
site:で確認する
Googleの検索窓に「site:確認したいサイトのURL」を入力して検索をすると、インデックスされているかどうかが分かります。サイトドメインを入力すると、実際にインデックスされているページが検索結果に表示されるため、自分たちのサイトの中で何ページがインデックスされているのかを把握することが出来ます。
Googleサーチコンソールで確認する
Googleサーチコンソールでも、インデックス登録されているかどうかを確認することが出来ます。
サーチコンソールにログインし、上部の検索窓に確認したいページのURLを入力します。
入力したURLがインデックス登録されていると、「URLはGoogleに登録されています」と画面に表示されます。「URLがGoogleに登録されていません」と表示された場合は、インデックスされていません。その場合は、「ガバレッジ」で原因を調べることが出来ます。
左のメニュータブから、「カバレッジ」を選択するとステータスが表示されます。ステータスは4種類あり、それぞれ下記を示します。
エラー
クロールに失敗した場合やインデックスされていない場合に表示されるステータスです。ページの下部にある検出ページを押すと詳細が表示され、対象のURLを確認できます。
有効(警告あり)
インデックスはされているが注意事項のある場合に表示されるステータスです。念のため注意事項を確認しておきましょう。
有効
インデックスされている場合に表示されるステータスです。
「インデックス登録されましたが、サイトマップに送信していません」と表示されている場合は、サイトマップにURLを追記してください。
インデックスさせたくない重複コンテンツが「有効」になっている場合は、noindexタグを設定しましょう。
除外
エラー以外の原因でインデックスされていない場合に表示されるステータスです。noindexタグを付けたページや、すでにインデックスされている正規ページと重複するページなどが対象です。除外のページ数が多い場合は、クローラーの回遊性に影響を及ぼす場合もあるため、事前に対策をとりましょう。
SEO対策に必要なクローラビリティとは?
クローラビリティとは、「クローラーがどれだけ情報を集めやすくなっているか、サイトを巡回しやすくなっているか」を示す指標です。クローラビリティを改善することで、クローラーにサイトを発見してもらいやすくなります。
クローラーは世界中のWEBサイトを巡回しているため、発見されやすい状態を作っておくこと、正しくクローラーに情報を伝えること、効率よくサイト内を循環してもらうことが大切です。
クローラーに早く巡回してもらうための対策
クローラーに早くサイトを巡回してもらうため、クローラビリティを改善する方法を11個ご紹介します。
- 内部リンクの最適化
- XMLサイトマップの作成と登録
- パンくずリストの設定
- URLの構造を見直す
- ディレクトリ構造を修正
- robots.txtの設置
- リンク切れページ削除
- 被リンクの獲得
- ページ表示速度の改善
- Javascriptの最適化
- Googleにクロールを促す
内部リンクの最適化
内部リンクとは、同じサイト内の別ページに遷移するリンクのことです。
クローラーは基本的にリンクを辿ってサイトを巡回しているため、内部リンクを最適化しておくと、クローラビリティが向上しサイト内を巡回しやすくなります。
ただし、内部リンクは設置すればよいというものではありません。関連性の高いページや専門性の高いページへのリンクを設置しましょう。
XMLサイトマップの作成と登録
サイトマップとは、サイト全体のページ構成を地図のように一覧で表示しているページのことです。サイトマップには、「HTMLサイトマップ」と「XMLサイトマップ」があり、検索エンジンにサイト構造を分かりやすく伝えるためには、XMLサイトマップが必要です。
Googleは、CMSなどのツールで自動作成することを推奨しています。多くのCMSツールにはサイトマップを作成する機能がありますので、その機能を使って作成しましょう。CMSツールが使えない場合は、「sitemap xml editor」や「sitemap xml generator」等のツールが有名です。
WordPressでサイトを作っている場合は、プラグインを使って簡単に作成することができます。「All in One SEO」というプラグインを使えば、ページを新しく作った時や更新した時に自動でXMLサイトマップを作成できます。
パンくずリストの設定
パンくずリストとは、WEBサイト上の現在地をユーザーに知らせるために表示させるページ階層のリストのことです。通常は、ページの上部に「ホーム>ブログ>SEO対策>記事名」といった形で、「>」でページ階層を区切って表示されます。
パンくずリストを設置することで、クローラーはサイト構造を認識しやすくなり、効率的にクローリングできるようになります。
URLの構造を見直す
Googleは、シンプルかつ分かりやすいURLを推奨しています。キーワードを含めつつ端的に内容が伝わるURLに設定しましょう。
URLが長すぎるとファイル容量が大きくなり、WEBサイトの表示速度が落ちてしまう原因となります。クローラビリティを向上させるためには、出来るだけ階層は少なくすること、1つの階層を出来るだけシンプルにすることが大切です。
ディレクトリ構造を修正
ディレクトリ構造とは、サイトのトップページからコンテンツにたどり着くまでの階層構造のことです。
例:ブログ記事
- 第一階層:トップページ
- 第二階層:ブログの記事一覧ページ
- 第三階層:記事ページ
Googleは、「ディレクトリ構造の浅いコンテンツほど重要なコンテンツとみなす」としています。そのため、階層が増えれば増えるほどクローラーには「重要度の低いコンテンツ」だと認識されてしまい、クロールの頻度が低下する可能性があります。
クローラビリティを向上するためには、出来るだけシンプルなディレクトリ構造を意識することが大切です。
robots.txtの設置
robots.txtとは、クローラーに対して読み込んで欲しくないコンテンツを伝えるためのものです。クロール不要なコンテンツにrobots.txtを設置することで、より重要度の高いコンテンツを優先的にクロールさせることができます。
ただし、robots.txtを設置したからといって必ずしも検索結果に表示されないというわけではありません。クローリングされたくないページには、noindexタグを設置することをおすすめします。
リンク切れページ削除
クローラーはリンクを辿ってサイトを循環しています。そのため、ページが遷移できないリンクがあるとクローラーが適切に情報を収集できず、SEO評価が低下する可能性があります。
URLを変更した場合やページを削除した際は、必ず内部リンクを書き換えましょう。外部リンクは、定期的に無効になっているリンクがないか確認し、あれば削除しましょう。
被リンクの獲得
被リンクとは、外部サイトから自社サイトへ向けられたリンクのことです。クローラーはリンクをたどっているため被リンクを獲得することでクローリングされやすくなります。
また、Googleは「価値のあるコンテンツは多くのWEBサイトからリンクが貼られるであろう」という観点から、コンテンツの価値を示す基準の1つとして被リンクの数を重視しています。
クローラビリティの向上だけでなく、SEOの評価向上のためにも外部リンクを増やすことをおすすめします。
ページ表示速度の改善
表示速度とは、URLにアクセスしてからサイトが表示されるまでの時間のことです。表示速度が早いと、クローラーは効率的に巡回できるため、インデックスされやすくなります。
また、表示速度はユーザビリティにも直結するため、SEO対策を行う上で必ず改善したい項目の1つです。
Javascriptの最適化
JavaScriptは、動的なコンテンツやユーザーインタラクションの強化に用いられるプログラミング言語です。ただし、クローラーはJavaScriptを用いて生成されるコンテンツを認識できなかったり、認識するまでに時間がかかる場合があるので注意しましょう。
不必要なJavaScriptは削除し、JavaScriptを実装する場合はタイトルやタグを正しく設定してクローラビリティを損ねない工夫が必要です。
Googleにクロールを促す
Googleのクローラーは常にサイトを巡回しているため、自動でクローリングしてくれますが、こちらから促すことも可能です。
Googleサーチコンソールにログインし、クロールを促したいURLを入力します。「URL検査」から「インデックス登録をリクエスト」をクリックしたら完了です。
新しいコンテンツを公開した直後や記事を更新した直後にリクエストすることをおすすめします。
まとめ
世界中にあるWEBサイトの情報を収集している巡回プログラムのことを「クローラー」といい、検索結果に表示されるためには、クローラーにサイトを見つけてもらいインデックス登録されなければいけません。
膨大な数のインターネットサイトを巡回しているため、クローラーに発見されやすい状態を作っておくこと、正しくクローラーに情報を伝えること、効率よくサイト内を循環してもらうことが大切です。
弊社バースタイプでは、インデックス数をはじめ、表示速度や被リンク数など、SEO対策を行う上で重要なサイト状態を無料で診断し、レポートをお渡ししています。無料相談も受け付けておりますので、お気軽にお問い合わせください。