クローリングで使うサイトマップとは
auです。
クローリングを勉強しようと思い、色々なサイトを見ていると「サイトマップ」というものを見つけました。深くは知らないことだったので調べてみました。
サイトマップとは
サイトマップとは、サイト全体のページ構成をまとめたページのことです。
つまり、そのサイトにどんなページがあるのかを伝えるためのページです。
これがしっかりと整備されていることで、クローラーの手助けにもなり、ページの負荷が軽くなったり、検索順位が安定する速度も早くなります。
サイトマップは2種類あります。
- HTMLサイトマップ:ユーザに対してページ構成を伝え、サイト内のどこにいるのかが分かります。
- XMLサイトマップ:クローラ用のサイトマップになっていて、クローラーがたどり着きにくいサイトの存在も伝えることができ、SEO対策になる。
昔はクローラーもHTMLサイトマップを使っていたためSEO対策に利用していましたが、今はXMLサイトマップがあるのでSEO対策にはあまり繋がらないみたいです。
HTMLサイトマップを作るプラグインが用意されているものもあるらしいです。
XMLサイトマップの方がクローリングと関係あるみたいなので、もう少し触れてみます。
XMLサイトマップを導入する際には、Google XML Sitemapsというプラグインを使うようです。
このプラグインを利用し、Google Search Consoleにサイトマップを送信するだけで設定できるみたいです。
その他にも、robots.txtに「Sitemap:http://example.com/sitemap.xml」のように、XMLサイトマップの場所を検索エンジンに教える方法もあるようです。
ちゃんと容量などの制約もあるようで、サイトマップファイルに含めることのできるURLは50000件までで、ファイルサイズは50MB以下にする必要があるようです。
超えてしまう場合には、XMLファイルを分割することで対応します。