WordPressサイトのrobots.txtの書き方

robots.txtとは、検索エンジンのクローラーがサイトの中で最初にアクセスするファイルです。検索エンジンにインデックスしたく無いページなどがある場合には、robots.txtでクロール拒否の設定を行います。

WordPressのようなデータベースを利用しているサイトの場合、サイト内に検索結果に表示する必要の無いファイルと言うものが沢山あります。

クロール拒否設定

管理画面への訪問拒否

/wp-admin/や/wp-content/の中にあるファイルは、基本的には検索エンジンに見てもらう必要はありませんので、拒否設定を行います。

User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/

画像をWordPressの管理画面からアップロードしている場合、/wp-content/内にイメージファイルがありますので、そのイメージファイルはインデックスしたいという場合には以下のようになります。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Allow: /wp-content/uploads

特定のURLやファイルへの訪問拒否

パーマリンク設定によってURLを変更している場合には、

Disallow: /*?*
Disallow: /*?

という形で「?」のつくURLをインデックスさせない記述を追加しても良いでしょう。

また、phpやjsファイルを参照させたくない場合には、

Disallow: /*.php$
Disallow: /*.js$

という記述になります。

同じようにCSSファイルの参照を拒否するには

Disallow: /*.css$

という記述になりますが、CSSを利用したスパムをしているサイトなの?と判断されても嫌ですので、CSSの拒否はやめておいた方が良いかもしれません。

サイトマップをアピール

robots.txtではsitemap.xmlの存在をクローラに伝えることも出来ますので、最後にsitemap.xmlのURLを記述しておきます。

Sitemap: http://ドメイン/sitemap.xml

これで完了です。

全てをまとめるとこんな感じになります。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$

Sitemap: http://ドメイン/sitemap.xml

関連記事

タグ


公開日:2011年2月14日
最終更新日:2011年12月16日

コメント/トラックバック(0) |

カテゴリー:検索エンジン

トラックバック&コメント

この投稿のトラックバックURL:

コメントをどうぞ

※スパムと判断したコメントは削除しています。

このページの先頭へ