WordPressサイトのrobots.txtの書き方
robots.txtとは、検索エンジンのクローラーがサイトの中で最初にアクセスするファイルです。検索エンジンにインデックスしたく無いページなどがある場合には、robots.txtでクロール拒否の設定を行います。
WordPressのようなデータベースを利用しているサイトの場合、サイト内に検索結果に表示する必要の無いファイルと言うものが沢山あります。
クロール拒否設定
管理画面への訪問拒否
/wp-admin/や/wp-content/の中にあるファイルは、基本的には検索エンジンに見てもらう必要はありませんので、拒否設定を行います。
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
画像をWordPressの管理画面からアップロードしている場合、/wp-content/内にイメージファイルがありますので、そのイメージファイルはインデックスしたいという場合には以下のようになります。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Allow: /wp-content/uploads
特定のURLやファイルへの訪問拒否
パーマリンク設定によってURLを変更している場合には、
Disallow: /*?*
Disallow: /*?
という形で「?」のつくURLをインデックスさせない記述を追加しても良いでしょう。
また、phpやjsファイルを参照させたくない場合には、
Disallow: /*.php$
Disallow: /*.js$
という記述になります。
同じようにCSSファイルの参照を拒否するには
Disallow: /*.css$
という記述になりますが、CSSを利用したスパムをしているサイトなの?と判断されても嫌ですので、CSSの拒否はやめておいた方が良いかもしれません。
サイトマップをアピール
robots.txtではsitemap.xmlの存在をクローラに伝えることも出来ますので、最後にsitemap.xmlのURLを記述しておきます。
Sitemap: http://ドメイン/sitemap.xml
これで完了です。
全てをまとめるとこんな感じになります。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Sitemap: http://ドメイン/sitemap.xml
関連記事
- robots.txtの書き方
- 古いページや削除したページを検索結果から消す方法
- Google XML Sitemaps – sitemap.xmlの自動生成
- クローキングはスパム?
- 検索エンジンのインデックスを早める方法








