PCで遊んだ日々の備忘録

Making PC and Customization PC

auth認証を使ったページがインデックスに登録されている!?

旧Search Consoleに次のメッセージが届いていました。(2018/02/11)

「インデックス登録の対象範囲」の問題が新たに 件 検出されました
新たに検出された問題:
robots.txt によりブロックされましたが、インデックスに登録しました
 

[Search Consoleを使用してインデックス登録の対象範囲 件の問題を修正] のリンクから新Search Consoleを確認すると該当のページは

httpdによるダイジェスト認証を設定しており、かつ該当ページを置いているディレクトリにはパーミッション 754を設定し、ユーザーエージェントからのアクセスに対して

403 Forbidden
 You don't have permission to access /members/page5auth.html on this server. 
 

を返すようになっています。

該当ページの状況をまとめると

  • <meta name="robots" content="noindex">の記述なし
  • robots.txt によりディレクトリをブロックしている
  • auth認証をかけている
  • 保存ディレクトリのユーザー実行権を止めている(一般ユーザーは開けない)

一方 Search Console ヘルプの インデックス カバレッジ レポート では

警告:略...インデックスに登録されないようにするには、「noindex」を使用するか、auth を使ってページへの匿名アクセスを禁止してください。...略

となっていますが今回、何故かインデックスされたようですね。どうやら外部リンクを辿って来たと思われます。

しかし、info:URLで検索すると何も表示されません。つまり一度登録され、その後削除されたようです。新Search Consoleのグラフを見ると1ヶ月ごとに登録と削除を繰り返しています。

次の画像はそのグラフのスクリーンショットです。

新Search Consoleはまだベータ版なのでデバッグ中のエラーなのでしょうか?謎です。Google ウェブマスター向け公式ヘルプ フォーラムでもここ2,3日「インデックス登録の対象範囲」の問題があがっているようです。

対応としては、実害はないので下記のように noindex を追記するのみでこのまま放置します。Search Consoleの設定も一切触りません。

HTML:
 <head>
 <meta name="robots" content="noindex"> 
 </head>
 

robots.txt でディレクトリをブロックし、auth認証をかけているので何の変化も起こらないはずですよね。正式版の Search Consoleのリリースまでそのままにしておきます。

クリエイティブ・コモンズ・ライセンス
Top of Pageの画像
sidemenuの画像