ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

新潟コンサルタント横田秀珠コミュのGoogle、動的URLの扱いに新見解「動的URLでOK」

  • mixiチェック
  • このエントリーをはてなブックマークに追加
簡単に説明すると、これまでの一般的な考え方は「静的URL推奨、動的URLの場合はパラメータ短めに」だったのですが、今回のGoogleの見解は「動的URLのままでOK」。クロール技術が進化してパラメータを適切に分析してインデックスすべきURL、すべきでないURLが判断できるようになったため、というのが趣旨。

Dynamic URLs vs. static URLs [Google Webmaster Central Blog]

技術的に進化したのも事実なのでしょうが、最近のウェブ環境にGoogleが検索技術を適応させたという見方もできます。

ブログや商品DBなど様々なソースからデータをかき集めてコンテンツ(ページ)を大量に生成するサイト(Technorati、はてなキーワード、など)、Buzzurlやはてなブックマーク、newsingなどのソーシャルブックマークやニュースサイトなど、10年前の世界にはなかったタイプのウェブが増加しています。これらのサイトは、システム的に自動生成されるものが多いほか、様々な切り口でコンテンツが吐き出されるので、類似したコンテンツを持つページ(URL)が大量に生まれる性質を持っています。

こうした昨今のウェブ環境においても検索インデックスの品質を維持するためにはGoogleもアプローチを調整する必要があり、内容が類似したページや内容がないページは除外し、検索結果に提示すべきページ(URL)を見つけ出すことが求められます。その答えの1つが、動的URLのままでもいい、という話なのでしょう。

たとえば、ソーシャルブックマークサイトで「SEO」というタグの一覧を表示する時、次のパラメータを持ったURLがあったとします。

1. ?keyword=SEO
(SEOタグのページ一覧、すべて)
2. ?keyword=SEO&userid=ALL&list=all
(SEOタグのページ一覧、すべて)
3. ?keyword=SEO&userid=userA&list=all
(ユーザAのSEOタグのページ一覧)
4. ?keyword=SEO&userid=userB&list=all
(ユーザBのSEOタグのページ一覧)
5. ?keyword=SEO&userid=userC&list=all
(ユーザCのSEOタグのページ一覧、すべて)
6. ?keyword=SEO&userid=userC&list=date
(ユーザCのSEOタグのページ一覧、日別)
7. ?keyword=SEO&userid=userD&list=all
(ユーザDのSEOタグのページ一覧、すべて)
8. ?keyword=SEO&userid=userD&list=year
(ユーザDのSEOタグのページ一覧、年別)
9. ?keyword=SEO&userid=userD&list=weekly
(ユーザDのSEOタグのページ一覧、週別)
10. ?keyword=SEO&list=weekly&userid=userD
(ユーザDのSEOタグのページ一覧、週別)

keyword タグ
user[ ] ユーザID
list 表示形式
date 日
weekly 週
year 年

この条件では、付与されているパラメータは異なっても 1 と 2 が同一内容、5,6,7も同じ内容、さらに8,9,10も同じ内容です。 1 は 2〜10の内容を兼ねているに違いありません。従って、パラメータを分析して関係性がわかれば、?keyword=SEO だけインデックスしてその他は重複・類似コンテンツとして除外すれば効率的です。

これらを全て静的URLにされてしまうと、適切な関係性がわからず全部インデックス対象になってしまう恐れがあります。たとえば、9と10のように、パラメータの順序が違うだけでも、静的URLに変換されるとURL構造も変わるので、クローラが両方ともムダにインデックスしてしまうわけです。これはGoogleにとって意味ないですし、検索ユーザーにとっても価値がない、そんな価値がないページを見せてしまうサイト運営者にとってもメリットがない、わけです。Googleとしては「下手に静的URL変換されるくらいなら、動的URLを自分達で分析して、クロールすべきURLを見つける」方がいいでしょう。

Rewriting your dynamic URL to one of these examples could cause us to crawl the same piece of content needlessly via many different URLs with varying values for session IDs (sid) and query. These forms make it difficult for us to understand that URL and 98971298178906 have nothing to do with the actual content which is returned via this URL. However, here's an example of a rewrite where all irrelevant parameters have been removed:

[追記] で、これを踏まえてサイト運営者はどうすべきか?ですが…

現在すでにサイトを運営している場合は現状維持です。要は、重複コンテンツのインデックス問題であって、ページの評価に影響を与える類のものではありませんので、どっちでもいいのです。これから新規にサイトを立ち上げる場合、従来の考え方なら「静的URLは強い推奨事項」だったのですが、今後はパラメータが構造化されていれば「動的URLでも問題ない」ことになります。(検索エンジンにとって)不必要なパラメータが多数ついているときは、静的URLに変換するときにそれらを取り除いてあげると親切。いずれにせよ、趣旨は「動的URLのままでいいよ、あとはこっち(Googleで)処理するから」って話なので、クローラに提供するURLが適切なものであれば、静的だろうが動的だろうがどうでもいい話。

もっとも、この話が関係してくるのは多数のユーザによってコンテンツが投稿・生成されるCGM・ソーシャル系サイトや、Wikipediaやブログ検索、辞書系サイトなど多数のコンテンツをひっぱってくるマッシュアップ系サイトです。通常のコマースサイトや不動産、旅行などのサイトには(基本的に、インデックスされたくないページは生成されにくいので)大して重要なお話ではありません。

個人的には、Googleは言ってることとやってることが違うことが多いので、静的URLにするのが一番安全だと思います。



引用
 http://japan.cnet.com/blog/takawata/2008/09/24/entry_27014847/



Googleは、自分の技術が凄いということを自慢しているだけで
ちゃんと静的にサイトを作った方がベストです。

コメント(0)

mixiユーザー
ログインしてコメントしよう!

新潟コンサルタント横田秀珠 更新情報

新潟コンサルタント横田秀珠のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング