【日本語】Googleのランキングとウェブサイトの評価プロセスの概要をご紹介
テーブル「 Googleのランキングとウェブサイトの評価プロセスの概要」
- Googleのランキングとウェブサイトの評価プロセスについての説明
- サイトのクローリングと解析
- クローリングのタイムライン、頻度、優先度
- インデックスとフィルタリングのプロセス
- Googleのデータベース内の処理
- ページランクに基づくクローリングの方針
- クロールとインデックスの期間と頻度
- クローリングとインデキシングの最適化方法
- ページランクとリンクの重要性
- 検索結果のランキングとサービングのプロセス
Googleのランキングとウェブサイトの評価プロセスについて
こんにちは皆さん、ロバートVHさんから興味深い質問をいただきました。彼の質問は、Googleのランキングとウェブサイトの評価プロセスについて理解しているか説明してほしい、というものです。この質問は非常に広範で、多くの異なる要素をカバーしています。実際、私はエンジニア向けにGoogleの基本的な説明をする講義を行った経験がありますが、これらのトピックについて話すだけでも1時間はかかります。ですので、なるべく多くの情報をお伝えし、Googleインフラストラクチャーがどのように機能し、クローリング、インデキシング、サービングのパイプラインがどのように組み合わさっているかについて、感触をつかんでいただければと思います。
それでは、まず最初に、Googleが世界最高の検索エンジンになるために実施する3つの重要な作業について説明します。それは、ウェブを包括的かつ深くクロールすること、それらのページをインデックスすること、そしてそれらのページをランク付け、最も関連性の高いものを最初に返すことです。
クローリングは想像以上に難しい作業です。Googleが2000年に始まった当初、実際には3か月または4か月もの間、ウェブをクロールすることができませんでした。クロールを行うメンタルモデルとしては、ページランクを主要な決定要素としています。つまり、あなたをリンクする人々が多く、信頼性の高いほど、あなたのページをクロールする可能性が高くなります。ページランクの順序でクロールを行えば、CNNやニューヨーク・タイムズなどの非常に高いページランクを持つサイトを獲得することができます。以前の仕組みでは、30日間クロールし、約1週間インデックスを作成し、さらに約1週間それを公開していました。この期間をGoogleダンスと呼んでいました。さまざまなトリックもあります。たとえば、30日間クロールした後に、ページランクの高いサイトを再クロールすることで、CNNのホームページなどに新しい情報があるかどうかを確認できます。しかし、これは完璧な方法ではありません。なぜなら、ウェブをクロールするのに30日間もかかると、情報が古くなってしまう可能性があるからです。
そこで、2003年に「アップデート・フリッツ」と呼ばれる更新プログラムの一環として、ほぼ毎日ウェブのかなり大きなセグメントをクロールするように切り替えました。ウェブをいくつかのセグメントに分割し、それぞれの一部を毎晩更新するイメージです。つまり、いつも万全ではないものの、インデックスは比較的最新の状態を保つことができます。そして、時間の経過とともに、さらに改善してきました。現在では、更新情報を非常に迅速に把握することができます。昔はメインのインデックスとは別に、サプリメンタルな結果やサプリメンタルなインデックスと呼ばれるものもありました。これはあまり頻繁にクロール・インデックス化されないドキュメントで構成されていましたが、ドキュメント数は非常に多かったです。
次に、インデックス化について説明します。インデックス化では、単語の順序で情報を取り扱います。たとえば、「Katy Perry」という言葉がドキュメント内に出現した場合、インデックスでは「Katyがどのドキュメントに出現するのか」「Perryがどのドキュメントに出現するのか」という情報を持つことが必要です。あるドキュメントが「Katy」と「Perry」の両方を含んでいれば、そのドキュメントが関連する可能性があると判断します。そして何度も繰り返します。さまざまなドキュメントがどの単語を含んでいるのかをインデックス化することで、あるユーザーが「Katy Perry」と入力した場合、それにマッチするドキュメントを見つけることができます。ページランクや200以上の他の要素を使用して、これらのドキュメントのランキングを決定しようとします。たとえば、ドキュメントが非常に信頼性が高く有名である場合でも、ページランクの影響が少ない場合、または「Katie」の単語が別の場所にしか存在しない場合、ランキングには影響を与えません。一方、隣接して「Katie」と「Perry」という単語が出現し、多くのリンクが指しているドキュメントでは、それらをバランスして評価する必要があります。要するに、ユーザーが入力したキーワードに関連し、信頼性の高いドキュメントを探すために、これら200以上のランキングシグナルを組み合わせる方法を見つけることが、Googleのランキングの鍵です。
その後、Googleにアクセスするたびに、数億回ものクエリが行われ、最も関連性の高いドキュメントを見つけるために、ユーザーに最も近いデータセンターにアクセスします。キーワードが含まれるドキュメントを見つけるために、数百の異なるマシンに同時にクエリを送信し、それぞれのマシンがインデックスからマッチするドキュメントを見つけます。そして、全体のインデックスにおける最も関連性の高いページを取り出し、便利なスニペットとともに表示します。これにより、ユーザーは半秒未満でキーワードがドキュメント内でどのように表示されているかを確認することができます。
以上が、Googleのクローリングシステム、ドキュメントのインデックス化、結果のランキングについての簡単な説明でした。もし詳細を知りたい場合は、Googleやページランクに関するさまざまな記事や学術論文を参照することができます。また、Googleの求人情報もご覧いただければ、検索エンジンの仕組みについてより詳しく学ぶことができるでしょう。
どうもありがとうございました。