2008-10-01から1ヶ月間の記事一覧

検索サーバ 2 クロールとインデックス生成

前回の続き 検索サーバは大きく分けて2つの機能に分けられる。 Web上のページを探しまわり、ページの情報を取ってきてDBに格納する機能と、ユーザが検索したときに該当するものをDBから探し出す機能だ。 当たり前だが、ユーザが検索するたびにWeb上から該当…

単語

GoogleのDBには、そのページ内に出てきた単語だけでなく、単語の出てきた順番も記録されている。 つまり検索するときに "おいしい 紅茶" とした場合と "紅茶 おいしい" とした場合で結果が変わるということです。 前者なら「おいしい紅茶の入れ方」みたいな…

アンカーテキスト

アンカーテキストはリンクの文字列のこと。 分かりやすく言うとこういうもの。 ネコの箱舟 この場合、"ネコの箱舟"がアンカーテキストになる。HTMLであらわすなら <a href="http://kokeodoshi.net/nhakobune/">ネコの箱舟</a> となる。いろいろなところにそのページへのリンクが張られていて、アンカーテキス…

ページランク

ページランクは割りと有名。 単純に言えば、どれだけ多くのサイトからリンクを受けているかの指標。基本的にはたくさんのサイトからリンクが張られているサイトは優良なサイトである可能性は高い。 ところがその点数は、1ページからのリンクにつき1点では…

Webページの順位付け

Webページの順位付け(検索したときに、どのサイトが上の方に並ぶか)は主に ・ページランク ・アンカーテキスト ・単語 によって決まる。

検索サーバ 1

Googleの本読んだ、だけじゃまずいと思ったけど 一気にまとめるのは大変だったので小分け。自分なりに理解した内容をメモる程度です。

Googleを支える技術を読んだ

「Googleを支える技術」を読んだ。 Amazon.co.jp: Googleを支える技術 ~巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ): 西田 圭介: 本分散処理やストレージの話が一番興味湧く。 検索サーバやクローラの仕組みも分かりやすかった。Googleってすご…