2009/01/20

SPAMじゃないサイトを集めるホワイトリスト "ぽぷる"

Spam Box by ArtWerk.
Spam Box on Flickr - Photo Sharing!

ホワイトリストで思い出しまたが、ホワイトビスケッツって昔ありませんでしたっけ;p

ぽぷる

登録作業は人間の目視確認によって行います(だから少しずつになってます)。明らかにSPAMでないと判断されるものだけを登録し、かつ複数の人間が判断したものだけをホワイトリストとして登録していきます。
また、ホワイトリストに登録されたブログの本文中で紹介されたブログもホワイトリスト候補として追加します(その後、人間の目視確認をします)。

最近自分もネットで検索すると言う時はGoogle検索Google ブログ検索を利用する割合が半々ぐらいになってきました。
正確な情報やチップスが欲しい場合はGoogle検索ですが、速報性の高い情報や話題値などを調べる際にはGoogle ブログ検索が欠かせません。

ページラングなどのアルゴリズムよりも時系列順やGoogle判断の関連度でブログの情報を調べることが出来ますが、同時にスパムが想像以上に多いです。

SPAMの定義は難しいですが、SPAMじゃないブログの定義として、

  1. 人間の手によって運営されていること
  2. 開始して1ヶ月程度は経っていること
  3. アフィリエイトが主目的ではないこと
  4. よそのブログのコピペではないこと(大部分が引用でコメントが1行のパターンはNGとする)

こういった内容でリストを作成しているみたいです。
人力なのでどうしてもペースが遅いですが、アルゴリズムが処理する場合は必ず裏をかかれることがありますが信頼性は人力の方が高いと思います。

 

ですが、現状は正直ボクの集めた有名サイト。と言う感じですね。

rel="nofollow"なども特別施されていないので、単純にWeb1.0時台のホームページのリンク集のような感じです。
どうしてWikipediaは外部リンクにrel="nofollow"がついているんでしょうか?

究極的な話、ぽぷるのサイトのページランクが10になった時、ぽぷるからリンクの張られているサイトの検索エンジンから見た価値というのはおそらく非常に高くなると思います。そうなればスパムサイトよりも上位にやってくるのではないかな。
もちろん目的がそう言ったことなら現状でも納得できます。

公共性を期待しているわけではありませんが、運営している中の人のことを知らないので、もしかしたSEO目的で作成した「木の葉を隠すなら森の中」というサイトなのかも…

 

まぁ、phpspot開発日誌が入っている時点で3と4はあってないようなモンと言うことが分かりました;p

ただ、ぽぷるのリストアップしたサイトの数が現在の2000件から将来的に数万・数千万となった時は非常に価値のある情報になってくれると思います。
どこまで人力でやるのか気になるところです。