個人檔案子规独语 www.duyu.org相片部落格清單 工具 說明

技术拜物教笔记(3)



现在的网路页面数量暴涨,链接关系的复杂度呈指数上升,搜索引擎的蜘蛛也跑得越来越勤,终日不亦乐乎。这已经不是那个靠建立链接农场就可以轻易提高页面评级 的时代,我这个平淡的blog在外部链接上毫不占优,PAGERANK也低,但是搜索引擎还是十分公平地在结果页面馈送着不少通向我 的链接。如今我的访客超过70%是来自杂七杂八的搜索结果,这个数量三倍于直接到访的页面请求(剩下一些追不到来路位址的RSS访问),他们跳过首页直奔主题,各取所需,从选取的关键词和我的页 面内容上来看匹配度很高,而且倒回去看那正是结果页靠前的条目。这就是搜索引擎的高明之处--从草根网页里萃取有质量的信息。显然blog搜索的品质在过 去几个月里被大大改善了,目前是机器远远比人更喜欢我的内容,我很想知道其他blogger那里这方面的情况。

做内容搜索比做流量统计难,ALEXA发布工具条、放置网路嗅探器就可以坐收它要的数据,但是信息索引要的是去伪存真,我不是搞搜索引擎的,也懒得读文档,只偶尔从少得可怜的蛛丝马迹中大概猜度一二:

  1. 从流量入手,现在googlebot和雅虎inktomi跑动得很勤快,我想他们大概会重点关照那些在他们工具条反馈回来的数据 里很耀眼的站点。以前他们一两个月来看大家blog一次,如今是天天踩,变动得很快。这是好事,唯一遗憾的就是google把MSN SPACES日志的页面快照去掉了。
  2. 从页面语言入手,这是我的直观感觉,有待证实,虽然我们谁也不知道google是怎么优化最终结果的。就是说尽管它对各种内码一视同仁,但是 它偏好那些多国文字混排的页面(仅仅是我的感觉而已)。我在自己和别人那里观察到不少这样的例子。举个简例,如果在google搜索the heart asks pleasure first,或者Не буди только память во мне,带引号和不带引号都试试,结果就是那样直白。 另外,在我的blog副题还是那句俄文歌词的时候,google不恰当地在其他无关页面馈送过链接,我修改副题之后,这个情况得到了修正。我有时想这个会 不会是一种错觉,因为搜索引擎是在根据你的地域、平台内码、选择的国别入口来返回结果,这个直观的感觉也许只是google的一种区别化服务策略。想到这 个就有些好笑,因为这和民国初年单给袁世凯印独版报纸没什么差别,也好比《时代》杂志在仅仅面向亚太的版本上放个李宇春的笑脸,或者就像如今西方国家那些印上你大名的地区小报一样。
  3. 从时序入手,搜索引擎抓页面的周期频度在各个站点各异,但是对于爆炸性的事件,它要如何分配馈送结果来应付查询?这个时候新产生的内容就 “很不恰当地”提前。如果你在中文系统,没有开启个性化搜索,搜一搜2channel,就会看到这种情况。为什么它会把我的无关转贴在24小时不到的时间 就匹配到这里?关键第一还是时效,第二是因为2channel在中文中不是高频出现的。估计它做索引会参考页面生成时间。我在想对于某些商业宣传场合,是 否能在google跑完一轮之前用这个特性对它进行欺骗。顺便说,我用firefox和ie返回的是不同的结果,因为在火狐里我开启了个性搜索,而且它不 当我是位于大陆的中文用户,这时的结果页验证着我的第二个关于多国文字混排的结论。
  4. 访客地域和嗅探器记录对搜索结果有影响吗,对于这个我在使用中隐隐有一点感觉而已,还有待观察,这些搜索巨头不同于我们自己服务器上跑的轻量级测试程序,他们完全可以拿这些第一手的用户信息来优化输出。
  5. 再转贴几点卢亮的归纳,google真可爱,和我们大家想得挺不一样:a. google认为, 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象. 这个想法和我们通常的意识是相反的.

    b. Google认为, 一旦写入, 再也不删除和修改. 这点上google认为修改和删除会对系统造成潜在的伤害, 例如文件的不连续性, 文件定位的困难.我很欣赏这种朴素的哲学,我之所以对自己在delicious的订阅犹犹豫豫,就是因为页面访问的不确定性,我情愿自己拷贝存档,点击工具栏的blog it)

    c. Google将Linux的 file system的block更改为 64M , 也就是说, 写文件的最小单元是64M, 而不是我们通常的512字节, 两者整整相差了128000倍.

    d. Google认为修复是没有必要的, 当一个服务器出现问题的时候, 撤下来, 换上另外一个 google unit(google 单元)即可, 因为维修的成本远远大于直接上线一个全新的服务单元的成本. 说来容易, 其实只有当google结构真正实现高冗余和分布式这样的操作才可行, 而这些正是google的核心.
我自己还有一些不成熟的想法,想在自己的服务器上继续试验一下那些搜索程序。总的来讲是那句老话,计划赶不上变化,好比blogger的发布页在国内开 禁,google快照又能用了,我想将来的时代,如今的众多困难都不是大问题。老板在call我去打工了,这次先涂到这里,各位下次再见。

P.S. 百度在搜索质量、产品创新和公司文化上根本不能和GOOGLE比,但是我还是希望国货中的老大做强,不要有负那高企在上的股价。至于其他的综合性搜索引擎,我只用来比对结果,从来不会靠它们在网络上挖掘信息。

回應 (2)

請稍候...
很抱歉,您輸入的回應過長。請縮短您的回應。
您尚未輸入內容,請再試一次。
很抱歉,目前無法新增您的回應,請稍後再試。
若要新增回應,您的父母必須先給您權限。要求權限
您的家長已關閉回應功能。
很抱歉,目前無法刪除您的回應,請稍後再試。
您已超過每日回應上限次數,請於 24 小時後再試一次。
由於系統顯示您可能傳送垃圾郵件給其他使用者,因此您帳號中的回應功能已遭停用。 如果您認為自己帳號遭錯誤停用,請連絡 Windows Live 支援
請完成下列安全檢查,以完成回應。
您輸入的安全檢查字元必須與圖片或音訊中的字元相符。
春秋国语 已關閉此頁上的回應。
1 月 28 日
匿名 的圖片
路人甲 撰寫:
随搜索结果过来看完整篇文章不记得自己原来找的是什么的人飘过后留字 = =
12 月 11 日

引用通告

引述這則內容的部落格