2006年12月31日

搜索引擎算法改进-用户满意度评分法

自从google使用链接评分算法以来,现在的流行的搜索引擎都开始采用这种算法了。简单来说就是利用互联网的本质--链接 来打分。某一个网页的被链接次数越多,说明这个网页越流行,因为公众的投票是最好的选择。通过计算链接,就可以给世界上所有的网页进行排序了。当然了,也不是简单的谁链接多就是谁厉害,还存在着一个权重的问题,也就是分值越高的网站,他说话的分量越重,因为根据普遍原理,一个值得依赖的人的说话可信度就越高。

现在的google,百度采用的都是这样的算法。当然实际应用起来并不是这么简单的。但基本原理应该就是这样。

现在看来这种算法是非常成功的,Google ,百度等利用这种算法都取得了理想的结果,排除人工因素,这也是非常有效的。

但是在这个里面,全是基于机器的算法进行的,没有考虑过人工的因素。搜索引擎是人在用,每天有大量的用户用各种单词来查找想找到的东西。什么样的内容用户最感兴趣呢?这只有用户自已知道,因为同一个单词搜索出来的结果会因用户的不同目的而有不同的反应,有些用户找到自己想找的东西,感到非常满意。同时有些用户则可能无法在第一页找到想要的东西,需要翻几页才能对搜索结果感觉到满意,这就降低了搜索的体验。

每天大量的用户对搜索引擎进行着检验,如果能够充分利用起这些用户的作用,对于改进搜索引擎的准确度和提高搜索引擎的用户体验有着非常好的效果的。搜索引擎不仅仅给出搜索结果的链接,同时给出的还有搜索结果的预览,正是这些预览可以让有户在打开网页之前就大致知道搜索内容是不是符合他的目的,从而决定是否打开相应的页面。

在这个过程中,用户扮演着一个评价的作用,用户会根据预览内容来评价相应页面的权重。符合他的需要,用户下一步动作就是点击,不符合,用户则不会点击搜索结果。这是一个评分的过程。如果收集用户的这种评分,将关键字和符合用户要求的结果对应起来,则得出一个用户评分系统。每一次搜索都是对于搜索结果的评分。

如通过关键词”linux"搜索的用户有非常大比例点击了http://www.linux.com这个网站,说明http://www.linux.com对应着linux这个词得分非常高,符合大部分人的要求,就可以将http://www.linux.com评为10分。而另一个搜索结果http://www.linux.org仅次于他,可以根据比例评为9分。如此类推,根据所得到的结果对原有的搜索结果进行重新的排序,则用户搜索的次数越多,这个结果将会越来越准确。



另外,时间因素也可以考虑在内,如最近的用户得到的结果越具有参考价值,随着时间的推移,权重越来越低,这样更加会具有现实意义。



我称这种算法为用户满意度评分法。是在现有搜索引擎算法上的一种改进,相信这种改进会提高用户的搜索体验,让搜索结果更加接近用户的要求。

1 条评论: