2005年3月6日

不要旧的,不要重复

上网就不能不知道Google,象我这样经常在网上转悠的人更是离了Google不行。Google太强大了,以至于我认为他过分强大了,将太多的东西放在里面了。有时候找一点东西,换几个关键词都没有办法找出真正有价值的东西,例如找一个软件的使用,而找到的几乎全是软件的下载网站,更令人泄气的是有时候打开一个页面一看,什么也没有,只是链接到了一个充满了关键字的页面。我不知道那些人是如何愚弄Google 的,不过我觉得有时候google是有点太过于细致了。如果再这样下去,我更希望在Blog里面寻找东西,因为毕竟Blog的时候你面对的是一个人,而非可能只是另一个从机器堆造出来的关键字垃圾堆。我希望Google可以增加以下两条查询命令,如我输入>2004就是指我想查找2004年之后的页面,对于2004年以前的页面不要显示出来了。这样就会方便了许多,因为有时候你明知道有些东西是绝不可能会出现然更早的页面上的。例如Java是 1995年才发明的,那94年的页面是根本不会有他的描述的。
还有一项我希望能够通过比较页面来去除重复的内容,因为当你查一个东西的时候,相同的内容会出现在不同的几十个网站上,在这个CTRL+C 和CTRL+V的时代,信息已经冗余的太过了,人人都说互联网是信息的海洋,极容易迷失在里面,我认为互联网更象是一个摆满镜子的迷宫,你在里面只看到一个个虚幻的影象,而却找不到真正的人在那里。其实通过页面过滤应该在技术上没有太大的难度的,现在的邮件过滤已经做的很不错的,我的MSN邮箱和Gmail邮箱里经常摆着过滤出来的垃圾邮件,虽然有误伤,但是准确率还是在百分之九十以上的。电子邮件的过滤现在流行通过统计邮件里的关键字进行Bays统计,根据垃圾邮件里经常出现的关键字来判断垃圾邮件。这样的软件现在功能上已经很成熟了。对于垃圾邮件的识别率地非常的高,如果用在搜索引擎里面,让我们不显示重复的页面,相信几乎就没有误伤了。如果两个页面上百分之九十的内容都相同,那就可以断定这两个页面的内容是一致的,只选一个页面显示出来就可以了。这样的技术在垃圾邮件里面已经应用的很好了。如果用在搜索引擎里面,应该更加得心应手的。当然了,这会大大的减少返回的页面的数量,不知道google是不是愿意呢?不过我认为从用户体验来讲,这应该是一个好主意,即使考虑到可能会影响搜索结果,也可以做成一个开关参数,通过添加这个参数可以使用这个功能。如果Google不愿意做,其他人也可以考虑一下,做一个插件,将Google的搜索结果过滤一下再显示给用户。做成IE和 FireFox的插件。

没有评论:

发表评论