关于我们 联系我们 加入收藏
首页 网站推荐 互联网日报 在线调查 企业 人物 互联网论坛 博客 流量通  
互联网观察中心首页 > 搜索引擎 > 正文
文章搜索
搜狗搜索的100亿网页数据从哪来
www.weamax.com 2007年01月03日 06:27 新浪科技
    搜狗网页搜索3.0于2007年1月1日正式上线,号称首个百亿规模的中文搜索引擎,收录100亿网页。

  打开SOGOU首页,“3.0”,“100亿”两组数字尤为显眼,看来SOGOU在拿抓取100亿页面来做文章,吸引众人眼光。但其所称的100亿数字,令眼镜蛇质疑,抓取的100亿页面质量怎么样,如果将一堆垃圾网站的页面抓来,不如不统计。

  根据搜索研究3年的经验,眼镜蛇试用以前研究搜索的方法前去搜索了某些关键字,得到的结果令人惊讶。首先拿“搜索 %D0%A1%CB%B5”当做关键字去搜索,得到了“1,463,786”个结果,根据前几十页显示,SOGOU抓取的几乎是互联网某些网站搜索结果的页面。比如第一名,抓的是百度相关搜索的文章。SOGOU本身是做搜索的,又去抓其他站的站内搜索,这样做是为了什么呢?原因之一,就是为了增加收录量,因为一个网站,站内搜索关键字可以去换,比如眼镜蛇在百度搜索音乐,SOGOU抓一次,眼镜蛇在百度搜索影视,SOGOU再抓一次,这样的话,搜索的次数越多,SOGOU抓的可能性越大,这种方法是SOGOU号称抓取百亿网页的其中之一。这种作法不会影响SOGOU的搜索质量,又同时给SOGOU增加了数据量,SOGOU在这点很聪明。

  针对做弊网站,SOGOU也是照抓不误,百度针对做弊网站的作法是封杀,然而SOGOU几乎不封的,只是降权,这一点又为SOGOU在数据量上做了贡献。像GOOGLE上的做弊网站也很多,多数虽然不封杀,但不会拿抓取网页数作为搜索宣传的手段。

  眼镜蛇又想到了个方法测试SOGOU抓取百亿页面的方法,就是利用几乎每篇文章中几乎出现的“com”,“的”等前去搜索,结果也令人失望,“com”词在SOGOU搜索中只找到“1,428,761,785”个结果。百度搜索“com”的结果个数为“100,000,000”,GOOGLE搜索“com”的结果个数为“628,000,000”,YAHOO中文搜索“com”的结果个数为“1,570,000,000”。在这个特别关键字上,百度,GOOGLE,YAHOO已经将此关键字的搜索结果个数处理了,SOGOU的数据应该是未处理的,其结果只有14亿多。很明显的看出,SOGOU网页抓取数据之多,但供检索的数量远没有100亿那么庞大。

  眼镜蛇利用SOGOU的“比比看”试着搜索了一些热门关键字,发现SOGOU的技术的确大有进步,好些词的结果满意度已经超过了baidu与GOOGLE。网页搜索质量上去了,但也不能撒谎称自己拥有百亿搜索结果,用户关心的是搜索质量,不是搜索数量。搜索行业,2007又是残酷竞争的一年,SOGOU要想一统天下,下面就要看怎么从百度,GOOGLE中抢用户了。

本文相关企业人物专题: [百度] [搜狗]

上一篇文章: 美风投两年投资搜索引擎3.5亿美元
发表评论 | 给朋友推荐这篇文章 | 打印 | RSS | 关闭



百度
搜狗
 
中国网站推荐 - 推荐会员网站, 加入这里
相关网站信息
相关公司股价
公司当前股价($)涨跌($)
今日互联网要闻
不懂公关,傻乎乎的迅雷还要..
点击朱骏四大死穴,游戏足球..
搜狗 PK Google:究竟谁能代..
传统互联网衍生出七个巨大商机
谷歌发布网站优化器 将解决..
Google法新社达成版权和解 ..
电子商务进入2.0时代 约15万..
凤凰卫视联手移动力推新媒体..
谷歌发布网站优化器 面向全..
阿里巴巴卫哲:布局未来当下..
本周热门文章
不懂公关,傻乎乎的迅雷还要..
百度500万收购一家web2.0网站
Vista难逃黑客之手 安全问题..
阿里巴巴深陷泥潭?
07年个人站长闯关,三条道路..
虎视近17000亿市场 阿里巴..
Youtube羽翼丰满 欲摆脱运营..
web2.0暗战VC
中国个人网站模式大全
第三届中国站长大会暨2007站..



最新社区会员: