三,百度的搜索技术真的先进吗
1,李彦宏总是吹嘘他的技术在美国获得专利,他发明了搜索技术,我们不防来看看百度总裁李彦宏在接受Forbes采访时扬言Google始创于1998年的Pagerank技术专利为其持有,Google抄袭了百度的Pagerank技术等
这里是笔者在网上找到的关于google和百度专利对比介绍文字说明
Li Yanhong的美国专利号:5,920,859。专利提交日期为1997年2月5日,批准日期为1999年7月6日
Lawrence Page(即Larry Page)于1998年1月9日提交,于2001年9月4日被批准,美国专利号6,285,999。
“两个专利申请的区别在于,他们谈的根本就是两回事。要解决的问题和实施方法都不一样,虽然研究对象是一样的,都是链接。
李彦宏的超链分析技术要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是,除了文件本身对关键词的引用外,还需要考虑反向链接中的关键词。具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接当中使用的锚文字(链接文字),一同记录在案。而搜索词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。
而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。Google的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。“
笔者还在网上找到一个笑话:“李彦宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多。
Larry Page和Sergey Brin著名的论文,《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。“
我有点喷饭了.
2,百度的搜索技术到底如何先进?
其实从上面的介绍我们就可以看到。
Google是按照网页级别(PageRank)来收录的,网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则采用的是来者不拒的原则,百度则不管三七二十一上来就抓整个站,对于网站内容不做分析就快速收录,公认的其爬虫数量非常庞大,如果你的ISP服务商对你有流量限制.那么,你就倒大霉了,你的流量全部被占掉了.
说白了,百度的搜索方法就是大量派出爬虫,大量收集尽可能快和尽可能多的搜集页面,这样一来大家就会发现,百度好像更新特别快,可是这样是以牺牲有效性为代价.大家可以做一个测试,随机抽取若干词语分别在google和百度里面搜索看看,还是那句老话:不怕不识货,就怕货比货.特别是在搜索专业性的资料的时候,百度的搜索基本上是胡扯.
百度甚至不遵守robots规则,笔者曾经有一个网站,这个网站内容有些敏感,主要是跟朋友们一起交流的,所以就不想被搜索引擎收录,按照惯例在根目录下放了robots文件,明确规定拒绝收录全站,可是过了一过多月居然还在百度搜索里面发现了这个网站的全部内容,更搞笑的是这个网站只有100多页,百度居然显示收录2万多页.
网上有评论指出:"中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。"
我们来看看百度是如何吹嘘的:
“自从2000年公司成立以来的六年中,百度一直专注于互联网搜索引擎技术的研发,在高性能搜索引擎网络系统架构、搜索引擎相关算法(网页抓取、内容索引、查询检索、超链分析、相关性评估以及作弊网页识别)、中文信息处理(分词、命名实体识别、拼音转换和查询纠错等)、网页文本挖掘、基于 社区</a>的搜索引擎、以及搜索引擎商业应用等方面,勇于创新实践,积累形成了一系列具有自主知识产权的核心技术,确保了百度在中文搜索领域的激烈竞争中一直处于领先地位。 ”
不明白一点,“处于领先地位”的百度准确率怎么会那么低呢,这里随便举两个词:“猫”“鸟”,大家搜索一下,看看百度与google有什么不同。
1,李彦宏总是吹嘘他的技术在美国获得专利,他发明了搜索技术,我们不防来看看百度总裁李彦宏在接受Forbes采访时扬言Google始创于1998年的Pagerank技术专利为其持有,Google抄袭了百度的Pagerank技术等
这里是笔者在网上找到的关于google和百度专利对比介绍文字说明
Li Yanhong的美国专利号:5,920,859。专利提交日期为1997年2月5日,批准日期为1999年7月6日
Lawrence Page(即Larry Page)于1998年1月9日提交,于2001年9月4日被批准,美国专利号6,285,999。
“两个专利申请的区别在于,他们谈的根本就是两回事。要解决的问题和实施方法都不一样,虽然研究对象是一样的,都是链接。
李彦宏的超链分析技术要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是,除了文件本身对关键词的引用外,还需要考虑反向链接中的关键词。具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接当中使用的锚文字(链接文字),一同记录在案。而搜索词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。
而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。Google的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。“
笔者还在网上找到一个笑话:“李彦宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多。
Larry Page和Sergey Brin著名的论文,《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。“
我有点喷饭了.
2,百度的搜索技术到底如何先进?
其实从上面的介绍我们就可以看到。
Google是按照网页级别(PageRank)来收录的,网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则采用的是来者不拒的原则,百度则不管三七二十一上来就抓整个站,对于网站内容不做分析就快速收录,公认的其爬虫数量非常庞大,如果你的ISP服务商对你有流量限制.那么,你就倒大霉了,你的流量全部被占掉了.
说白了,百度的搜索方法就是大量派出爬虫,大量收集尽可能快和尽可能多的搜集页面,这样一来大家就会发现,百度好像更新特别快,可是这样是以牺牲有效性为代价.大家可以做一个测试,随机抽取若干词语分别在google和百度里面搜索看看,还是那句老话:不怕不识货,就怕货比货.特别是在搜索专业性的资料的时候,百度的搜索基本上是胡扯.
百度甚至不遵守robots规则,笔者曾经有一个网站,这个网站内容有些敏感,主要是跟朋友们一起交流的,所以就不想被搜索引擎收录,按照惯例在根目录下放了robots文件,明确规定拒绝收录全站,可是过了一过多月居然还在百度搜索里面发现了这个网站的全部内容,更搞笑的是这个网站只有100多页,百度居然显示收录2万多页.
网上有评论指出:"中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。"
我们来看看百度是如何吹嘘的:
“自从2000年公司成立以来的六年中,百度一直专注于互联网搜索引擎技术的研发,在高性能搜索引擎网络系统架构、搜索引擎相关算法(网页抓取、内容索引、查询检索、超链分析、相关性评估以及作弊网页识别)、中文信息处理(分词、命名实体识别、拼音转换和查询纠错等)、网页文本挖掘、基于 社区</a>的搜索引擎、以及搜索引擎商业应用等方面,勇于创新实践,积累形成了一系列具有自主知识产权的核心技术,确保了百度在中文搜索领域的激烈竞争中一直处于领先地位。 ”
不明白一点,“处于领先地位”的百度准确率怎么会那么低呢,这里随便举两个词:“猫”“鸟”,大家搜索一下,看看百度与google有什么不同。
