转贴:google变黄色低俗的秘密
【下列文字出现纯属肌肉抽搐不能自主敲击键盘所致,谢绝跨虫洞追捕】
【以下为转载正文】
最近google的事大家都知道,
CCTV上播放的视频是,当你搜索“儿子”,google的自动联想显示出很多淫秽的信息。
当时我就有点纳闷,据我了解,这个ajax的搜索框所产生的联想应该是采用了类似LRU算法一类的技术,即优先显示最近最多用户的搜索结果。也就是说,被联想到的词光热门没用,还必须要“近期很热门”才行。
我就纳闷了,难道诸如“儿子母亲不正当关系”这样的词条难道会长期被大量搜索吗?直到今天我看到下面这篇技术分析,我才恍然大悟。
以下内容大家看完,应该能够心领神会,不用我多说吧。
某些东西真的以为我们是弱智?从这种技术水平看来,他们比他们心目中的我们还要弱智。
【前情】
6月18日央视《焦点访谈》
记者:通过谷歌中国能搜索出来的淫秽色情和低俗信息非常的丰富,不仅有交友、视频、还有文字等等,而且搜索起来非常方便,它还提供了这么一种功能,你只要输入一个词,甚至是一个字它就能给你提供若干种选项,更为夸张的是,即使你输入的这个词并不暧昧,但是它却能给你引导到低俗的内容上,不信我们来看一下:输入一个儿子,它下面却出现了这样的一些选项“儿子母亲不正当关系”等等十个选项,而且这十个选项可以说都将引导你进入到那些低俗的内容,这样的结果应该说我们谁都没有想到。
参考用“谷歌搜索低俗引导”
此主题相关图片如下:
按此在新窗口浏览图片
Google的搜索引导词是根据近期搜索频率来分的,也就是说,引导词里会出现最近一段时间内搜索的次数较多的组合。Google Trends上就能查到流量比较大的情况下的搜索频率走势。
而更为先进的Google Insights for Search(http://www.google.com/insights/search/)里则详细地记录下了2004年至今各搜索组合的次数涨落,并且还可细分网页搜索、图片搜索、新闻搜索,和按不同国家与地域、不同时间段来进行检索。
请看图说话。
此主题相关图片如下:
按此在新窗口浏览图片
图一,关键字“儿子与情人”在6月10日以后的搜索地区分布图
此主题相关图片如下:
按此在新窗口浏览图片
图二,关键字“儿子母亲不正当关系”在6月10日以后的搜索地区分布图
此主题相关图片如下:
按此在新窗口浏览图片
图三,6月10日至6月17日的关键字搜索增长率分析
此主题相关图片如下:
按此在新窗口浏览图片
图四,5月19日至6月17日的关键字搜索增长率分析
解读:
在这几张“30天内统计数量”的表里我们可以看到,从6月10日起,“儿子与情人”和“儿子母亲不正当关系”两种搜索组合的搜索率直线上升,而之前的搜索量则几乎可以忽略不计。并且这些搜索近100%都是由北京的用户完成的。而且这些词条总共也就被搜索了十几二十来次。
同样,在搜索频率上升排行中我们也可以得到印证,这两个条目在过去从来没有这么“火热”过。
巧合?
同样是6月10日,同样是北京用户。同样是20次上下的搜索次数。
巧合?
真的是巧合吗?
此主题相关图片如下:
按此在新窗口浏览图片
___________________________________________________________
好玩贺卡等你发,邮箱贺卡全新上线!
http://card.mail.cn.yahoo.com/
Attached photo: (full size:part-001.jpg)
Attached photo: (full size:part-002.jpg)
Attached photo: (full size:part-003.jpg)
Attached photo: (full size:part-004.jpg)
Attached photo: (full size:part-005.jpg)
Attached photo: (full size:part-006.jpg)


他妈的太卑鄙了!狗日的中共
Jun 25, 2009 at 3:35 pm难道这次是个阴谋?
Jun 25, 2009 at 5:11 pm集体的力量干掉Google?
总以为自己够老练了..
Jun 25, 2009 at 5:26 pm很好的分析。
Jun 25, 2009 at 10:14 pmLRU算法类的技术,联想词必须是“近期很热门”,这是由搜索引擎自动统计完成的。通常过长的词条被用户搜索的概率极低,除非有突发性公共事件。显然,cctv和有关部门制造了一起公共事件。
Jun 26, 2009 at 2:58 am有点不好理解…20次左右的搜索就足以影响像”儿子”这样的常用词汇…可能是因为这种词汇太常用,很少有人拿它当关键字搜索吧。开始我还以为CCAV组织了一帮50c上万次地搜索呢。
Jun 26, 2009 at 5:22 am不是20次的搜索次数。
Jul 06, 2009 at 9:51 amgoogle显示的数字是经过修正的,有可能是2000、20000或者更多。