来源:每日经济新闻 | 2006-5-11 | (有1748人读过)
搜索引擎对搜索结果进行过滤和屏蔽,这是否一项极为复杂的网络技术难关?昨日,《每日经济新闻》联系到一位专门从事搜索信息安全的工程师。这位不愿透露姓名的工程师解释说,这项“信息过滤”技术不算是特别复杂的技术,甚至可以说,它是互联网界比较普及的技术之一。
据介绍,最常用的信息过滤、屏蔽技术被称为“关键字过滤”,这项技术为广大搜索引擎企业所掌握。用该工程师的话来说,这项技术几乎可谓“举手之劳”。其原理是,搜索引擎在服务器中设置一个“过滤词汇表”———其中列入一批敏感关键字、词,当服务器接收到用户提交的关键字后,第一步就是把该关键字与上述“过滤词汇表”进行匹配;一旦匹配成功,即与表中词汇相同,服务器将返回,从而结束搜索;只有没找到匹配词,服务器才会继续进行搜索,并最终给出搜索结果。
稍微复杂一点的过滤技术则是在搜索结果中进行二次过滤,从而避免那些绕开“关键字过滤”环节的违规内容传递出去。工程师表示,“过滤技术”并没有固定的格式,每家搜索引擎企业适用的具体技术、算法会有所区别,但基本原理和目的都是一样的。
该工程师承认,采用过滤技术对搜索引擎来说,会损失一定量的搜索量,“这是部分搜索引擎企业不轻易使用过滤技术的原因之一”。“但客户流失不会太严重,不至于影响搜索功能,也不会对搜索引擎的运营产生伤害。”
昨日记者进入谷歌主页,对“**”、“赌博”、“毒品”、“赌球”、“假学历”等关键字进行搜索,发现搜索依然有效,且搜索项有增加的趋势。比如对“**”关键字的搜索,显示有2800万条搜索结果,比昨日的1240万条翻了一番还多。
不过,当记者通过谷歌的.CN域名(www.google.cn)进入谷歌主页,输入“**”、“赌博”等关键字,意外发现在搜索结果页面的下方出现一行斜体提示句———“据当地法律法规和政策,部分搜索结果未予显示”。而在谷歌.COM域名(www.google.com)提交的搜索结果页面上,没有出现上述斜体提示句。
此外,对照谷歌.CN和.COM的搜索结果,发现数量相差很大。以“**”为例,在谷歌.COM上获得2800万条结果,而在谷歌.CN上只有350万条,后者只是前者的12.5%。
不过,即使谷歌.CN已过滤了大量搜索项,但在其搜索结果第一页,仍看到了诸如“免费**电影”之类的有效链接。看来,谷歌在提高过滤技术方面还有很长的路要走。
|