搜索引擎基礎篇,了解搜索引擎是如何進行排序。在2011年的一篇文章當中,Google的官方文章曾經說道:
“給搜索結果排序是非常困難的,比大多數人認為的要困難得多。其中一方面原因在于語言本身就具有模糊性,容易產生歧義。而網頁本身的規則也不一樣。如何表達信息著實沒有標準,因此我們需要理解所有的網頁,不管是誰寫的,是什么目的創作出這些文件。而這樣做也僅僅能解決一部分問題。我們還需要了解人們所使用的查詢關鍵詞,通常少于三個字,并將其映射到我們對所有文件的理解上。況且不同的人有不同的需求,這一點更不用提了。我們需要在幾毫秒內做的所有事情就是……據估計,編程員/科學家對搜索引擎已經研究了很長的時間。盡管如此,創新的速度還沒有減慢。”
“谷歌搜索的時間通常只持續不到半秒鐘,然而其中卻涉及很多個不同的步驟。這些步驟在查詢信息的人得到搜索結果之前必須完成。”
搜索引擎根據多種因素來決定如何排列網站內容。在較高層面上,搜索引擎將各類內容和它們認為和內容相關的一系列關鍵詞聯系起來。
搜索者在進行查詢時,搜索引擎會搜集和該查詢相關的所有網頁,并按照相關度和有用性對其進行排序(基于以下因素:指向這些網頁的外部相關鏈接數目、外部鏈接文本以及意圖估測等——例如,如果搜索者打算購買某個東西,那么搜索引擎會盡量提供更多的電子商務網站),然后確保得到的網頁比較多樣化(這并不包括復制網站,也不只包含單一類型的網站)。
例如當用戶搜索一款手機的時候,搜索引擎需要知道用戶是想了解這方面的信息還是想找到賣這款手機的網站。由于要猜測搜索者的意圖,才能給用戶返回最相關的結果。所以,搜索引擎的技術當中有語義分析,搜索分詞,不斷索引各種網站等。
搜索引擎工作流程圖:
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明