● 一 個 搜 索引擎程序主要由搜索器、索引器.檢索器和用戶接口等四個部分組成,主要存儲設備由頁面存儲器和存儲桶兩部分組成。
● 搜索器:爬蟲 抓取 壓縮 存儲庫
● 索引器:存儲庫提取網頁信息,分析和分解,建立關鍵字索引,初步排序處理,存入存儲桶,即硬件存儲單元。
● 用戶通過用戶接口提交查詢,檢索器根據輸入關鍵詞,在索引器和存儲桶進行查找,并且采用算法進行對結果的最終排序
網頁信息相關的頁面優先度算法
● 以網頁內容為基礎的算法:關鍵詞在特殊位置出現的狀況:例如titile,meta,des.
● 關鍵詞在頁面正文出現的狀況:關鍵詞出現總次數,出現單詞平均間隔,關鍵詞出現的頻率。
● 以網頁鏈接為基礎的算法:例如PageRank算法 HITS算法 對于HITS不足補充加強的一些列算法。
用戶行為相關頁面的算法
● 不能忽略用戶對搜索結果相關性的意見。通過對WEB日志的分析,調整頁面優先度
● 以點擊率為為基礎的Dir ect Hit 算法:通過搜索結果返回的點擊率和相關頁面停留時間長短來判斷頁面受歡迎程度。
● 其他用戶行為:例如通過用戶行為二次篩選,逐漸縮小搜索結果與用戶期望的差距。Cookie記錄,熱門關鍵詞等。。
使站點被收錄
如何讓站點收錄
● 假如沒有給收錄,是否給搜索引擎封殺?是否蜘蛛訪問你的站點?
● 所有站點數據呈現下降趨勢,甚至為零,并且多個搜索引擎出現這種情況
● 通過網站日志分析蜘蛛是否訪問站點:沒有鏈接,無效鏈接,無功而返。
我們要吸引鏈接。
怎樣使更多網頁被收錄
● 消除蜘蛛陷阱:robots.txt的設置 不要用蜘蛛訪問不到的技術顯示內容,例如彈出窗口,框架,FLASH,IMG,js 利用JS寫的下拉菜單。這樣一不能識別內容,二不能順著鏈接爬行。 動態URL地址過長,動態參數過多,? & = 等等,避免進入黑洞。。制作404頁面,確保服務器的響應。。至少在10秒以內能打開網站。
● 減少被忽視的內容:精簡網頁,蜘蛛爬過一定大小的頁面就會停止爬行,加入網頁內容過多,可以用不必要的內容用JS來寫。。 FLASH里面確保是你不想被收錄的內容,避免使用框架。
● 建立蜘蛛程序通道:設計站點地圖。
優化內容
搜索排名要素:主要的兩類
● 頁面要素:鏈接流行度,用戶行為,URL的長度 和深度,新鮮程度:內容,站點的結構,不要作弊
● 搜索請求要素:關鍵詞突出度,密度,頻率,內容,TF*IDF,搜索項接近度
吸引鏈接到你站點
● 目前最重要排名因素還是由鏈接決定的。
● 內容為王在以前的互聯網上是站有統計性的,但引起互聯網變化的不是內容,和是鏈接。這正的互聯網是能容易從一部分內容轉移到另外一部分內容。1998年的GOOGLE出現,打破了傳統的基于關鍵詞搜索排名算法,而是基于鏈接分析,利用鏈接來評判網頁等級質量。PR
● 鏈接的流行度:鏈接數量,鏈接質量,錨文本,
● 鏈接相關性:單純的錨文本來判定相關是不夠的,搜索引擎會查看錨文本周邊的詞,查看整個頁面甚至整個鏈接來源站點上的詞。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明