內鏈:顧名思意就是在自己網站的內容中的相關文字加入鏈接,并且鏈接到網站內部的相關頁面。合理的網站內空鏈接構造,能提高搜索引擎的收錄與網站權重。相對外部鏈接,內部鏈接也很重要。
傳統方式
以前我們做文章系統或新聞發布系統的時候,做文章內鏈(標簽)的時候,通常是通過以下方式來實現的:
數據庫:article(文章表)字段(id, title, body, adddate, userid),keyword(內鏈表)字段(id, name, link)
在發布文章的時候,循環內鏈表內的所有,來替換文章的body。
這樣確實是實現了想要的功能,但是如果我們的內鏈表的數據達到很大的數目,比如2W、5W或更多的時候。每發布和修改一片文章的效率是可想而知的。那么網易的新聞、百度的百科等這樣打大型網站是如何實現的呢?如果按照以上的做法,那系統在幾個月后就直接崩潰了。
分析比較
一篇正常的文章會有多少字(不計HTML代碼)?1W?我想1W的文章已經算是很長的了,而且想在如果直接在一個頁面顯示1W的文章相信沒有幾個人有耐心能看完的。為了頁面美觀和用戶體驗,編輯通常都是將內容過多、篇幅超長內容的文章分段處理(分為幾篇文章,或分章節)。如果我們能事先將可能出現內鏈的字從文章中提取出來,再從數據庫里檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。我們就拿1W字的文章來說,假設文章的所有文字都需要內鏈,循環的次數是1W次。比上面的例子假設要強得多吧?
在傳統方式中,不管你要不要,把內鏈表的東西全查一邊。而下面這種思路是事先將有可能出現內鏈的字詞全部整理出來,再用這些詞分別去檢索內鏈表。這樣一比較問題就出來了。
新思路就是:從文章中取出需要內鏈的字詞,然后去查詢內鏈表。
可行操作
我們暫且把傳統方式稱為被動方式,把新思路的方法稱為主動方式。
主動方式的實現方法如下。
利用中文分詞技術,我們可以對一篇文章進行分詞。然后根據分詞后的詞表,過濾掉常用的物主代詞、副詞、感嘆詞等。把名詞、品牌、地名、商標等留下,或者根據自己的詞庫表來分詞。然后把剩余的字詞去檢索內鏈表,如果有存在,我們就坐上鏈接,不存在就PASS。
以上只是思路的一個初步構思,在實際實現過程中需要考慮的因素很多。我覺得重點就在分詞這個環節。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明