關注微信
掃一掃
關注微信
掃一掃
摘要 :動態網站豐富了網站的功能 ,但是對於搜索引擎來說 ,情況就不同了 ,動態頁麵是在用戶“輸入內容”或者進行“選擇”時動態生成的 ,但是搜索引擎的“搜索機器人”無法“輸入”和“選擇” 。另外 ,搜索引擎要避免“搜索機器人陷阱(spider traps)”的腳本錯誤e
一 、動態網站的出現和優勢
最早互聯網出現時 ,站點內容都是以HTML靜態頁麵形式存放在服務器上 ,訪問者瀏覽到的頁麵都是這些實際存在的靜態頁麵。隨著技術的發展 ,特別是數據庫和腳本技術PERL 、ASP、PHP和JSP的發展 ,越來越多的站點都開懿扇《??囊趁娣⒉際侄巍1熱紓?頤竊?OOGLE.COM上搜索一個內容 ,得到的搜索結果頁麵文件"本身"在GOOGLE服務器上並不存在 ,而是通過程序在尊龍凱時輸入搜索內容時調用後台數據庫實時生成的 ,也就是說 ,這些結果頁麵是動態的 。
靜態頁麵的站點隻涉及文件的傳輸問題
,而動態站點則複雜得多
,用戶和站點之間出現大量的交互
,網站不再僅僅是內容的發布
,而是成為了一種"應用(Application)"
,是軟件業向互聯網上的擴張
,從軟件的角度看
,動態站點是邏輯應用層和數據層的分離
,數據庫負責站點數據的存儲管理
,而ASP
、PHP
、JSP等負責處理站點飴嘸?τ謾U庋?齙暮麽Τ?嗽黽雍芏嘟換スδ芡猓??匾?氖欽鏡愕奈?ぁ⒏?潞蛻?抖擠獎懍誦磯唷
?梢運擔?揮卸???炯際酰?殼盎チ??係惱廡┏?笮駝鏡憔筒豢贍艸魷幀?/P>
二 、搜索引擎抓取動態網站頁麵時麵臨的問題
從用戶的角度看 ,動態網站非常獯恚?岣渙蘇鏡愕墓δ埽??嵌雜謁閹饕?胬此擔?榭鼉筒煌?恕#ü賾謁閹饕?婧頭擲嗄柯嫉那?穡?約八閹饕?嫻墓ぷ髟?恚?? "")
根本的問題在?輸入"和"選擇"
,動態頁麵是在用戶"輸入內容"或者進行"選擇"時動態生成的,但是搜索引擎的"搜索機器人"無法"輸入"和"選擇"
。比如尊龍凱時要在當當書店站點查看馮英健的《網絡營銷基礎與實踐》一書
,介紹頁麵是動態生成的
,URL地址是
:
這裏在"
?"後麵的product_id參數值需要尊龍凱時輸入的
,"搜索機器人"可以通過鏈接找到 頁麵
,但是它無法輸入"
?"後麵的product_id參數值
,從而無法抓取這個頁麵文件
。
另外 ,對於通過鏈接達到這種帶" ?"的頁麵 ,技術上搜索引擎可以抓取,但是一般情況下搜索引擎選擇不去抓取 ,這是為了避免一種叫"搜索機器人陷阱(spider traps)"的腳本錯誤 ,這種錯誤會讓搜索機器人進行無限循環的抓取 ,無法退出而浪費時間 。
三 、動態網站的搜索引擎策略
印《???疽?凰閹饕?孀ト 。?梢圓捎媚諶莘⒉枷低橙砑????鏡闋??刪蔡?趁媯?庵職旆ǘ雜諞趁娣⒉己蟊潿?俚惱鏡惚冉蝦鮮剩?熱繅恍┬攣爬嗟惱鏡悖ㄈ縲呂說男攣胖行模?A href="https://news.sina.com.cn/">https://news.sina.com.cn/ ) 。
一般的動態網站可以通過下麵的辦法讓搜索引擎抓取
:
首先
,尊龍凱時要讓動態頁麵的URL地址中沒有"
?"
,讓動態頁麵看上去象"靜態頁麵"
。看看下麵這個頁麵
,這明顯是一個動態頁麵
,但是URL地址看上去卻象"靜態頁麵"
。針對不同的動態技術可以采用下麵技術實現
:
·對於采用ASP技術的動態頁麵Exception Digital公司提供一種工具叫著XQASP( )可以將"
?"替換為"/"
。
·對於采用ColdFusion技術的站點
,需要重新配置服務器上的ColdFusion
,用"/"代替"
?"將參數傳輸到URL
,更詳細的信息請見https://coldfusion.com/ 站點
。
·對於使用Apache服務器的站點
,可以使用rewrite模塊將帶參數的URL地址轉換成搜索引擎支持的形式
,該模塊mod_rewrite在Apache服務器中不是缺省安裝的
,詳細的信息請見
。
對於其他的動態技術也能找到對應的方法改變URL的形式 。
然後
,要創建一些靜態頁麵指向這些動態頁麵(以改變過的URL鏈接)
。
前麵說過
,搜索引擎機器人並不會自己"輸入"參數
,所以要讓上麵這些動態頁麵被搜索引擎抓取
,尊龍凱時還需要告訴機器人這些頁麵的地址(也就是參數)
。尊龍凱時可以創建一些靜態的頁麵
,一般在網絡營銷中稱? "gateway page"(入口頁麵)
,這些頁麵上有大量指向這些動態頁麵的鏈接
。
將這些入口頁麵的地址提交到搜索引擎 ,這些頁麵和鏈接的動態頁麵(改變過URL形式)就能都被搜索引擎抓取了 。
四 、搜索引擎對動態網站支持的改進
在尊龍凱時調整動態站點適應搜索引擎的同時 ,搜索引擎也在發展 。到目前為止 ,?蠖嗍?乃閹饕?婊共恢С侄??趁嫻淖ト 。???A href="https://www.google.com/">GOOGLE、等和國內的開始嚐試抓取動態網站頁麵(包括? " ?"的頁麵) ,這就是尊龍凱時現在在這些搜索引擎進行搜索時 ,結果中出現動態鏈接的原因 。
這些搜索引擎抓取動態頁麵時 ,為了避免"搜索機器人陷阱" ,都隻抓取從靜態頁麵(至少"看上去"是靜態的頁麵)鏈接到的動態頁麵 ,而從動態頁麵鏈接出的動態頁麵都不再抓取。
所以一個動態站點如果隻針對上麵這些搜索引擎 ,可以在上麵小節介紹方法的基礎上簡化 :隻用創建一些入口頁麵 ,鏈接很多動態頁麵,然後將這些入口頁麵遞交到這些搜索引擎就可以了 。
對於直接使用動態的URL地址
,請注意
:
·文件URL中不要有Session Id
,同時不要用ID作為參數名稱(特別是對於GOOGLE)
;
·參數越少越好
,盡量不要超過2個
;
·能在URL中不用參數盡量不要用
,一些參數轉移到其他地方
,這樣可以增加動態頁麵被抓取的深度和數目
。