麵向搜索引擎的網站設計 --鄭州尊龍凱時信息技術有限公司

新聞資訊 NEWS

您現在的位置:網站首頁-->新聞資訊

麵向搜索引擎的網站設計

關鍵詞：Google PageRank "link popularity" "website promotion" "optimization for search engine"

內容摘要：（注意：這個網站設計本身就利用了其中一些方法）。網站設計中麵向搜索引擎的優化注意事項：

鏈接引用的重要性：如何突出關鍵?和?潮晏狻⒅魈獾納杓疲灰趁婕罷鏡憬峁股杓譜⒁饈孿睿灰約罷鏡惴夢釋臣頻鬧匾?緣齲凰?幌胱約旱耐?駒?oogle的搜索結果重排名靠前呢，但你的網站設計是Search Engine Ready的嗎？

什麽是PageRankGoogle等新一帶搜索引擎的優勢之一在於不僅索引量很大，而且還將最好的結果排在搜索結果的最前麵，具體的原理可以參考Google の秘密 - PageRank ?氐捉庹H一文，PageRank簡單的說類似於科技論文中的引用機製：誰的論文被引用次數多，誰就是權威。在互聯網上PageRank就是基於網頁中相互鏈接關係的分析得出的。

此外，從計算方法角度闡述PageRank機製還有這篇文章：https://pr.efactory.de/裏麵有更詳細的PageRank算法說明和各種清晰的小型個案分析

比如：子頁中導航條的重要性B A => CVsB A C （好）

頁麵數量因素：B A CVsF GB A C （好）D E

一個意想不到的結論：（B A C）（ E D F）Vs（B A C）（ E D F）PageRank升高的隻是被鏈接的２個首頁A和D ，而網站子頁麵的PageRank平均會略有下降。同時：一個網站進入Google的索引量越大其受類似因素影響越小。

PageRank不對稱的頁麵互鏈：Google會用BadRank之類的算法進行糾正，而且一個網頁著有來自“與其V身不相稱”的高PageRank站點的鏈接，而自身又缺少足夠數量和質量的反相鏈接的話，其PageRank會自動降低為０，A（pr=７） B（pr=０）簡單的說就是：偶爾要被權威站點反相鏈接不算數，要被足夠多的權威站點引用才能提高自身網頁的PageRank.

鏈接就是一切在互聯網的海洋V ，最重要的就是互聯互通，不被其他網站引用的網站就是“信息孤島” 。“酒好也怕巷子深” ，也許這話說起來有點像垃圾郵件廣告，但事實就是這樣。所以如果做網站的目的不是孤芳自賞，就需要積極的推廣自己的網站。通過搜索引擎推廣自己需要注意以下幾個方麵：

以量取勝V不一定加入大型網站的分類目錄才是網站推廣，來自其他網站的任何反相鏈接都是有用的網站推廣比較經典的方式就是加入比較大型門戶網站的分類目錄，比如：Yahoo！，dmoz.org等。其實這裏有一個誤區：不一定非要加入大型網站的分類目錄才是網站推廣，因為現在搜索引擎已經不再隻是網站目錄的索引，而是更全麵的網頁索引，所以無論來自其他網站任何地方的反相鏈接都是非常有價值的，哪怕是出現在新聞報道，論壇，郵件列表歸檔中。很多大型站點的郵件列表發郵件時，一定注意在自己的簽名中加上自己網站的地址。Blogger（Weblog的簡稱）們也許最深刻地理解了“鏈接就是一切”這句話的含義，由於Blog的內容之間有大量的相互鏈接，因此最經常被引用的 Blog頁麵在搜索引擎中的排名往往比一些大型商業網站的頁麵還要高。

以質取勝：被PageRank高的網站引用能更快地提高PageRank數量隻是關鍵因素之一，來自PageRank高的頁麵的鏈接還能更快的提高被鏈接目標的PageRank，以我的個人網站為例：我沒有加入任何分類目錄，隻是將一些文章投稿在了ZDNet中國上，由於頁麵上有文章出處鏈接，相應網頁和網站整體的PageRank過了一段時間後就有了很大的提升。有時候被什麽樣的網站引用有時候比引用次數多更重要。這裏我要特別感謝的是，當時ZDNet中國是唯一遵循了我的版權聲明的要求表明了文章出處，並且有反相鏈接的網站。按照這個原則：能夠名列Yahoo ！和DMOZ這樣的大型權威目錄的頭２層是非常有價值的。了解搜索引擎的"價值觀" ：Lucene簡介這篇文章被Jakarta.apache.org的lucene項目引庖院螅?餛?惱戮統晌?慫?幸趁嬤?ageRank最高的頁麵（在Google 工具欄上顯示是５/１０），而Google深厚的學院氣氛讓我一直懷疑他們對政府，教育等非功利站點有特別加分：-），畢竟。org .edu才代表了互聯網精神的實質：知識的共享。但更合理的解釋是：。org很多都是開放技術平台的開發者，他們會在首頁這樣的地方加入Powered By Apache ， Power by FreeBSD之類的鏈接表示對其他開源平台的尊重，所以象Apache ， PHP ， FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank.而在。edu這些站點中，很多都是學術性比較強的文檔，以超鏈接形式標明參嘉南椎某齟σ丫?晌?恢窒肮擼??庖參摶燒??ageRank最好的依據。注意：不要通過Link Farm提高自身的站點排名：Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點，相應站點的頁麵將不會被收入到索引中。但如果你的頁麵被別的Link Farm鏈接了也不必擔心，因為這種被動的鏈接是不會被懲罰的。不要吝嗇給其他網站的鏈接：如果一個網頁隻有大量的進入鏈接，而缺乏導出鏈接，也會被搜索引擎認為是沒有價值的站點。保證你的網站能夠幫助搜索引擎更準確地判斷哪些是對用戶最有價值的信息，也就是說如果你的網站隻有外部反向鏈接而沒有導出鏈接隻埃?不岫閱愕耐?駒謁閹鶻峁?械謀硐執?錘好嬗跋臁?BR>
當然網站中連一個導出鏈接都沒有的情況非常罕見，除非你是刻意這麽做。正常情況下大家都會自然地在網頁中加上一些其他網站的鏈接，帶領訪問者去到尊龍凱時認為重要或能夠提供更多有價值信息的地方，另外在推廣自己網種?耙殘硎紫刃枰?私庾約和?灸殼霸諞恍┧閹饕?嬤械鬧??齲??矸淺＜虻ィ?梢圓慰既綰紋蘭弁?鏡娜似?晃摹?BR>
網站推廣隻是手段，如何突出內容、讓需要相關信息的用戶能夠盡快的找到你的網站才是目的，PageRank高並不代表像Yahoo ！這樣的門戶站點就能在所有搜索結果中排名靠前，因為搜索引擎的結果是搜索關鍵詞在頁麵中的匹配度和頁麵的PageRank相結合的排名結果。因此第二個要點：如何突出關鍵詞。

如何突出關鍵詞：麵向主題（Theme）的關鍵詞匹配標題設計隻是提升關鍵詞密度（keywords density）的一個方麵：在現代搜索引擎在關鍵詞匹配的過程中，匹配的過程不隻看當前頁麵的內容摘要：很大程度上，不隻看這個網頁自己說自己有什麽內容，還要看別人如何鏈接時，如何描述你的網站。比如查：“世界衛生組織” ，返回結果中有 https://www.who.int/ 而這個頁麵中是沒有中文的，之所以能匹配上，是因為很多鏈接它的中文網站使用了：世界衛生組織，所以，這個頁麵中不存在的關鍵詞也成為了頁麵摘要的一部分。所以把握好整個網站的主題風格是非常重要的，越是有和被鏈接頁麵主題相關的鏈接標題，對被鏈接頁麵越有益處。關於網站的主題設計可以參考：https://www.searchengineworld.com/engine/theme_pyramids.htm

不要空著標題：空著無異於浪費了最有價值的一塊陣地；傳統的頁麵中，HTML頁麵中會有類似以下的隱含信息，用於說明當前網頁的主要內容關鍵字：

後來由於這種人工添加關鍵詞的方式被濫用，大量網頁中為了提高被搜索引擎命中的概率，經常添加一些和實際網頁內容無關的熱門關鍵比如：“music mp３ download”等，所以新一代的搜索引擎已經不再關心頁麵頭文件中的人工meta keyword聲明，而頁麵標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重，如果一個關鍵詞在標題中命中會比在頁麵中命中有更高的得分，從而在相應的搜索結果排名中更靠前。

標題長度和內容：不要過長，一般在４０個字符以內，並充分突出關鍵詞的比重；如果更長的標題搜索引擎一般會忽略掉，所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧，畢竟用戶主要通過名詞來找到需要哪諶蕁１晏餑諶藎壕×坑靡恍┍鶉絲梢醞ü?丶?收業降淖盅郟ㄒ脖鶥??罰?綣?晏庵械淖盅鄢??卑肽諶葜卸濟揮校?鋅贍鼙凰閹饕?媾懦?鏊饕???虼嘶??eb日誌中來自其他搜索引擎的關鍵詞查詢統計非常必要。

如果網頁很多的話，盡量使用不同的網頁標題，爭取讓自己網站的內容更多的進入搜索引擎索引範圍；因為搜索引擎會根據頁麵內容的相似度把一些內容當成重複頁麵排除出索引範圍；https://www.chedong.com/phpMan.php是我的網站上的一個小應用：一個web界麵的unix命令手冊（man page），在以前的設計中所有動態頁麵使用的都是同樣的標題?phpMan ： man page /perldoc /info page web interface" ，Google索引了大約３０００多個頁麵，後來我將頁麵標題改成了"phpMan ： [命令名]"這樣的格式，比如："phpMan ： ls" ，這樣大部分動態頁麵的標題就都不一樣了，一個月後Google從這個頁麵入口索引了大約６０００個頁麵閡虼耍?綣??局瀉芏嗤?扯際褂孟嗤?謀晏猓?熱紓骸靶攣牌檔饋保?奧厶場保?廡┮趁嬤瀉艽笠徊糠誌突岜慌胖鞀?坪雎緣簟?BR>
除了外，還可以用標題行突出內容主題，加強標題的效果；在我的網站設計中：我會把用[標題]這樣的模板把標題突出顯示，而不是通過改變字體的方和懷霰晏狻Ｆ淥??舊杓鋪崾揪×渴褂鎂蔡??常耗殼澳芄幌?oogle一樣對動態網頁進行索引的搜索引擎還比較少，而即使是Google也更不會索引所有的內容，總體上說Google喜歡新的，靜態的內容。

因此無論從效率上講還是方便搜索引擎收錄，使用內容發布係統將網站內容發布壕蔡??扯際欠淺１匾?摹１熱紓?ttp://www.chedong.com比 https://www.chedong.com更容易進入搜索引擎的索引。而且在URL中的命中有時候比在標題中還能突出關鍵詞。

而且能夠進入Google索引的頁麵數量越多越好。可以用類似以下的腳本統計自己的網站被Google和百度索引嗬榭觥? ！/bin/shYESTERDAY=`date -d yesterday +%y%m%d`LOG_PATH='/home/apache/logs'grep -i Googlebot $LOG_PATH/access_log|awk '{print $７}' |sort -u>spider/$YESTERDAY.googlebot.txtgrep -i baiduspider $LOG_PATH/access_log|awk '{print $７}' |sort -u>spider/$YESTERDAY.baiduspider.txt

網站目錄結構要扁平：因為每深一級目錄，PAGERANK降低一個檔次。假設首頁是３，其子目錄就是２，更深可能就無法列入評級範圍了。

表現和內容的分離：“綠色”網頁網頁中的javascript和css盡可能和網頁分離，一方麵提高代碼重用度（也方便頁麵緩存），另外一方麵，由於有效內容占網頁長度的百分比高，也能提高相關關鍵詞在頁麵中的比重也增加了。總之，應該鼓勵遵循w３c的規範，使用更規範的XHTML和XML作為顯示格式便於內容更長時間的保存。

讓所有的頁麵都有能夠快速入口：站點地圖，方便網頁貿媯?pider）快速遍曆網站所有需要發布的內容。如果首頁就是用Flash或圖片進入的話，無異於將搜索引擎拒之門外，除了UI設計的用戶友好外，spider friendly也是非常重要的。

保持網站自身的健康：經常利用壞鏈檢查工具檢查網站中是否有死鏈。

保持網頁內容/鏈接的穩定性和持久性：在搜索引擎索引中網頁存在的曆史也是一個比較重要的因素，而且曆史比較久的網頁被鏈接的幾率越高。為了保證自己網頁能夠被比較持久的被其他網站的頁麵引用，如果自己網頁中有鏈接更新時，最好能保留舊的頁麵並做好鏈接轉向，以保持內容的連續性。要知道，右桓鐾?競湍諶菰謁閹饕?嬤械呐琶?芭嘌?鋇暮芨呤且患?淺２蝗菀椎氖慮椋??疾幌Ｍ?貌蝗菀鬃約旱哪諶荼槐鶉蘇業攪耍?慊魅詞恰埃矗埃頁麵不存在”吧，因此站點管理員對自身站點error.log的分析也是非常必要的。

文件類型因素：Google有對PDF ， Word（Power Point ， Excel）， PS文檔的索引能力，由於這種文檔的內容比一般的HTML經過了更多的整理，學術價值一般比較高，所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此，對於比較重要的文檔：技術白皮書，FAQ ，安裝文檔等建議使用PDF PS等高級格式存取，這樣在搜索結果中也能獲得比較靠前的位置。常常能發現門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以後，往往自身一些並不重要的內容也會被同那些高PageRank的內容一起帶入被搜索引擎優先查詢的列表中。這點有些不是很合理，因為這樣經常造成很崠笳鏡愕撓始?斜砉櫚低??繞淥?鏡愕氖滓?ageRank還要高。知己知彼——站點訪問統計/日誌分析挖掘的重要性網站設計不僅僅隻是被動的迎合搜索引擎的索引，更重要是充分利用搜索引擎帶來的流量進行更深層次的用戶行為分析。目前，來自搜索引擎關鍵詞統計幾乎是各種WEB日誌分峁ぞ叩謀曜脊δ埽?嘈派桃等罩就臣乒ぞ噅謖夥矯嬗Ω沒嵊懈?炕?氖迪幀?EB日誌統計這個功能如此重要，以至於新的RedHat ８中已經將日誌分析工具webalizer作為標準的服務器配置應用之一。

以Apache/webalizer為例，具體的做法如下：記錄訪問來源：在Apache配置文件中設置日誌格式為combined格式，這樣的日誌中會包含擴展信息：其中有一個字段就是相應訪問的轉向來源： HTTP_REFERER ，如果用戶是從某個搜索引擎的搜索結果中找到了你的網頁並點擊過來，日誌中記錄的HTTP_REFERER就是用戶在搜索引擎結果頁麵的URL ，這個URL中包含了用戶查詢的關鍵詞。

在webalizer中缺省配置針對搜索引擎的統計：如何提取HTTP_REFERER中的關鍵詞webalizer中缺省有針對yahoo ， google等國際流行搜索引擎的查詢格式：這裏我增加了針對國內門戶站點的搜索引擎參數設置SearchEngine yahoo.com p=SearchEngine altavista.com q=SearchEngine google.com q=SearchEngine sina.com.cn word=SearchEngine baidu.com word=SearchEngine sohu.com word=SearchEngine １６３。com q=

通過這樣設置webalizer統計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來，比如：所有來自 google.com鏈接中，參數q的值都將被作為關鍵詞統計下來：，從匯總統計結果中，就可以發現用戶是根據什麽關鍵詞找到你的次數，以及找到你的用戶最感興趣的是那些關鍵詞等，進一步的，在webalizer中有設置還可以將統計結果倒出成CSV格式的日誌，便於以後導入數據庫進行曆史統計，做更深層次的數據挖掘等。

以前通過WEB日誌的用戶分析主要是簡單的基於日誌中的訪問時間/IP地址來源等，很明顯，基於搜索引擎關鍵詞的統計能得到的分析結果更豐富、更直觀。因此，搜索引擎服務的潛在商業價值幾乎是不言而喻的，也許這也是Yahoo ！ Altavista等傳統搜索引擎網站在門戶模式後重新開始重視搜索引擎市場的原因，看看Google的年度關鍵詞統計就知道了，在互聯網上有誰比搜索引擎更了解用戶對什麽更感興趣呢？

請看本站的反相鏈接統計：https://www.chedong.com/log/２００３_６。log需要注意的是：由於Google針對Windows ２０００中的IE使用的是UTF-８方式的編碼，因此很多統計有時候需要在UTF-８方式下查看才是正確字符顯示。從統計中能夠感受到：在使用水平比較高的IT開發人員中Google已經成為最常用的搜索引擎。而使用百度的用戶也已經大大超過了傳統的搜狐，新浪等門戶站點，因此傳統門戶網站在搜索引擎上的優媒?欠淺４噯醯摹６?蛹際醯姆⒄骨魘評純矗?院蠡夠嵊懈?嗟睦?沒チ??教遄齦?畈憒問?萃誥虻姆?衲Ｊ匠魷鄭?BR>
轉載自cnblog.org——“突發”文字可能揭示社會趨勢

在“新科學家”（New Scientist）在線雜誌上，公布了康奈爾大學的一個新研究成果，引人注目，也許與Google 收購Pyra 的動機有關。

這所大學的計算機科學家 Jon Klenberg 開發了一個計算機算法，能夠識別一篇文章中某些文字的“突發”增長，而且他發現，這些“突發”增長的文字可以用來快速識別最新的趨勢和熱點問題，因此能夠更有效地篩選重要信息。過去很多搜?際醵疾捎昧思虻ゼ撲鬮淖?詞組出現頻率的方法，卻忽略了文字使用增加的速率。

Jon 特別指出，這種方法可以應用到大量Weblog上，以跟蹤社會趨勢，這對商業應用也很有潛力。例如，廣告商可以從成千上萬的個人Blog 中快速找到潛在的需求風尚。而且隻要Blog 覆蓋話題範圍足夠大（實際上發展趨勢確實如此），這項技術對政治、社會、文化和經濟等領域也都會有實際意義了。

雖然Google 新聞的內部算法至今沒有公開，但是人們猜測這種完全由機器所搜集的頭條新聞應當不是Google搜索引擎中慣用的鴿子算法，很可能與這種“突發”判斷算法有關。如此說來，Google收購Blog工具供應商的舉動確實還有更深層次的遠見了。

- NewScientist.com news ， Word 'bursts' may reveal online trends- 還沒有寫完這些介紹，在 SlashDot 上也看到了很多有關這個發現的討論

參考資料：

麵向Google搜索引擎的Ｕ舊杓樸嘔?ttp://www.google-search-engine-optimization.com/

關於Google的十個神話：https://www.promotionbase.com/printTemplate.php ？aid=９７１

如何評價一個網站的人氣https://www.hedong.com/tech/link_pop_check.html

如何提高網站在Google中的排名——麵向搜索引擎的廣告模式https://www.chedong.com/tech/google_ads.html

如何提高網站在Google中的排名——麵向搜索引擎的網站鏈接設計https://www.chedong.com/tech/google_url.html

Measuring Link Popularityhttps://searchenginewatch.com/webmasters/popularity.html

Google の秘密 - PageRank ?氐捉庹Hhttps://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html這篇文章是在查"Google PageRank"的時候查到的，這篇文章不僅有一個算法說明，也是一個Google的weblog，記錄了很多關於Google的新聞和一些市場動態信息。

更詳細的PageRank算法說明：https://pr.efactory.de/

Google的海量處理機製：鴿子係統https://www.google.com/technology/pigeonrank.html

WEB日值統計工具Webalizerhttps://www.webalizer.org

Robots的說明：https://bar.baidu.com/robots/搜索引擎通過一種程序robot（又稱spider），自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件 robots.txt ，在這個文件中聲明該網站中哪些內容可以被robot訪問，哪些不可以。

反Google站點：觀點也很有趣https://www.google-watch.org/

關於Google的WebLoghttps://google.blogspace.com/

搜索引擎論壇：https://searchengineforum.com/

新聞資訊 NEWS

麵向搜索引擎的網站設計

聯係尊龍凱時