Web日志挖掘的定義Web日志是指在服務器上有關Web訪問的各種日志文件,包括訪問日志、引用日志、代理日志、錯誤日志等文件,這些文件中包含了大量的用戶訪問信息,如用戶的IP地址、所訪問的uRL、訪問日期和時間、訪問方法(GET或POST)、訪問結果(成功、失敗、錯誤),訪問的信息大小等。Web日志挖掘是將數據挖掘應用于Web日志記錄文件,發現用戶瀏覽模式,分析站點的使用情況。還可應用于協助管理者優化站點結構,提高站點的訪問效率,構造合理的Web服務器。提高用戶訪問的有效性。這對于優化web站點來說非常有意義。
Web日志挖掘的過程
數據收集Web13志挖掘可以通過各個方面對13志文件進王春霞:講師碩士基金項目:河南省教育廳自然科學基金資助項目行收集,例如從服務器端數據收集、客戶端數據收集、代理服務器端數據收集。
數據預處理
數據凈化數據凈化是指刪除web服務器13志中與挖掘算法無關的數據。一般來說只有13志中HTML文件與用戶會話相關。用戶一般不會顯式地請求頁面上的圖形文件。它們是根據HTML的超文本引用標記自動下載的。web13志文件的目的是獲得用戶的行為模式并不關心那些用戶沒有顯式請求的文件。所以通過檢查URL的后綴刪除認為不相關的數據。例如:將日志中文件的后綴名為GIF、JPEG、JPG等的圖形文件刪除。另外,后綴名為CGI的腳本文件也應被刪除。具體到實際的系統就使用一個缺省的后綴名列表幫助刪除文件。列表可以根據正在分析的站點類型進行修改,例如:對一個主要包含圖形文檔的站點。日志中GIF和JPEG文件可能代表了用戶的請求。此時就不能將圖形文件刪除。進行數據凈化的還有一個方面,比如:有些網站的頁面用戶在提出請求時。Web服務器拒絕該頁面的請求。那么應該過濾掉非法請求的頁面,對正常的頁面進行數據處理是很有價值的。但是如果考慮的是網絡安全方面的問題。就另當別論考慮非法請求的頁面的情況。
用戶識別識別用戶對于會話識別特別是為用戶提供個性化的服務非常重要,目前由于本地緩存代理服務器和防火墻的存在、為用戶動態的分配IP地址想要識別出每一個用戶變得很復雜。
針對用戶的識別有幾種最可能的解決辦法:
如果IP地址相同,但是代理日志中表明用戶的瀏覽器或操作系統改變了,就應當認為每個不同的代理就表示不同的用戶。將用戶的訪問日志和站點的拓撲結構結合,構造用戶的瀏覽路徑。如果當前請求的頁面同用戶已瀏覽的頁面之間沒有鏈接關系。那么就認為存在另外具有相同IP地址的多個用戶不同的IP就認為就是不同的用戶。Cookie是由Web服務器產生的記號存在于客戶端(用戶的機器),用于識別用戶的會話。它是一種自動跟蹤Web站點訪問者的標記。當用戶對Web資源提出請求時將為該用戶產生唯一的Cookie用于識別對話。在隨后的請求中,瀏覽器將該唯一的Cookie發送回服務器用來識別對話
會話識別在跨越時間區段較大的Web服務器日志中,用戶可能多次訪問了該站點。會話識別的目的就是將用戶的訪問記錄分為單個會話。最簡單的方法是利用超時,如果兩頁間請求時間的差值超過一定的界限就認為用戶開始了一個新的會話。JPitkow的實驗證明,比較合理的時間長度應該是255分鐘。這種方法很簡單但是準確性很差。還有一種方法是訪問日志法,它能劃分同一IP的并發訪問但存準確性仍存在局限性。
路徑補充在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。這就是路徑補充所做的工作,解決的方法類似于用戶識別中的方法。如果當前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接那么用戶很可能使用了瀏覽器上的“BACK”按鈕調用緩存在本機中的頁面。檢查訪問日志確定當前請求頁的頁面作為當前請求的來源。若訪問日志不完整,可以使用站點的拓撲結構代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。
Web日志挖掘的應用一優化Web站點
優化Web站點步驟優化Web站點方法很簡單,需要對日志文件進行預處理、模式識別最后是模式分析。其步驟為:先進行預處理去掉不相關的數據項減少數據庫的存儲空間。比如:操作系統和瀏覽器、文件大小等等。模式識別是得到一個用戶訪問的頁面數據庫,并且是按照針對不同的用戶所訪問頁面的字母序的形式排列;字母序有助于挖掘的快速進行。模式分析就是利用數據挖掘的算法解決實際性的問題。在優化網站設計時,就是將每一個用戶訪問的頁面抽象為點而頁面到頁面之間鏈接抽象為線這樣就構造出很多用戶的拓撲結構圖,然后找出這些圖之間的相關性及其從一些頁面到另一些頁面之間的最高訪問頻率,最后可構造出整個web站點的拓撲圖??蓪⒄麄€的WEB站點的所有頁面抽象為數字,那么可以得出很多路徑的數字排序。我們可以利用聚類中的頁面聚類找出這些數字之間的相關性很容易得出頁面到頁面間的訪問頻度。最后找出頁面訪問頻度最高的路徑就是要構造該網站的拓撲結構圖。根據該網站的拓撲結構圖,重新構建該網站,進而提高網站的利用率。
優化Web站點算法構造網站的部分算法的說明:首先將整個Web站點可以看成是一個完全圖,因為它的每個Web頁都有一條從主頁到該頁面的鏈接,反過來一般也都有后退和返回按鈕。我們可以現將整個的頁面做一個映射,主頁記為1,其次,它的鏈接頁面可以定義為2,順序3,4,13。下面可以根據論文中上述知識找出每一個用戶的訪問頁面路徑。將路徑的信息轉換成矩陣的形式去做,實現起來比較方便。
結束語優化Web站點是通過Web日志分析系統挖掘的結果,改進站點信息的組成結構,調整網站的內容,形成用戶感興趣的web頁,然后存在web服務器上,最后當用戶訪問的時候顯示給用戶,使之更好地為用戶提供服務。
掃一掃
加客服微信
服務熱線
0514-87330378