網站首頁 語言 會計 互聯網計算機 醫學 學歷 職場 文藝體育 範文
當前位置:學識谷 > 英語 > 等級考試

基於Web信息採集技術研究

欄目: 等級考試 / 發佈於: / 人氣:1.09W

隨着Web上信息的迅速擴展,各項基於Web的服務也逐漸繁榮起來。作為這些信息服務的基礎和重要組成部分,Web信息採集正應用於搜索引擎、站點結構分析、頁面有效性分析、Web圖進化、用户興趣挖掘以及個性化信息獲取等多種應用和研究中。然而,隨着人們對提供的各項信息服務要求越來越高,傳統的基於整個Web的信息採集也越來越力不從心,它無法及時地採集到足夠的Web信息,也不能滿足人們日益增長的個性化需求。為此,本文展開了對Web上局部範圍內信息的有效採集研究,也就是基於主題的Web信息採集研究。

基於Web信息採集技術研究

根據我們在信息採集領域的長期積累以及國內外在基於主題的信息採集領域的發展,本文在綜述了基本情況後提出了一個基於主題的Web信息採集結構模型,這包括主題與起始URL選擇、Spider採集、頁面分析、URL與主題的相關性判定、以及頁面與主題的相關性判定等一系列步驟。我們分別給出了相關的處理算法和流程以及相應的數據結構,並針對研究過程中遇到的問題,提出了多個新的算法、判定規則和規律:

在Hub特性、Linkage/Sibling Locality特性、站點主題特性、Tunnel特性的基礎上,總結出了主題頁面在Web上的分佈規律。

在定義主題和提出分類主題的基礎上,給出了主題選擇的方法。

採用Client/Server結構的`Spider系統,允許多機同時採集,實現了全面、高效並且靈活的信息蒐集。

在分析了HTML語法的基礎上,給出了對html頁面的主題、鏈接、標題的提取算法。

在URL與主題的相關性判定中,在擴展元數據方法RW、RWB和鏈接分析方法PageRank的基礎上提出了IPageRank算法。

在頁面與主題的相關性判定中,應用在自然語言處理中比較成熟的基於關鍵詞的向量空間模型計算頁面與主題的相似度。

試驗結果顯示,我們的工作是有效的,我們的系統有很強的實用價值,特別是URL與主題的相關性判定中的IPageRank算法,有較大的突破。

Tags:web 技術