采集程序會在指定的時刻自動按照系統流程采集網頁信息

發布日期：2014-08-04 來源：中國自動化網作者：admin

核心提示：　　合理的使用模式能大大提高程序的可重復使用率，同時也減少了后期維護的成本。在對應某一個網站的信息抓取時，主要分為3步：（1）首先根據要抓取的新聞類型的地址，通過相應的HTMLParser表達式，從而獲得特定新聞類型的URL

　　合理的使用模式能大大提高程序的可重復使用率，同時也減少了后期維護的成本。在對應某一個網站的信息抓取時，主要分為3步：（1）首先根據要抓取的新聞類型的地址，通過相應的HTMLParser表達式，從而獲得特定新聞類型的URL地址；（2）把該URL地址集合傳遞給信息提取模塊，該信息提取模塊根據新聞模板的規則抓取具體的新聞信息；（3）每個網站都有新聞類信息，但對應一些特定的信息，如視頻新聞，供求信息，則不是每個網站都會開設，也就是說在抓取的時候要根據需要給抓取程序的實例中初始化特定的接口，來實現特定的功能。在抓取時，步驟（1）和（2）構成了修飾模式，因為在步驟（2）的程序中，需要處理相應的URL，而此URL正產生于步驟（1）。以上是單個Seed的提取流程。當程序啟動時，會依次讀入Seed表的觸發器，觸發相對應新聞地址提取類實例，這樣就可以將多個類的實例化任務交給工廠程序來完成，也就是把多個Seed自動放到任務隊列里。這樣做是為了提高系統的可維護性，一旦需要抓取新的Seed的時候，只需要修改工廠程序即可。

　　利用工廠模式來初始化每個網站對應的抓取實例，不僅降低了程序的耦合性，同時可以根據每個網站的特點，設一些特殊信息的抓取接口，極大地提高系統的個性化抽取這個特點，信息提取的時候根據此模式策略來提取信息。Spring2.x的XMLSchema方式提供了簡潔的事務配置策略，借助于aop，tx兩個命名空間的幫助，系統可以非常方便地為業務邏輯組件配置事務管理。借助于Spring2.x的事務管理，當在抓取時候拋出異常，Spring事務框架就會自動回歸事務，使數據庫信息返回到抓取前的狀態。當程序在Tomcat容器內配置成功后，啟動Tomcat服務器，采集程序會在指定的時刻自動按照系統流程采集網頁信息，并持久化到數據庫中對應的數據表。在此需要說明的是，本系統保存了正文內的一些html標簽，這是為了讓正文信息在新的頁面生成時能夠自動組織。

下一篇：小型PLC開放平臺驅動工業生產信息化
上一篇：水壓變頻控制系統水壓變頻控制系統原理

[ 新聞中心搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關閉窗口 ]

同類新聞中心

共0條 [查看全部] 相關評論

推薦圖文

2025 CMES華機展\|佛山	2025年第十三屆江門先
2025珠海國際工業博覽	2025中山工業博覽會
2025年中國 (福州) 工	2025第二十屆中山小欖

推薦新聞中心

點擊排行

友情鏈接申請鏈接保存本站桌面快捷方式 ↓

會刊	5G展會之星	3G網站專家	中國自動化網	自動化設備網	太陽能光伏發電站	易達自動化設備	易達自動化淘寶店	易達自動化阿里店
中山堅美拉彎加工	中山新永豐銅鋁業	中山市榮美線切割	昌達輸送機	中山佳能電熱電器	中山傅氏起重搬運	萬邦企業管理咨詢	蛋撻大王	坦洲堅美鋁材門窗
坦洲鎮展圖拉彎廠	中山群協機械設備	馭龍輸送機械配件	康瑞智能化科技	中山永信鋁業公司	圣獅龍獅武術團	中山碧居智能裝備	廣東科艦知識產權	亞力菲自動化設備
伊特萊健康家居	行者法務機構	中山科創專利代理	中山市鑫發五金	奇異世界收藏品	誠信機械工程部	中山新創意五金	中山益盛精工制造

• FLIR熱像儀：實時監控食品安全全流程，助力提升	• 科勒公司浴缸成型機順利投產
• 怎么推導出白矮星的錢德拉塞卡極限？	• 自動托盤更換線托盤翻轉機
• 數控鉆銑床的5個主要特點	• 工業機器人的核心部件：精密減速機，究竟難在哪
• 通信企協：ICT技術防控疫情優秀案例征集現已開	• 2天時間！教你掌握2020年最新機床智能制造技術
• 人機交互掌控未來 2019深圳國際全觸與顯示展領	• 機器視覺：智能制造的“幕后推手”

五月香婷婷,六月婷婷激情,在线观看视频99,国产毛毛片,国产一区二区三区免费在线观看,日韩精品小视频

采集程序會在指定的時刻自動按照系統流程采集網頁信息