
完整性采集和选择性采集是目前比较常用的网络资源采集方式,它们各有优缺点,为了弥补其各自的不足,可以实现两种采集方式的优势互补,采用融合二者优点的混合型采集方式,在对选定的政府网站中所有网页进行完整性采集的同时,通过人工干预的方式对网页内容进行甄别,对其中有证据价值、历史价值、研究价值的重要网页,有选择性地进行深层次的频繁采集,这样既考虑到了政府网页采集面的广度,同时又照顾到了重要网页采集的深度。

而电脑浏览器的搜集与抓取终极还要有靠自己特定的官网百度网站爬取辅助设备来构建,近年来面向基层电脑浏览器存档下载的百度网站爬取辅助设备是比较多,里面Heritrix、HTTrack较为适用,可合理利用这部分辅助设备来有重要性性地实现对指标政府性官网电脑浏览器的半自动快速线搜集。
本文地址:http://shortcreeksaloon.com//article/30389.html