博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用Heritrix+htmlparser爬网页并进行解析
阅读量:5075 次
发布时间:2019-06-12

本文共 799 字,大约阅读时间需要 2 分钟。

实验室的一个关于做搜索引擎的项目文本那块需要大量的文本数据集,老师让俺在爬一些项目相关的网站,获得文本集。本人菜鸟一个,真是一个头痛的任务,从没有接触网络爬虫这东东,一听感觉很高深,其实了解之后也就那样,呵呵。。。

开始在开源上搜索爬虫软件,于是选择了Herritrix,下载了heritrix1.14.4,网上各种搜索,终于将其配置成功,然后然后爬的不知道是一些什么东东,乱七八糟,又进行过滤,爬得了一些html文档,可是可是老师要的是文本文档啊,txt啊,于是于是又在网上各种搜索,想将html解析成txt文档,选择了htmlparser,下载了其源码,在网上又找了一段解析代码,结合起来可以解析了,可是可是只能通过读入一个url地址进行解析,俺磁盘上爬的都是一些html文档啊,怎么获得其url又难到我了。。。想出两种解决方案:

1、找方法读入磁盘上的html获得其url,然后输入到htmlparser中,将爬虫和解析分开

2、将爬虫和解析结合起来,修改Heritrix的Writer部分,进行边爬网页边解析

第一种方法试了很多次,还是没有找到方案怎么动手,但是感觉第一种方法可行。没办法,还是用第二种吧,修改Heritrix的Writer部分,将htmlParser融合进来。又是各种修改各种配置,将解析的txt文档写入磁盘,开始写入的都是空的(其实不是空的,只是那一会儿是空的),晚上吃完晚饭才发现,东西都写到1.txt里面去了,呜呜。然后又改代码,早上来的时候好了,一个一个乖乖地往磁盘里写了,但是还是有些是空文档,还需要过滤一些不能解析的,继续加油。。。

ps:老师让爬1TB的文档啊,磁盘都装不下啊,得多久爬,有待改正。。。come on!

转载于:https://www.cnblogs.com/luofeifly/archive/2012/10/30/2745966.html

你可能感兴趣的文章
JavaScript基础(四)关于对象及JSON
查看>>
JAVA面试常见问题之Redis篇
查看>>
jdk1.8 api 下载
查看>>
getElement的几中属性介绍
查看>>
HTML列表,表格与媒体元素
查看>>
雨林木风 GHOST_XP SP3 快速装机版YN12.08
查看>>
数据结构3——浅谈zkw线段树
查看>>
Introduction to my galaxy engine 2: Depth of field
查看>>
设计器 和后台代码的转换 快捷键
查看>>
STL容器之vector
查看>>
数据中心虚拟化技术
查看>>
复习文件操作
查看>>
SQL Server 使用作业设置定时任务之一(转载)
查看>>
第二阶段冲刺-01
查看>>
BZOJ1045 HAOI2008 糖果传递
查看>>
JavaScript 克隆数组
查看>>
eggs
查看>>
一步步学习微软InfoPath2010和SP2010--第七章节--从SP列表和业务数据连接接收数据(4)--外部项目选取器和业务数据连接...
查看>>
oracle 报错ORA-12514: TNS:listener does not currently know of service requested in connec
查看>>
基于grunt构建的前端集成开发环境
查看>>