实验室的一个关于做搜索引擎的项目文本那块需要大量的文本数据集,老师让俺在爬一些项目相关的网站,获得文本集。本人菜鸟一个,真是一个头痛的任务,从没有接触网络爬虫这东东,一听感觉很高深,其实了解之后也就那样,呵呵。。。
开始在开源上搜索爬虫软件,于是选择了Herritrix,下载了heritrix1.14.4,网上各种搜索,终于将其配置成功,然后然后爬的不知道是一些什么东东,乱七八糟,又进行过滤,爬得了一些html文档,可是可是老师要的是文本文档啊,txt啊,于是于是又在网上各种搜索,想将html解析成txt文档,选择了htmlparser,下载了其源码,在网上又找了一段解析代码,结合起来可以解析了,可是可是只能通过读入一个url地址进行解析,俺磁盘上爬的都是一些html文档啊,怎么获得其url又难到我了。。。想出两种解决方案:
1、找方法读入磁盘上的html获得其url,然后输入到htmlparser中,将爬虫和解析分开
2、将爬虫和解析结合起来,修改Heritrix的Writer部分,进行边爬网页边解析
第一种方法试了很多次,还是没有找到方案怎么动手,但是感觉第一种方法可行。没办法,还是用第二种吧,修改Heritrix的Writer部分,将htmlParser融合进来。又是各种修改各种配置,将解析的txt文档写入磁盘,开始写入的都是空的(其实不是空的,只是那一会儿是空的),晚上吃完晚饭才发现,东西都写到1.txt里面去了,呜呜。然后又改代码,早上来的时候好了,一个一个乖乖地往磁盘里写了,但是还是有些是空文档,还需要过滤一些不能解析的,继续加油。。。
ps:老师让爬1TB的文档啊,磁盘都装不下啊,得多久爬,有待改正。。。come on!