火车采集器文章采集教程

材料准备:火车头采集器、浏览器、目标网站(例:http://www.yingjia360.com/

1.找出目标网站文章分布规律,点击栏目,及栏目分页(不要用第一页,否则不易发现规律)

图片2.png

1.1发现规律

图片25.png

2.打开火车采集器,并新建任务

图片1.png

3.网址采集规则

3.1向导添加

图片3.png

3.1.1批量网址

图片4.png

3.1.2根据规律设置地址参数

图片5.png 图片6.png 图片7.png 图片8.png 图片9.png

3.2采集目标网址

图片10.png

3.2.1目标网址区域设置

图片11.png 图片12.png

3.2.2网址采集测试

图片13.png 图片14.png

4.内容采集规则

图片15.png

4.1文章标题采集

图片16.png

4.2文章内容采集

图片17.png

4.3如有其他需要,可参照文章标题、内容,添加标签列表内容
4.4采集数据处理

图片18.png 图片19.png

5.内容发布规则

图片20.png 图片21.png 图片22.png

6.采集

图片23.png 图片24.png 图片26.png