软件安装:从火车头采集器官方网站下载安装包,关闭杀毒软件和防火墙 ,避免关键文件被误删,按照提示完成安装 。
目标分析:访问www.x6d.com,观察网站结构 ,确定要采集的内容,如文章标题、内容、发布时间等,同时查看是否有反爬机制,如验证码 、登录限制等 ,该网站目前可直接访问,无明显反爬。
工具准备:准备好浏览器(用于查看网页源码和获取 XPath),若有需要可配置代理 IP 池 ,防止采集时 IP 被封禁。

打开火车头采集器,在左侧空白处单击,新建一个分组 ,用于管理采集任务 。
右击新建的分组,选择 “新建采集任务 ”,在弹出的窗口中填写任务名称 ,如 “采集 x6d 网站内容”,点击 “确定”。
在任务编辑界面,切换到 “批量采集网址规则 ” 选项卡 ,填写起始网址,如www.x6d.com的某个列表页网址,例如https://www.x6d.com/list/1.html。
多级网址获取设置
切换到 “多级网址获取” 选项卡,点击 “添加” ,设置获取列表页的分页规则。假设列表页分页链接格式为https://www.x6d.com/list/1.html、https://www.x6d.com/list/2.html等,在 “分页规则” 中,设置分页源代码前后及中间位置的标识 ,如分页链接的前导代码和后续代码,确保能正确获取所有列表页链接 。
再点击 “添加 ”,设置获取文章页链接的规则。在列表页源码中找到文章链接对应的 HTML 标签 ,如<a href="https://www.x6d.com/article/123.html">文章标题</a>,通过正则表达式或 XPath 提取链接,设置包含或排除特定字符 ,确保只采集需要的文章页链接。
网址测试:设置好规则后,点击 “测试” 按钮,查看是否能成功采集到列表页和文章页的链接 ,若有问题,根据测试结果调整规则 。
切换到 “内容采集规则” 选项卡,点击 “添加 ”,设置要采集的字段 ,如标题、内容、发布时间等。
标题提取
在浏览器中打开文章页,按 F12 打开开发者工具,找到标题对应的 HTML 标签 ,如<h1 class="title">文章标题</h1>,获取其 XPath 路径,如//h1[@class="title"]/text() ,或通过正则表达式<h1 class="title">(.+?)</h1>提取标题内容。
在火车头采集器中,输入标题的前后代码或 XPath,设置提取规则 ,点击 “测试” 查看是否能正确提取标题 。
内容提取
同样在开发者工具中找到文章内容对应的 HTML 标签,如<div class="content">文章内容</div>,获取其 XPath 或前后代码。
由于内容可能包含多余的 HTML 标签 ,可在规则中设置 “HTML 标签排除”,去除不需要的标签,如广告 、脚本等。
测试内容提取结果,确保能准确获取文章正文 。
其他字段提取:按照上述方法 ,设置发布时间、作者等其他字段的采集规则。
切换到 “采集设置 ” 选项卡,设置单任务采集内容线程个数,建议新手设置为 1-3 ,避免并发过高导致 IP 被封;设置采集内容间隔时间,如 1000 毫秒,降低对目标网站服务器的压力。
点击 “保存” 按钮 ,保存采集任务设置 。
在任务列表中右击新建的任务,选择 “开始采集”,等待采集完成。采集过程中可查看日志 ,了解采集进度和是否有错误发生。
采集完成后,切换到 “数据导出 ” 选项卡,选择导出格式 ,如 CSV、TXT 或数据库。
设置导出模板,选择要导出的字段,设置文件保存路径和文件名格式 。
点击 “导出” 按钮,将采集到的数据导出。导出后可使用 Excel 等工具对数据进行清洗 ,去除空值、重复数据等,确保数据质量。
采集时要遵守网站的 robots 协议,避免过度采集对网站服务器造成压力 ,以免被封禁 IP 。
若网站有反爬机制,如验证码、动态加载等,可配置代理 IP、使用浏览器渲染模式(如安装 Chrome 驱动)等方式应对。
定期备份采集规则和数据 ,防止数据丢失。