首页 > 编程源码 > 【源码分享】wordpress采集插件ctspaider

【源码分享】wordpress采集插件ctspaider

楼主:blue [1级] · 2019-11-25 ·  浏览1193 · 编程源码 · ID:
首先说下这个采集插件有啥用,相信不少朋友用wordpress做博客,写博文更新嫌弃太慢,那么你可以用这个插件,花个半天配置好,以后就不用操心了,采集一下几百篇文章来了〔做原创的博主可以略过〕

使用教程:如何安装

首先去长腿蜘蛛-CTspider官网下载插件

然后到WordPress插件页面点击上传,安装启用即可。
如果使用FTP上传,请使用二进制上传协议。
如何授权

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

采集规则没有设置好。
如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)
新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

任务名称:新浪科技(PS:自定义即可)
更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
多线程采集:开启 (PS:开启后可提高采集速度)
多线程数量:默认10(PS:根据自己服务器配置酌情使用)

列表设置

列表URL:
 此处内容已被隐藏,请评论后查看!
(PS:如需多个,可换行添加)
列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。
点击列表测试可以查看当前项目列表配置情况

标题匹配规则:h1

文章内容设置:#article_content
可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

首先删除数据中所有a链接但不删除a标签内容
删除数据中span标签并且也不删除内容
删除数据中无用的class属性和id属性
最后在进行采集测试(得到纯净的数据)


这个教程附图片的,流星我发不了一段话一张图,可以参照官网教程
 此处内容已被隐藏,请评论后查看!


-------------------注意!--------------------
这个是官网,里面联系方式与我本人无关,这个插件完全免费,请管理看清,别什么都删!如果你要说我推广那我也没啥好说的了,你删我再也不发便是。
--------------------------------------------

官网下载链接
 此处内容已被隐藏,请评论后查看!


我自己用fusionapp将这个资讯站封包了,方便浏览。
 此处内容已被隐藏,请评论后查看!

这是个demo,想做的朋友也可以交流,fusionapp我也是个小白,但是相互交流就有结果的
- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见,与流星社区立场无关;
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者blue流星社区的同意;
3、备注原文地址:https://bbs.liuxingw.com/t/18228.html,可忽略第2条;
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任;
5、如本帖内容或部分内容转载自其它媒体,这并不代表本站赞同其观点和对其真实性负责;
6、如本帖若为资源类,将仅限用于学习和研究目的,您必须在下载后的24个小时之内,从您安装或使用的设备中彻底删除上述内容;
7、如果您喜欢该程序,请支持正版软件,购买注册,可以得到更好的正版服务;
8、如本帖侵犯到任何版权或违法问题,请立即邮件告知我们,我们将及时予以处理。
16条回复 |  最后回复于2019-11-25

Ys-SonG [1级]

楼主,有没有好看的wp主题推荐一款
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...

Ys-SonG [1级]

还有,wp的官网怎么进不去了呢?
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...

[]

一步一步看教程啊
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...

社会你昆哥 [2级]

你弄好了?
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...

[]

还没弄呢,可是我想采集的是文章带下载链接。。应该不行。。。下载链接要点击了才能看。
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...

社会你昆哥 [2级]

这个它也会采集
发布于2019-11-25

回复列表

  • 内容加载中...

说点什么...
登录注册 后才可进行评论
签到
39人签到
已签0天
  • 46637帖子
  • 1936935热点量
  • 185040火热值