基于小浣熊漫画小说聚合采集工具

1.概述

聚合采集工具是基于python中scrapy+redis+mysql分布式采集工具的基础上进行开发的一套采集工具.另寄托于docker基础上运行,所以天然支持异步和多机采集工具另外特别方便部署,它采集时会自动入库到mysql数据库,并通过入库的数据进行向远端火车头api发起入库请求.这些操作每天都会定时全自动执行.

2.使用环境支持

1、windows系列,winserver和windows8及以上
2、linux内核系统比如 centos7,ubuntu,macos等系统支持
3、简单讲就是支持docker的系统那就支持

2.安装教程 linux安装

聚合采集工具安装流程我单独增加了linux sh脚本一键式安装,安装过程分为三步

1.安装docker,如果已安装则跳过

 sh docker-install.sh

2.安装docker-compose ,如果已安装则跳过

sh docker-compose-install.sh

3.自动下载所需文件并启动

cd /opt && tar -zxvf spider.tar.gz && cd /opt/spider && docker-compose up -d

3.爬虫管理命令合集

# 爬虫启动推荐使用命令 先执行更新爬虫,再开启爬虫
docker pull jhspider/spider:test && cd /opt/spider && docker-compose up -d

# 爬虫重启推荐使用命令 先执行更新爬虫,再停止爬虫,最后再开启爬虫
docker pull jhspider/spider:test && cd /opt/spider && docker-compose down && docker-compose up -d

# 更新爬虫
docker pull jhspider/spider:test
# 启动爬虫
docker-compose up -d
# 关闭爬虫
docker-compose down
# 重启爬虫
docker-compose restart
# 查看爬虫日志,刚开始时常用该命令去看配置情况
docker logs jh-spider --tail 1000

安装完成后

基于小浣熊漫画小说聚合采集工具

大概效果图如上
这个时候你可以输入docker-compose ps指令查看运行状况
基于小浣熊漫画小说聚合采集工具

最后要配置发布

自行连接到数据库,开放33061端口到外网后通过工具去访问 连接信息请往下看,暂时只支持漫城跟小浣熊平台的发布 发布配置是在 spider_db数据库中的publish_site数据表里去做配置 具体配置参数请参考下面的表格
基于小浣熊漫画小说聚合采集工具

暂时只支持漫画源 主要用与发布时筛选漫画源

qinqinmh 
twhm
qiman
qimiaomh
dmzj 动漫之家
sixmh
xianman
tx550
kuman5
switchhostparamtypewherename
字段参考值1http://www.xxxxx.com{“api_key”:”hahmh”}0qiman,tx550,dmzj,kuman5测试发布站点
字段描述0=关 1=开发布host地址如果没做伪静态要加上http://www.xxxx.com/index.phpapi_key里面填写发布密钥类型 0=小浣熊 1=漫城漫画 2=漫城小说指定发布采集源为空则全部发布,这边添加英文漫画源名比如 qinqinmh 如果多项则逗号隔开这个应该都懂的

如果没有漫画站可以先用我的做测试,直接复制sql命令并插入即可

INSERT INTO `spider_db`.`publish_site` (`id`, `switch`, `host`, `param`, `type`, `thread_num`, `where`, `name`, `create_time`, `update_time`) VALUES (7, 1, 'http://www.52hah.com', '{\"api_key\":\"hahmh\"}', 0, 2, 'qiman,dmzj', '测试', '2022-11-01 13:42:44', '2022-11-01 13:42:44');

附录 默认mysql和redis账号密码

mysql-主机: 127.0.0.1或局域网ip也可外网ip
mysql-用户名: root
mysql-密码: jhspider_pass
mysql-数据库 : spider-db
mysql-端口:33061

redis-主机: 127.0.0.1或局域网ip也可外网ip
redis-用户名: root
redis-密码: jhspider_pass
redis-端口:63791
部署后可自行更改

结尾

采集工具的话初次使用都会自动赠送3天测试时间,如果出现问题或者想要继续使用可以联系我免费增加使用时间也可以增加漫画采集源初次使用只赠送1-2个漫画源采集

默认都是盗链的,当然我这也提供了python高性能图片本地化方案 需要也可以联系我咨询,彻底解决小白建漫画站的所有问题

最终效果图

基于小浣熊漫画小说聚合采集工具
基于小浣熊漫画小说聚合采集工具
基于小浣熊漫画小说聚合采集工具

如果安装时报wget未安装则可以按照以下步骤进行

mac系统 brew install wget
centos系统 yum install wget
ubuntu apt-get install wget

无错源码所有资源来自会员发布以及互联网收集,不代表本站立场,如有侵犯你的权益请联系管理员,站内发信联系 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。请在下载24小时内删除!


如果遇到付费才可观看的文章,建议升级传奇VIP。全站所有资源任意下免费看”。本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR如遇解压需要密码,请尝试使用www.wucuoym.com来解压,如若仍有问题,请联系站长。

给TA打赏
共{{data.count}}人
人已打赏
动漫系统

漫城小说漫画系统 无错优化版 去除了远程通信增加了自定义S3存储

2024-1-6 2:10:44

动漫系统

开源有态度的漫画CMS 小浣熊源码

2023-3-15 20:43:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索