火车头采集常用的纯正则过滤总结「采集内容处理」

有时候千辛万苦采集下来的内容但是杂乱无章,面对复杂的html代码想过滤无从下手,为了得到一个标准的内容,下面分享一下火车头采集常用的纯正则过滤规则。

火车头采集常用的纯正则过滤总结「采集内容处理」

场景1

每一个段落都是<p></p>没有多余的HTML标签和与主题无关的字符

提取数据方式

选择 正则提取,组合结果填 <p>[参数1]</p>

场景2

有些内容开始和结尾并没有p标签,换行是用br标签来完成,所以我们要创造p标签

数据处理

第一步:清除与正文无关的内容,如文中的广告,注释等

正则 <header>[sS]*?</header>|<!–.*?–>| |规则4|规则5 替换为 空

如果发布到一些免费平台,有的HTML特殊字符并不会被转化,只需在末尾加入’|&.*?;’过滤掉最后特殊HTML字符即可。

第二步:只保留图片以及常用的块级元素

正则 (?i)<(?!/?h|/?p|/?div|br|img).*?> 替换为 空

只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写

第三步:去掉除了img标签外的所有标签的选择器或样式,并把标签修改为p

正则 <(?!img)(/?)w+.*?> 替换为 <$1p>

第四步:把乱七八糟的图像样式,改成标准图像代码

正则 <img.*?src=”(.+?)”.*?> 替换为 <img src=”$1″>

第五步:规范段落标签<p>开始</p>结束

正则 </?p>替换为</p><p>

慧聪网段落只有<p>开始没有</p>

结束某些站个别文章,</p>结束后没有<p>开始就直接是下个段落的内容

第六步:把<p>或</p>前后的空格替换为空

正则 s*(</?p>)s* 替换为 $1

第七步:把连续2个以上的<p>或</p>替换为1个

正则 (<p>){2,}|(</p>){2,} 替换为 $1$2

第八步:把所有的空段落替换为空

内容 <p></p> 替换为 空

第九步:由于第五步的关系,文章开头可能是</p>结尾可能是<p>需要清理他们

正则 ^</p>|<p>$ 替换为 空

无错源码所有资源来自会员发布以及互联网收集,不代表本站立场,如有侵犯你的权益请联系管理员,站内发信联系 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。请在下载24小时内删除!


如果遇到付费才可观看的文章,建议升级传奇VIP。全站所有资源任意下免费看”。本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR如遇解压需要密码,请尝试使用www.wucuoym.com来解压,如若仍有问题,请联系站长。

给TA打赏
共{{data.count}}人
人已打赏
数据抓取

最新火车头(高铁采集器)wordpress 6.X 免登陆发布模块

2023-7-7 18:58:37

数据抓取

九四采集器-无线程采集限制破解文件

2023-7-8 11:42:02

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索