易语言资源网 - 做最全的易语言资源下载社区
精易论坛授权登录

网页文章采集工具   [复制链接]

    2018-10-27 17:19:59
    网络相关源码
    易语言资源网
    8777 次浏览
    来源链接


(源码)软件简介:

1、软件属于源码(HTML)抓取版

2、只支持二级目录的采集,即 列表页—> 文章页 。(绝大部分的网站文章都能在2级目录内获取到)

3、手动设置翻页(想采几页就采几页)

4、支持正文内容过滤(这个你可以自行修改使用)

5、自动生成TXT文件到桌面文件夹

6、自动判断UTF8返回文本

7、支持每个节点规则的测试返回

重点1:一定要按照六大步骤一步一步测试,全部通过就没问题了。(什么是通过?你可以参考自带的规则展示)

重点2:规则可以叠加,前面文本和后面文本相对应,从外往内,一层一层提取。也就是循环取中间文本。

BUG记录:

1、在核心功能—>提取链接这个子程序中,对于HTTP网址是否需要补齐根域名存在1个判断BUG。

2、在核心功能—> 提取源码这个子程序中,对于网页是否为UTF8格式判断存在会漏掉的BUG。



点我下载 (已有 844 次下载)

引用模块


源码文件名 模块文件名
ML Grab2.e
精易模块.ec


引用支持库


源码文件名 支持库文件名 支持库标识
ML Grab2.e 系统核心支持库 5.3 d09f2340818511d396f6aaf844c7e325
操作系统界面功能支持库 3.0 52F260023059454187AF826A3C07AF2A


[错误报告]   上一篇:网易通行证填表登录源码...     下一篇:超级列表框扩展编辑...