=== 胖鼠采集(Fat Rat Collect) ===
Contributors: fbtopcn
Donate link: https://www.fatrat.cn/docs/v2/bounty
Tags: 采集,微信公众号文章采集,知乎采集,列表采集,批量采集
Requires at least: 4.6
Tested up to: 7.0
Stable tag: 3.0.3
Requires PHP: 7.1
License: GPLv2 or later
License URI: https://www.gnu.org/licenses/gpl-2.0.html

胖鼠采集(Fat Rat Collect) 是一款面向 WordPress 网站的自动化内容采集工具，支持三方数据列表页、详情页、微信公众号文章、知乎、简书等多种采集场景。插件提供规则配置、在线调试、数据管理、自动采集、自动发布等能力，帮助站点提升内容处理效率，降低重复操作成本。

== Description ==
胖鼠采集(<a href="https://www.fatrat.cn" target="_blank">Fat Rat Collect</a>) 是一款基于 WordPress 的内容采集与数据处理插件，适用于资讯站、内容聚合站及需要结构化采集网页内容的业务场景。插件支持通过规则配置完成网页内容提取、链接补全、图片处理、内容过滤、自动发布等操作，并提供调试工具与示例规则，便于快速上手和持续维护。

= 核心功能 =
* 微信公众号文章采集：支持公众号文章内容提取与清洗处理。
* 简书文章采集：支持正文、图片等内容采集。
* 列表采集与历史采集：支持从列表页批量获取文章链接并持续采集历史内容。
* 详情页采集：支持针对目标详情页提取标题、正文、图片等信息。
* <a href="https://www.fatrat.cn/docs/v2/list-paging-collection" target="_blank">分页采集</a>：支持多分页内容遍历，适用于历史数据抓取场景。
* 自动采集：支持定时或持续执行采集任务。
* 自动发布：支持将采集结果自动写入 WordPress 文章系统。
* 调试模式：支持在线调试采集规则，便于定位选择器与数据处理问题。
* 示例规则：提供可直接体验和参考的规则样例。
* 内容增强：支持 <a href="https://www.fatrat.cn/docs/v2/dynamic-content" target="_blank">动态内容</a>、<a href="https://www.fatrat.cn/docs/v2/auto-tags" target="_blank">自动标签</a>、标签内链等扩展能力。
* 内容去重：支持重复文章识别与过滤。
* 特色图片处理：支持正文首图设置为特色图片。
* 图片本地化：支持将图片下载到本地媒体库，并兼容对象存储类插件。
* 数据处理：支持基于 HTML 和 jQuery 的内容过滤、替换与伪原创处理。
* 任意可见网页采集：支持自定义站点列表页与详情页采集规则。
* 相对链接补全：支持自动补全相对路径为完整链接。
* 图片链接类型处理：支持自定义图片链接格式。
* 详情分页数据采集：支持详情页内部翻页内容整合。
* 关键词随机插入：支持指定关键词或 A 标签关键词随机插入正文内容。
* 安装即用：完全基于 WordPress 实现，支持开源查阅与二次开发。
* 兼容说明：如 PHP 版本低于 7.1，请使用历史兼容分支 `based_php_5.6`，该分支已停止更新，不建议在新环境中使用。
* 合规提示：请在合法、合规、获得授权的前提下使用本插件。

= 胖鼠采集系统架构 =
* 系统由五个核心模块组成。
* ① 采集中心：用于创建与管理采集任务。
* ② 配置中心：用于维护采集规则、字段映射和处理逻辑。
* ③ 数据桶：用于查看、筛选、发布和管理采集结果。
* ④ 调试中心：用于在线调试规则与查看采集结果。
* ⑤ 工具箱：提供插件配套的辅助工具能力。

= 使用说明 =
* 采集任务通常会消耗较多系统资源，图片下载与媒体处理场景尤为明显。
* 建议首次使用时优先体验示例规则，确认环境配置正常后再创建自定义规则。
* 本插件适用于学习、研究与合法业务场景，使用者需自行承担实际使用中的合规责任。

== Installation ==

安装方式：
1. 在 WordPress 插件市场中搜索 <strong>胖鼠采集</strong> 并安装启用。
2. 或将插件目录上传至 `/wp-content/plugins/` 后，在后台启用插件。
3. 若 PHP 版本低于 7.1，请使用历史兼容分支 `based_php_5.6`；该分支已停止更新，不建议在新环境中使用。

== Frequently Asked Questions ==

= 常见问题 =

= 采集成功但没有数据，如何排查？ =
请打开浏览器开发者工具，查看 Console 或网络请求中的调试信息，并结合调试中心检查规则配置是否正确。

= 插件是否收费？ =
插件基础能力可免费使用，部分高级或特色功能可能采用单独授权方式提供，具体以官方说明为准。

= 是否支持微信公众号历史文章采集？ =
当前版本暂不支持完整历史文章自动抓取，具体能力请以实际版本说明为准。

= 是否支持 Ajax 页面采集？ =
支持情况取决于目标页面结构与采集方式，必要时可结合动态渲染能力进行处理。

= 是否支持图片下载？ =
支持，可将采集图片下载到本地，并根据配置接入媒体库或对象存储插件。

= 相对链接是否可以自动补全？ =
支持，插件可根据配置自动补全相对路径为完整链接。

= 关于新建配置 =
建议优先使用调试中心进行规则验证，并结合视频或文字教程逐步完成配置。


= 胖鼠推荐服务环境 =
* PHP：建议 7.1 及以上版本。
* Web 服务器：推荐 Nginx。
* MySQL：推荐 5.7 及以上版本。
* WordPress：建议使用当前受支持的稳定版本。
* 插件版本：建议及时更新至最新版本，以获得更好的兼容性和安全性。

== Screenshots ==
1. 采集中心：用于创建和管理采集任务。
2. 配置中心：用于维护采集规则与字段配置。
3. 数据桶：用于查看和发布已采集的数据。
4. 配置编辑页：用于新增或修改采集规则。
5. 调试中心：用于调试采集规则并查看结果。
6. 工具箱：提供插件配套辅助工具。

== Changelog ==

= 3.0.0
* 新版本，新时代

= 2.7.4
* 配合官方安全更新

= 2.7.3
* 修复公众号采集的一个BUG

= 2.7.2
* 修复公众号采集的重新激活BUG

= 2.7.1
* 修复一个影响新鼠友的保存配置的BUG

= 2.7.0
* 微信公众号历史文章采集
* 登陆网站 cookie 采集

= 2.6.7/8
* 优化一些安全相关问题

= 2.6.6
* 优化提示文案
* 修复自动发布快捷发布故障
* 快捷发布增加批量发布功能（新功能）

= 2.6.5
* 安全更新，性能优化
* 全站采集保存正则BUG修复

= 2.6.3
* 安全更新
* 代码优化

= 2.6.2
* 安全优化

= 2.6.1
* 修复采集列表或者分页的时候，被目标站防采集命中，会出现的采集数据的url不一致、但是数据的标题以及内容和源网站不一样，数据会重复的bug

= 2.6.0
* 升级组件，兼容PHP8
* 修复数据桶分页数量bug
* 修复自动采集html展示问题
* 修复配置数量为5个无法编辑问题
* 优化文案
* 优化项目结构
* 使用composer自动加载

= 2.5.2
* 修复关键词随机插入保存错误

= 2.5.1
* 部分语法兼容php8
* 数据桶样式优化
* 配置中心文章正文添加头尾html反斜线bug

= 2.5.0
* 升级 bootstrap

= 2.4.4
* 官方指导、代码修正, 写法规范.
* 简单而又大量的优化.
* 修复oss图片上传相对地址选项，但站点根目录不是 wp-content 会出现的bug.

= 2.4.3
* 修复关键词替换的BUG

= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.

= 2.4.1
* 数据表字段长度调整
* 代码精简

= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码

= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.

= 2.2.6
* Fix Auto Absolute Url Bug.

= 2.2.5
* 修复bug，提升稳定性

= 2.2.3-4
* 修复自动发布 动态内容，自动标签bug
* 优化代码，提升速度

= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度

= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则，删除对应数据
* 等其他优化..

= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态

= 2.0.7
* 优化速度 .

= 2.0.6
* fix bug .
* 插件提升管理员权限使用.

= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码，优化速度
* 批量删除细节优化

= 2.0.4
* 数据链接优化

= 2.0.3
* 优化插件速度，精简很多地方.

= 2.0.2
* 低版本数据库兼容

= 2.0.1
* 大数据量鼠优化升级步骤

= 2.0.0 = 2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化，标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化，避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据，所有数据一手掌握

= 1.11.1 = 2019-11-30
* delete Violations wordpress keywords

= 1.11.1 = 2019-09-19
* 简书规则升级

= 1.11.0 = 2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)

= 1.10.4 = 2019-06-12
* 优化一些地方

= 1.10.3 = 2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化

= 1.10.2 = 2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化

= 1.10.1 = 2019-05-04
* 代码优化

= 1.10.0 = 2019-05-04
* 新功能 Dynamic Content

= 1.9.0 = 2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案

= 1.8.7 = 2019-04-30
* 修复一个紧急bug

= 1.8.6 = 2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30

= 1.8.4 = 2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化

= 1.8.3 = 2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}

= 1.8.2 = 2019-04-14
* 修复了 一个不影响大局的sql错误

= 1.8.1 = 2019-04-14
* 修复 微信 简书 采集失败bug

= 1.8.0 = 2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载

= 1.7.5 = 2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug

= 1.7.4 = 2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能

= 1.7.3 = 2019-03-08
* 冒泡

= 1.7.2 = 2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.

= 1.7.1 = 2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.

= 1.7.0 = 2019-01-25
* 定时发布 (给鼠友增加开关）
* 定时采集 (给鼠友增加开关）
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明

= 1.6.3 = 2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!

= 1.6.2 = 2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!

= 1.6.1 = 2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正

= 1.6.0 = 2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码

= 1.5.1 = 2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug

= 1.5.0 = 2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员

= 1.4.3 = 2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?

= 1.4.2 = 2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则，后续增加
* 采集url地址 代码优化

= 1.4.1 = 2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码

= 1.4.0 = 2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表，增加了索引
* 优化掉了Log表
* ...

= 1.0.0 = 2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。

== Upgrade Notice ==
