你能用这个插件做什么?
Crawlomatic Multisite Scraper Post Generator Plugin for WordPress是一个突破性的网站抓取和抓取,帖子生成器自动博客插件,它使用网站抓取和抓取将您的网站变成自动博客甚至赚钱机器!
从几乎任何网页获取内容!您不再需要需要注册并提供有限访问权限的 API,您也可以从非 API 提供的网站检索数据。安排一次,让它像大师一样为您自动驾驶您的帖子 7/24!
它是如何工作的?
这个插件会爬取你给它的种子 URL(爬取意味着它将搜索网页包含的所有链接),并将访问并从每个爬取的 URL 中提取内容。爬取过程可自定义:您可以设置爬取深度、爬取速率、最大爬取文章数、仅爬取具有特定类或 ID 的链接以及更多自定义设置。
Crawlomatic v2.0 更新
在 v2.0 更新中,插件中添加了一个新的实时抓取短代码:[crawlomatic-scraper]。这个新功能使这个插件成为一个易于实现的 WordPress 网络数据提取器。因此,它可用于将来自任何网站的实时数据直接显示到您的帖子、页面或侧边栏中。它还会临时缓存抓取的内容,因此您的网站不会过度使用资源。您可以使用此插件来包含实时股票报价、板球或足球比分或来自公共领域的任何其他通用内容!
此更新中包含的新功能:
- 抓取的输出可以通过自定义模板标签、页面中的简码、帖子和侧边栏(通过文本小部件)显示。
- 抓取数据的可配置缓存。可以为每个抓取的数据以分钟为单位定义缓存超时。
- 可以为每次抓取设置刮板的可配置用户代理。
- 可配置的默认设置,例如启用、用户代理、超时、缓存、错误处理。
- 多种查询内容的方法——CSS 选择器、XPath 或正则表达式、自动检测。
- 用于解析内容的各种参数。
- 将发布参数传递给要抓取的 URL 的选项。
- 将抓取的内容动态转换为指定的字符编码,以使用不同的字符集从站点抓取数据。
- 使用动态生成的 URL 动态创建抓取的页面,以根据页面的获取或发布参数来抓取或发布参数。
- 用于高级解析抓取数据的回调函数。
查看v2 更新的官方文档,浏览示例并查看常见问题解答,以制作完美优化的网络爬虫。
更多关于插件
您可以从浏览器中打开的几乎每个网站中抓取内容。如果内容是使用 JavaScript 加载的,则该插件可以与 PhantomJS 结合以抓取 JavaScript 生成的内容。
此外,您可以自动生成无限数量的自定义网站抓取和抓取。
其他插件功能:
- v2.4.1 更新:为 WooCommerce 产品刮取产品图像画廊(对于非产品帖子类型,将从刮取的图像创建帖子附件)
- v2.3.5 更新:在抓取的 HTML 上执行您自己的 JavaScript 代码并抓取结果 – 此功能仅在使用无头浏览器进行抓取 (Puppeteer/Tor/PhantomJS) 或 HeadlessBrowserAPI 时可用
- v2.2.1 更新:为链接抓取 RSS 提要并抓取其中列出的文章
- v2.2.0 更新:使用HeadlessBrowserAPI从 Internet 上的任何网站抓取 JavaScript 生成的 HTML 内容,而无需在您的服务器上安装任何东西(除了这个插件) –教程视频
- v2.1.0 更新:使用 Tor 浏览器和 Puppeteer 从暗网上抓取 .onion 网站!–教程视频
- v2.0.0 更新:添加了 Live Scraper 短代码以实现更多的抓取控制和抓取能力:[crawlomatic-scraper]
- v1.7.1 更新:支持站点地图抓取 –视频教程
- v1.6.5 更新:添加了视觉内容选择器支持 –视频教程
- v1.6.0 更新:添加抓取页面截图并在生成的帖子内容中使用的功能 –视频教程
- v1.5.2 更新:能够缩短传出(发布源)链接(并通过它们获利),使用Shorte.st链接缩短服务 –缩短链接示例
- v1.4.8 更新:添加了对爬取页面的 JavaScript 执行支持 – 需要在服务器上安装 PhantomJS –如何安装 PhantomJs?–视频教程
- v1.4.4 更新:增加了设置多个代理爬取页面的功能。该插件将在每个页面访问时随机选择一个
- v1.4.0更新:增加了分页爬取的功能(对文章的爬取将在种子页的下一页继续)。
- v1.4.0更新:增加了为抓取的产品导入产品价格的能力(兼容WooCommerce)+ dropshipping价格自动修改-视频教程
- v1.4.0 更新:增加了将进口产品价格增加一个固定数字或将其与预定义数字相乘的功能(对于直销来说很有价值!)
- v1.2.8 更新:添加分页帖子导入支持(到单个爬网帖子中)检查:VIDEO。
- v1.2.4 更新:增加设置代理爬取页面的功能
- v1.2.3 更新:增加了直接抓取失败(被阻止)时从谷歌缓存抓取页面的选项
- 谷歌翻译支持 – 选择您想发表文章的语言
- 文本微调器支持 – 自动修改生成的文本,使用同义词更改单词 – 内置、最佳微调器、SpinRewriter、WordAI、TurkceSpin 等 – 伟大的 SEO 价值!
- 可自定义生成的帖子状态(已发布、草稿、待处理、私人、垃圾)
- 列出此插件生成的所有帖子的简码:[crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ = > ”, ‘ruleid’ => ”]
- 可以设置抓取和抓取以尊重网站的 robots.txt 文件和抓取页面的机器人 HTML 标头
- 从市场项目自动生成帖子类别或标签
- 手动将帖子类别或标签添加到项目
- 选择是否要更新已发布的帖子
- 将带有请求的自定义 cookie 发送到已爬取的网页(身份验证)
- 生成帖子或页面或任何自定义帖子类型
- 使用网站抓取和抓取嵌入来自 YouTube、Vimeo、Flickr、IGN、Ustream.tv 和 DailyMotion 的视频
- 定义发布约束:不要发布没有图片的帖子、带有短/长标题/内容的帖子
- 自动为帖子生成特色图片
- 为生成的帖子启用/禁用评论、pingbacks 或 trackbacks
- 自定义帖子标题和内容(包括各种相关的帖子短代码)
- ‘关键字替换工具’ – 其目的是定义自动替换为您的附属链接的关键字,无论它们出现在您网站内容中的任何位置。例如,您可以定义关键字“codecanyon”,并将其替换为指向http://www.codecanyon.net/?ref=user_name的链接,该链接出现在您网站内容中的任何位置。
- ‘Random Sentence Generator Tool’(相关句子——如你所定义)
- 一段时间后自动删除生成的帖子的选项
- 详细的插件活动记录
- 计划的规则运行
- 生成帖子的自定义字段支持
- 自定义分类法支持生成的帖子
- 无限制的爬取变量导入(被爬取页面的无限制导入部分)
- 选择在本地复制或不复制图像
- 将规范元标记添加到生成的帖子的选项
- 最大/最小标题长度帖子限制
- 最大/最小内容长度发布限制
- 仅当在标题/内容中找到预定义的必需关键字时才添加帖子
- 仅当在标题/内容中未找到预定义的禁止关键字时才添加帖子
- 从文件保存和恢复插件规则列表
测试这个插件
- 您可以使用“测试站点生成器”测试 插件的功能。在这里您可以尝试插件的全部功能。请注意,生成的测试博客将在 24 小时后自动删除。
插件要求
- PHP DOM -> 如何安装它(如果你没有它,但可能你已经有了它): http: //php.net/manual/en/dom.setup.php
- PHP 5.0 或更高版本
- dom、mbstring、iconv 和 json 扩展(默认启用)
有关如何配置插件的更多信息,请查看这个1 小时长的教程视频,它涵盖了插件的完整功能集。