Maxun:开源无代码网页数据提取平台
Maxun是一个创新的开源无代码网页数据提取平台,旨在简化从网站提取数据的过程。借助Maxun,用户可以在几分钟内训练机器人自动化抓取网页数据,使网页数据提取变得比以往更加简单高效。本文将介绍Maxun的功能、使用方法,并提供关键的SEO信息,帮助您推广和发现这个强大的工具。
Maxun能做什么?
- 无代码数据提取
Maxun消除了编写复杂代码或脚本的需要,用户可以通过简单的配置创建自定义机器人,模拟用户操作并提取数据。这些机器人可以执行各种操作,包括捕获列表、文本和截图,使得用户可以轻松抓取结构化和非结构化的数据。
- 处理分页和滚动
Maxun的机器人能够处理分页和滚动,允许它们从多个页面和长滚动内容中提取数据,而无需手动干预。这个功能确保用户能够从包含分页或可滚动内容的网站中提取全面的数据集。
- 定时运行
Maxun提供了按特定计划运行机器人的功能。对于需要定期从网站抓取数据的用户来说,这个功能非常有用,可以确保数据集始终保持最新,而无需不断手动干预。
- 网站转API与电子表格转换
Maxun不仅可以提取数据,还允许用户将网站转换为API和电子表格。这个功能使得用户可以更容易地将抓取的数据集成到自己的应用和工作流程中,从而提高数据分析和利用效率。
- BYOP与反机器人保护
Maxun的BYOP(Bring Your Own Proxy)功能允许用户连接外部代理,以绕过反机器人保护。这个功能对于抓取已经实现反机器人措施的保护内容的网站非常重要。此外,Maxun的云版本还提供了庞大的代理网络,支持自动代理轮换和验证码解决,确保在最具挑战性的网站上也能顺利抓取数据。
- 即将推出的功能
Maxun不断发展,定期添加新功能。一些即将推出的功能包括适应网站布局变化、支持两步验证的登录后数据提取,以及更多与流行平台的集成。
如何使用Maxun
安装
要开始使用Maxun,用户可以选择两种安装方式:Docker Compose和手动安装。
Docker Compose
- 为您的项目创建一个根文件夹(例如“maxun”)。
- 在项目的根文件夹中创建一个
.env
文件,并复制示例env文件中的内容。 - 将docker-compose.yml文件复制到根文件夹中。
- 确保在同一文件夹中设置了
.env
文件。 - 在终端中运行命令:
docker-compose up -d
。 - 访问前端:http://localhost:5173/,访问后端:http://localhost:8080/。
手动安装
- 确保您的系统上已安装Node.js、PostgreSQL、MinIO和Redis。
- 从GitHub克隆Maxun仓库:
git clone https://github.com/getmaxun/maxun
。 - 进入项目根目录:
cd maxun
。 - 安装依赖:
npm install
。 - 进入maxun-core目录并安装依赖:
cd maxun-core && npm install
。 - 返回根目录:
cd ...
。 - 确保Playwright正确初始化:
npx playwright install
和npx playwright install-deps
。 - 启动前端和后端:
npm run start
。 - 访问前端:http://localhost:5173/,访问后端:http://localhost:8080/。
环境变量
在项目的根文件夹中创建一个.env
文件,并根据示例env文件配置必要的环境变量。
创建和运行机器人
- 登录Maxun仪表板。
- 创建一个新项目并选择目标网站。
- 训练机器人,选择所需的操作(捕获列表、捕获文本、捕获截图)。
- 配置机器人的设置,包括计划和代理配置(如果使用BYOP)。
- 启动机器人开始抓取数据。
- 在仪表板中监控机器人的进度并查看提取的数据。