如何在 Octoparse 中设置 Bright Data
通过将 Bright Data 集成到 Octoparse,提高您的网页抓取效率,确保数据提取的安全性和匿名性,同时降低 IP 封锁风险。
展开以获取您的 Bright Data 代理访问信息
展开以获取您的 Bright Data 代理访问信息
您的代理访问信息
Bright Data 代理按“代理区域”(Proxy zones)进行分组。每个区域包含其对应的代理配置。
要获取代理区域的访问权限:
- 登录 Bright Data 控制面板
- 选择现有代理区域或新建一个代理区域
- 点击新的区域名称,并选择 概览(Overview) 选项卡
- 在概览选项卡中,找到 访问详情(Access details),并单击复制图标将代理访问信息复制到剪贴板
- 您需要以下信息:代理主机(Proxy Host)、代理端口(Proxy Port)、代理区域用户名(Proxy Zone username)和代理区域密码(Proxy Zone password)
- 点击复制图标,将文本复制到剪贴板,并粘贴到您的工具的代理配置中
访问详情示例
住宅代理访问
要使用 Bright Data 的 住宅代理(Residential Proxies),您需要通过合规团队的验证或安装证书。了解更多…
目标是搜索引擎?
如果您的目标是 Google、Bing 或 Yandex 等搜索引擎,则需要使用专门的搜索引擎结果页(SERP)代理 API。请使用 Bright Data SERP API 来访问搜索引擎。
点击此处了解 Bright Data SERP 代理 API。
避免工具中的 PROXY ERROR
一些工具会使用搜索引擎作为代理测试目标:如果您的代理测试失败,这可能就是原因。请确保您的测试目标域名不是搜索引擎(此设置在工具配置中,而非 Bright Data 代理的控制范围内)。
什么是 Octoparse?
Octoparse 是一款用户友好的网页抓取工具,无需任何编程知识即可从网站收集数据。它提供简单的点选界面,使您能够从复杂的网站提取信息。Octoparse 允许自定义、自动化和定时执行抓取任务,并支持将提取的数据保存为 CSV 或 Excel 等格式。无论是市场调研、价格监测,还是潜在客户获取,Octoparse 都能让数据收集变得快速、简单、高效!
Octoparse 代理集成
按照以下步骤,将 Bright Data 代理集成到 Octoparse:
安装 Octoparse
访问 Octoparse 官网 下载并安装该工具。
创建新任务
点击左上角的 +New 按钮,然后选择 Custom Task(自定义任务)。
输入目标 URL
在 URL Input(URL 输入)字段中输入要抓取的网站地址,然后点击 Save(保存)。
进入代理设置
网页加载完成后,进入 Task Settings > Anti-blocking(任务设置 > 反封锁)。
启用代理
勾选 Access websites via proxies(通过代理访问网站),然后选择 Use my own proxies(使用自定义代理)。点击 Configure(配置)。
配置 Bright Data 代理
在弹出的窗口中,按以下格式输入您的 Bright Data 代理信息:
- IP/host: 输入
http://brd.superproxy.io/
。 - Port: 使用您在 Bright Data 控制面板 中提供的端口号。
- Username: 输入您的 Bright Data 代理
username
。 - Password: 输入您的 Bright Data 代理
password
。
如果需要使用特定国家的代理,可以使用格式 your-username-country-US
以获取美国出口节点。
如果您使用的是轮换代理,可以在 Switch interval(切换间隔)中设置 IP 轮换的频率。对于保持会话的代理,请根据需要调整会话时长。
保存设置
点击 Confirm(确认)以应用更改,然后点击 Save(保存)。
就这样!您已成功将 Bright Data 代理集成到 Octoparse。