JAVA和Nginx 教程大全

网站首页 > 精选教程 正文

告别繁琐操作,Skyvern用LLM和CV自动化浏览器工作流

wys521 2024-12-20 12:25:21 精选教程 103 ℃ 0 评论

Skyvern是一款基于大型语言模型(LLM)和计算机视觉(CV)技术的开源工具,旨在自动化基于浏览器的工作流程。它通过提供一个简单的API端点,能够完全自动化大量网站上的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。Skyvern的核心优势在于其结合了LLM和CV技术,这意味着它不仅能够理解网页上的文字信息,还能识别和处理视觉元素,使得在执行任务时更加精确,能够有效地应对那些传统自动化工具难以处理的复杂场景。

Skyvern的工作原理

Skyvern的工作原理结合了LLM和CV技术,使其能够在浏览器环境中执行复杂的任务。具体来说,它通过以下步骤实现自动化:

绘制边界框:Skyvern首先在目标网站的页面上绘制各个可交互元素的边界框。

解析HTML并提取图像:接着,Skyvern解析页面的HTML代码,并从中提取包含网页内容的图像。

提取可交互元素:然后,Skyvern从图像中识别并提取所有可交互的元素,如按钮、输入框等。

调用LLM规划动作:Skyvern调用大语言模型(LLM),询问下一步应该采取的动作。例如,当遇到问题“你的姓名是什么?”时,LLM会回答需要填写姓名,并点击“下一步”按钮。

执行动作:Skyvern根据LLM的指示执行具体动作,例如填写表单并点击按钮。

重复步骤:Skyvern重复上述步骤,继续解析新页面,识别可交互元素,并调用LLM规划和执行动作,直到完成整个工作流程。

Skyvern的优势

Skyvern的设计使其具有以下优势:

无需定制代码:Skyvern可以在从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何定制代码。

抗布局变化能力:Skyvern对网站布局的更改具有抵抗力,因为在尝试导航时,系统没有预先确定的XPaths或其他选择器。

复杂情境处理能力:Skyvern利用LLM来推理交互,以确保能够涵盖复杂的情况。例如,如果您想从Geico获取汽车保险报价,常见问题“您是否在18岁时有资格驾驶?”的答案可以从驾驶员在16岁获得驾照推断出。

Skyvern的安装和使用

Skyvern的安装和使用相对简单,推荐Docker Compose 设置:

  1. 确保你的机器上已安装并正在运行 Docker Desktop
  2. 确保您没有在本地运行 postgres(运行docker ps检查)
  3. 克隆存储库并导航到根目录
  4. 在docker-compose.yml中填写 LLM 提供程序密钥。如果要在远程服务器上运行 Skyvern,请确保在docker-compose.yml中为 UI 容器设置了正确的服务器 ip 。
  5. 通过命令行运行以下命令:
  6. docker compose up -d
  7. 在浏览器中导航http://localhost:8080至开始使用 UI

总结

Skyvern是一款创新的浏览器自动化工具,它结合了LLM和CV技术,提供了一种强大而灵活的方式来自动化基于浏览器的工作流程。通过其独特的工作原理和广泛的应用场景,Skyvern能够显著提高用户的工作效率,减少繁琐的手动操作。无论是企业的自动化需求,还是个人的使用需求,Skyvern都是一个值得尝试的项目。

仓库地址:https://github.com/skyvern-ai/skyvern

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表