gpt-crawler开源工具,爬取网站内容

爬取网站以生成知识文件,用来创建自己的自定义GPTs | gpt-crawler | 制作一个数字人分身

git地址:https://github.com/BuilderIO/gpt-crawler

自从自定义GPT出现之后,它有一个功能是上传附件知识库,可以作为chatgpt的储备知识,但是很多你想上传的知识库,可能存在于各个社交媒体、个人博客或者一些官方文档上,想复制出来又比较麻烦。

那么今天就介绍一个开源的爬虫工具,gpt crawler,它可以帮你将网站内容全部爬取下来,并转换成可以作为 GPTs 学习的结构化知识。

例如你想制作一个数字人分身,不妨把自己在个人博客的内容先抓取下来,提交给 ChatGPT 作为储备知识。

如何使用?按照git的操作指引完成即可~

先执行命令将库克隆到本地。git clone https://github.com/builderio/gpt-crawler

克隆完之后,执行命令安装依赖项。npm i

最后一步,配置爬网程序,找到config这个文件,配置对应的参数即可。

运行爬网程序,等待运行完成后,在此项目的根目录下会有一个output json 的文件,这个文件就是爬网下来并且结构化了的内容。这个json文件也会在本地项目的根目录下,作为我们后面在gpt上传知识的文件。

我们可以把这个内容在自定义GPT里作为一个知识库附件上传上去,提交给 ChatGPT 作为储备知识。当你提问的时候,gpt会搜索你的知识库,并且根据知识库给你答案。可以想象的点非常多,这样你就可以制作一个属于自己的数字人分身了。

视频讲解:

1人评论了“gpt-crawler开源工具,爬取网站内容”

  1. Một trong những lý do khiến 888slot được lòng cược thủ là chính sách rút tiền “không làm khó”. Chỉ cần xác minh danh tính một lần, các lần rút sau đều được xử lý tự động trong vài phút. TONY01-14

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部