gpt-crawler开源工具,爬取网站内容

爬取网站以生成知识文件,用来创建自己的自定义GPTs | gpt-crawler | 制作一个数字人分身

git地址:https://github.com/BuilderIO/gpt-crawler

自从自定义GPT出现之后,它有一个功能是上传附件知识库,可以作为chatgpt的储备知识,但是很多你想上传的知识库,可能存在于各个社交媒体、个人博客或者一些官方文档上,想复制出来又比较麻烦。

那么今天就介绍一个开源的爬虫工具,gpt crawler,它可以帮你将网站内容全部爬取下来,并转换成可以作为 GPTs 学习的结构化知识。

例如你想制作一个数字人分身,不妨把自己在个人博客的内容先抓取下来,提交给 ChatGPT 作为储备知识。

如何使用?按照git的操作指引完成即可~

先执行命令将库克隆到本地。git clone https://github.com/builderio/gpt-crawler

克隆完之后,执行命令安装依赖项。npm i

最后一步,配置爬网程序,找到config这个文件,配置对应的参数即可。

运行爬网程序,等待运行完成后,在此项目的根目录下会有一个output json 的文件,这个文件就是爬网下来并且结构化了的内容。这个json文件也会在本地项目的根目录下,作为我们后面在gpt上传知识的文件。

我们可以把这个内容在自定义GPT里作为一个知识库附件上传上去,提交给 ChatGPT 作为储备知识。当你提问的时候,gpt会搜索你的知识库,并且根据知识库给你答案。可以想象的点非常多,这样你就可以制作一个属于自己的数字人分身了。

视频讲解:

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部