gpt-crawler开源工具，爬取网站内容

爬取网站以生成知识文件，用来创建自己的自定义GPTs | gpt-crawler | 制作一个数字人分身

自从自定义GPT出现之后，它有一个功能是上传附件知识库，可以作为chatgpt的储备知识，但是很多你想上传的知识库，可能存在于各个社交媒体、个人博客或者一些官方文档上，想复制出来又比较麻烦。

那么今天就介绍一个开源的爬虫工具，gpt crawler，它可以帮你将网站内容全部爬取下来，并转换成可以作为 GPTs 学习的结构化知识。

例如你想制作一个数字人分身，不妨把自己在个人博客的内容先抓取下来，提交给 ChatGPT 作为储备知识。

如何使用？按照git的操作指引完成即可~

①先执行命令将库克隆到本地。git clone https://github.com/builderio/gpt-crawler

②克隆完之后，执行命令安装依赖项。npm i

③最后一步，配置爬网程序，找到config这个文件，配置对应的参数即可。

④运行爬网程序，等待运行完成后，在此项目的根目录下会有一个output json 的文件，这个文件就是爬网下来并且结构化了的内容。这个json文件也会在本地项目的根目录下，作为我们后面在gpt上传知识的文件。

我们可以把这个内容在自定义GPT里作为一个知识库附件上传上去，提交给 ChatGPT 作为储备知识。当你提问的时候，gpt会搜索你的知识库，并且根据知识库给你答案。可以想象的点非常多，这样你就可以制作一个属于自己的数字人分身了。

视频讲解：

Related Posts