nodejs爬虫

木头的喵喵拖孩

起因是花钱买了一个服务器,又没什么重要服务需要跑,所以就做了一个爬虫,爬取我自己在github page上的博客,方便国内访问,也顺便学习一下爬虫。

我这个爬虫的逻辑是通过访问网站根目录的index.html文件,然后解析出文件中所有的引用的本站的url,包括html、css、js等文件,然后再递归访问这些url,最后将所有触及到的文件结构化地保存到本地。

github地址

  • 标题: nodejs爬虫
  • 作者: 木头的喵喵拖孩
  • 创建于: 2023-12-05 15:07:20
  • 更新于: 2024-05-21 10:56:15
  • 链接: https://blog.xx-xx.top/2023/12/05/nodejs爬虫/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
此页目录
nodejs爬虫