CSDN个人博客阅读评论信息的爬取

By | 2017年12月20日

CSDN个人博客阅读评论信息的爬取

用来爬取CSDN上个人博客的信息,包括阅读次数,评论数等等

因为CSDN更换了界面,原来的爬虫已经失效,所以我重新写了一个爬虫,可以精准的爬取到每篇文章阅读次数和评论次数的变化,并将总结出来的信息发送到邮箱里,

项目中有两个文件,csdn_old.py是旧版CSDN界面的爬虫,使用了BeautifulSoup来进行爬取信息,它的功能也是将每日博客信息的变化值总结下来发送到邮箱里,csdn_new.py是新版的爬虫,全部使用re来提取信息,并添加了评论次数的检测。

代码说明:

1.需要配置对应的数据库文件,因为里面保存了博客前一日的全部信息

2.需要发送邮件,必须有对应的邮箱账号和密码才能使用

3.我的代码是放到服务器上每天定时运行的,没有服务器的同学可以联系我,也可以放到我的服务器上。

实现效果

Gitee上的地址https://gitee.com/rainweb/CSND

csdn_new.py

发表评论

电子邮件地址不会被公开。 必填项已用*标注