自动检测CSDN博客文章阅读次数的爬虫

By | 2017年8月3日

自动检测CSDN博客文章阅读次数的爬虫

平时没事会去CSDN上看一看博客里有什么变化,如果文章有评论或者有了私信,CSDN上都不会通知你,这就需要经常查看博客信息。其实这种事情完全可以写一个脚本来自动检测识别,如果博客里的信息有什么变化,自动发一个邮件给我,并且告诉我哪些信息发生了变化,再将这个脚本放到计划任务中,每天定时执行扫描博客内容。

下面具体说明一下这个脚本的作用和注意:

1. ​我的想法是先将每篇文章的阅读次数保存到数据库

2. 然后每次将数据库里的数据与博客里的数据进行对比

3. 再将有差别的记录下来,具体信息放到邮件中发送给我

4. URL中list后面是页数,当页数特别大时就显示所有文章,不用分页

5. 文章信息摘取使用BeautifulSoup库,嵌套了几层终于提取了所有信息

6. 写完脚本放到服务器里,开一个计划任务,写一个Shell让它自动执行就好了

下面是源码:

发表评论

电子邮件地址不会被公开。 必填项已用*标注