如果你想备份某个公众号的所有文章,就有点太麻烦了,所以今天分享的是用Python一键备份某个公众号的所有文章,再也不用担心想看的文章被删了,这里就以我自己的公众号苏生不惑为例了,原理就是通过抓包抓取微信客户端的接口,用Python请求微信接口获取公众号文章链接再下载。

charles 抓包

常见的抓包工具有Fiddler,charles,这里用的charles,先去官网 https://www.charlesproxy.com/download 下载软件,然后打开微信客户端找到公众号,进入文章列表可以看到发过的文章。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

不过charles没安装证书前获取不到https接口数据,显示unknown。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式安装证书后在 proxy->ssl proxying settings 添加域名和host 。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式再次抓取可以看到公众号文章接口数据了。

一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式公众号文章的接口地址 /mp/profile_ext?action=getmsg&__biz=MjM5ODIzNDEx&f=json&offset=25&count=10&is_ok=1&scene=124&uin=MTU0MTQzNj&key=f57423 ,参数比较多,其中有用的参数 __biz 是用户和公众号之间的唯一id,uin是用户的id,这个是不变的,key 是请求的秘钥,一段时间就会失效,offset 是偏移量,count 是每次请求的条数,返回值可以看到返回数据包括文章标题titile、摘要digest、文章地址content_url、阅读原文地址source_url、封面cover、作者author ,只要抓取这些有用的数据就行了。

python 抓取公众号文章

上面分析了接口参数和返回数据,开始用Python请求微信接口就是了。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

这里只抓取原创文章,我的公众号有160多篇原创,生成HTML文件2分钟就搞定了。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式用谷歌浏览器打开就能看。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

生成的HTML文件还可以转成chm格式,需要先安装软件 Easy CHM,这是一款强大的CHM电子书或CHM帮助文件的快速制作工具 http://www.etextwizard.com/cn/easychm.html一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式左侧是文章标题,右侧是文章内容,看起来非常方便。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

还有含有文章标题和链接的 markdown  文件,关于markdown之前文章介绍过 用 Markdown 来写简历和 PPT一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式excel文件格式也有。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

生成HTML,markdown和Excel都比较快,因为都是文本,下面开始导出PDF。

导出PDF

导出PDF用的工具是wkhtmltopdf  ,先到官网https://wkhtmltopdf.org/downloads.html  下载安装 wkhtmltopdf , 安装后设置环境变量,这个之前文章写过 那些你可能不知道的 windows 奇技淫巧,然后直接命令行就能生成PDF。

λ wkhtmltopdf http://www.baidu.com baidu.pdfLoading pages (1/6)Counting pages (2/6)Resolving links (4/6)Loading headers and footers (5/6)Printing pages (6/6)Done

比如生成百度首页的PDF。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式Python中使用pdfkit 模块来调用wkhtmltopdf ,先用pip install pdfkit -i http://pypi.douban.com/simple --trusted-host pypi.douban.com来安装它。

再次运行程序,PDF文件也生成了。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式PDF也可以用谷歌浏览器直接打开,比如这篇一键解锁网易云音乐变灰歌曲一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

不过由于生成PDF比较慢,文章多的话key参数会失效,需要重新获取,然后修改next继续抓取。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

这样就完美的把我公众号的所有文章下载到本地了,有HTML,PDF,Excel,markdown,chm 格式

还有文章的评论也是有接口获取的,可以批量下载到excel。一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式

作者 做T王者

做T王者,擅长做T,一年操作一只不停牌股,可使股票数量增加40%-70%。

发表回复