>>> wechat[wechat.文章位置 == 1][['阅读数','点赞数','在看数']].mean()阅读数 28413.407407点赞数 667.126984在看数 276.148148dtype: float64
头条和次条文章数:
wechat.groupby('文章位置',as_index=False).agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)>>> wechat.文章位置.value_counts().sort_values(ascending=False).head(5)1 1892 142Name: 文章位置, dtype: int64wechat.query('文章位置 == 2')
原创文章总数:
wechat.groupby('是否原创')['在看数'].count().sort_values(ascending=False).head(5)wechat.groupby('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)是 331Name: 是否原创, dtype: int64
还有评论区的IP归属地分布,我之前文章也分析过 ,
然后是下载的文章内容,包括图片/封面/视频/音频,批量下载图片效果:
下载的图片文件名为文章发布时间加文章标题和数字:
另外每个月我都会更新一次公众号深圳卫健委的封面表情包图,无水印,欢迎收藏 ,所有封面图的文件名为文章发布日期加标题,方便搜索,在公众号后台发送 封面 获取这个号2019-2021年的所有封面图,2022年结束的时候再下载2022封面图。
批量音频如图,视频比较大,只下载了视频链接:
文章内容是html文件,可以批量转换成pdf。
代码如下:
import timeimport re,osimport requests,jsonfrom bs4 import BeautifulSoupfrom pdf2docx import Converterdef to_pdf(): import pdfkit print('导出 PDF...') htmls = [] for root, dirs, files in os.walk('.'): for name in files: if name.endswith(".html"): print(name) try: pdfkit.from_file(name, 'pdf/'+name.replace('.html', '')+'.pdf') except Exception as e: print(e) # htmls += [name for name in files if name.endswith(".html")] print('导出 word...') htmls = [] for root, dirs, files in os.walk('.'): for name in files: if name.endswith(".pdf"): print(name) try: cv = Converter(name) cv.convert('word/'+name.replace('.pdf', '')+'.docx') cv.close() except Exception as e: print(e)# to_word()
然后将转换的pdf合并成一个文件并生成书签
代码如下:
import logging,os,htmlfrom PyPDF2 import PdfFileReader, PdfFileWriter,PdfFileMerger#pip install PyPDF2file_writer = PdfFileWriter()merger = PdfFileMerger()num = 0for root, dirs, files in os.walk('.'): for name in files: if name.endswith(".pdf"):#glob.glob('*.pdf') file_reader = PdfFileReader(f"{name}") file_writer.addBookmark(html.unescape(name).replace('.pdf',''), num, parent=None) for page in range(file_reader.getNumPages()): num += 1 file_writer.addPage(file_reader.getPage(page))with open(r"公众号苏生不惑历史文章合集.pdf",'wb') as f: file_writer.write(f)
文章下的留言也在文件里,点击左侧书签跳转到对应文章:
最后再说我开发的公众号文章下载 ,可以下载单篇文章/话题下的文章/音频/视频,在公众号后台对话框回复 公众号 获取下载地址。
输入公众号文章地址,批量下载文章里的音频效果:
批量下载视频效果:
顺便把文章内容html也下载了,如果有bug可以向我反馈:
公众号话题下载以这个话题为例:
输入话题地址下载效果如图:
音频/视频和文章html都下载了:
下载的文章链接在文件wechat_topic_list.txt,如果第2次下载会跳过已经下载过的文章,效果:
话题里的纯音频也支持下载,这次我用golang重写了 ,输入话题地址的下载效果如图,990个音频很快就下载完了。
音频地址保存在文件wechat_topic_audio_list.txt ,如果第2次下载也会跳过已经下载过的音频,效果:
最近原创文章:
如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!
公众号苏生不惑
限时特惠:本站每日持续更新海量各大内部网赚创业教程,会员可以下载全站资源点击查看详情
站长微信:11082411