Skip to content

Latest commit

 

History

History
58 lines (43 loc) · 1.47 KB

README.md

File metadata and controls

58 lines (43 loc) · 1.47 KB

Bilibili_User_Spider

该项目仅用作交流学习,数据请勿用作其他用途

环境

  • Python3.8

依赖库

  • requests
  • pandas
  • wordcloud
  • matplotlib

爬取的字段

  • UID
  • 主页
  • 等级
  • 昵称
  • 性别
  • 关注数
  • 粉丝数
  • 关注的UP主
  • 个性签名
  • 是否开通会员
  • 是否是年费会员

画图

一共9张图,6张饼图,2张条形图,1张词云图

饼图分析的维度

  • 性别的数据和占比
  • 会员占比,会员中年费会员的占比
  • 账号活跃情况
  • 等级数量占比

条形图分析的维度

  • 等级数量
  • 每个等级中的总会员数、普通会员数,年费会员数

词云图分析的维度

  • 把每个用户关注的UP主写进txt里面,通过词云图来反应关注数最多的UP主

说明

当爬取的数量过大时,最后生成的csv文件可能会出现空行等情况。
爬完数据后请自行查看,除了 《昵称》和《个性签名》这两个字段,其他字段都不应该出现空值。

python小白,无聊随便写写的。爬取效率非常慢,我爬了50W数据爬了4天,有服务器推荐在服务器下运行。
下面这条命令可以让你的py文件一直在服务器后台运行,即使你断了远程连接或者自己主机关机依旧在运行。
  • nohup python3 -u test.py > test.log 2>&1 &
test.py 要运行的py文件 test.log 日志文件,可以把程序中的print 写进里面,包括报错。