[数据集]新浪微博数据集MicroblogPCU

数据集下载地址:下载

摘要:MicroblogPCU是从新浪微博采集到的,它可以被用于研究机器学习方法和社会关系研究。

这个数据集被原作者用于探索微博中的spammers(发送垃圾信息的人),他们的demo在这里


数据集的属性信息:

weibo_user.csv  
-user_id: 用户ID
-user_name: 用户昵称
-gender:性别,male,female,other
-class:账户级别
-message:账户注册位置或其他个人信息
-post_num: 邮政编码
-follower_num: followers的数量
-followee_num: followee的数量
-follow ratio: followee_num/follower_num;
-is_spammer: manually annotated label, 1 表示 spammer,0 表示 non-spammer;


user_post.csv 
-post_id:微博的ID
-post_time:发布时间
-poster_id: 发布用户的ID
-repost_num:转发数量
-commnet_num: 评论数量


followe-followee.csv 
-follower: the nickname of follower;
-follower_id: the user ID of follower;
-followee: the nickname of followee;
-followee_id: the user ID of followee;


post.csv和user_post.csv类似, and the post in it are retrievalled by a certain key word related to a topic;


取出其中的一部分数据做关系图

[python]  view plain  copy
  1. install.packages('igraph')  
  2. library(igraph)  
  3.   
  4. follower_followee<-read.csv('microblogPCU/follower_followee.csv')  
  5. follower_followee_part<-follower_followee[1:1000,]  
  6.   
  7. gg<-graph.data.frame(data.frame(er=follower_followee_part$follower_id,ee=follower_followee_part$followee_id))  
  8. plot(gg,  
  9.      vertex.label=NA,      ##不显示标签  
  10.      edge.arrow.mode='-',  ##不使用箭头  
  11.      vertex.size = 5       ##设置结点圆的大小  
  12.      )  



参考:https://archive.ics.uci.edu/ml/datasets/microblogPCU


转载请注明出处:http://blog.csdn.net/zhyoulun/article/details/46442899

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 成长之路 设计师:Amelia_0503 返回首页