您当前的位置: 西藏日报 >> 西藏日报内容 >> 使用Python爬取社交网络数据分析

使用Python爬取社交网络数据分析

数据挖掘入门与实战

数据抓取

一、直接抓取数据

二、模拟浏览器抓取数据

三、基于API接口抓取数据

数据预处理

可视化

数据分析

扩散深度

扩散速度

空间分布

节点属性

网络属性

传播属性

结语

在线社交网站为人们提供了一个构建社会关系网络和互动的平台。每一个人和组织都可以通过社交网站互动、获取信息并发出自己的声音，因而吸引了众多的使用者。作为一个复杂的社会系统，在线社交网站真实地记录了社会网络的增长以及人类传播行为演化。通过抓取并分析在线社交网站的数据，研究者可以迅速地把握人类社交网络行为背后所隐藏的规律、机制乃至一般性的法则。

然而在线社交网络数据的获取方法有别于线下社会数据的获取（如普查、社会调查、实验、内容分析等）、数据的规模往往非常大（称之为“大数据”并不为过）、跨越的时间范围也相对较长（与社会调查中的横截面数据相比），常规的数据分析方法并不完全适用。例如传统的社会调查的数据往往样本量有限，而在线社交网络中的样本量可以达到千万甚至更多。因而，研究者迫切得需要寻找新的数据获取、预处理和分析的方法。本章的内容具体包括数据的抓取、数据预处理、数据可视化和数据分析部分。

数据抓取

目前社交网站的公开数据很多，为研究者检验自己的理论模型提供了很多便利。例如斯坦福的社会网络分析项目就分享了很多相关的数据集。社交网站为了自身的发展，往往也通过各种合作项目（例如腾讯的“犀牛鸟项目”）和竞赛（例如Facebook通过Kaggle竞赛公布部分数据）向研究者分享数据。

但是，有时候研究者还是被迫需要自己收集数据。受限于网站本身对于信息的保护和研究者自身的编程水平，互联网数据的抓取过程依然存在众多问题。以下，我们将从三个方面着手简要介绍使用Python进行数据抓取的问题：直接抓取数据、模拟登录抓取数据、基于API接口抓取数据。

一、直接抓取数据

通常的数据抓取遵循可见即可得的规律，即可以观察到的，就可以被抓取。对于网页内容的抓取，可以是把整个网页都存下来，回头再清洗。这样做比较简单有效，但是还是回避不了之后的从html文件中进行的数据提取工作。在下面的例子当中，我们将尝试抓取百度新闻页面（

白癜风有哪些症状
 北京治疗白癜风要多少费用

转载请注明地址:http://www.cqzhduo.com/xzrbnr/20178.html

上一篇文章：上了船，就是一生首媒人远行在理想的星辰

下一篇文章：本科专业预警名单发布，这些专业就业差，蚌

使用Python爬取社交网络数据分析

最新文章

热点文章

推荐文章