请输入您要查询的百科知识:

 

词条 社交网站的数据挖掘与分析
释义

基本信息

作者:Matthew A. Russell

出版社: 机械工业出版社

出版时间:2012年2月20日

平装

ISBN: 9787111369608

条形码: 9787111369608

品牌: 机械工业出版社

ASIN: B0077K9R2I

内容简介

Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。

本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。

通过本书,你将

. 获得对社交网络世界的直观认识

. 使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn等社交网络API中的数据

. 学习如何应用便捷的Python工具来交叉分析你所收集的数据

. 通过XFN探讨基于微格式的社交联系

. 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术

. 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化

作者简介

马修·罗塞尔(Matthew A.Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Dofinitive Guide》(O'Reilly出版社)的作者。在LinkedIn上联系他或在Twitter上关注@ptwobrussell,可随时关注他的最新动态。

目录

前言1

第1章绪论:Twitter 数据的处理9

Python 开发工具的安装9

Twitter 数据的收集和处理11

小结24

第2章微格式:语义标记和常识碰撞26

XFN 和朋友27

使用XFN 来探讨社交关系29

地理坐标:兴趣爱好的共同主线37

(以健康的名义)对菜谱进行交叉分析41

对餐厅评论的搜集43

小结45

第3章邮箱:虽然老套却很好用47

mbox:Unix 的入门级邮箱48

mbox+CouchDB= 随意的Email 分析54

将对话线程化到一起70

使用SIMILE Timeline 将邮件“事件”可视化79

分析你自己的邮件数据82

小结84

第4章Twitter :朋友、关注者和Setwise 操作85

REST 风格的和OAuth-Cladded API86

干练而中肯的数据采集器90

友谊图的构建108

小结116

第5章Twitter:tweet ,所有的tweet ,只有tweet 118

笔PK 剑:和tweet PK 机枪(?!?)118

对tweet 的分析(每次一个实体)121

并置潜在的社交网站(或#JustinBieber VS #TeaParty)144

对大量tweet 的可视化155

小结163

第6章LinkedIn :为了乐趣(和利润?)将职业网络聚类164

聚类的动机165

按职位将联系人聚类167

获取补充个人信息183

从地理上聚类网络188

小结192

第7章Google Buzz:TF-IDF 、余弦相似性和搭配194

Buzz=Twitter+ 博客(???)195

使用NLTK 处理数据198

文本挖掘的基本原则201

查找相似文档208

在二元语法中发Buzz 215

利用Gmail 221

在中断之前试着创建一个搜索引擎……225

小结226

第8章博客及其他:自然语言处理(等)228

NLP :帕累托式介绍228

使用NLTK 的典型NLP 管线231

使用NLTK 检测博客中的句子234

对文件的总结237

以实体为中心的分析:对数据的深层了解245

小结256

第9章Facebook :一体化的奇迹257

利用社交网络数据258

对Facebook 数据的可视化274

小结294

第10 章语义网:简短的讨论296

发展中的变革296

人不可能只靠事实生活297

期望301

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2024/12/23 5:11:32