“Web数据挖掘”的意思、由来-中文百科全书

人民邮电出版社书籍

Web数据挖掘

作者:(印度)(Soumen Chakrabarti)查凯莱巴蒂

市场价：59.00

出版社：人民邮电出版社页码：344 页

出版日期：2009年

ISBN：9787115194046

版本：1版

装帧：平装

开本：16

英语：英语

丛书名：图灵原版计算机科学系列

外文书名：Mining the Web:Discovering Knowledge from Hypertext Data

内容简介

《Web数据挖掘》是适用于数据挖掘学术研究和开发的专业人员的参考书，同时也适合作为高等院校计算机及相关专业研究生的教材。

作者简介

Soumen Chakrabarti，Web搜索与挖掘领域的知名专家，ACM Transactions on the Web副主编。加州大学伯克利分校博士，目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBM Almaden研究中心，从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验，开发了多个Web挖掘系统，并获得了多项美国专利。

本书是Web挖掘与搜索引擎领域的经典著作，自出版以来深受好评，已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题，并以此为基础，深入阐述了解决Web挖掘各种难题所涉及的机器学习技术，提出了机器学习在系统获取、存储和分析数据中的许多应用，并探讨了这些应用的优劣和发展前景。全书分析透彻，富于前瞻性，为构建Web挖掘创新性应用奠定了理论和实践基础，既适用于信息检索和机器学习领域的研究人员和高校师生，也是广大Web开发人员的优秀参考书。

“本书深入揭示了搜索引擎的技术内幕！有了它，你甚至能够自己开发一个搜索引擎。”

——searchenginewatch网站

“本书系统、全面而且深入，广大Web技术开发人员都能很好地理解和掌握其中内容。作者是该研究领域的领军人物之一，在超文本信息挖掘和检索方面有着渊博的知识和独到的见解。”

——Joydeep Ghosh，得克萨斯大学奥斯汀分校教授，IEEE会士

“作者将该领域的所有重要工作融合到这部杰作中，并以一种通俗易懂的方式介绍了原本非常

深奥的内容。有了这本书，Web挖掘终于有可能成为大学的一门课程了。”

——Jaideep Srivastava，明尼苏达大学教授，IEEE会士

编辑推荐

《Web数据挖掘》是Web挖掘与搜索引擎领域的经典著作，自出版以来深受好评，已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题，并以此为基础，深入阐述了解决Web挖掘各种难题所涉及的机器学习技术，提出了机器学习在系统获取、存储和分析数据中的许多应用，并探讨了这些应用的优劣和发展前景。

《Web数据挖掘》分析透彻，富于前瞻性，为构建Web挖掘创新性应用奠定了理论和实践基础，既适用于信息检索和机器学习领域的研究人员和高校师生，也是广大Web开发人员的优秀参考书。

序言

This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge, built in a decentralized yet collaborative manner. It is a living, growing, populist, and participatory medium of expression with no central editorship. This has positive and negative implications. On the positive side, there is widespread participation in authoring content. Compared to print or broadcast media, the ratio of content creators to the audience is more equitable. On the negative side, the heterogeneity and lack of structure makes it hard to frame queries and satisfy information needs. For many queries posed with the help of words and phrases, there are thousands of apparently relevant responses, but on closer inspection these turn out to be disappointing for all but the simplest queries. Queries involving nouns and noun phrases, where the information need is to find out about the named entity, are the simplest sort of information-hunting tasks. Only sophisticated users succeed with more complex queries——for instance, those that involve articles and prepositions to relate named objects, actions, and agents. If you are a regular seeker and user of Web information, this state of affairs needs no further description.

Detecting and exploiting statistical dependencies between terms, Web pages, and hyperlinks will be the central theme in this book. Such dependencies are also called patterns, and the act of searching for such patterns is called machine learning, or data mining. Here are some examples of machine learning for Web applications. Given a crawl of a substantial portion of the Web, we may be interested in constructing a topic directory like Yahoo！, perhaps detecting the emergence and decline of prominent topics with passing time. Once a topic directory is available, we may wish to assign freshly crawled pages and sites to suitable positions in the directory.

清华大学出版社书籍

基本信息

Web数据挖掘

作者：Bing Liu著、俞勇等译

ISBN：9787302193388

定价：49元

印次：1-3

装帧：平装

印刷日期：2011-3-16

图书简介

本书旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。

本书尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

前言

译者

2009年3月译者序序言

过去几十年里，Web的迅速发展使其成为世界上规模最大的公共数据源。Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。依据在挖掘过程中使用的数据类别，Web挖掘的任务可以被划分为三种主要类型：Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从记录每位用户点击情况的使用日志中挖掘用户的访问模式。

有两大指导性原则贯穿本书始末。其一，本书的基础内容适合本科生阅读，但也包括足够多的深度资料，以满足打算在Web数据挖掘和相关领域研读博士学位的研究生。书中对读者的预备知识几乎没有作任何要求，任何对算法和概率知识稍有理解的人都应当能够顺利地读完本书。其二，本书从实践的角度来审视Web挖掘的技术。这一点非常重要，因为大多数Web挖掘任务都在现实世界中有所应用。在过去的几年中，我有幸直接或间接地与许多研究人员和工程人员一起工作，他们来自于多个搜索引擎、电子商务公司，甚至是对在业务中利用Web信息感兴趣的传统公司。在这个过程中，我获得了许多现实世界问题的实践经历和第一手知识。我尽量将其中非机密的信息和知识通过本书传递给读者，因此本书能在理论和实践中有所平衡。我希望本书不仅能够成为学生的教科书，也能成为Web挖掘研究人员和实践人员获取知识、信息，甚至是创新想法的一个有效渠道。

序言序言致谢

在撰写本书的过程中，许多研究人员都给予我无私的帮助；没有他们的帮助，这本书也许永远无法成为现实。我最深切的感谢要给予Filippo Menczer和Bamshad Mobasher，他们热情地撰写了本书中重要的两个章节，他们也是相关领域的专家。Filippo负责Web爬取这一章，Bamshad负责Web使用挖掘这一章。我还要感谢Wee Sun Lee（李伟上），他帮助完成第5章半监督学习的很大一部分。

Jian Pei（裴健）帮助撰写了第2章中PrefixSpan算法，并且检查了MS-PS算法。Eduard Dragut帮助撰写了第10章的最后一节，并且多次阅读并修改这一整章。Yuanlin Zhang对第9章提出很多意见。我对他们所有人都有所亏欠。

还有许多研究人员以各种方式提供了帮助。Yang Dai（戴阳）和Rudy Setiono在支持向量机（SVM）上提供帮助。Chris Ding（丁宏强）对链接分析提供了帮助。Clement Yu（余德）和ChengXiang Zhai（翟成祥）阅读了第6章。Amy Langville阅读了第7章。Kevin C.-C. Chang（张振川）、Ji-Rong Wen（文继荣）和Clement Yu（余德）帮助了第10章的许多方面。Justin Zobel帮助理清了索引压缩的许多议题。Ion Muslea帮助理清了包裹简介的一些议题。Divy Agrawal、Yunbo Cao（曹云波）、Edward Fox、Hang Li（李航）、Xiaoli Li（李晓黎）、Zhaohui Tan、Dell Zhang（张德）和Zijian Zheng帮助检查了各个章节。在此对他们表示感谢！

和许多研究人员的讨论也帮助本书的成形。这些人包括Amir Ashkenazi、Imran Aziz、 Roberto Bayardo、Wendell Baker、Ling Bao、Jeffrey Benkler、AnHai Doan、Byron Dom、Michael Gamon、Robert Grossman、Jiawei Han（韩家炜）、Wynne Hsu、Ronny Kohavi、David D. Lewis、Ian McAllister、Wei-Ying Ma（马维英）、Marco Maggini、Llew Mason、Kamel Nigan、Julian Qian、Yan Qu、 Thomas M. Tirpak、Andrew Tomkins、Alexander Tuzhilin、Weimin Xiao、 Gu Xu（徐谷）、Philip S. Yu和 Mohammed Zaki.

我的学生们（不论已毕业或是在读）检查了许多算法的正确性并且作出了许多修正。他们包括Gao Cong（从高）、Minqing Hu、Nitin Jindal、Xin Li、Yiming Ma、Yanhong Zhai 和Kaidi Zhao。本书中一些章节是我在伊利诺伊斯大学芝加哥分校的研究生课程讲义。我要感谢这些课程的学生帮我实现了一部分算法。他们提出的问题在某些情况下也帮助我修正算法。在这里我不可能完全列出他们的名字，但我要特别感谢John Castano、Xiaowen Ding、Murthy Ganapathibhotla、Cynthia Kersey、Hari Prasad Divyakotti、Ravikanth Turlapati、Srikanth Tadikonda、Makio Tamura、Haisheng Wang和Chad Williams，他们指出讲义中文本、举例或算法的错误。来自德保罗大学的Michael Bombyk 也指出了不少笔误。

与Springer出版社的员工一起工作是一段令人愉快的经历。感谢编辑Ralf Gerstner在2005年初征询我对撰写一本有关Web挖掘的书籍是否感兴趣。从那以后，我们一直保持着愉快的合作经历。我还要感谢校对Mike Nugent提高了本书内容的表达质量，以及制作编辑Michael Reinfarth引导我顺利完成了本书的出版过程。还有两位匿名评审也给出不少有见解的评论。伊利诺伊斯大学芝加哥分校计算机科学系对本项目提供了计算资源和工作环境的支持。

最后，我要感谢我的父母和兄弟姐妹，他们给予我一贯的支持和鼓励。我将最深刻的感激给予我自己的家庭成员：Yue、Shelley和Kate。他们也在许多方面给予支持和帮助。尽管Shelley和Kate还年幼，但他们阅读了本书的绝大部分，并且找出了不少笔误。我的妻子将家里一切事情打理得秩序井然，使我可以将充分的时间和精力用在这本书上。谨以此书献给他们！

Bing Liu（刘兵）

词条	Web数据挖掘
释义	《Web数据挖掘》是信息检索领域的书籍，该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础（包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制），然后系统地描述了Web挖掘的基础知识，着重介绍基于超文本的机器学习和数据挖掘方法，如聚类、协同过滤、监督学习、半监督学习，最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。人民邮电出版社书籍(Web数据挖掘内容简介作者简介媒体推荐编辑推荐目录序言) 清华大学出版社书籍(基本信息图书简介前言目录) 人民邮电出版社书籍 Web数据挖掘作者:(印度)(Soumen Chakrabarti)查凯莱巴蒂市场价：59.00 出版社：人民邮电出版社页码：344 页出版日期：2009年 ISBN：9787115194046 版本：1版装帧：平装开本：16 英语：英语丛书名：图灵原版计算机科学系列外文书名：Mining the Web:Discovering Knowledge from Hypertext Data 内容简介《Web数据挖掘》是适用于数据挖掘学术研究和开发的专业人员的参考书，同时也适合作为高等院校计算机及相关专业研究生的教材。作者简介 Soumen Chakrabarti，Web搜索与挖掘领域的知名专家，ACM Transactions on the Web副主编。加州大学伯克利分校博士，目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBM Almaden研究中心，从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验，开发了多个Web挖掘系统，并获得了多项美国专利。媒体推荐本书是Web挖掘与搜索引擎领域的经典著作，自出版以来深受好评，已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题，并以此为基础，深入阐述了解决Web挖掘各种难题所涉及的机器学习技术，提出了机器学习在系统获取、存储和分析数据中的许多应用，并探讨了这些应用的优劣和发展前景。全书分析透彻，富于前瞻性，为构建Web挖掘创新性应用奠定了理论和实践基础，既适用于信息检索和机器学习领域的研究人员和高校师生，也是广大Web开发人员的优秀参考书。 “本书深入揭示了搜索引擎的技术内幕！有了它，你甚至能够自己开发一个搜索引擎。” ——searchenginewatch网站 “本书系统、全面而且深入，广大Web技术开发人员都能很好地理解和掌握其中内容。作者是该研究领域的领军人物之一，在超文本信息挖掘和检索方面有着渊博的知识和独到的见解。” ——Joydeep Ghosh，得克萨斯大学奥斯汀分校教授，IEEE会士 “作者将该领域的所有重要工作融合到这部杰作中，并以一种通俗易懂的方式介绍了原本非常深奥的内容。有了这本书，Web挖掘终于有可能成为大学的一门课程了。” ——Jaideep Srivastava，明尼苏达大学教授，IEEE会士编辑推荐《Web数据挖掘》是Web挖掘与搜索引擎领域的经典著作，自出版以来深受好评，已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题，并以此为基础，深入阐述了解决Web挖掘各种难题所涉及的机器学习技术，提出了机器学习在系统获取、存储和分析数据中的许多应用，并探讨了这些应用的优劣和发展前景。《Web数据挖掘》分析透彻，富于前瞻性，为构建Web挖掘创新性应用奠定了理论和实践基础，既适用于信息检索和机器学习领域的研究人员和高校师生，也是广大Web开发人员的优秀参考书。目录 INTRODUCTION 1.1 Crawling and Indexing 1.2 Topic Directories 1.3 Clustering and Classification 1.4 Hyperlink Analysis 1.5 Resource Discovery and Vertical Portals 1.6 Structured vs. Unstructured Data Mining 1.7 Bibliographic Notes PART Ⅰ INFRASTRUCTURE 2 CRAWLING THE WEB 2.1 HTML and HTTP Basics 2.2 Crawling Basics 2.3 Engineering Large-Scale Crawlers 2.3.1 DNS Caching, Prefetching, and Resolution 2.3.2 Multiple Concurrent Fetches 2.3.3 Link Extraction and Normalization 2.3.4 Robot Exclusion 2.3.5 Eliminating Already-Visited URLs 2.3.6 Spider Traps 2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages 2.3.8 Load Monitor and Manager 2.3.9 Per-Server Work-Queues 2.3.10 Text Repository 2.3.11 Refreshing Crawled Pages 2.4 Putting Together a Crawler 2.4.1 Design of the Core Components 2.4.2 Case Study: Using w3c-1 i bwww 2.5 Bibliographic Notes 3 WEB SEARCH AND INFORMATION RETRIEVAL 3.1 Boolean Queries and the Inverted Index 3.1.1 Stopwords and Stemming 3.1.2 Batch Indexing and Updates 3.1.3 Index Compression Techniques 3.2 Relevance Ranking 3.2.1 Recall and Precision 3.2.2 The Vector-Space Model 3.2.3 Relevance Feedback and Rocchio's Method 3.2.4 Probabilistic Relevance Feedback Models 3.2.5 Advanced Issues 3.3 Similarity Search 3.3.1 Handling "Find-Similar" Queries 3.3.2 Eliminating Near Duplicates via Shingling 3.3.3 Detecting Locally Similar Subgraphs of the Web 3.4 Bibliographic Notes PART Ⅱ LEARNING SIMILARITY AND CLUSTERING 4.1 Formulations and Approaches 4.1.1 Partitioning Approaches 4.1.2 Geometric Embedding Approaches 4.1.3 Generative Models and Probabilistic Approaches 4.2 Bottom-Up and Top-Down Partitioning Paradigms 4.2.1 Agglomerative Clustering 4.2.2 The k-Means Algorithm 4.3 Clustering and Visualization via Embeddings 4.3.1 Self-Organizing Maps (SOMs) 4.3.2 Multidimensional Scaling (MDS) and FastMap 4.3.3 Projections and Subspaces 4.3.4 Latent Semantic Indexing (LSI) 4.4 Probabilistic Approaches to Clustering 4.4.1 Generative Distributions for Documents 4.4.2 Mixture Models and Expectation Maximization (EM) 4.4.3 Multiple Cause Mixture Model (MCMM) 4.4.4 Aspect Models and Probabilistic LSI 4.4.5 Model and Feature Selection 4.5 Collaborative Filtering 4.5.1 Probabilistic Models 4.5.2 Combining Content-Based and Collaborative Features 4.6 Bibliographic Notes 5 SUPERVISED LEARNING 5.1 The Supervised Learning Scenario 5.2 Overview of Classification Strategies 5.3 Evaluating Text Classifiers 5.3.1 Benchmarks 5.3.2 Measures of Accuracy 5.4 Nearest Neighbor Learners 5.4.1 Pros and Cons 5.4.2 Is TFIDF Appropriate? 5.5 Feature Selection 5.5.1 Greedy Inclusion Algorithms 5.5.2 Truncation Algorithms 5.5.3 Comparison and Discussion 5.6 Bayesian Learners 5.6.1 Naive Bayes Learners 5.6.2 Small-Degree Bayesian Networks 5.7 Exploiting Hierarchy among Topics 5.7.1 Feature Selection 5.7.2 Enhanced Parameter Estimation 5.7.3 Training and Search Strategies 5.8 Maximum Entropy Learners 5.9 Discriminative Classification 5.9.1 Linear Least-Square Regression 5.9.2 Support Vector Machines 5.10 Hypertext Classification 5.10.1 Representing Hypertext for Supervised Learning 5.10.2 Rule Induction 5.11 Bibliographic Notes 6 SEMISUPERVISED LEARNING 6.1 Expectation Maximization 6.1.1 Experimental Results 6.1.2 Reducing the Belief in Unlabeled Documents 6.1.3 Modeling Labels Using Many Mixture Components …… PART Ⅲ APPLICATIONS …… 序言 This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge, built in a decentralized yet collaborative manner. It is a living, growing, populist, and participatory medium of expression with no central editorship. This has positive and negative implications. On the positive side, there is widespread participation in authoring content. Compared to print or broadcast media, the ratio of content creators to the audience is more equitable. On the negative side, the heterogeneity and lack of structure makes it hard to frame queries and satisfy information needs. For many queries posed with the help of words and phrases, there are thousands of apparently relevant responses, but on closer inspection these turn out to be disappointing for all but the simplest queries. Queries involving nouns and noun phrases, where the information need is to find out about the named entity, are the simplest sort of information-hunting tasks. Only sophisticated users succeed with more complex queries——for instance, those that involve articles and prepositions to relate named objects, actions, and agents. If you are a regular seeker and user of Web information, this state of affairs needs no further description. Detecting and exploiting statistical dependencies between terms, Web pages, and hyperlinks will be the central theme in this book. Such dependencies are also called patterns, and the act of searching for such patterns is called machine learning, or data mining. Here are some examples of machine learning for Web applications. Given a crawl of a substantial portion of the Web, we may be interested in constructing a topic directory like Yahoo！, perhaps detecting the emergence and decline of prominent topics with passing time. Once a topic directory is available, we may wish to assign freshly crawled pages and sites to suitable positions in the directory. 清华大学出版社书籍基本信息 Web数据挖掘作者：Bing Liu著、俞勇等译 ISBN：9787302193388 定价：49元印次：1-3 装帧：平装印刷日期：2011-3-16 图书简介本书旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。本书尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。前言译者 2009年3月译者序序言过去几十年里，Web的迅速发展使其成为世界上规模最大的公共数据源。Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。依据在挖掘过程中使用的数据类别，Web挖掘的任务可以被划分为三种主要类型：Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从记录每位用户点击情况的使用日志中挖掘用户的访问模式。本书旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。本书尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。因此，本书自然的分为两大部分。第一部分，包括第2~5章，介绍数据挖掘的基础。第二部分，包括第6~12章，介绍Web相关的挖掘任务。有两大指导性原则贯穿本书始末。其一，本书的基础内容适合本科生阅读，但也包括足够多的深度资料，以满足打算在Web数据挖掘和相关领域研读博士学位的研究生。书中对读者的预备知识几乎没有作任何要求，任何对算法和概率知识稍有理解的人都应当能够顺利地读完本书。其二，本书从实践的角度来审视Web挖掘的技术。这一点非常重要，因为大多数Web挖掘任务都在现实世界中有所应用。在过去的几年中，我有幸直接或间接地与许多研究人员和工程人员一起工作，他们来自于多个搜索引擎、电子商务公司，甚至是对在业务中利用Web信息感兴趣的传统公司。在这个过程中，我获得了许多现实世界问题的实践经历和第一手知识。我尽量将其中非机密的信息和知识通过本书传递给读者，因此本书能在理论和实践中有所平衡。我希望本书不仅能够成为学生的教科书，也能成为Web挖掘研究人员和实践人员获取知识、信息，甚至是创新想法的一个有效渠道。序言序言致谢在撰写本书的过程中，许多研究人员都给予我无私的帮助；没有他们的帮助，这本书也许永远无法成为现实。我最深切的感谢要给予Filippo Menczer和Bamshad Mobasher，他们热情地撰写了本书中重要的两个章节，他们也是相关领域的专家。Filippo负责Web爬取这一章，Bamshad负责Web使用挖掘这一章。我还要感谢Wee Sun Lee（李伟上），他帮助完成第5章半监督学习的很大一部分。 Jian Pei（裴健）帮助撰写了第2章中PrefixSpan算法，并且检查了MS-PS算法。Eduard Dragut帮助撰写了第10章的最后一节，并且多次阅读并修改这一整章。Yuanlin Zhang对第9章提出很多意见。我对他们所有人都有所亏欠。还有许多研究人员以各种方式提供了帮助。Yang Dai（戴阳）和Rudy Setiono在支持向量机（SVM）上提供帮助。Chris Ding（丁宏强）对链接分析提供了帮助。Clement Yu（余德）和ChengXiang Zhai（翟成祥）阅读了第6章。Amy Langville阅读了第7章。Kevin C.-C. Chang（张振川）、Ji-Rong Wen（文继荣）和Clement Yu（余德）帮助了第10章的许多方面。Justin Zobel帮助理清了索引压缩的许多议题。Ion Muslea帮助理清了包裹简介的一些议题。Divy Agrawal、Yunbo Cao（曹云波）、Edward Fox、Hang Li（李航）、Xiaoli Li（李晓黎）、Zhaohui Tan、Dell Zhang（张德）和Zijian Zheng帮助检查了各个章节。在此对他们表示感谢！和许多研究人员的讨论也帮助本书的成形。这些人包括Amir Ashkenazi、Imran Aziz、 Roberto Bayardo、Wendell Baker、Ling Bao、Jeffrey Benkler、AnHai Doan、Byron Dom、Michael Gamon、Robert Grossman、Jiawei Han（韩家炜）、Wynne Hsu、Ronny Kohavi、David D. Lewis、Ian McAllister、Wei-Ying Ma（马维英）、Marco Maggini、Llew Mason、Kamel Nigan、Julian Qian、Yan Qu、 Thomas M. Tirpak、Andrew Tomkins、Alexander Tuzhilin、Weimin Xiao、 Gu Xu（徐谷）、Philip S. Yu和 Mohammed Zaki. 我的学生们（不论已毕业或是在读）检查了许多算法的正确性并且作出了许多修正。他们包括Gao Cong（从高）、Minqing Hu、Nitin Jindal、Xin Li、Yiming Ma、Yanhong Zhai 和Kaidi Zhao。本书中一些章节是我在伊利诺伊斯大学芝加哥分校的研究生课程讲义。我要感谢这些课程的学生帮我实现了一部分算法。他们提出的问题在某些情况下也帮助我修正算法。在这里我不可能完全列出他们的名字，但我要特别感谢John Castano、Xiaowen Ding、Murthy Ganapathibhotla、Cynthia Kersey、Hari Prasad Divyakotti、Ravikanth Turlapati、Srikanth Tadikonda、Makio Tamura、Haisheng Wang和Chad Williams，他们指出讲义中文本、举例或算法的错误。来自德保罗大学的Michael Bombyk 也指出了不少笔误。与Springer出版社的员工一起工作是一段令人愉快的经历。感谢编辑Ralf Gerstner在2005年初征询我对撰写一本有关Web挖掘的书籍是否感兴趣。从那以后，我们一直保持着愉快的合作经历。我还要感谢校对Mike Nugent提高了本书内容的表达质量，以及制作编辑Michael Reinfarth引导我顺利完成了本书的出版过程。还有两位匿名评审也给出不少有见解的评论。伊利诺伊斯大学芝加哥分校计算机科学系对本项目提供了计算资源和工作环境的支持。最后，我要感谢我的父母和兄弟姐妹，他们给予我一贯的支持和鼓励。我将最深刻的感激给予我自己的家庭成员：Yue、Shelley和Kate。他们也在许多方面给予支持和帮助。尽管Shelley和Kate还年幼，但他们阅读了本书的绝大部分，并且找出了不少笔误。我的妻子将家里一切事情打理得秩序井然，使我可以将充分的时间和精力用在这本书上。谨以此书献给他们！ Bing Liu（刘兵）目录第一部分数据挖掘基础第1章概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 Web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是Web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 Apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘20 2.4.1 扩展模型21 2.4.2 挖掘算法22 2.4.3 规则生成26 2.5 分类关联规则挖掘27 2.5.1 问题描述27 2.5.2 挖掘算法28 2.5.3 多最小支持度分类关联规则挖掘31 2.6 序列模式的基本概念31 2.7 基于GSP挖掘序列模式32 2.7.1 GSP算法33 2.7.2 多最小支持度挖掘34 2.8 基于PrefixSpan算法的序列模式挖掘37 2.8.1 PrefixSpan算法38 2.8.2 多最小支持度挖掘39 2.9 从序列模式中产生规则41 2.9.1 序列规则41 2.9.2 标签序列规则41 2.9.3 分类序列规则42 文献评注42 目录目录第3章监督学习45 3.1 基本概念45 3.2 决策树推理48 3.2.1 学习算法49 3.2.2 混杂度函数50 3.2.3 处理连续属性53 3.2.4 其他一些问题54 3.3 评估分类器56 3.3.1 评估方法56 3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)57 3.4 规则推理59 3.4.1 序列化覆盖59 3.4.2 规则学习： Learn-One-Rule函数61 3.4.3 讨论63 3.5 基于关联规则的分类63 3.5.1 使用类关联规则进行分类64 3.5.2 使用类关联规则作为分类属性66 3.5.3 使用古典的关联规则分类66 3.6 朴素贝叶斯分类67 3.7 朴素贝叶斯文本分类70 3.7.1 概率框架70 3.7.2 朴素贝叶斯模型71 3.7.3 讨论73 3.8 支持向量机73 3.8.1 线性支持向量机：可分的情况74 3.8.2 线性支持向量机: 数据不可分的情况78 3.8.3 非线性支持向量机：核方法80 3.9 k-近邻学习82 3.10 分类器的集成83 3.10.1 Bagging83 3.10.2 Boosting84 文献评注84 第4章无监督学习87 4.1 基本概念87 4.2 k-均值聚类89 4.2.1 k-均值算法89 4.2.2 k-均值算法的硬盘版本91 4.2.3 优势和劣势92 4.3 聚类的表示95 4.3.1 聚类的一般表示方法95 4.3.2 任意形状的聚类95 4.4 层次聚类96 4.4.1 单链接方法97 4.4.2 全链接方法98 4.4.3 平均链接方法98 4.4.4 优势和劣势98 4.5 距离函数99 4.5.1 数值的属性(Numeric Attributes)99 4.5.2 布尔属性和符号属性(Binary and Nominal Attributes)99 4.5.3 文本文档101 4.6 数据标准化101 4.7 混合属性的处理103 4.8 采用哪种聚类算法104 4.9 聚类的评估104 4.10 发现数据区域和数据空洞106 文献评注108 第5章部分监督学习110 5.1 从已标注数据和无标注数据中学习110 5.1.1 使用朴素贝叶斯分类器的EM算法111 5.1.2 Co-Training114 5.1.3 自学习115 5.1.4 直推式支持向量机116 5.1.5 基于图的方法117 5.1.6 讨论119 5.2 从正例和无标注数据中学习119 5.2.1 PU学习的应用120 5.2.2 理论基础121 5.2.3 建立分类器：两步方法122 5.2.4 建立分类器：直接方法127 5.2.5 讨论128 附录：朴素贝叶斯EM算法的推导129 文献评注131第二部分 Web挖掘第6章信息检索与Web搜索135 6.1 信息检索中的基本概念136 6.2 信息检索模型138 6.2.1 布尔模型138 6.2.2 向量空间模型139 6.2.3 统计语言模型141 6.3 关联性反馈142 6.4 评估标准143 6.5 文本和网页的预处理147 6.5.1 停用词移除147 6.5.2 词干提取147 6.5.3 其他文本预处理步骤148 6.5.4 网页预处理步骤148 6.5.5 副本探测149 6.6 倒排索引及其压缩150 6.6.1 倒排索引150 6.6.2 使用倒排索引搜索151 6.6.3 索引的建立152 6.6.4 索引的压缩153 6.7 隐式语义索引157 6.7.1 奇异值分解158 6.7.2 查询和检索159 6.7.3 实例160 6.7.4 讨论163 6.8 Web搜索163 6.9 元搜索引擎和组合多种排序165 6.9.1 使用相似度分数的合并166 6.9.2 使用排名位置的合并166 6.10 网络作弊168 6.10.1 内容作弊169 6.10.2 链接作弊169 6.10.3 隐藏技术170 6.10.4 抵制作弊171 文献评注172 第7章链接分析174 7.1 社会关系网分析175 7.1.1 中心性175 7.1.2 权威177 7.2 同引分析和引文耦合178 7.2.1 同引分析178 7.2.2 引文耦合179 7.3 PageRank179 7.3.1 PageRank算法180 7.3.2 PageRank算法的优点和缺点185 7.3.3 Timed PageRank185 7.4 HITS186 7.4.1 HITS算法187 7.4.2 寻找其他的特征向量189 7.4.3 同引分析和引文耦合的关系189 7.4.4 HITS算法的优点和缺点189 7.5 社区发现191 7.5.1 问题定义191 7.5.2 二分核心社区192 7.5.3 最大流社区193 7.5.4 基于中介性的电子邮件社区195 7.5.5 命名实体的重叠社区196 文献评注197 第8章 Web爬取199 8.1 一个简单爬虫算法199 8.1.1 宽度优先爬虫201 8.1.2 带偏好的爬虫201 8.2 实现议题202 8.2.1 网页获取202 8.2.2 网页解析202 8.2.3 删除无用词并提取词干204 8.2.4 链接提取和规范化204 8.2.5 爬虫陷阱206 8.2.6 网页库206 8.2.7 并发性207 8.3 通用爬虫208 8.3.1 可扩展性208 8.3.2 覆盖度、新鲜度和重要度209 8.4 限定爬虫210 8.5 主题爬虫212 8.5.1 主题本地性和线索213 8.5.2 最优优先变种217 8.5.3 自适应219 8.6 评价标准223 8.7 爬虫道德和冲突226 8.8 最新进展228 文献评注230 第9章结构化数据抽取：包装器生成231 9.1 预备知识231 9.1.1 两种富含数据的网页232 9.1.2 数据模型233 9.1.3 数据实例的HTML标记编码235 9.2 包装器归纳236 9.2.1 从一张网页抽取237 9.2.2 学习抽取规则238 9.2.3 识别提供信息的样例242 9.2.4 包装器维护242 9.3 基于实例的包装器学习243 9.4 自动包装器生成中的一些问题245 9.4.1 两个抽取问题246 9.4.2 作为正则表达式的模式246 9.5 字符串匹配和树匹配247 9.5.1 字符串编辑距离247 9.5.2 树匹配249 9.6 多重对齐252 9.6.1 中星方法252 9.6.2 部分树对齐253 9.7 构建DOM树257 9.8 基于列表页的抽取：平坦数据记录258 9.8.1 有关数据记录的两个观察结果258 9.8.2 挖掘数据区域259 9.8.3 从数据区域中识别数据记录263 9.8.4 数据项对齐与抽取263 9.8.5 利用视觉信息264 9.8.6 一些其他技术264 9.9 基于列表页的抽取：嵌套数据记录265 9.10 基于多张网页的抽取269 9.10.1 采用前几节中的技术270 9.10.2 RoadRunner算法270 9.11 一些其他问题271 9.11.1 从其他网页中抽取271 9.11.2 析取还是可选272 9.11.3 一个集合类型还是一个元组类型273 9.11.4 标注与整合273 9.11.5 领域相关的抽取273 9.12 讨论274 文献评注274 第10章信息集成276 10.1 什么是样式表匹配277 10.2 样式表匹配的预处理工作278 10.3 样式表层次的匹配279 10.3.1 基于语言学的算法279 10.3.2 基于样式表中限制的算法280 10.4 基于领域和实例层次的匹配280 10.5 不同相似度的联合282 10.6 1:?m?匹配283 10.7 其他问题284 10.7.1 重用以前的匹配结果284 10.7.2 大量样式表的匹配285 10.7.3 样式表匹配的结果285 10.7.4 用户交互285 10.8 Web搜索界面的集成285 10.8.1 基于聚类的算法287 10.8.2 基于互关系的方法289 10.8.3 基于实例的方法290 10.9 构建一个全局的搜索界面292 10.9.1 结构上的正确性和合并算法293 10.9.2 词汇的正确性294 10.9.3 实例的正确性295 文献评注295 第11章观点挖掘296 11.1 意见分类297 11.1.1 基于意见短语的分类297 11.1.2 采用文本分类方法进行意见分类299 11.1.3 基于评分函数进行分类299 11.2 基于特征的观点挖掘和摘要300 11.2.1 问题定义301 11.2.2 对象特征抽取305 11.2.3 格式1中正面和负面评价部分的特征抽取306 11.2.4 符合格式2和3的评审上的特征抽取308 11.2.5 观点倾向分类309 11.3 比较性句子和比较关系挖掘310 11.3.1 问题定义311 11.3.2 等级比较性语句的识别312 11.3.3 比较关系的抽取314 11.4 观点搜索315 11.5 观点欺诈316 11.5.1 观点欺诈的目标和行为317 11.5.2 欺诈和欺诈者的种类317 11.5.3 隐藏技巧318 11.5.4 欺诈检测318 文献评注320 第12章 Web使用挖掘322 12.1 数据收集和预处理323 12.1.1 数据的来源和类型323 12.1.2 Web使用记录数据预处理的关键元素326 12.2 Web使用记录挖掘的数据建模331 12.3 Web用法模式的发现和分析334 12.3.1 会话和访问者分析334 12.3.2 聚类分析和访问者分割334 12.3.3 关联及相关度分析337 12.3.4 序列和导航模式分析340 12.3.5 基于Web用户事务的分类和预测342 12.4 讨论和展望343 文献评注344 参考文献345
随便看	下帮介自然村下帮控自然村下帮撒二自然村下帮撒三自然村下帮撒一自然村下帮挖自然村下帮瓦自然村下帮中自然村下蚌东村下蚌东自然村下蚌格村下保初中下堡村下堡坪民间故事下堡坪乡下堡寺下堡寺镇下堡子村下宝山自然村下暴下碑寺乡下碑厅村下北glorydays 下北Sundays 下北沢