词条 | 大规模Web服务开发技术 |
释义 | 图书信息大规模Web服务开发技术[日]伊藤直也, 田中慎司编著 李剑 译 ISBN 978-7-121-13884-3 2011年7月出版 定价:59.00元 16开 356页 内 容 简 介Hatena 是日本最大的Web 服务提供商之一,它提供的服务包括关键字(类似于维基百科)、博客、相册等。本书的内容主要来自Hatena 为学生们举行的暑期实习的课程,内容涵盖广泛,介绍了性能优化、分布式、算法、系统架构等各个方面,甚至还介绍了硬件的经济成本,是运维工程师们必不可少的参考书。书中还包括几个算法实习课题,介绍了压缩算法、全文搜索等算法的实现方法,对于打算靠Web 创业的人不失为一本很不错的参考书。 译者序去年 8 月份,fcicq 向我推荐了《大规模Web 服务开发技术》这本书。当时这本书刚刚出版,在日本着实火了一段时间。后来到网上一查,发现我以前在日本的同事也写了一篇博客推荐这本书,看样子这本书已成为Web 技术人员人手必备的参考读物了。 后来博文视点的策划编辑张春雨找到我,希望我翻译这本书。我在日本工作期间,就对日本的IT 技术十分佩服,尤其是Web 相关技术,很多知名的技术大牛,如伊藤直也、小饲弹等 都写过许多深入研究技术的文章,见解也相当独到。而在日本的书店里,Web 技术的书籍也是琳琅满目,其中不乏珍品。因此我很想找个机会把日本的技术书籍带到中国来。于是,与张编辑一拍即合,当即接下了这本书的翻译任务。 正如这本书的前言里所说,这本书的内容主要来自Hatena株式会为学生们举行的暑期实习课程,因此其形式也是以讲义为主,风格和一般的技术读物略有不同。其内容涵盖范围也很广,从性能优化、分布式,到算法、系统架构,甚至还介绍了硬件的经济成本。最吸引人的就是书中的几个实习课题,介绍了压缩算法、全文搜索等算法的实现方法。 在翻译该书时,我想到了以前做网站开发时的几件事。 第一件就是性能优化的重要性。当时我们开发了一个类似于RSS 阅读器的网站,其中有个推荐功能,可以根据访问量、收藏人数等对文章进行社会化推荐。由于计算量很大,因此只能写成批处理放到夜间执行,但执行效率实在不堪忍受——40 万的数据量,计算一次就要3 个小时。后来我们对SQL 语句进行了优化,使得计算时间从3 小时一下子减少到了20 分钟。 第二件就是维护工作的辛苦程度。网站对 Web 服务器采用了分布式,将请求分散到32 台服务器上。每次版本更新,都要制定严密的更新计划,先改变负载均衡器设置,然后停掉一半服务器,更新代码,再然后逐台测试;之后再切换负载均衡器以更新另一半服务器并测试。更新都是在深夜进行的,每次更新都会持续到凌晨3 点多才能下班。 第三件就是不可知事件的应对策略。这本书里提到了Yahoo!攻击,这正是我们当年亲身经历过的。当时晚上9 点多,我们突然收到了大量报警邮件,报告相册服务的负载过高。一看服务器已经几乎无法访问了。调查之后发现,一名博主引用了相册中的图片,而这篇文章又被Yahoo!上的一篇新闻引用。于是来自Yahoo!的巨大流量涌入我们的相册服务器,导致服务中止。后来,我们改变了相册服务的架构,并增加了缓存机制,以避免这类事件再次发生。 对于运维高手来说,解决这些问题应该是轻车熟路了,但当时我们的团队没有类似的经验,只能自己慢慢摸索解决方法。而Hatena 株式会的技术专家们将他们的运维经验写成了书,使我们有幸分享这些宝贵的经验和知识。如果当时我们有这样一本书,这几个问题也就迎刃而解了。愿这本书能对广大网站运维人员(特别是初涉该领域的新手们)有所帮助。 李 剑 2011 年2 月27 日 前 言自己开发的 Web 服务,以后规模增大时系统能否承受得起?从事Web 开发的诸位中很多人都有这个顾虑吧,或者是系统每天都会陷入困境,如何才能打破这种状况?面对成长起来的Web 服务,整日愁眉苦脸的人一定存在吧。 我也有过完全相同的经历。 Hatena 网站,月访问人次1500 万,而我们参与了规模如此庞大的系统的开发和运营。1000 台服务器分担负载,100 多万用户不停地发表博客或收藏社会化书签,数据量每天都在激增,服务器资源频频告急。技术人员为了上GB、上TB 的数据量绞尽脑汁。即便如此,流量的波涛也从未平息过。 曾几何时,Hatena 的团队尚未成熟,面对规模日益增大的系统束手无策。庞大的数据和巨大的流量涌来,服务器宕机、服务停止。赶紧深夜跑过去重启服务器,觉得总算能稳定了,清晨回家之后,发现服务器又宕机了,这种事情也曾面对过。 怎样才能制服大规模服务这头野兽?本书凝聚了 Hatena 的技术人员在反复试验中得到的技术和诀窍——即大规模服务技术的地图和指南。 本书是开发、运营大规模服务的技术者的入门书。Web 服务在不断成长,当它的数据规模变大,处理起来也就不再易如反掌了,此时,怎样做才是正确的?为了避免系统宕机,写代码时应该注意什么?设计高可扩展性(scalability)的系统时应该记住哪些要点?这些都是本书的内容。 Hatena 每年夏天都举办面向学生的、以就业体验为目的的实习活动(Hatena Summer Intern)。这些实习活动会让学生参与到Hatena 的系统开发中。我们把开发经验很少的学生们与正式员工同样看待,让他们获得大规模系统开发的成功经验,这就是Hatena 之道。那么,我们希望学生们在开发之前知道什么呢?正是我们历经坎坷学到的大规模服务的开发和运维的知识。 通过实习计划,Hatena 的大规模服务技术的培训方法也有了体系。本书就是以实习课程为基础,试图来说明大规模服务技术。 本书的内容从操作系统和计算机的原理开始,介绍数据库的分布式方法、实用算法在系统中的应用、能支撑海量数据的搜索引擎的原理,以及统观系统全局的基础设施设计的知识等多个方面。 这是拥有 1500 万用户的Hatena 才能传达的真实的、实践性的技术和现场感。缺乏经验的学生们在短短几天的培训中学到大规模服务开发所需的知识,在本书中得以系统化。本书融汇了这些知识,努力做到妙趣横生、百读不厌,并让读者学到真正的知识。 希望本书能成为从事 Web 服务开发的所有工程师们的得力助手和工具。 2010 年6 月 Hatena 株式会CTO 伊藤直也 目 录第 1 章大规模 Web 服务的开发定位——掌握整体..............2 第0 课本书的起源——本书讲述的范围................................... 3 从事大规模Web 服务开发——面向大学生的Hatena 实习... 3 本书讲述的内容........................................................................ 3 本书不讲述的内容.................................................................... 5 致今后从事大规模Web 服务的人........................................... 5 第1 课大规模服务和小规模服务................................................. 6 Hatena 的服务规模................................................................... 6 Hatena 是大规模,Google、Facebook 是超大规模................ 8 小规模服务和大规模服务的区别............................................ 9 应对大规模数据量.................................................................. 11 第2 课持续增长的服务和大规模化的障碍............................ 13 Web 服务的困难...................................................................... 13 Hatena 的成长经历................................................................. 13 系统增长战略——最小化开端、预见变化的管理和设计... 17 第3 课服务开发现场...................................................................... 18 Hatena 的技术团队体制.......................................................... 18 Hatena 的沟通方式................................................................. 19 服务开发的实际状况.............................................................. 19 开发所用的工具...................................................................... 21 总结......................................................................................... 23 第2 章大规模数据处理入门 ——内存和磁盘、Web 应用程序和负载..................24 第4 课 Hatena Bookmark 的数据规模....................................... 25 以Hatena Bookmark 为例介绍大规模数据........................... 25 Hatena Bookmark 的数据规模................................................ 25 针对大规模数据的查询——处理大规模数据的感觉........... 26 第5 课大规模数据处理的难点——内存和磁盘....................28 为何处理大规模数据如此困难——因为无法在内存中 计算 ..........................................................................................28 内存和磁盘的速度差异——内存要快105~106 倍...............28 为何磁盘这么慢?——内存和磁盘.......................................29 操作系统层的加速处理..........................................................31 传输速度和总线的速度差异...................................................31 第6 课可扩展性的要点..................................................................37 扩展和可扩展性......................................................................37 可扩展性的要点——CPU 负载和I/O 负载...........................38 Web 应用程序和负载的关系..................................................38 数据库的可扩展性很难保证...................................................39 第7 课处理大规模数据的基础知识...........................................44 面向程序员的大规模数据的基础...........................................44 处理大规模数据的三个重点——写程序的技巧...................44 处理大规模数据之前的三大前提知识——程序开发的 底层基础 ..................................................................................45 第3 章操作系统的缓存和分布式 ——高效处理大规模数据的原理.................................50 第8 课操作系统的缓存机制........................................................51 在理解操作系统缓存的基础上编写应用程序——页面 缓存 ..........................................................................................51 虚拟内存机制..........................................................................52 Linux 页面缓存原理................................................................54 VFS...........................................................................................56 Linux 以页面为单位缓存磁盘................................................57 内存空闲时就缓存——通过sar 确认.....................................59 增加内存降低I/O 负载...........................................................60 页面缓存是透明的..................................................................61 第9 课降低 I/O 负载的策略.........................................................67 以缓存为前提的降低I/O 负载的策略...................................67 扩展到多台服务器——无法全部缓存的情况.......................68 单纯增加数量无法保证可扩展性...........................................69 第10 课利用局部性的分布式...................................................... 74 什么是利用局部性的分布式?............................................ 74 Partitioning——考虑局部性的分布式.............................. 75 根据访问模式分割成“岛”——考虑局部性的分布式... 78 以页面缓存为前提的基本应用规则.................................... 79 第4 章数据库的横向扩展策略 ——以分布式为基础的MySQL 应用.........................82 第11 课正确应用索引 ——分布式MySQL 应用的大前提............................ 83 分布式MySQL 应用的三大要点........................................ 83 灵活应用操作系统缓存.................................................... 83 索引的重点——B 树............................................................ 86 索引的效果........................................................................... 89 确认索引是否有效的方法——explain 命令........................ 92 第12 课 MySQL 的分布式 ——以扩展为前提的系统设计.................................... 95 MySQL 的replication 功能.................................................. 95 master/slave 的特征——对参照系进行扩展,更新类 不扩展 ................................................................................... 96 第13 课 MySQL 的横向扩展和Partitioning ............................ 99 MySQL 的横向扩展策略..................................................... 99 关于Partitioning(表分割)的补充.................................... 99 以Partitioning 为前提的设计............................................... 99 避免JOIN——利用where…in…......................................... 102 Partitioning 的代价............................................................. 103 第2~4 章的小结............................................................... 107 第5 章大规模数据处理“实践”入门 ——应用程序开发的重点.............................................108 第14 课特殊用途索引——处理大规模数据........................ 109 索引和系统架构——超过RDBMS 的处理能力时........... 109 特殊用途索引——使用调优后的数据结构.......................111 第15 课理论联系实践..................................................................115 探寻必须的技术条件..........................................................115 第2~5 章小结....................................................................117 第6 章压缩编程 ——考虑数据大小和I/O 加速之间的关系.............118 第16 课[课题]以紧凑、简洁方式保存整数数据..............119 以紧凑方式保存整数数据..................................................119 出题意图——解决该课题有什么好处?...........................119 课题所用文件的内容..........................................................121 第17 课可变字节码和速度的感觉...........................................122 可变字节码——用紧凑格式保存整数数据.......................122 可变字节码的伪代码..........................................................123 用“差”存储已排序整数..................................................126 (补充)压缩的基础........................................................126 (补充)压缩对象是整数的情形——背景理论.............127 第18 课课题详解及解答范例....................................................129 课题详解..............................................................................129 (参考)pack()函数——将Perl 内部数据结构以 二进制形式输出..................................................................131 (参考)二进制数据的read/write ...................................133 (参考)性能分析............................................................135 解答范例和思路..................................................................136 第7 章算法实用化 ——从身边的例子来看理论、研究的实践投入....142 第19 课算法和算法评测.............................................................143 数据规模和复杂度的差异..................................................143 何谓算法?..........................................................................144 学习算法的意义——计算机资源有限,工程师的通用 语言......................................................................................145 算法评测——复杂度记法...................................................146 纸巾能折叠几次?——O(logn)和O(n)的差距..................148 算法和数据结构——千丝万缕的联系...............................149 复杂度和常数项——评测很重要.......................................150 应用算法的实际情况——简单就是美.............................. 151 灵活应用第三方实现——CPAN 等................................... 153 通过实例加深感受............................................................. 155 第20 课 Hatena Diary 的关键字链接........................................ 156 什么是关键字链接? ......................................................... 156 最初的实现......................................................................... 156 出问题了!——关键字字典越来越大.............................. 157 用模式匹配实现关键字链接的问题.................................. 158 从正则表达式到Trie——改变匹配的实现方式............... 158 Aho-Corasick 算法.............................................................. 160 换成Regexp::List................................................................ 162 关键字链接的实现、变迁和考察...................................... 163 第21 课 Hatena Bookmark 的文章分类................................... 164 什么是文章分类? ............................................................. 164 机器学习和大规模数据..................................................... 165 大规模数据和Web 服务——The Google Way of Science ... 166 贝叶斯过滤器的原理......................................................... 167 算法实用化之路——Hatena Bookmark 的实例................ 170 防守姿态和进攻姿态——从文档分类功能说开去........... 171 第8 章 Hatena 关键字链接的实现 ——理解通向应用之路..................................................176 第22 课[课题]创建Hatena 关键字链接............................. 177 使用Aho-Corasick 算法创建Hatena 关键字链接............ 177 编写测试............................................................................. 180 第23 课解答范例和思路............................................................. 182 解答范例............................................................................. 182 第9 章挑战全文搜索技术 ——各种各样的大规模数据处理经验技巧...........184 第24 课全文搜索技术的应用范围.......................................... 185 用Hatena 的数据创建搜索引擎........................................ 185 Hatena Diray 的全文搜索——搜索服务之外的搜索 系统..................................................................................... 185 Hatena Bookmark 的全文搜索——满足细节要求的系统... 187 第25 课搜索系统的架构.............................................................190 搜索系统所需的步骤..........................................................190 各种各样的搜索引擎..........................................................191 全文搜索的种类..................................................................193 第26 课搜索引擎的内部结构....................................................198 逆向索引的结构——Dictionary+Postings..........................198 Dictionary 的创建方法——逆向索引的创建方法1 .........200 小结......................................................................................210 Postings 的创建方法——逆向索引的创建方法2 ............211 关于评分的补充..................................................................213 参考文献..............................................................................214 第10 章创建全文搜索引擎 ——基本部分、改进、速度和准确度的要求....216 第27 课[课题]创建Hatena Bookmark 全文搜索..............217 开发全文搜索引擎..............................................................217 课题内容..............................................................................217 示例数据格式和数据大小..................................................218 字典的组成——Dictionary、Postings ................................219 界面......................................................................................220 基础部分+改进...................................................................220 以速度和准确度一决胜负..................................................221 第28 课答案范例和思路.............................................................223 解答范例..............................................................................223 indexer pl 的实现.................................................................223 searcher pl 的实现................................................................225 可以改善的地方..................................................................227 第11 章支持大规模数据处理的服务器/基础设施入门 —— Web 服务的后台..................................................230 第29 课企业软件vs. Web 服务.................................................231 企业软件vs. Web 服务——应用范围上的差异................231 Web 服务的基础设施——三个重点..................................233 第30 课云 vs.自行构建基础设施..............................................235 云计算..................................................................................235 云的优缺点......................................................................... 235 Hatena 应用的云服务......................................................... 236 自行构筑基础设施的优点................................................. 237 自行构建基础设施和垂直结合模型.................................. 239 Hatena 的服务规模............................................................. 240 Hatena Bookmark 的系统架构图....................................... 240 第12 章保证可扩展性的必要思路 ——规模扩大和系统扩展..........................................242 第31 课层和可扩展性................................................................. 243 对可扩展性的要求——一台服务器能处理的流量极限.... 243 各层的可扩展性................................................................. 244 第32 课掌握负载进行调优........................................................ 245 掌握负载——可视化的管理界面...................................... 245 测量负载的指标——平均负载、内存和CPU 相关信息.... 247 根据用途进行调优——面向用户的服务器和面向爬虫 的服务器 ............................................................................. 247 应用程序服务器、数据库服务器的调优策略和服务器 数量 ..................................................................................... 249 服务规模和调优................................................................. 250 保证可扩展性..................................................................... 251 第13 章保证冗余性和系统的稳定化 ——实现100%在线率的原理..................................252 第33 课保证冗余性...................................................................... 253 保证冗余性——应用程序服务器...................................... 253 保证冗余性——数据库服务器.......................................... 254 保证冗余性——存储服务器.............................................. 257 第34 课系统稳定化...................................................................... 261 保持系统稳定的权衡......................................................... 261 系统的不稳定因素............................................................. 262 第35 课系统稳定对策................................................................. 267 实际的系统稳定对策——维持适当余量,消灭不稳定 因素 ..................................................................................... 267 第14 章提高效率 ——提高硬件资源的使用率......................................270 第36 课虚拟化技术......................................................................271 引入虚拟化技术..................................................................271 虚拟化技术的效果..............................................................272 虚拟服务器的构建策略......................................................273 总结虚拟化的优势..............................................................275 虚拟化和运营——通过服务器管理工具在运营上发挥 虚拟化的优势......................................................................276 虚拟化的注意点..................................................................277 第37 课硬件和提高效率 ——实现低成本的关键技术........................................280 提高处理器性能..................................................................280 内存和硬盘成本下降..........................................................281 有效利用廉价硬件——以虚拟化为前提的硬件应用.......282 SSD ......................................................................................284 第15 章 Web 服务和网络 ——通过网络看服务增长...........................................288 第38 课网络的分界点..................................................................289 服务增长和网络的分界点..................................................289 1Gbps 的极限——PC 路由器的极限.................................289 500 台主机的极限——子网、ARP 表的极限...................290 网络架构的层次化..............................................................291 全球化..................................................................................292 第39 课挑战更高的极限.............................................................295 超越10Gbps 的世界...........................................................295 Hatena 的基础设施——第11~15 章的总结.....................296 第16 章特别篇 当前构建Web 服务需要的实践技术 ——应对大规模Web 服务须知...............................298 特别篇第1 课作业队列系统TheSchwartz、Gearman .......299 Web 服务和请求......................................................299 作业队列系统入门...................................................299 Hatena 的作业队列系统..........................................300 通过日志进行分析.................................................. 302 特别篇第2 课存储方式的选择RDBMS 还是 key-value 存储..................................................... 303 如何保存不断增加的数据...................................... 303 选择存储系统的前提条件...................................... 304 存储系统的种类...................................................... 305 RDBMS.................................................................... 305 分布式key-value 存储............................................ 308 分布式文件系统...................................................... 310 其他存储.................................................................. 312 存储系统的选择策略.............................................. 314 特别篇第3 课缓存系统——Squid、Varnish......................... 315 Web 应用程序负载与代理/缓存系统..................... 315 Squid——基本结构................................................. 317 Varnish...................................................................... 321 特别篇第4 课计算集群——Hadoop........................................ 323 大量日志数据的并行处理 ...................................... 323 MapReduce 计算模型.............................................. 323 Hadoop ..................................................................... 325 索引..................................................................................................327 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。