大数据架构商业之路-好书天下

书名：大数据架构商业之路从业务需求到技术方案
作者：黄申
译者：
ISBN：9787111535287
出版社：机械工业出版社
出版时间：2016-5-1
格式：epub/mobi/azw3/pdf
页数：298
豆瓣评分： 7.9

书籍简介：

目前大数据技术已经日趋成熟，但是业界发现与大数据相关的产品设计和研发仍然非常困难，技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快，门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案，要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事，来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求，以及相对应的技术方案，甚至是实践解析；让读者身临其境，一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点，并提供相应的背景知识介绍，对于想进一步深入研究细节的读者，也可轻松获得继续阅读的方向和指导性建议。

作者简介：

黄申，博士，毕业于上海交通大学计算机科学与工程专业，师从俞勇教授。微软学者，IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职，带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利，兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献，2015年获得美国政府颁发的“美国杰出人才”称号。

书友短评：

@ nistone 2016年的书，书中介绍的技术栈在当今2021年仍是主流，京东，Ebay，Shopify等电商企业还在用。如果你是每星期产生数据量小于300TB的中小企业，那就不用凑热闹了，你还没达到大数据的数据量门槛，学习这玩意的主要意义在于你面试的时候可以吹水（或者像我一样来写书评装逼）。大数据这套技术起源于2004年Google的论文《在大规模集群上的啥啥啥》，大意是说全世界的网页数量太多了，Google要检索整个互联网上的信息，现有的机器和存储架构扛不住，然后提出来各种歪门邪道的优化思路。记住，这跟你没关系。对你来说，SQL的like关键字，比什么高大上的搜索技术都更加直接有效，易理解易维护。看书归看书，回去上班我还是继续写我的where 字段名 like '%关键词%'。

书籍目录

推荐序一
推荐序二
前　　言
第1章　抉择 1
第2章　数据收集 4
2.1　互联网数据收集 4
2.1.1　网络爬虫 5
2.1.2　Apache Nutch简介 11
2.1.3　Heritrix简介 14
2.2　内部数据收集 15
2.2.1　Apache Flume简介 17
2.2.2　Facebook Scribe和Logstash 21
2.3　本章心得 21
2.4　参考资料 22
第3章　数据存储 23
3.1　持久化存储 23
3.1.1　Hadoop和HDFS 25
3.1.2　HBase简介 28
3.1.3　MongoDB 35
3.2　非持久化存储 37
3.2.1　缓存和散列 37
3.2.2　Memcached和Berkeley DB简介 41
3.2.3　Redis简介 41
3.3　本章心得 44
3.4　参考资料 44
第4章　数据处理 46
4.1　离线批量处理 46
4.1.1　Hadoop的MapReduce 47
4.1.2　Spark简介 52
4.1.3　Hive简介 53
4.1.4　Pig、Impala和Spark SQL 56
4.2　提升及时性：消息机制 58
4.2.1　ActiveMQ简介 60
4.2.2　Kafka简介 61
4.3　在线实时处理 63
4.3.1　Storm简介 63
4.3.2　Spark Streaming简介 66
4.4　本章心得 66
4.5　参考资料 67
第5章　信息检索 69
5.1　基本理念 70
5.2　相关性 70
5.2.1　布尔模型 70
5.2.2　基于排序的布尔模型 71
5.2.3　向量空间模型 74
5.2.4　语言模型 75
5.3　及时性 77
5.4　与数据库查询的对比 81
5.5　搜索引擎 82
5.5.1　Web搜索中的链接分析 83
5.5.2　电子商务中的商品排序 86
5.5.3　多因素和基于学习的排序 88
5.5.4　系统框架 89
5.5.5　Lucene简介 93
5.5.6　Solr简介 98
5.5.7　Elasticsearch简介 104
5.6　推荐系统 108
5.6.1　推荐的核心要素 109
5.6.2　推荐系统的分类 110
5.6.3　混合模型 115
5.6.4　系统架构 116
5.6.5　Mahout 116
5.7　在线广告 119
5.8　本章心得 127
5.9　参考资料 128
第6章　数据挖掘 130
6.1　基本理念 131
6.2　数据的表示和预处理 133
6.3　机器学习算法 136
6.4　挖掘工具 157
6.5　本章心得 165
6.6　参考资料 165
第7章　效能评估 167
7.1　效果评估 168
7.2　性能评估 190
7.3　本章心得 202
7.4　参考资料 202
第8章　大数据技术全景 204
第9章　商品太多啦！需要搜索引擎 207
9.1　业务需求 207
9.2　产品设计和技术选型 208
9.3　实现方案 211
第10章　能否更主动？还需要推荐引擎 223
10.1　业务需求 223
10.2　产品设计和技术选型 225
10.3　实现方案 230
第11章　这样做的效果如何 241
11.1　业务需求 241
11.2　产品设计和技术选型 242
11.3　实现方案 243
第12章　这个搜索有点逊 258
12.1　业务需求：还要搜得更多 258
12.2　“还要搜得更多”：产品设计和技术选型 259
12.3　“还要搜得更多”的方案实现 261
12.4　业务需求：还要搜得更准 265
12.5　“还要搜得更准”：产品设计和技术选型 266
12.6　“还要搜得更准”的方案实现 271
12.7　业务需求：还要更快 273
12.8　还要“变”得更快：产品设计和技术选型 274
12.9　还要“搜”得更快：产品设计和技术选型 275
12.10　业务需求：给点提示吧 280
12.11　给点提示吧：产品设计和技术选型 282
第13章　支持更高效的运营 287
13.1　业务需求：互联网时代的CRM 287
13.2　互联网时代的CRM：产品设计和技术选型 288
13.3　业务需求：抓住捣蛋鬼 291
13.4　抓住捣蛋鬼：产品设计和技术选型 292
13.5　业务需求：销售之战 295
13.6　销售之战：产品设计和技术选型 296
后记 299
· · · · · ·

外部数据收集的主要方式是网络爬虫（Web Crawler）。网络爬虫的工作流程为：首先根据种子网页的URL，形成初始的待爬取URL集合，然后依次读取并从互联网上下载、保存、分析并获取该网页中新的URL链接，根据深度DFS、宽度BFS和最佳优先的不同策略，放入到待爬取的集合。将已经爬取的网页内容存入数据库，将其URL归入已爬取的集合。注意，可能会需要定期更新网络爬取的内容。

—— 引自章节：全书笔记

内部数据的收集有推送、拉取两种方式，数据推送模型适用于实时性要求较高的数据，数据高峰期时，要在模型中加入队列，以达到缓冲效果；如果选择数据拉取模型，则数据手机端可以根据自己的节奏来拉取数据，只要保证数据的收集能力高于数据生产的平均值即可。

—— 引自章节：全书笔记

　　大数据技术丛书(共71册)，这套丛书还有《Spark大数据分析》《Hadoop技术内幕》《Greenplum：从大数据战略到实现》《数据应用工程》《Storm应用实践》等。

添加微信公众号:好书天下获取

大数据架构商业之路

书籍简介：

作者简介：

书友短评：

相关推荐

评论抢沙发

评论前必须登录！

添加微信公众号:“好书天下”获取书籍

书籍简介：

作者简介：

书友短评：

相关推荐

评论 抢沙发

评论前必须登录！

添加微信公众号:“好书天下”获取书籍

评论抢沙发