《Spark机器学习第2版》高清中文PDF 高清英文PDF 源代码下载
《Spark机器学习第2版》高清中文PDF 高清英文PDF 源代码下载
阿三的作品,本书一大特点就是有案例,用案例去讲解Spark在机器学习中的应用
本书内容
第1章“Spark的环境搭建与运行”会讲到如何安装和搭建Spark框架的本地开发环境,以及怎样使用Amazon EC2在云端创建Spark集群;然后会介绍Spark编程模型和API;最后分别用Scala、Java和Python语言创建一个简单的Spark应用。
第2章“机器学习的数学基础”会提供机器学习所需的基础数学知识。要理解算法,从而获得更好的建模效果,理解数学及其技巧十分重要。
第3章“机器学习系统设计”会展示一个贴合实际的机器学习系统案例。随后会针对该案例设计一个基于Spark的智能系统所对应的高层架构。
第4章“Spark上数据的获取、处理与准备”会详细介绍如何从各种免费的公开渠道获取用于机器学习系统的数据。我们将学到如何进行数据处理和清理,并通过可用的工具、库和Spark函数将它们转换为符合要求的数据,使之具备可用于机器学习模型的特征。
第5章“Spark构建推荐引擎”展示了如何创建一个基于协同过滤的推荐模型。该模型将用于向给定用户推荐物品,以及创建与给定物品相似的物品清单。这一章还会讲到如何使用标准指标来评估推荐模型的效果。
第6章“Spark构建分类模型”阐述如何创建二元分类模型,以及如何利用标准的性能评估指标来评估分类效果。
第7章“Spark构建回归模型”扩展了第6章中的分类模型以创建一个回归模型,并详细介绍了回归模型的评估指标。
第8章“Spark构建聚类模型”探索如何创建聚类模型以及相关评估方法的使用。你会学到如何分析和可视化聚类结果。
第9章“Spark应用于数据降维”将通过多种方法从数据中提取其内在结构并降低其维度。你会学到一些常见的降维方法,以及如何对它们进行应用和分析。这里还会讲到如何将降维的结果作为其他机器学习模型的输入。
第10章“Spark高级文本处理技术”介绍了处理大规模文本数据的方法。这包括从文本中提取特征以及处理文本数据中常见的高维特征的方法。
第11章“Spark Streaming实时机器学习”对Spark Streaming进行了综述,并介绍它如何在流数据上的机器学习中实现对在线和增量学习方法的支持。
第12章“Spark ML Pipeline API”在Data Frames的基础上提供了一套统一的接口(API),帮助用户创建和调试机器学习流程。
下载地址
下载地址: