JAVA和Nginx 教程大全

网站首页 > 精选教程 正文

「妙手数评」给数据工程师推荐5本书

wys521 2024-10-13 08:12:06 精选教程 16 ℃ 0 评论

建立基础并构建您对数据工程的观点

我以数据工程师的身份开始了我的 IT 职业生涯,并试图找到围绕数据平台的日常解决方案和答案。 而且,我一直希望有一些资源,比如这个领域的大学教科书。

在本文中,我将分享 5 本书,它们帮助我对数据工程进行了具体的概述,以便在我对自己的观点产生怀疑时可以回去检查。首先,因为有很多,我将介绍一个框架,可以帮助您选择最适合您的框架,并就每个框架分享一些想法。

我设计了两个因素,当我们绘制图表并在其上定位每本书时,我们可以使用这些因素。

一个是关于“技术概念 - 实用性”,这意味着它是处理一般实现概念还是特定实现(或API),另一个是“通用性 vs 数据理解”。

在这里,我根据两个因素绘制图表:

这五本书是

  1. Jay Kreps 的 I Hearts Logs:它解释了日志在分布式环境中的作用。相对较短,但我可以掌握数据系统的核心概念(数据库或分布式数据系统,如 Kafka)。在 LinkedIn 博客页面上阅读之前,我遇到了这个概念。
  2. Martin Kleppmann 设计数据密集型应用程序:它提供了数据系统的核心概念,如数据模型、分布式系统(例如两相锁)以及数据处理的批处理和流式处理。
  3. Rebuilding Reliable Data Pipelines Through Modern Tools by Ted Malaska:如果你的大部分经验都与数据无关,这本书将是开始了解数据领域正在发生的事情的不错选择。涵盖了数据环境中的利益相关者、数据流水线、常见问题(其中很多是相对数据-环境-上下文)等内容。
  4. Sam R. Alapati 的 Expert Hadoop Administration:关于 Hadoop 的 Oreilly 也有一本不错的书,但我选择它是因为我实际上在过去 1 年里每次需要一些彻底的答案时都会一遍又一遍地重新阅读它(什么样的HDFS Namenode的服务器需要配置吗?或者我应该在哪里检查以监控HDFS?)。
  5. Architecting Modern Data Platform 作者:Jan Kunigk、Ian Buss、Paul Wilkinson、Lars George:一本带有奇妙图表和图像的好书。与(4)相比,它更侧重于外部 Hadoop 服务(服务器 RAM、CPU 规格或网络带宽要求等)。

I Hearts Logs

作者 Jay Kreps 是 Kafka 和 Samza 的开发者之一,他说日志,我们通常以像 Nginx 这样的 Web 服务器的形式感知,在数据库和分布式系统中扮演着核心角色,它在以下方面有很多好处 与其他替代方案相比,以日志为中心的设计和共识。

此外,他还谈到了一些实际例子:“数据集成”、“实时数据处理”和“分布式系统设计”。

其中之一是日志在许多“写入”系统和“读取”系统之间以集成日志的形式作为“单一事实来源”的作用,从而禁用了两者的耦合。

我把它放在第一位,因为你可以从 Jay Kreps 的观点进入另一个分布式数据系统,简化它们的基本架构。

Designing Data-Intensive Applications

你们中的许多人肯定听说过它。 它涵盖了它们的核心概念和常见实现,从早期的数据系统(RDB、NoSQL)到分布式环境(Hadoop 等)。

通常会引发您对它们的理解产生怀疑的核心概念得到了彻底的处理:数据库或复制的数据模型、数据结构、编码和模式演化、分区、事务、分布式系统的主要问题。

它还为您提供了一个视角,而不是“如何”使用 Lambda 架构来了解 Hadoop。

就我个人而言,每当我感到概念上的污染时,我经常回到这一点并提醒自己。

Rebuilding Reliable Data Pipelines Through Modern Tools


这本书在 Unravel 网站上免费提供,它教您谁是数据环境中的利益相关者,以及数据 ETL(提取、转换、加载)的前景如何。

它使用了许多简单的比喻,但足够实用,让您“感受”在本书描述的环境中作为数据工程师工作的感觉。

有一本由同一作者 Ted Malaska 写的综合性书籍,但我认为这本简明的书足以满足您的知识基础,然后您可以通过谷歌搜索找到自己的方法。

Expert Hadoop Administration


对于为 Hadoop 服务而苦苦挣扎的专业人士来说,很难找到解决实际问题的宝贵资源,包括 HDFS、Yarn、Oozie、Sqoop 等。

如果您遇到诸如“安装 HDFS 时我们需要什么样的服务器配置和规格?”、“如何优化 Yarn 内存和 CPU 使用率?”等问题,这本冗长而详细的书将是您可以停下来的很好的参考 首先。

如果你觉得有点长,那么你只能完成HDFS、Yarn、Spark架构部分(~351页),需要更多时再回来。

Architecting Modern Data Platforms


正如您从我绘制的上述图表中猜测的那样,当您构建一个可扩展的数据中心时,本书充满了围绕 Hadoop 堆栈的技术资源。

前者(4)侧重于Hadoop服务的特性,而后者则教你服务外部的主题:Hadoop环境的服务器、网络和操作系统规范,以及虚拟化等。

您会发现精彩的图像,这些图像可以注册并构建您对 Hadoop 服务如何与底层基础架构一起工作的观点。

对于那些尝过 Hadoop 堆栈并想了解更多关于“Yarn 应用程序中的 vCore 对应于物理核心还是虚拟核心?”和“文件系统驱动程序或页面缓存设置会影响 HDFS 性能吗?”,这是满足您好奇心的宝贵资源。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表