Hadoop Data Analytics PDF 文件

Mondo 科技 更新 2024-03-02

通過提供分布式資料儲存和平行計算框架,Hadoop已經從集群計算的抽象發展成為大資料的作業系統。 本書旨在通過以可讀和直觀的方式提供集群計算和分析的概述,為資料科學家深入了解特定主題領域鋪平道路,從資料科學家的角度介紹Hadoop集群計算和分析。 本書分為兩部分,第一部分從非常高的層次介紹了分布式計算,並討論了如何在集群上執行計算; 第二部分重點介紹資料科學家應該知道的工具和技術,以支援各種分析和大規模資料管理。

本書適合資料科學領域的從業者,以及對資料分析感興趣的研究人員。

大資料已經成為乙個流行語。 人們用它來描述資料驅動應用程式中令人興奮的新工具和技術。 這些應用為我們帶來了新的計算方式。 令統計學家懊惱的是,這個術語似乎是隨意使用的,其範圍甚至包括在大型資料集上使用眾所周知的統計技術**。 雖然大資料已經成為乙個流行語,但現實情況是,現代分布式計算技術可以分析比過去的“典型”資料集大得多的資料集,而且結果更令人印象深刻。

然而,分布式計算本身並不等同於資料科學。 網際網絡帶來了快速增長的資料集,這些資料集反過來又推動了模型(“更多的資料比更好的演算法更好”1),資料產品已成為一種新的經濟正規化。 對大型跨域異構資料集進行建模的巨大成功(例如,Nate Silver 2008 年使用魔術等大資料技術在美國的結果)導致了資料科學價值的實現,並吸引了大量從業者進入該領域。

通過提供分布式資料儲存和平行計算框架,Hadoop已經從集群計算的抽象發展成為大資料作業系統。 Spark 在構建時就考慮到了這一點,使資料科學家能夠更輕鬆地使用集群計算。 然而,不了解分布式計算的資料科學家和分析師可能會覺得這些工具是為程式設計師而不是分析師準備的。 這是因為我們需要從根本上改變我們對管理和計算資料的思考方式,以便我們可以從序列轉向並行。

本書旨在通過提供可讀且直觀的集群計算和分析介紹,幫助資料科學家實現這種思維方式的轉變。 我們將介紹用於資料分析的分布式計算中涉及的許多概念、工具和技術,為更深入地了解特定領域鋪平道路。

目錄。 前言。

第 1 部分:分布式計算簡介。

第 1 章:資料產品時代。

1.1 什麼是資料產品。

1.2 使用 Hadoop 構建大規模資料產品。

1.2.1 利用大型資料集。

1.2.2 資料產品中的 Hadoop

1.3 資料科學管道和 Hadoop 生態系統。

大資料工作流。

1.4 總結。

第 2 章 大資料作業系統。

2.1 基本概念。

2.2 Hadoop架構。

2.2.1 個 Hadoop 集群。

2.2.2 hdfs

2.2.3 yarn

2.3 使用分布式檔案系統。

2.3.1 檔案系統基本操作。

2.3.2 個 HDFS 檔案許可權。

2.3.3 其他 HDFS 介面。

2.4 使用分布式計算。

2.4.1 MapReduce:函式式程式設計模型。

2.4.2 MapReduce:在集群上實現。

2.4.3 多個 mapreduce:作業鏈。

2.5 將 mapreduce 作業提交到 yarn。

2.6 總結。

第 3 章:Python 框架和 Hadoop 流式處理

3.1 hadoop streaming

3.1.1 使用流式處理對 CSV 資料執行計算。

3.1.2 執行流式處理作業。

3.2 Python 的 MapReduce 框架。

3.2.1 個短語計數。

3.2.2 其他框架。

3.3 MapReduce高階版。

3.3.1 combiner

3.3.2 partitioner

3.3.3 作業鏈。

3.4 總結。

第 4 章 Spark 記憶體計算。

4.1 Spark 基礎知識。

4.1.1 個 Spark 堆疊。

4.1.2 rdd

4.1.3 使用 RDD 程式設計。

4.2 基於 PySpark 的互動式 Spark

4.3 編寫 Spark 應用程式。

使用 Spark 視覺化航班延誤。

4.4 總結。

第 5 章 分布式分析和模式。

5.1 個關鍵計算。

5.1.1 個復合鍵。

5.1.2 鍵空格模式。

5.1.3 對帶條紋

5.2 設計模式。

5.2.1 總結。

5.2.2 索引。

5.2.3 過濾。

5.3 邁向最後一英里的分析。

5.3.1 模型擬合。

5.3.2 模型驗證。

5.4 總結。

第 2 部分:大資料科學的工作流程和工具。

第 6 章 資料探勘和資料倉儲。

6.1 個 Hive 結構化資料查詢。

6.1.1 Hive 命令列介面 (CLI)。

6.1.2 Hive 查詢語言。

6.1.3 蜂巢資料分析。

6.2 hbase

6.2.1 NoSQL 與列式資料庫。

6.2.2 HBase 實時分析。

6.3 總結。

第 7 章 資料收集。

7.1 使用 sqoop 匯入關係資料。

7.1.1 從MySQL匯入HDFS

7.1.2 從MySQL匯入Hive

7.1.3 從MySQL匯入HBase

7.2 使用 Flume 獲取流資料。

7.2.1 個 Flume 資料流。

7.2.2 使用Flume獲取產品展示資料。

7.3 總結。

第 8 章 使用高階 API 進行分析。

8.1 pig

8.1.1 pig latin

8.1.2 種資料型別。

8.1.3 關係運算子。

8.1.4 個使用者定義的函式。

8.1.5 豬總結。

8.2 Spark 高階 API

8.2.1 spark sql

8.2.2 dataframe

8.3 總結。

第 9 章 機器學習。

9.1 使用 Spark 進行可擴充套件的機器學習。

9.1.1 協同過濾。

9.1.2 分類。

9.1.3 聚類。

9.2 總結。

第 10 章摘要:分布式資料科學的實際應用。

10.1 資料產品生命週期。

10.1.1 個資料湖。

10.1.2 資料收集。

10.1.3 計算資料儲存。

10.2 機器學習生命週期。

10.3 總結。

附錄 A 建立 Hadoop 偽分布式開發環境。

a.1 快速入門。

a.2 設定 Linux 環境。

a.2.1 建立Hadoop使用者。

a.2.2 配置SSH

a.2.3 安裝 J**A

a.2.4 禁用 IPv6

a.3 安裝Hadoop

a.3.1 解壓縮。

a.3.2 環境。

a.3.3 Hadoop配置。

a.3.4 格式化 namenode

a.3.5 啟動Hadoop

a.3.6 重啟Hadoop

附錄 B:安裝 Hadoop 生態系統產品。

b.1 打包的 Hadoop 發行版。

b.2 自行安裝 Apache Hadoop 生態系統產品。

b.2.1 基本安裝和配置步驟。

b.2.2 sqoop 特定配置。

b.2.3 個特定於 Hive 的配置。

b.2.4 種特定於 HBase 的配置。

b.2.5 安裝 Spark

詞彙表。 關於作者。

關於封面。 與圖靈聯絡。

我說完了。 **位址:

相關問題答案

    如何開始資料分析?

    資料分析入門指南。資料分析是處理資料以識別有意義的模式 趨勢和資訊的過程。它是現代商業和科學中非常重要的技能,因此開始資料分析需要一定的習和實踐。以下是幫助您開始資料分析的詳細指南。第一部分 理論基礎。了解資料分析的重要性。在開始資料分析之前,需要了解資料分析在商業和科學中的重要性。資料分析不僅可以...

    網站資料分析工具

    資料分析工具,你知道嗎?一起來看看吧!.流量 資料分析工具。分析 流量 的資料分析工具,LA統計資料市場覆蓋面最大。LA的單一 歷史源查詢功能。通過這個功能,我可以知道某條流量 最近個月的流量變化,從而更好地掌握每個推廣渠道的流量趨勢。資料 資料。二 搜尋引擎收錄 反向鏈結 PR值 排名綜合查詢工具...

    TikTok KOL 營銷資料分析 量化投資回報率和成功指標

    品牌在做TikTok KOL營銷時首先關注的指標之一是受眾增長和 度。通過分析合作後的粉絲數量 次數等資料,品牌可以了解合作是否有效吸引了目標受眾的注意力,進而評估投資回報率。在 TikTok 上,使用者的參與率和參與度是衡量營銷活動效果的重要指標。通過分析點讚 評論和分享等資料,品牌可以了解使用者...

    資料分析的美麗湯

    beautiful soup Beautiful Soup 提供了簡單的 Python 樣式函式,用於導航 搜尋 修改分析樹等。它是乙個工具箱,通過解析文件為使用者提供他們需要抓取的資料,並且由於它很簡單,因此編寫乙個完整的應用程式並不需要太多時間。Beautiful Soup 自動將輸入文件轉換為...

    專案資料分析報告

    隨著數字時代的到來,資料分析已成為企業決策的重要依據。專案資料分析報告作為企業決策的重要參考,對專案的成功具有至關重要的影響。本文將從多個方面對專案資料分析報告進行深入探討 專案資料分析 點選這裡查詢資料分析...