sakananote: Hadoop 閱讀小記 20101207

星期二, 12月 07, 2010

Hadoop 閱讀小記 20101207

Hadoop

起源
- Google File System
- Map-Reduce
Log
- 2010/12/7
實例
- Rackspace 郵件部門用來分析哪些Data Center 需要增加 Mail Server
相關資源
- http://www.hadoopbook.com/
主要框架
- 文件系統 HDFS
- 計算架構 MapReduce
  - 適合處理需要分析整個數據集的問題
  - 適合數據被一次寫入和多次讀取的應用
  - 對於非結構化或半結構化數據非常有效
    - 因為被設計為在處理時間內解釋數據
  - 數據本地化功能
    - 嘗試在計算節點儲存數據, 因此數據處理速度會因為他是本地數據而比較快
  - 以鍵/值對函數的角度來考慮, 同時對數據流是隱含的
  - 檢測失敗的map 或者是 reduce任務, 在健康的機器重新安排任務
    - 可以作到這一點是因為無共享的架構.意味著每個任務彼此並不依賴
- 結構化數據處理 HBase
Hint
- 古時候, 人們用牛來拉重物, 當一頭牛拉不動一根圓木的時候, 他們不曾想過培育個更大的牛. 同樣, 我們也不需要嘗試更大的計算機, 而是應該開發更多的計算系統 --格蕾斯.霍柏
Notes
- Chapter 1
  - 數據傳輸速度 100M/s, 但是 1TB 的儲存媒體已經是很普遍了, 光讀取出來就要花 2.5 小時
    - 作法：從多個磁碟讀取數據,這樣存取的時間會大大的降低
    - 需要解決的問題1: 硬體故障, 應對方式:複製資料 Replication
    - 需要解決的問題2: 合併資料如何保持正確性. Hadoop 使用Map Reduce 將資料組成為成對鍵/值的數據集
  - High Performance computing HPC
    - 使用MPI(Message Passing Interface)
    - 廣義上來說, 就是將作業分配給一個機器叢集, 然後存取Shared Storage. 適用於主計算密集型的作業
    - 但是如果節點需要處理大量的數據量,這個時候就會成為一個問題,因為網路的速度成為瓶頸,所以計算節點閒置下來. 這個也是MapReduce 開始發光的起點

沒有留言:

張貼留言