星期二, 12月 07, 2010

Hadoop 閱讀小記 20101207

Hadoop
  • 起源
    • Google File System
    • Map-Reduce
  • Log
    • 2010/12/7
  • 實例
    • Rackspace 郵件部門用來分析哪些Data Center 需要增加 Mail Server
  • 相關資源
    • http://www.hadoopbook.com/
  • 主要框架
    • 文件系統 HDFS
    • 計算架構 MapReduce
      • 適合處理需要分析整個數據集的問題
      • 適合數據被一次寫入和多次讀取的應用
      • 對於非結構化或半結構化數據非常有效
        • 因為被設計為在處理時間內解釋數據
      • 數據本地化功能
        • 嘗試在計算節點儲存數據, 因此數據處理速度會因為他是本地數據而比較快
      • 以 鍵/值對函數的角度來考慮, 同時對數據流是隱含的
      • 檢測失敗的map 或者是 reduce任務, 在健康的機器重新安排任務
        • 可以作到這一點是因為無共享的架構.意味著每個任務彼此並不依賴
    • 結構化數據處理 HBase
  • Hint
    • 古時候, 人們用牛來拉重物, 當一頭牛拉不動一根圓木的時候, 他們不曾想過培育個更大的牛. 同樣, 我們也不需要嘗試更大的計算機, 而是應該開發更多的計算系統  --格蕾斯.霍柏
  • Notes
    • Chapter 1
      • 數據傳輸速度 100M/s, 但是 1TB 的儲存媒體已經是很普遍了, 光讀取出來就要花 2.5 小時
        • 作法:從多個磁碟讀取數據,這樣存取的時間會大大的降低
        • 需要解決的問題1: 硬體故障, 應對方式:複製資料 Replication
        • 需要解決的問題2: 合併資料如何保持正確性. Hadoop 使用Map Reduce 將資料組成為成對 鍵/值 的數據集
      • High Performance computing HPC
        • 使用MPI(Message Passing Interface)
        • 廣義上來說, 就是將作業分配給一個機器叢集, 然後存取Shared Storage. 適用於主計算密集型的作業
        • 但是如果節點需要處理大量的數據量,這個時候就會成為一個問題,因為網路的速度成為瓶頸,所以計算節點閒置下來. 這個也是MapReduce 開始發光的起點

沒有留言: