Newa項目不選擇任何Maven模板,以GroupId開頭,以項目名開頭。注意:Idea_Project是存儲這個項目的工作區,
大數據技術龐大而復雜,基礎技術包括數據采集、數據預處理、分布式存儲、數據庫、數據倉庫、機器學習、并行計算、可視化等技術類別和不同技術層次。
Java,大數據需要的語言
可以說是大數據最基礎的編程語言。一是因為大數據的本質無非是海量數據的計算、查詢和存儲,后臺開發容易接入大數據訪問的應用場景;第二,大數據的很多組件都是用java開發的。
斯卡拉
Scala和java非常相似,在開發過程中可以無縫的互相調用。Scala在大數據領域的影響力來自于社區中的明星Spark和kafka,他們的強勁發展直接帶動了Scalait'在這個領域很受歡迎。
大數據需要分布式計算。目前比較流行的工具有:離線工具Spark、MapReduce等實時工具SparkStreaming、Storm、Flink等。
大數據需要分布式存儲。主流的分布式數據庫有hbase、mongoDB、GreenPlum、redis等很多。
大數據需要分布式調度和管理yarn分布式集群管理需要一個組件將調度資源分配給各個節點zookeeper,解決分布式環境下的鎖定問題。阿茲卡班記錄任務的依賴性,定時調度任務。
嘉米谷大數據開發培訓9月0基礎班,預報名。...
相關:
大數據軟件有哪些?大數據軟件技術簡介