機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
對(duì)于從事機(jī)器學(xué)習(xí)的學(xué)生來(lái)說(shuō),高等數(shù)學(xué)、線性代數(shù)、概率論和數(shù)理統(tǒng)計(jì)是三門課程中最重要的數(shù)學(xué)基礎(chǔ)。我來(lái)分別解釋一下這三個(gè)方面在機(jī)器學(xué)習(xí)中的作用。
1.微積分、牛頓迭代、拉格朗日乘子法、高等數(shù)學(xué)中的泰勒展開(kāi)等知識(shí)點(diǎn)都在機(jī)器學(xué)習(xí)中有應(yīng)用。比如在logistic回歸模型中求梯度時(shí)需要偏導(dǎo)數(shù),優(yōu)化目標(biāo)使用牛頓迭代法,約束優(yōu)化問(wèn)題的SVM使用拉格朗日乘子法等等。,以及高等數(shù)學(xué)的其他知識(shí)點(diǎn)都或多或少的體現(xiàn)在機(jī)器學(xué)習(xí)中。
分解,張量分解,線性代數(shù)推薦系統(tǒng)中使用的非負(fù)矩陣分解NMF,PCA主成分分析中的特征值和矩陣運(yùn)算。我來(lái)貼一下之前用矩陣求導(dǎo)解決最小二乘問(wèn)題的公式推導(dǎo)過(guò)程,體會(huì)一下線性代數(shù)的重要性。
最小二乘的求解可以用梯度下降迭代或牛頓迭代求解,但也可以基于矩陣求導(dǎo)計(jì)算。其計(jì)算方法更加簡(jiǎn)潔高效,不需要大量迭代,只需要解一個(gè)正規(guī)方程組。
總之,對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),線性代數(shù)比高數(shù)更重要。
3.概率論與數(shù)理統(tǒng)計(jì)概率論與數(shù)理統(tǒng)計(jì)就更重要了,比如樸素貝葉斯分類和概率圖模型中用到的貝葉斯公式,高斯過(guò)程,最大熵模型,抽樣方法,NLP領(lǐng)域的大部分算法都與概率論有關(guān),比如基于LDA的主題模型,基于CRF的序列標(biāo)注模型,分詞系統(tǒng)等等。
所以,要從事機(jī)器學(xué)習(xí),高等數(shù)學(xué)、線性代數(shù)、概率論、數(shù)理統(tǒng)計(jì)都是必不可少的數(shù)學(xué)基礎(chǔ)。
大數(shù)據(jù)主要涉及的內(nèi)容有哪些?可以從事哪些崗位?
我記得我大學(xué)畢業(yè)后的第一份工作。我們公司的業(yè)務(wù)是進(jìn)行BI產(chǎn)品的研究和開(kāi)發(fā)。什么時(shí)候互聯(lián)網(wǎng)沒(méi)有今天這么火,沒(méi)有大數(shù)據(jù)和移動(dòng)互聯(lián)網(wǎng)的概念?記得有一次和同事去華師大后門買書。同事買了一個(gè)javascript,我買了一個(gè)ajax。當(dāng)時(shí)我們產(chǎn)品的客戶端是用D:文本、視頻和數(shù)據(jù)庫(kù)。了解大數(shù)據(jù)的概念,讓讓我們看看大數(shù)據(jù)包含什么。
大數(shù)據(jù)的內(nèi)涵
從技術(shù)角度來(lái)說(shuō),大數(shù)據(jù)包括兩個(gè)分支:數(shù)據(jù)分析和數(shù)據(jù)挖掘。數(shù)據(jù)分析是對(duì)歷史數(shù)據(jù)的分析,為管理層提供輔助決策信息。數(shù)據(jù)挖掘是一個(gè)研究趨勢(shì)和未來(lái)的問(wèn)題,主要用于預(yù)測(cè)。從業(yè)務(wù)的時(shí)效性要求來(lái)說(shuō),可以分為實(shí)時(shí)在線分析系統(tǒng)和離線分析系統(tǒng)。比如:網(wǎng)站的實(shí)時(shí)用戶區(qū)域分布就是一款實(shí)時(shí)分析應(yīng)用;2019年全國(guó)各省GDP排名分析是一款離線分析應(yīng)用。
從大數(shù)據(jù)項(xiàng)目的流程來(lái)看,大數(shù)據(jù)包括:數(shù)據(jù)采集、數(shù)據(jù)收集、數(shù)據(jù)轉(zhuǎn)換與存儲(chǔ)、數(shù)據(jù)建模與分析、上層應(yīng)用展示等等。大數(shù)據(jù)的難點(diǎn)在于海量數(shù)據(jù)的分析,而海量數(shù)據(jù)的分析又涉及到海量數(shù)據(jù)存儲(chǔ)和分析架構(gòu)。
根據(jù)hadoop的技術(shù)體系,flume用于收集和轉(zhuǎn)換存儲(chǔ)在各種服務(wù)器中的日志和數(shù)據(jù),并存儲(chǔ)在hdfs文件系統(tǒng)或hive或hbase等數(shù)據(jù)倉(cāng)庫(kù)中,然后使用Hadoop架構(gòu)的規(guī)范編寫mapreduce作業(yè),再將分析結(jié)果展示給用戶。當(dāng)然,數(shù)據(jù)分析有各種算法。
與大數(shù)據(jù)相關(guān)的工作
以下是與大數(shù)據(jù)相關(guān)的核心職位:
業(yè)務(wù)專家或顧問(wèn):為大數(shù)據(jù)提供研發(fā)方向和確定研究課題,為技術(shù)人員提供業(yè)務(wù)支持。
數(shù)據(jù)分析師:從事數(shù)據(jù)收集、整理和分析,并根據(jù)數(shù)據(jù)做出評(píng)價(jià)和預(yù)測(cè)的專業(yè)人員。成員。
數(shù)據(jù)挖掘工程師:從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)則,需要良好的算法和數(shù)學(xué)基礎(chǔ)。
可視化工程師:為顯示分析結(jié)果提供美觀易懂的界面。
維護(hù)工程師:負(fù)責(zé)服務(wù)器環(huán)境的配置、搭建和運(yùn)維。
每個(gè)公司用的大數(shù)據(jù)技術(shù)線不一樣,崗位也會(huì)有差距。有興趣的朋友可以自己了解一下現(xiàn)有的幾個(gè)大數(shù)據(jù)解決方案。
隨著5G網(wǎng)絡(luò)的建設(shè),接入網(wǎng)絡(luò)的物聯(lián)網(wǎng)設(shè)備會(huì)越來(lái)越多,互聯(lián)網(wǎng)積累的數(shù)據(jù)會(huì)呈級(jí)數(shù)增長(zhǎng)。未來(lái)幾年,大數(shù)據(jù)行業(yè)仍然是朝陽(yáng)產(chǎn)業(yè),需要越來(lái)越多的大數(shù)據(jù)人才。希望本文對(duì)愿意投身大數(shù)據(jù)行業(yè)的朋友有所啟發(fā)和幫助,也希望大家對(duì)大數(shù)據(jù)的概念有更清晰的認(rèn)識(shí)。謝謝你