中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何用Julia做數(shù)據(jù)統(tǒng)計?這里有一本全面教材(附代碼圖示)

2019-07-29    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

去年 8 月份,MIT 正式發(fā)布了 Julia 1.0,在開發(fā)者社區(qū)引起了很大的轟動。這一語言易于使用、速度快、效率高,在科學(xué)計算、數(shù)據(jù)處理、機器學(xué)習(xí)領(lǐng)域都非常受歡迎。那么,這么好用的語言要怎么學(xué)呢?近日,來自昆士蘭大學(xué)的 Hayden Klok、Yoni Nazarathy 撰寫了一本結(jié)合統(tǒng)計學(xué)和 Julia 語言的教程,不僅將 Julia 作為工具介紹為讀者,還梳理了機器學(xué)習(xí)、數(shù)據(jù)科學(xué)和人工智能所需的統(tǒng)計學(xué)基本概念。

目前,作者已將該書的草稿開源。

書籍鏈接:https://people.smp.uq.edu.au/YoniNazarathy/julia-stats/StatisticsWithJulia.pdf

 

 

在本書「前言」部分,作者介紹了他們的寫作初衷、目標(biāo)讀者、全書概要等信息。

寫作初衷 & 目標(biāo)讀者

寫這本書的最初原因是 2016 年底為昆士蘭大學(xué)的統(tǒng)計學(xué)課程準(zhǔn)備材料。當(dāng)時,Julia 語言雖然只是 0.5 版,但已經(jīng)顯示出強大的功能和適應(yīng)性。出于這個原因,我們在課程中選擇使用 Julia,因為早期讓學(xué)生接觸有關(guān) Julia 的統(tǒng)計知識,可以讓他們在未來的職業(yè)生涯中熟練使用 Julia 進行數(shù)據(jù)科學(xué)、數(shù)值計算和機器學(xué)習(xí)任務(wù)。這種選擇當(dāng)時也遭到了一些學(xué)生和同事的反對,那時跟現(xiàn)在一樣,R 語言統(tǒng)治著統(tǒng)計世界,Python 主宰著機器學(xué)習(xí)世界。那么為什么要選擇 Julia?

主要有三個原因:高性能、簡單性和靈活性。Julia 正在迅速成為數(shù)據(jù)科學(xué)、統(tǒng)計學(xué)、機器學(xué)習(xí)、人工智能和一般科學(xué)計算領(lǐng)域的主要語言之一。它像 R 語言、Python 和 Matlab 一樣易于使用,但由于其類型系統(tǒng)和即時編譯,它可以更有效地執(zhí)行計算。這使得它在運行時間和開發(fā)時間方面都很快。此外,還有多種多樣的 Julia 包。這其中就包括數(shù)據(jù)科學(xué)家、統(tǒng)計學(xué)家或機器學(xué)習(xí)從業(yè)者需要的高級方法。因此,該語言具有廣泛的應(yīng)用范圍。

編寫本書的目的是為了梳理機器學(xué)習(xí)、數(shù)據(jù)科學(xué)和人工智能所需的統(tǒng)計學(xué)基本概念。這是為了將 Julia 作為計算工具介紹給讀者。本書還旨在為數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)從業(yè)者、生物統(tǒng)計學(xué)家、金融專業(yè)人士以及工程師提供參考,幫他們重新回顧統(tǒng)計學(xué)知識或者填補理解空白。在當(dāng)今世界,這些學(xué)生、專業(yè)人士或研究人員經(jīng)常使用先進的方法和技術(shù)。然而,我們常常需要退一步,探索或重新審視基本概念。借助 Julia 等編程語言重新審視這些概念,可以使概念具體化。

現(xiàn)在,距離我們開始寫這本書已經(jīng)兩年半了,Julia 也已經(jīng)有了 1.0 以上的版本。這本書也逐漸完善了。任何想要使用 Julia 的人都可以輕松部署 Julia。然而,目前 Julia 的許多用戶都是核心開發(fā)人員,他們?yōu)檎Z言的標(biāo)準(zhǔn)庫以及廣泛的程序包生態(tài)系統(tǒng)做出了貢獻。因此,目前可用的大部分 Julia 資料都是針對其他開發(fā)人員而非最終用戶。這就是我們的書發(fā)揮作用的地方,因為它是為最終用戶編寫的。

代碼示例是以簡單的格式編寫的,有時會犧牲效率和通用性,但更易于閱讀。每個代碼示例旨在傳達某一特定的統(tǒng)計知識點,同時會介紹 Julia 編程概念。在某種程度上,代碼示例能讓人想到老師在講座中用來說明概念的示例。想了解本書的內(nèi)容,不需要事先了解統(tǒng)計知識,實際上只需要了解一些基本的編程經(jīng)驗和基本數(shù)學(xué)符號即可。

 

 

全書概要

該書共包含 10 章和 3 個附錄?梢赃B續(xù)閱讀,也可以自己決定閱讀順序。

 

 

第 1 章是對 Julia 的介紹,包括它的設(shè)置、包管理器和本書中使用的主要包。為了說明一些語言的特性,通過代碼示例介紹一些基本語法和程序結(jié)構(gòu)。

 

 

第 2 章探討基本概率,重點關(guān)注事件、結(jié)果、獨立性和條件概率概念。我們提出了幾個典型的概率示例以及探索性的仿真代碼。

 

 

 

 

第 3 章探討了隨機變量和概率分布,重點介紹 Julia 分布包的使用。將離散、連續(xù)、單變量和多變量概率分布作為一個教學(xué)任務(wù)加以介紹和探討。這是通過仿真和顯式分析以及繪制分布的相關(guān)函數(shù)圖來完成的,如 PMF、PDF、CDF 等。

 

 

第 4 章暫時不談概率概念,重點介紹了數(shù)據(jù)處理、數(shù)據(jù)匯總和數(shù)據(jù)可視化。引入 DataFrame 的概念作為存儲可能丟失值的異構(gòu)數(shù)據(jù)類型的機制。數(shù)據(jù)幀在 Julia 中是數(shù)據(jù)科學(xué)和統(tǒng)計的重要組成部分,就像在 R 和 Python 中一樣。本章還介紹了經(jīng)典描述統(tǒng)計學(xué)及其在 Julia 中的應(yīng)用。此外,還引入了核密度估計和經(jīng)驗累積分布函數(shù)等概念。本章最后將介紹使用文件的一些基本功能。

 

 

第 5 章介紹了一般的統(tǒng)計推斷思想。通過仿真和分析實例給出了樣本均值和樣本方差的抽樣分布,說明了中心極限定理和相關(guān)結(jié)果。然后探討統(tǒng)計估計的一般概念,包括矩量法和最大似然估計方法的基本例子,然后是簡單的置信區(qū)間。本章還介紹了統(tǒng)計假設(shè)檢驗的基本概念,以及貝葉斯統(tǒng)計的基本概念。

 

 

 

 

第 6 章介紹了一個和兩個樣本的各種實際置信區(qū)間。本章從均值的標(biāo)準(zhǔn)置信區(qū)間開始,然后發(fā)展到更現(xiàn)代的 bootstrap 方法和預(yù)測區(qū)間。本章還是研究模型假設(shè)對推理影響的切入點。

 

 

第 7 章側(cè)重于假設(shè)檢驗。本章從總均值的標(biāo)準(zhǔn) t 檢驗開始,然后介紹兩種均值比較的假設(shè)檢驗。然后,進行方差分析(ANOVA),以及檢查獨立性和擬合優(yōu)度的假設(shè)檢驗。接下來向讀者介紹功率曲線。本章最后介紹了一個很少涉及到的性質(zhì),即 p 值的分布。

 

 

第 8 章介紹了最小二乘和統(tǒng)計線性回歸模型。它首先介紹最小二乘法,然后進入線性回歸統(tǒng)計模型,包括假設(shè)檢驗和置信帶。還探討了其他回歸概念。包括假設(shè)檢查、模型選擇、交互等。

 

 

第 9 章概述了幾種更先進的機器學(xué)習(xí)概念。首先,介紹了研究數(shù)據(jù)的機器學(xué)習(xí)范例。包括訓(xùn)練、驗證和測試。然后介紹了機器學(xué)習(xí)中偏差和方差的概念。這與將正則化思想應(yīng)用于線性模型是相輔相成的。然后本章繼續(xù)討論了邏輯回歸和廣義線性模型。然后介紹了進一步的監(jiān)督學(xué)習(xí)方法,包括線性分類、隨機森林、支持向量機和深度神經(jīng)網(wǎng)絡(luò)。然后介紹了一些無監(jiān)督的方法,包括 k 均值和主成分分析(PCA)。本章最后簡要介紹了馬爾可夫決策過程和強化學(xué)習(xí)。

 

 

 

 

第 10 章討論了應(yīng)用概率的隨機模型,讓讀者了解隨機建模和蒙特卡羅模擬的優(yōu)點。本章側(cè)重于動態(tài)系統(tǒng),探討了馬爾可夫鏈、離散事件模擬和可靠性分析,以及處理隨機數(shù)生成的幾個方面。

標(biāo)簽: 數(shù)據(jù)處理 機器學(xué)習(xí)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)共享的核心在定價,數(shù)據(jù)開放與隱私保護探討

下一篇:p 值是什么?數(shù)據(jù)科學(xué)家用最簡單的方式告訴你