國立中興大學教學大綱
課程名稱 (中) 巨量資料分析(5108)
(Eng.) Big Data Analysis
開課單位 統計所
課程類別 選修 學分 3 授課教師 陳律閎
選課單位 應數系 / 學士班 授課使用語言 中文 英文/EMI 開課學期 1122
課程簡述 隨著各種軟硬體技術的發展,資料蒐集與取得變得越來越容易;為了分析與應用越來越大量的資料,巨量資料分析逐漸成為顯學。然而,如此巨大的資料為統計學家帶來許多新的挑戰:
1. 統計學家慣用的軟硬體設備常已無力應付如此巨大的資料
2. 巨量資料的來源亦與統計學家習慣處理的資料迥異:傳統的統計資料通常來自對某個母體的隨機試驗,然而巨量資料往往來自於對母體選擇性的觀測,甚至可能混雜了許多與研究對象無關的資料。舉例而言,youtube保存了上億名使用者對音樂與電影的喜好評比,然而運用這些資料預測音樂與電影的實際票房往往與實際結果差距甚遠,因為youtube的使用族群並不能完全代表票房的母體。
3. 巨量資料想分析的問題往往極為複雜,如心血管影像希望分析的是血管是否暢通、社群網路資料希望處理的則是人際關係的問體等。如何設計適當的統計模型來處理這些複雜的資料是個極大的挑戰。
4. 巨量資料的資料品質可能很差,如資料遺失、量測誤差等。如何設計可計算的統計模型來處理這樣的資料是個很大的挑戰。

本課程將教導大家如何克服上述困難。首先,我們會介紹如何在使用各種巨量資料平台;接下來我們會簡單的回顧分析巨量資料時需具備的統計思維;最後我們會以各種範例教導學生如何設計正確的統計模型來分析各種複雜的巨量資料。
先修課程名稱
課程含自主學習 Y
課程與核心能力關聯配比(%) 課程目標之教學方法與評量方法
課程目標 核心能力 配比(%) 教學方法 評量方法
1. 如何使用巨量資料計算平台
2. 介紹巨量資料所需的統計思維
3. 介紹巨量分析所需之統計方法與其在巨量資料計算平台中的實作
專題探討/製作
習作
討論
講授
書面報告
口頭報告
作業
授課內容(單元名稱與內容、習作/每週授課、考試進度-共18週)
週次 授課內容
第1週 Introduction
第2週 228放假
第3週 Reviews: dplyr, Pandas and scikit-learn
第4週 Out-of-memory data manipulation
第5週 Introduction to database: dbplyr and Ibis
第6週 Distributed dataframes: Apache spark and Dask
第7週 Linear regression for big data
第8週 Linear regression for big data
第9週 Linear regression for big data
第10週 Linear regression for big data
第11週 Generalized linear models for big data
第12週 Methods for Missing data
第13週 Robust methods
第14週 Recommendation systems
第15週 Recommendation systems
第16週 期末報告
第17週 自主學習 (影片)
第18週 自主學習 (影片)
學習評量方式
作業:30%
期中報告: 20%
期末報告: 50%
教科書&參考書目(書名、作者、書局、代理商、說明)

課程教材(教師個人網址請列在本校內之網址)
iLearning
課程輔導時間
TBA
聯合國全球永續發展目標
提供體驗課程:N
請尊重智慧財產權及性別平等意識,不得非法影印他人著作。
更新日期 西元年/月/日:2024/02/18 16:41:09 列印日期 西元年/月/日:2024 / 4 / 29
MyTB教科書訂購平台:http://www.mytb.com.tw/