資料科學課程

無所不在的自然語言處理—基礎概念、技術與工具介紹已額滿

無所不在的自然語言處理—基礎概念、技術與工具介紹

無所不在的自然語言處理—基礎概念、技術與工具介紹 自然語言處理 (Natural Language Processing) 技術專門對付非結構性、沒有整理成欄位值的資料,這也是資料分析時的燙手山芋之一。能夠理解語意,讓機器使用自然語言溝通,就能夠通過人工智慧的終極測試 — 圖靈測試 (Turing Test),可見這個問題的確是個極大的挑戰。即使是自然語言的基礎技術,例如怎麼樣從文章中抽取出重要的資訊?怎麼樣分析句子的結構?怎麼樣找到語言中所表達的語意?怎麼樣處理不同的語言?這些技巧在資料分析時不僅必備,想要做得好更需要訣竅。本課程先從基礎介紹開始,希望能帶大家認識自然語言處理這個在資料分析與資料探勘時非常有用的技術,並燃起對自然語言處理的興趣及熱情。 1. 什麼是自然語言處理 從自然語言的基礎定義與各個相關議題談起,在 60 分鐘內畫出自然語言處理技術的重點,包括可以處理的問題,以及目前的技術進展等。 2. 中英文文本處理相關工具與資源介紹 知道某些問題可以用自然語言處理的技術來進行,或是拿到資料後的下一步該如何?這裡介紹各式各樣自然語言處理最優的開發工具,包括英文與中文。 3. 自然語言處理於網路與社群媒體的挑戰 處理一般的文字資料還不夠,還要考慮從網路收集來的文字資料,既多又免費!但是網路文字有其特殊的問題需要解決,同時網路文字經常可以結合其他元資訊一併處理得到更佳的結果!我們將會介紹跨入網路文字處理時可能遭遇的問題與解決方式,同時說明基本的文字與其他資料的結合方式。 4. 自然語言處理發展趨勢與業界應用 在人工智慧的大趨勢下,自然語言處理自然也是很重要的一環,這個技術未來的發展趨勢與應用方向在哪裡呢?我們將會介紹目前產業界對於那些技術有所需求,有哪些潛在的應用,以及未來自然語言處理可以與那些領域結合更加發揮它的力量。
課程介紹
統計學家教你穩紮穩打 R 語言資料分析已額滿

統計學家教你穩紮穩打 R 語言資料分析

資料科學是綜合統計學、資訊科學及領域知識的一門新興學科。因此,要成為一名資料科學家,對統計當然要有基本的認識。舉凡日常的機率統計問題,例如:算機率值,統計參數估計,假設檢定及模型配適等等,除了需要理論証明推導之外,也需以程式做數值的模擬與驗証。而 R 語言正是研究者分析資料及執行統計模擬不可或缺的工具。也因為 R 軟體具有豐富的統計套件,也成為資料科學領域裡最受歡迎的程式語言之一。 本課程由統計學家教您用 R 進行資料處理、呈現及統計分析。從第一天 R 的基礎 + 進階 (資料輸出輸入及處理、統計圖形、機率分佈、假設檢定、變異數分析、模擬統計模型與迴歸分析) 到第二天的統計分析方法應用(探索式資料分析、資料探勘案例研究),除了著重在方法理論的講述、假設及觀念的闡釋,同時也強調實際 R 程式撰寫操作,希望藉由本課程之訓練,奠定學員 R 程式撰寫及資料統計分析的基礎,並具有判斷不同狀況該用什麼不同的統計方法的數據能力。    
課程介紹
給工程師的統計學及資料分析 123已額滿

給工程師的統計學及資料分析 123

「統計學」,是一個大家都熟悉卻可能又陌生的名詞。做為傳統上最接近資料科學、藉由分析資料去探索事實真相的一門學問,統計學遍佈在大專院校的各個系所中,在以往是許多學生最大的惡夢之一,現在卻又在大數據的時代,被許多人宣稱統計學已死。到底什麼是統計學?統計學包含資料分析,還是資料分析包含統計學?統計學能做到什麼,又不能做到什麼?會算平均數跟標準差之後,如果懂機率學,還能多做些什麼? 這門課程將由臺大資管系孔令傑助理教授主講,用一天的時間對統計學與資料分析做一個入門的介紹。時間雖短,內容雖淺,相信仍可以幫大家釐清一些概念,也讓初學者學到一些可以實戰的技術。更重要的是,這門課希望能給大家在未來繼續學習進階知識的動機與基礎。 本課程由四個部分組成:
  1. 總是抽不到大獎的抽樣分佈 課程將從基本的母體與樣本概念以及資料測量尺度出發,接著切入統計學的科學核心基礎:抽樣分佈。在用樣本資料對母體做一些猜想之前,先瞭解一下隨機樣本的機率性質吧!
  2. 假設檢定與一點都不神秘的 p 值 我們將介紹統計學的核心觀念「假設檢定」,也就是如何對未知的母體建立假說、如何以樣本資料同意或推翻假說,以及最重要地,如何估計自己的結論犯錯的機率。我們也會介紹在假設檢定中扮演關鍵角色的「p 值」,它如何被使用、又如何被誤用。
  3. 沒什麼學問的迴歸分析 當你想知道一堆變數如何合起來影響一個變數時,迴歸分析是你最好的朋友 (之一)。我們將介紹迴歸分析的基本原理、模型的解釋力與意涵、如何一股腦地把所有變數都丟進迴歸模型,以及這樣做有什麼好處跟壞處。
  4. 大有學問的迴歸分析 延續上一個模組,我們探討迴歸分析的各種變化,協助你釐清變數間錯綜複雜的關係。雖然不能讓你一秒變專家,但是可以讓你一秒看起來像專家,有時候還可以一秒戳破看起來像專家的人的錯誤。
除了介紹概念,我們也介紹如何在 R 語言中實作課程裡提到的統計方法,並且在現場讓大家動手實作。
課程介紹
今天開始打造人工智慧團隊-給企業主及團隊領導者的經驗談,解析所有你將遇到的已發生,未發生,將發生的問題及陷阱已額滿

今天開始打造人工智慧團隊-給企業主及團隊領導者的經驗談,解析所有你將遇到的已發生,未發生,將發生的問題及陷阱

今天開始打造人工智慧團隊-給企業主及團隊領導者的經驗談,解析所有你將遇到的已發生,未發生,將發生的問題及陷阱 最近的科技新聞熱點在人工智慧,街頭巷口人人都在談人工智慧,因為已證明在許多產業應用上的價值,讓許多企業趨之若騖,不論本來談不談/做不做資料科學及大數據研發及導入,今年開始都開始談人工智慧。他們可能說,我們已從大數據階段「進化」到人工智慧,比其它還在做大數據的公司還「先進」,這是種有趣的說法。 事實上,大數據、機器學習及人工智慧是不可分割的。大數據是資訊來源,機器學習是資訊的處理方法,藉以淬取出複雜的規則,讓電腦展現出擬似人類智慧的行為,我們稱為人工智慧。換句話說,以今天的技術來說,大數據及機器學習是發展人工智慧的必要條件;在人工智慧技術領先的企業,同時也必然是大數據及機器學習的領先者,沒有人能跳過這兩者而直接開發出先進的人工智慧系統。 因此,若想要導入人工智慧,過去欠的技術債,今天必須先還清。企業裡的資料基礎建設 (例如資料倉儲) 建好了嗎?資料管理有個統一的授權模式嗎?或是依舊得讓資料使用者一一去說服企業中分散各處的資料擁有者?資料的收集及產出有融入企業流程中嗎?還是每次得為了特定的專案再花人力時間資源來整理收集?資料應用的導入是預設得進行的常規任務,還是得另外花力氣去說服所有相關單位?分析資料的團隊是管理資料的團隊兼任,還是有個專業的資料分析團隊來進行?同時,所有的資料應用者都熟悉機器學習嗎?還是以傳統繪圖製表的方式在做基礎層次的資料視覺化? 更直白的說法是,千萬不要以為公司有資料倉儲,打開電腦就有報表可以看,公司同仁開會討論時都是基於漂亮的即時圖表,就是把大數據應用的很好的公司。事實可能剛好相反,最淺層的資料應用是讓老板每天看圖表;最最深入的資料應用應用是隱形的,看不到圖表。不然你覺得 AlphaGo 是看著一堆圖表學到如何下棋的嗎?透過機器學習從資料淬取規則出來,而那些規則因為過於複雜,所以根本無法完整地視覺化呈現,只能以人工智慧系統來直接應用這些規則,讓系統根據當前的輸入值提供最佳的輸出值。 過去幾年,我們在資料的蒐集及解讀上很熱衷,對於機器學習這種以看不見圖表的方式來分析資料及發展人工智慧應用有點後知後覺。十分期待本土各種產業在覺知後的奮起直追,特別在我們有特殊利基點的產業(如製造業、農業、生醫產業等)及社會領域(施政、公用事業、教育等)上,以真正踏實的人工智慧發展來改善社會及產業體質。 在此課程中,我將為聽眾闡明資料科學、大數據、人工智慧、機器學習/深度學習等相近但又不同的詞彙,再以各領域的實際案例來分享資料的可能應用及實用價值。同時,我將與聽眾分享其協助多家企業培訓資料科學家及導入資料科學/人工智慧團隊的各種經驗,各種常見的問題以及如何解決這些問題的有效方式。如何選才/育才,才能讓團隊擁有最堅實的戰力以高效率來解決問題。如何選題,才能快速展現團隊的價值等等。最後,我將探討台灣發展人工智慧的挑戰及契機,以及企業應用人工智慧進行競爭力升級的方式及各種關鍵議題。
課程介紹
Python 爬蟲實戰已額滿

Python 爬蟲實戰

Python 爬蟲實戰 資料科學的世界中,資料是一切的基石,而網際網路則蘊藏了豐富的資料等待著挖掘與分析。在這資料科學蔚為風行的時代,網路爬蟲的技術是一項非常實用的技能,若您有朝思暮想的資料在網路上 (例如表特版上被推爆的文章),卻苦無方法可以爬取;又或是想抓取熱門電影的票房、評論資料做分析建模,卻不知如何下手,那麼這堂 Python 爬蟲實戰的課程將會很適合您。 本課程利用六個小時的時間,上午將從最基本的 HTML 網頁結構開始,透過範例與實戰練習帶您學會爬取網頁文字資料並解析其結構與內容,再運用簡單的資料視覺化與資料分析,帶您實際走一回資料分析的歷程。而下午會進一步介紹檔案的爬蟲、從爬取網頁到爬取網站、模擬人類行為的爬蟲程式,以及現代複雜的網頁設計中,爬蟲程式有可能遭遇的問題。  
課程介紹
一日搞懂生成式對抗網路已額滿

一日搞懂生成式對抗網路

一日搞懂生成式對抗網路 生成式對抗網路 (Generative Adversarial Network, GAN) 顯然是深度學習領域的下一個熱點,Yann LeCun 說這是機器學習領域這十年來最有趣的想法 (the most interesting idea in the last 10 years in ML),又說這是有史以來最酷的東西 (the coolest thing since sliced bread)。生成式對抗網路解決了什麼樣的問題呢?在機器學習領域,回歸 (regression) 和分類 (classification) 這兩項任務的解法人們已經不再陌生,但是如何讓機器更進一步創造出有結構的複雜物件 (例如:圖片、文句) 仍是一大挑戰。用生成式對抗網路,機器已經可以畫出以假亂真的人臉,也可以根據一段敘述文字,自己畫出對應的圖案,甚至還可以畫出二次元人物頭像 (左邊的動畫人物頭像就是機器自己生成的)。本課程希望能帶大家認識生成式對抗網路這個深度學習最前沿的技術。
  1. 60分鐘搞懂深度學習 你隔壁鄰居和他/她的兄弟姊妹都在用深度學習了,如果你還不會的話,用這個機會搞懂它吧。
  2. 什麼是生成式對抗網路 在生成式對抗網路中包含了兩個類神經網路:生成器 (Generator) 和鑑別器 (Discriminator) ,這兩個網路「寫作敵人,唸做朋友」,表面上彼此對抗、但實際上因為互相激勵所以越來越強。
  3. 生成式對抗網路的各種變形 原始的對抗網路訓練不易,於是有了種種改進的版本,例如: WGAN。生成式對抗網路相關技術不斷推陳出新,每次有新的技術就會在 GAN 前面再加幾個英文字母 (例如: WGAN、fGAN、BGAN、EBGAN、BEGAN 等等),英文字母很快就不夠用了。
  4. 生成式對抗網路和其它技術的關聯性 大家都知道 Alpha Go 背後使用了增強式學習 (Reinforcement Learning),使得這年頭有用到增強式學習就是潮,還有另外一個光聽名字就很潮的技術叫逆向增強式學習 (Inverse Reinforcement Learning),藉由了解這些技術和生成式對抗網路的關聯性把這些很潮的技術也學起來吧。
 
課程介紹
手把手的深度學習實務已額滿

手把手的深度學習實務

手把手的深度學習實務 深度學習 (Deep Learning) 是近年來備受重視的機器學習方法,現今許多語音與影像辨識的研究與應用,都基於深度學習的技術來完成。深度學習的工具不斷推陳出新,若你已經聽過這項技術,卻不知道該從何開始下手,這堂手把手的實務課程將會很適合你。 本課程利用六個小時的時間,介紹 Keras 這個熱門的深度學習工具,從最簡單的前饋類神經網路 (Feedforward Neural Network) 開始,用 Keras 加入各種訓練技巧 (Regularization, Early Stopping, Dropout) 以得到好的預測模型。亦介紹深度學習模型的另一個變形:捲積式類神經網路 (Convolutional Neural Network, CNN),以完整的實務操作,讓你邁出成為深度學習訓練大師的第一步。
課程介紹
使用 Python 來做機器學習初探已額滿

使用 Python 來做機器學習初探

Python 程式語言起步走:使用 Python 來做機器學習初探 對於 Python 躍躍欲試嗎? 此課程將帶領對 Python 感到陌生卻又充滿興趣的您,手把手快速入門學會 Python 語言程式設計要點,並進行實際資料處理與機器學習,從基本的程式開發環境、資料型態與語法、到實際的資料整理並進行初步的機器學習應用。 此課程主要設計給想學習 Python 程式設計並利用相關機器學習套件進行機器學習的夥伴們。希望在課程結束後,您能夠更熟悉 Python 語言這個程式工具,將來可以利用豐富方便的套件進行更深入之資料分析與機器學習應用。對於資料科學與 Python 程式設計有興趣,卻苦無入門機會的夥伴們,讓我們一起從無到有動手用 Python 來解決實務的資料問題。希望以深入淺出的課程講解與手把手的零基礎程式實作教學,帶給大家在未來機器學習進階應用的基礎。  
課程介紹
使用 R 語言建立自己的演算法交易事業已額滿

使用 R 語言建立自己的演算法交易事業

使用 R 語言建立自己的演算法交易事業 我們希望藉由近幾年資料科學的興起,推廣正確的金融交易知識,包括金融資料分析與建立自己的演算法交易事業。自己的策略自己做,自己的風險自己控,自己的部位自己顧。在本課程裡,1 就是 1,2 就是 2,40 就是 40 (事實),沒有怪力亂神,沒有定義不清,一切的一切,統計說話,數據說話!本課程與上一課程 (用 R 輕鬆做交易策略分析及自動下單) 部分重覆,本次除針對理論做更深入講解,亦增加股票、期貨、選擇權開發實務分享。 本課程由四個部分組成:
  1. 建構自己的演算法交易策略 何謂演算法交易、何謂計量交易?程式交易會取代人工交易嗎?為何要使用 R 語言建立自己的演算法交易事業?課程開始我們先用 R 語言展示有哪些方法研發交易策略。
  2. 婆婆媽媽都能懂的交易統計學 接著我們從銅板賭局出發,觀察勝率、賠率與期望值。不需高等統計知識,就能理解賭局與交易的不同。我們討論幾個衡量績效重要的統計指標,以及策略精進後的指標變化。
  3. 股票、期貨策略開發實務 我們開始研發股票與期貨的交易策略,首先使用幾種常見的技術指標。然而,交易最重要的還是資金管理,可惜資金管理在理論與實務上有很大的差距。我們將在本節說明,並介紹幾種實務上常見的資金管理方式。
  4. 選擇權交易策略開發 最後我們介紹選擇權。為何選擇權特別適合計量交易與資金管理?我們將實做凱利精神運用於台指選擇權的策略開發,期望學員於本課程結束後,能確實建立自己的演算法交易事業。
 
課程介紹
深入淺出深度學習 (Dive into Deep Learning)已額滿

深入淺出深度學習 (Dive into Deep Learning)

深入淺出深度學習 (Dive into Deep Learning) 深度學習 (Deep Learning) 是機器學習 (Machine Learning) 中近年來備受重視的一支,深度學習根源於類神經網路 (Artificial Neural Network) 模型,但今日深度學習的技術和它的前身已截然不同,目前最好的語音辨識和影像辨識系統都是以深度學習技術來完成。 你可能在很多不同的場合聽過各種用深度學習做出的驚人應用 (例如:最近紅遍大街小巷的 AlphaGo),聽完以後覺得心癢癢的,想要趕快使用這項強大的技術,卻不知要從何下手學習,以及不知道要如何應用深度學習於各式應用上,那這門課就是你所需要的。 這門課程將由臺大資訊系陳縕儂教授利用短短的一天議程簡介機器學習及深度學習,包含深度學習基礎理論、模型各種變形、及深度學習應用的發展及趨勢。本課程希望幫助大家不只能了解深度學習,也可以了解如何應用深度學習於實際的應用問題上。無論是從未嘗試過深度學習的新手,還是已經有一點經驗想更深入了解,都可以在這門課中有所收穫。 本課程由三個部分組成:
  1. 什麼是機器學習及深度學習 這堂課會簡介機器學習領域中不同的方法,以監督式學習 (Supervised Learning) 為主,並介紹機器學習及深度學習技術中包含的三個主要步驟:1) 設定模型架構、2) 定義目標函數、3) 選擇最好的函數。
  2. 深度學習模型之變形及應用 這堂課要講深度學習模型兩個常見的變形:捲積式類神經網路 (Convolutional Neural Network, CNN) 不只常用在影像辨識上,應用在圍棋上也成果驚人;循環式類神經網路 (Recurrent Neural Network, RNN) 讓深度學習模型有了記憶力,可以處理更複雜的問題。
  3. 深度學習發展及趨勢 – 非監督式學習 & 強化式學習 深度學習在監督式學習領域已經有較成熟的發展,但是在機器學習中其他領域都才剛起步。這堂課會介紹近期深度學習的最新趨勢,以及深度學習的研究者們近期在意的重要問題。主要介紹並討論非監督式學習 (Unsupervised Learning) 以及強化式學習 (Reinforcement Learning) 領域中深度學習的應用及其效果,並討論深度學習未來之發展。
 
課程介紹
智慧製造與生產線上的資料科學已額滿

智慧製造與生產線上的資料科學

資料科學 (Data Science) 與工業 4.0(Industry 4.0) 是近幾年來廣為討論的主題,本課程以製造現場為實證對象,從資料的視角來尋求改善的契機。在複雜的製造現場環境裡,存在著各式各樣的議題,諸如品質、成本、交期、創新、彈性等,需持續改善以提升公司核心競爭力。事實上,製造業在台灣經濟發展上也扮演著舉足輕重的角色,在製造業的轉型過程中,如何以資料科學的角度,整合自動化實務和管理經驗,導入方法論以達到智慧製造 (Intelligence Manufacturing) 的理想,相信是這個世代關注的焦點之一。
這門課程由國立成功大學資訊系暨製造所李家岩副教授主講,希望以深入淺出的方式,對製造資料科學作一整體性的介紹。課程專注於「問題本質的探索與觀念的釐清」,並輔以案例介紹工程資料分析時會遭遇的困難與挑戰。此外,對於機器學習或資料探勘強調的預測性分析 (Predictive Analytics),課程更進一步地延伸到處方性分析 (Prescriptive Analytics),以連結到管理者視角下,風險評估與決策制定的過程。希望透過課程內容,對製造現場資料分析的議題有全面性的瞭解,並帶給大家在未來繼續學習進階知識的基礎。
課程介紹
機器人視覺與深度學習應用已額滿

機器人視覺與深度學習應用

自動車是怎麼樣理解周遭的環境的?谷歌到底是怎麼快速找出我要的照片?波士頓的警方是怎麼找到馬拉松爆炸嫌疑犯的?這些都是由分析大量的照片與影音資料而來的。而這些視訊資料,不但資料量大,由電腦判讀更是不易,因此需要的技術與工具也相當的廣泛,從一開始的資料清理與判讀、抽象化資料萃取,和後端的視訊資料庫索引建立與查找,每一項都是極大的研究課題。深度學習技術之演進,更將其與所需之運算能量推升到空前的境界。 在這一天的課程裡,我們集合了電腦視覺的概念簡介、多媒體資料的分類與檢索方式、深度學習於視訊資料的應用與挑戰、與加速這些技術的 GPU 平行算運算平台等,期由分析單筆視訊資料開始,深入淺出地引領您進入視訊資料的抽象美麗世界。最後的實作課程,並將介紹實際的應用例與實作所需之程式工具等,為理論與實務並重的安排。      
課程介紹