Python 爬蟲實戰

活動簡介

Python 爬蟲實戰

資料科學的世界中,資料是一切的基石,而網際網路則蘊藏了豐富的資料等待著挖掘與分析。在這資料科學蔚為風行的時代,網路爬蟲的技術是一項非常實用的技能,若您有朝思暮想的資料在網路上 (例如表特版上被推爆的文章),卻苦無方法可以爬取;又或是想抓取熱門電影的票房、評論資料做分析建模,卻不知如何下手,那麼這堂 Python 爬蟲實戰的課程將會很適合您。

本課程利用六個小時的時間,上午將從最基本的 HTML 網頁結構開始,透過範例與實戰練習帶您學會爬取網頁文字資料並解析其結構與內容,再運用簡單的資料視覺化與資料分析,帶您實際走一回資料分析的歷程。而下午會進一步介紹檔案的爬蟲、從爬取網頁到爬取網站、模擬人類行為的爬蟲程式,以及現代複雜的網頁設計中,爬蟲程式有可能遭遇的問題。

 

議程

9:00-9:30

報到

9:30-10:30

爬蟲基本介紹 - 網頁初探與爬取

10:30-10:50

茶點時間

10:50-12:30

爬到資料了! 然後呢? - 資料視覺化與分析

12:30-13:20

午餐

13:20-15:00

靜態文字網頁以外的爬蟲 - 從網頁到網站

15:00-15:20

茶點時間

15:20-17:00

現實世界的爬蟲 - Selenium

講者簡介

楊証琨 (Jimmy Yang)

中央研究院資訊科學研究所 / 研究助理

台大土木所畢,現為中研院資訊科學所研究助理,目前主要負責社群媒體與製造工業的資料處理及運用機器學習技術進行資料分析。見識到資料的力量後開始學習程式語言,期盼自己能掌握深度的技術來找出蘊藏在資料中的秘密。

楊鎮銘 (Chen-Ming Yang)

中央研究院資訊科學研究所 / 研究助理

現為中央研究院資訊所研究助理,雖然是資工背景出身,但開始對資料科學領域產生興趣,喜歡這種尋寶遊戲的探索方式,所以開始投入心力,所謂魔鬼藏在細節裡,相信經過整理與分析的資料是強而有力的證據,可以找出需要經驗累積才能判讀的模式,甚至是一直沒被注意到的行為。

報名須知

  • 學員基本要求
    • 本課程屬於初階課程,適合已有 python 基礎的使用經驗。
    • 同學們需自備筆電,並且依照課前通知安裝好所需的環境與套件。

  • 退票須知
    • 本活動委由 KKTIX 代為處理退票退款事宜。
    • 退票時將酌收 10% 手續費、且活動前十天內(不含活動日)不予退票。
    • 詳情請見 KKTIX 代理退換票辦法

報名活動

  • 日期 2017-08-13(日)
  • 地點 中央研究院人文社會科學館
  • 票價 $2480
已開放報名!
2017/08/01 中午12:00 截止報名
立即報名

交通資訊

  • 公車
    • 請搭臺北市公車 205、212(直行/區間)、270、276、306(直行/區間)、620、645(直行/副線)、小 12、藍 25、 679、小 5、小 1 任何一班至中研院站 (前一站為中研新村站)。

  • 捷運
    • 請搭捷運板南線至南港站 2 號出口換乘公車 212(直行/區間)、270 或 藍25 至中研院站。
    • 搭捷運文湖線至南港展覽館站 (5 號出口),走至對面換乘公車 205、276、306(直行/區間) 或 645(直行/副線) 至中研院站。

  • 火車
    • 請搭火車至南港火車站換乘公車 212(直行/區間)、270 或 藍25 至中研院站。

  • 自行開車
    • 請參考下方地圖開車至中央研究院院區 (臺北市研究院路二段 128 號)。
    • 開車請由正門進入院區。
    • 車輛可停人文社會科學館 B2 停車場 (空間可停 100 輛),或停放在中研院區內平面停車格。
    • 週一至週五中研院內停車每小時收費 20 元。
    • 週末中研院內免費停車。

中央研究院位置圖


人文社會科學館位置圖