目前位置: 首頁 > 公開課程 > 資訊管理 > 程式語言 > Python強化學習的決策原理與應用

Python強化學習的決策原理與應用

深入解析強化學習技術框架與智能體AI設計方法,協助學員突破傳統規則式系統的框架

  數智化轉型二部曲-智能體AI(Agent AI)基礎:Python強化學習的決策原理與應用- 隨著生成式AI進入商業化階段,企業數位智能化轉型的下一戰場已轉向「具備自主決策能力的智能體系統(Agent AI)」。強化學習技術能讓AI在動態與不確定的環境中持續學習最佳策略,從最後一哩路的物流配送、庫存管理、生產排程到金融交易決策,其應用場景正快速擴張。

加入收藏
收件人email:
寄件人姓名:
寄件人email:

課程總覽
智慧資通訊
課程代號:2325040037  
數智化轉型二部曲-智能體AI(Agent AI)基礎:Python強化學習的決策原理與應用

1.技術解構:掌握強化學習核心機制(隨機過程、MDP框架、Q-Learning、策略梯度法)。
2.場景設計:學習將企業決策問題轉譯為RL可解的馬可夫決策過程(MDP)。
3.系統整合:思考智能體AI與既有IT架構(ERP、MES、CRM)的可能結合。
4.風險管理:說明探索與利用之間的權衡取捨(Exploration-Exploitation Tradeoff),以及決策黑箱化的風險。

課程型態/ 混成
上課地址/ 實體:台北學習中心,實際地點依上課通知為準! 線上:Webex線上會議室
時  數/ 12 小時
起迄日期/ 2025/09/29 ~ 2025/09/30
聯絡資訊/ 陳小姐   (02)2370-1111 #303

報名截止日期:2025/09/22
-----------------------------------------


課程簡介

 

  隨著生成式AI進入商業化階段,企業數位智能化轉型的下一戰場已轉向「具備自主決策能力的智能體系統(Agent AI)」。強化學習技術能讓AI在動態與不確定的環境中持續學習最佳策略,從最後一哩路的物流配送、庫存管理、生產排程到金融交易決策,其應用場景正快速擴張。  
本課程為「數智化轉型首部曲 - 從預測型AI到生成和決策型AI:圖神經網路與深度生成建模Python實作」的進階延伸,深入解析強化學習技術框架與智能體AI設計方法,協助學員突破傳統規則式系統的框架,打造具備環境感知、即時反饋與策略迭代能力的決策中樞,建立學員的數位化與智能化轉型進階技能,活用AI技術在工作領域上。

課程提供【數位同步學習】報名方案,歡迎學員報名參加。

 

課程目標

 

  1. 技術解構:掌握強化學習核心機制(隨機過程、MDP框架、Q-Learning、策略梯度法)。
  2. 場景設計:學習將企業決策問題轉譯為RL可解的馬可夫決策過程(MDP)。  
  3. 系統整合:思考智能體AI與既有IT架構(ERP、MES、CRM)的可能結合。  
  4. 風險管理:說明探索與利用之間的權衡取捨(Exploration-Exploitation Tradeoff),以及決策黑箱化的風險。

 

課程特色

 

  課程涵蓋Python實作案例,例如:庫存補貨、動態定價、金融交易、基於用戶反饋的強化學習等,建立學員活用資料分析技術並抓住AI發展趨勢。

 

適合對象

 

  1. 先備知識:建議先完成「數智化轉型首部曲 - 從預測型AI到生成和決策型AI:圖神經網路與深度生成建模Python實作」課程或具備機器學習基礎概念。
  2. 建議學員具備基本的程式設計概念,例如C、Python、R、Java…等;學員不須非常熟悉撰寫電腦程式語言亦可,課堂中會提供案例程式碼,讓學員實際練習。
  3. 電機/電子/機械/資訊/生醫/工工/化工/土木/環工等相關工程師、資料分析師/科學家、程式設計師、資訊職類之公務機關人員。

 

課程內容與大綱

 

單元

課程大綱

一、智能體AI時代的決策革命

  1. AlphaGoChatGPT(決策型AI技術演進史)
  2. 智能體系統分級框架:反應式 vs. 目標導向 vs. 自主學習型 

二、強化學習背景知識

  1. 隨機變數與機率函數
  2. 抽樣與蒙地卡羅法

三、強化學習技術核心

  1. 循序決策相關名詞與動態規劃(狀態state、行動action、狀態轉移transition、報酬reward、政策policy、回報return 、價值value)
  2. 隨機過程、馬可夫報酬過程、動態規劃貝爾曼方程與馬可夫決策過程
  3. 價值最佳化方法(時間差法, SARSA, Q-learning, DQN)
  4. 政策最佳化方法(政策梯度policy gradient)
  5. 行動者-評論家方法(actor-critic method)
  6. 連續控制與其他主題(不完全觀測、平行運算、多智能體競合、蒙地卡羅樹搜索、模擬與現實Sim2Real落差緩解策略、決策可解釋性XAI與監管合規)
  7. 解說案例:庫存補貨、動態定價、金融交易、基於用戶反饋的強化學習 

備註:大綱與各單元時間均為預估規劃,講師有權視參訓學員狀況進行調整

 

課程資訊

 

  1. 舉辦地點:台北學習中心,實際地點依上課通知為準! 線上方案為Webex線上會議室
  2. 舉辦日期:114年9月29日(一)、9月30日(二),09:30am~16:30pm,共計12小時,中午午休時間12:30pm~ 13:30pm。
  3. 報名方式:線上報名,或請以正楷填妥報名表傳真至02-2381-1000
  4. 課程洽詢:02-2370-1111 分機303 陳小姐

 

講師簡介-鄒講師

 

  • 現任:國立臺北商業大學資訊與決策科學研究所暨智能控制與決策研究室教授、兼校務永續發展中心主任、兼推廣教育部主任、CSQ大數據品質應用委員會主任委員
  • 經歷:明志科技大學機械工程系特聘教授兼人工智慧暨資料科學研究中心主任(借調)、美國辛辛那提大學工程與應用科學學院訪問教授、新加坡國立大學解析與作業學系訪問教授、西交利物浦大學計算機科學與軟件工程學系暨大數據解析研究院訪問教授、南京理工大學管理科學與工程學系訪問教授、中華R軟體學會創會理事長、臺灣資料科學與商業應用協會創會理事長、世新大學資訊管理學系副教授、中華大學企業管理學系副教授
  • 專長:機率統計學習、進化式多目標最佳化、賽局模型應用、時間序列分析與控制

 

課程費用

 

報名方案

課程費用

課程原價(個人)

10,800

早鳥優惠(21天前)

9,800

3人以上團報優惠

9,200

 

 

貼心提醒

 

  1. ATM 轉帳(線上報名):繳費方式選擇「ATM 轉帳」者,系統將給您一組轉帳帳號「銀行代號、轉帳帳號」,但此帳號只提供本課程轉帳使用,各別學員轉帳請使用不同轉帳帳號!轉帳後,寫上您的「公司全銜、課程名稱、姓名、聯絡電話」與「收據」傳真至 02-2381-1000 收。
  2. 信用卡(線上報名):繳費方式選「信用卡」,直到顯示「您已完成報名手續」為止,才確實完成繳費。
  3. 銀行匯款(公司逕行電匯付款):土地銀行 工研院分行,帳號156-005-00002-5(土銀代碼:005)。戶名「財團法人工業技術研究院」,請填具「報名表」與「收據」傳真至02-23811000收。
  4. 即期支票或郵政匯票:抬頭「財團法人工業技術研究院」,郵寄至:106 台北市大安區復興南路二段 237 號 4 樓 收。
  5. 計畫代號扣款(工研院同仁):請從產業學院學習網直接登入工研人報名;俾利計畫代號扣款。
  6. 本課程需上機實作,請自備筆電上課。

 



報名截止日:2025/09/22

開課日:2025/09/29結束日:2025/09/30定價: $10,800

時數:12 (小時) 時段:09:30am~16:30pm

地點:台北 | 工研院產業學院 台北學習中心 | 實際地點依上課通知為準! [看地圖]

報名截止日:2025/09/22

開課日:2025/09/29結束日:2025/09/30定價: $10,800

時數:12 (小時) 時段:09:30am~16:30pm

地點:線上 | 線上同步學習 | 線上直播 [看地圖]

簡介


產業學院緣起
  依據行政院「挑戰2008:國家發展重點計畫」下之「國際創新研發基地」與「產業高值化」兩計畫,首重產業科技人才的效能。

•911216經科字第09103373120號函:經濟部將本院籌設工研院產業學院之工作,列為因應產業結構轉型,提 ... more

*填寫報名表能讓開課單位更有效的處理您的資料,並優先處理您的需求!


三聯式 二聯式


(重新產生)