01 - AI 總覽：原理、歷史與應用

⚡ 資料更新至：2026 年初（整合 AI/ML 領域公認里程碑論文與官方資料） 📖 定位：由淺入深的一篇入門到進階總覽。完全新手可從頭讀；想懂現代技術可直接跳第 4 章。

1. AI 是什麼

白話定義

AI（Artificial Intelligence，人工智慧）：讓電腦做「本來需要人類智慧才能做的事」——例如辨識影像、聽懂語言、下棋、寫文章、寫程式。

注意 AI 不是單一技術，而是一個大傘，底下層層包含更具體的方法：

層次圖（由大到小）

┌─────────────────────────────────────────────┐
│ AI 人工智慧（最廣：任何「像有智慧」的系統）        │
│  ┌────────────────────────────────────────┐  │
│  │ ML 機器學習（從資料中「學」規則，不靠人寫死）  │  │
│  │  ┌──────────────────────────────────┐  │  │
│  │  │ DL 深度學習（用多層神經網路 learn）    │  │  │
│  │  │  ┌────────────────────────────┐  │  │  │
│  │  │  │ 生成式 AI / LLM             │  │  │  │
│  │  │  │ (GPT、Claude、Gemini…)      │  │  │  │
│  │  │  └────────────────────────────┘  │  │  │
│  │  └──────────────────────────────────┘  │  │
│  └────────────────────────────────────────┘  │
└─────────────────────────────────────────────┘

AI ⊃ ML ⊃ DL ⊃ 生成式 AI / LLM。
早期的 AI（如下象棋的規則引擎、專家系統）不一定用 ML——它們是人類手寫規則。所以「AI」比「ML」更廣。

Narrow AI vs General AI

類別	說明	現況
Narrow AI（弱 AI / 狹義 AI）	只擅長特定任務（下圍棋、翻譯、辨識肺結節）	目前所有實際落地的 AI 都屬此類
AGI（Artificial General Intelligence，通用 AI）	像人一樣能跨領域學習與推理	尚未實現；是研究目標與爭論焦點
ASI（Superintelligence，超智慧）	全面超越人類	純屬理論／未來推測

重點：今天的 ChatGPT / Claude 雖然很強、看起來「萬能」，技術上仍屬 narrow AI（雖然是「很廣的 narrow」）。是否、何時達到 AGI 仍無定論。

2. 原理基礎

2.1 機器學習三型

機器學習的核心精神：不寫死規則，而是給資料讓電腦自己找規律。依「給什麼資料、學什麼」分三大類：

類型	一句話	資料長相	例子
Supervised learning 監督式	給「題目 + 正確答案」學對應關係	有標籤（X→y）	看胸部 X 光（X）判斷有無肺炎（y）；垃圾郵件分類
Unsupervised learning 非監督式	只給資料、沒答案，讓它找結構	無標籤	把客戶自動分群（clustering）；異常偵測
Reinforcement learning 強化學習（RL）	透過「試錯 + 獎勵」學最佳行動策略	環境回饋（reward）	AlphaGo 下圍棋；機器人走路；LLM 的 RLHF

半監督（semi-supervised）與自監督（self-supervised）是混合型。自監督特別重要：現代 LLM 預訓練就是自監督——把「預測下一個字」當成自動產生的題目，不需人工標註，所以能吃下整個網際網路的文字。

2.2 神經網路與深度學習（白話）

Neural network 神經網路是模仿大腦神經元概念的數學模型：

Neuron（神經元 / node）：一個小單元，收進多個數字、各乘上一個權重（weight）、加總、再過一個非線性函數（activation，如 ReLU）輸出。
Layer（層）：很多神經元並排成一層；多層串起來。「深度學習」的「深」就是指層數很多。
權重 weights：模型真正「學到的東西」全藏在這些數字裡。一個現代大模型有數十億～上兆個權重（parameters）。

怎麼「學」？訓練的四步循環：

Forward 前向傳播：資料進去，跑出一個預測。
Loss 損失函數：比較「預測」與「正確答案」差多少，算出一個誤差數字（越小越好）。
Back-propagation 反向傳播：用微積分（chain rule）反推「每個權重該往哪調、調多少」才能讓 loss 變小。
Gradient descent 梯度下降：照算出的方向，把每個權重往「讓誤差下降最快」的方向挪一小步（步幅 = learning rate）。

重複幾百萬次 → loss 越來越小 → 模型越來越準。這就是「訓練」的本質：不斷微調權重去降低誤差。

類比：在大霧的山上要走到谷底（loss 最低點）。每一步用腳感受「哪邊比較斜」（gradient），就往下坡走一小步。走很多步後到達谷底。

2.3 表示學習、Embedding、特徵

Feature 特徵：描述一筆資料的屬性。傳統 ML 要人工挑特徵（feature engineering，例如手動算「郵件裡有幾個驚嘆號」）。
Representation learning 表示學習：深度學習的關鍵突破——讓模型自己學出有用的特徵，不用人手挑。底層學邊緣、中層學形狀、高層學「貓臉」。
Embedding 嵌入：把離散的東西（一個字、一張圖、一個使用者）轉成一串數字向量（vector），讓語意相近的東西在向量空間中也靠得近。
- 經典直覺：king − man + woman ≈ queen（向量運算竟對應語意關係）。
- Embedding 是現代 AI 的通用語言，也是 RAG（見 §4.4）做「語意搜尋」的基礎。

3. 歷史演進（時間線）

以下年份與代表作皆為領域公認里程碑。

第一波：符號主義 / 規則與專家系統（約 1950s–1980s）

1950：Alan Turing 提出「Turing Test（圖靈測試）」——機器能否讓人分不出是不是人。
1956：Dartmouth 會議，“Artificial Intelligence” 一詞正式誕生（John McCarthy 等人）。
主流路線是 symbolic AI / 符號主義：用人手寫的邏輯規則與知識庫推理。
Expert systems 專家系統（1970s–80s，如醫療診斷系統 MYCIN）：IF 症狀 THEN 診斷 規則庫。
限制：規則寫不完、無法處理模糊與例外 → 進入「AI winter（AI 寒冬）」，資金與信心退潮。

第二波：連結主義 / 類神經網路（萌芽很早，1980s 復甦）

1958：Perceptron（感知器，Frank Rosenblatt）——最早的單層神經網路雛形。
1986：Back-propagation 被推廣（Rumelhart, Hinton, Williams 的論文使其廣為人知），讓多層網路可有效訓練——連結主義（connectionism）復興的關鍵。
1989/1998：CNN（卷積神經網路）用於辨識手寫數字，LeNet-5（Yann LeCun）；但受限於算力與資料，尚未大爆發。

第三波：統計式機器學習（約 1990s–2000s）

SVM（支援向量機）、random forest、boosting 等統計式方法當道，理論扎實、在中等資料上很強。
同期 IBM Deep Blue 於 1997 擊敗西洋棋世界冠軍 Kasparov（仍偏搜尋+規則，但象徵意義大）。
神經網路相對沉寂，被視為「調不動、算力吃不消」。

第四波：深度學習復興（2012 起）

2012 — AlexNet：Krizhevsky、Sutskever、Hinton 的深度 CNN 在 ImageNet 影像辨識競賽大勝（錯誤率斷崖式下降）。關鍵組合：大資料（ImageNet）+ GPU 算力 + 深層 CNN。被視為深度學習時代的引爆點。
之後幾年：影像（ResNet, 2015）、語音辨識、機器翻譯全面被深度學習刷新。
2014 — GAN（生成對抗網路，Goodfellow et al.）：生成器 vs 鑑別器互相對抗，開啟「AI 生成逼真影像」的早期路線。
2016 — AlphaGo（DeepMind）擊敗圍棋頂尖棋士 Lee Sedol；2017 AlphaGo Zero 純自我對弈（RL）從零超越前代。展示 deep RL 威力。

第五波：Transformer 與大型語言模型（2017 起）

2017 — “Attention Is All You Need”（Vaswani et al., Google）：提出 Transformer 架構，拋棄 RNN/迴圈，純靠 attention 並行處理序列。這是現代所有 LLM 的共同地基。
2018 — BERT（Google）/ GPT-1（OpenAI）：開創「大規模預訓練 + 下游微調」範式。
2019–2020 — GPT-2 / GPT-3（OpenAI）：模型規模暴增（GPT-3 達 175B 參數），展現驚人的 few-shot 能力——只給幾個例子就會做新任務，不用重訓。
2022 — ChatGPT（OpenAI）：以 RLHF（人類回饋強化學習） 對齊出好用的對話介面，引爆全民 AI 浪潮。
2023 起 — 模型百花齊放：GPT-4、Anthropic 的 Claude、Google 的 Gemini、Meta 的開源 Llama 等；能力、context window、多模態快速擴張。

第六波：多模態、Agent 與推理模型（近年～2026）

多模態（multimodal）：單一模型同時吃文字 / 影像 / 語音 / 影片（如 GPT-4o、Gemini、Claude 的視覺能力）。
影像生成擴散模型（diffusion）：DALL·E、Stable Diffusion、Midjourney 等以文字生圖、生影片。
Reasoning models 推理模型（如 OpenAI o 系列）：訓練模型在回答前先「想」（test-time compute / chain-of-thought），顯著提升數學、程式、邏輯題表現。
Agents 代理：LLM 不只聊天，還能呼叫工具、讀寫檔案、上網、多步驟自主完成任務（如各種 coding agents）。
MCP（Model Context Protocol）：標準化「模型 ↔ 外部工具/資料」的連接協定（見 §4.4）。

4. 現代核心技術

4.1 Transformer 架構

現代 LLM 幾乎都是 Transformer。三個一定要懂的概念：

Tokens：模型不是逐「字」處理，而是切成 token（子詞片段；英文約 1 token ≈ 0.75 字，中文常 1 字 ≈ 1–2 tokens）。模型本質是預測下一個 token 的機率。
Attention 注意力機制（白話）：處理某個 token 時，模型會「環顧」句子裡所有其他 token，動態決定該多注意誰。例如「牠很累所以牠坐下」——模型靠 attention 把「牠」連回正確的主詞。能並行算全句、又能抓長距離關係，是 Transformer 強大的核心。
Context window 上下文視窗：模型一次能「看進去」的 token 上限（記憶容量）。早期幾千 tokens，現代已達數十萬～百萬級。超出視窗的內容模型就「看不到」。

4.2 預訓練 + 微調

現代 LLM 的養成是多階段的：

階段	做什麼	直覺
Pretraining 預訓練	在海量網路文字上自監督學「預測下一個 token」	大量閱讀，建立通用語言與世界知識
Fine-tuning 微調	在特定資料上續訓，讓模型專精某領域/任務	上專業課
Instruction tuning 指令微調	用「指令→理想回答」範例教它聽懂並照做指令	學會「怎麼當助理」
RLHF（人類回饋強化學習）	人類對多個回答排序，訓 reward model 再用 RL 對齊	學會「人類偏好哪種回答」——更有用、更安全

RLHF 是讓原始預訓練模型（會接話但不一定有用/安全）變成好用助理的關鍵一步。近年也有 RLAIF（用 AI 回饋）、DPO 等變體。

4.3 Scaling laws 與 Emergent abilities

Scaling laws 縮放法則：實證發現模型表現會隨參數量、資料量、算力增加而可預測地變好（大致呈冪次關係）。這支撐了「把模型做更大」的策略。
Emergent abilities 湧現能力：某些能力（如多步推理、做沒見過的任務）在模型小的時候幾乎沒有，規模跨過某門檻後突然出現。是 LLM 令人意外之處（也有研究對「是否真湧現 vs 評測指標假象」有爭論——屬開放問題）。

4.4 把模型「接上世界」：RAG、工具、Agent、MCP

純 LLM 有兩個天生限制：知識停在訓練截止日、會一本正經地胡說（hallucination）。以下技術用來補強：

RAG（Retrieval-Augmented Generation 檢索增強生成）：回答前先去外部知識庫/文件檢索相關片段（常用 embedding 做語意搜尋），把找到的內容塞進 prompt 再讓模型回答。好處：內容更新即時、可附出處、減少幻覺。企業導入 AI 最常見的做法。
Function calling / Tool use 工具呼叫：讓模型「決定要呼叫哪個工具、傳什麼參數」（查天氣、算數、查資料庫、執行程式碼）。模型負責決策，實際動作交給工具。
Agents 代理：把「LLM + 工具 + 多步驟規劃 + 記憶」組合起來，讓模型自主拆解任務、反覆執行、自我修正直到完成目標（如自動寫程式、跑測試、修 bug 的 coding agent）。
MCP（Model Context Protocol）：Anthropic 提出並開源的開放標準，統一「AI 應用 ↔ 外部工具 / 資料源」的接法——像 AI 世界的 USB-C，讓工具一次接好、各家模型都能用，不用每個整合都重寫。

4.5 推理模型（Reasoning / Chain-of-Thought / Test-time compute）

Chain-of-Thought（CoT，思維鏈）：引導模型「一步步想」再給答案，對數學、邏輯、程式題顯著加分（最簡單的觸發甚至只是 prompt 加「Let’s think step by step」）。
Reasoning models 推理模型：直接把「先長時間思考再回答」訓進模型（如 OpenAI o 系列、後續各家推理版本）。核心觀念是 test-time compute（推論時算力）——回答時多花算力去想，而不只靠把模型做更大。權衡是較慢、較貴，但難題正確率更高。

4.6 多模態與擴散模型

多模態 multimodal：同一模型理解/生成跨型態內容——文字、影像、語音、影片。例如上傳一張圖請模型解讀、或語音對話。
Diffusion models 擴散模型（影像/影片生成主流）：訓練時學「如何把加了雜訊的圖一步步去噪還原」；生成時就從純雜訊開始反向去噪，逐步「長」出符合文字描述的圖。代表：Stable Diffusion、DALL·E、Midjourney，以及延伸到影片生成。

5. 應用領域

領域	怎麼用 AI	例子
寫程式（coding agents）	自動補全、解 bug、跨檔重構、整個 feature 自主完成	Claude Code、Codex、Copilot；本筆記庫自己就是 AI 協作維護的（見 §下方註）
醫療	影像判讀（X 光/病理/眼底）、風險預測、文獻整理、病歷草擬、衛教	輔助診斷、研究文獻彙整（仍須醫師把關，AI 不取代臨床判斷）
研究	文獻檢索與摘要、資料分析、假說發想、蛋白質結構預測（如 AlphaFold）	加速科學發現流程
教育	個人化家教、即時答疑、出題與批改、語言學習	因材施教、24h 可問
內容生成	文案、翻譯、配圖、配音、影片、簡報草稿	大幅降低製作門檻
自動化工作流	客服、資料整理、報表、Email 分類、流程串接（agent + 工具）	把重複性知識工作外包給 AI

📌 本筆記庫即活例：這個 Obsidian 內科醫學筆記庫採「半人工半 AI 並行」維護——使用者念書、AI agent 依規範新增/補強筆記並維護 wiki 知識圖譜。正是「AI 自動化知識工作流」的具體落地。

6. 限制與風險

風險	說明	因應
Hallucination 幻覺	模型會自信地編造不存在的事實、引用、數字（它是在「猜最像的下一個字」，不是查資料庫）	RAG 引外部來源、要求附出處、人工查核（醫學/法律等高風險領域務必驗證）
Bias 偏誤	訓練資料含人類偏見 → 輸出可能放大刻板印象或不公平	資料審查、評測、對齊
知識截止 / 時效	模型只知道訓練截止日前的事；之後的新事一律不知道	RAG、工具上網、註明 knowledge cutoff
Alignment 安全與對齊	讓模型行為符合人類意圖與價值、不被濫用、不產生有害輸出	RLHF、red-teaming、安全護欄、政策
隱私	敏感資料（病歷、個資）餵進外部模型有外洩風險	去識別化、本地/私有部署、合規（如個資法）、不上傳機密
成本 / 算力 / 能耗	訓練與推論吃大量 GPU、電力、金錢；大規模使用成本高	模型蒸餾/量化、選對規模的模型、快取

⚠️ 對醫療使用者尤其重要：AI 不是醫療建議來源，輸出（特別是 dosing、PMID、trial 數據）必須由專業人員逐項查證——這也是本筆記庫「絕不捏造、必標源」鐵則的由來。

7. 實用觀念

7.1 Prompt engineering 基礎

寫好 prompt（指令）能大幅提升輸出品質。幾條通則：

講清楚角色、任務、格式：「你是內科主治，請用條列、繁中、附 PMID 整理 X」。
給範例（few-shot）：示範一兩個理想輸出，模型會照樣學。
要它「一步步想」（CoT）：難題請它先推理再下結論。
提供脈絡 / 資料：把相關文件貼進去（或用 RAG），比叫它「憑記憶」可靠得多。
明確限制：字數、語氣、不要做什麼、不確定就說不確定（降低幻覺）。
迭代：把第一次結果當草稿，指出問題讓它修。

7.2 怎麼選模型

考量	偏向
要快、便宜、量大	小型/輕量模型
要難推理、品質高	大型 / 推理模型（較慢較貴）
要最新資訊	搭配 RAG / 上網工具，而非單靠模型內知識
要隱私 / 離線	開源模型自行/私有部署
要多模態（圖、語音）	選具該能力的多模態模型

沒有「最強模型」，只有「對這個任務最合適」的模型；多數實務是混搭（routing：簡單任務用小模型、難的才升級）。

7.3 什麼任務適合 / 不適合 AI

✅ 適合：草稿生成、摘要、翻譯、改寫、分類、腦力激盪、寫/解程式碼、把模糊需求結構化、整理大量文件。
⚠️ 要人把關：任何對與錯後果嚴重的事——醫療決策、法律、財務、引用事實與數字。AI 出草稿，人負責定稿。
❌ 不適合 / 別只靠 AI：需要保證 100% 正確的計算（用工具/程式）、需要即時權威事實（用檢索）、需要真正理解後果並負責的決定。

8. 延伸閱讀（同庫筆記）

程式工具系列：Codex 教學、 GitHub 系列、Python 系列
後續可建：[[02-AI大事件與新知]]（追蹤新模型/論文時間線；如已存在請連入）

📚 參考資料（權威來源）

以下為文中里程碑對應的原始論文／官方資料，皆為真實公開文獻。

Turing, A. M. Computing Machinery and Intelligence. Mind, 1950.
Rosenblatt, F. The Perceptron. Psychological Review, 1958.
Rumelhart, Hinton & Williams. Learning representations by back-propagating errors. Nature, 1986.
LeCun et al. Gradient-Based Learning Applied to Document Recognition (LeNet). Proc. IEEE, 1998.
Krizhevsky, Sutskever & Hinton. ImageNet Classification with Deep CNNs (AlexNet). NeurIPS, 2012.
Goodfellow et al. Generative Adversarial Networks (GAN). NeurIPS, 2014.
Silver et al. Mastering the game of Go… (AlphaGo). Nature, 2016；…without human knowledge (AlphaGo Zero). Nature, 2017.
Vaswani et al. Attention Is All You Need (Transformer). NeurIPS, 2017.
Devlin et al. BERT. NAACL, 2019；Radford et al. GPT（OpenAI 技術報告，2018–2020）。
Brown et al. Language Models are Few-Shot Learners (GPT-3). NeurIPS, 2020.
Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT / RLHF). 2022.
Wei et al. Chain-of-Thought Prompting…. NeurIPS, 2022；Wei et al. Emergent Abilities of Large Language Models. TMLR, 2022.
Ho et al. Denoising Diffusion Probabilistic Models (diffusion). NeurIPS, 2020.
Lewis et al. Retrieval-Augmented Generation (RAG). NeurIPS, 2020.
Jumper et al. Highly accurate protein structure prediction (AlphaFold 2). Nature, 2021.
MCP（Model Context Protocol）：Anthropic 官方文件與開放規格（2024 起公開）。
官方來源：OpenAI、Anthropic、Google DeepMind、Meta AI 各自模型發布頁與技術報告。

⚠️ 本篇為入門總覽，年份與論文為領域公認里程碑；個別模型的精確參數/發布細節以各官方頁為準。具體 PMID/DOI 若需引用學術用途，請至原始來源核對。

Andrew的筆記園地

探索

01 - AI 總覽：原理、歷史與應用

目錄

01 - AI 總覽：原理、歷史與應用

1. AI 是什麼

白話定義

層次圖（由大到小）

Narrow AI vs General AI

2. 原理基礎

2.1 機器學習三型

2.2 神經網路與深度學習（白話）

2.3 表示學習、Embedding、特徵

3. 歷史演進（時間線）

第一波：符號主義 / 規則與專家系統（約 1950s–1980s）

第二波：連結主義 / 類神經網路（萌芽很早，1980s 復甦）

第三波：統計式機器學習（約 1990s–2000s）

第四波：深度學習復興（2012 起）

第五波：Transformer 與大型語言模型（2017 起）

第六波：多模態、Agent 與推理模型（近年～2026）

4. 現代核心技術

4.1 Transformer 架構

4.2 預訓練 + 微調

4.3 Scaling laws 與 Emergent abilities

4.4 把模型「接上世界」：RAG、工具、Agent、MCP

4.5 推理模型（Reasoning / Chain-of-Thought / Test-time compute）

4.6 多模態與擴散模型

5. 應用領域

6. 限制與風險

7. 實用觀念

7.1 Prompt engineering 基礎

7.2 怎麼選模型

7.3 什麼任務適合 / 不適合 AI

8. 延伸閱讀（同庫筆記）

📚 參考資料（權威來源）

目錄

關係圖譜

反向連結