---
title: "01 - AI 總覽：原理、歷史與應用"
type: note
specialty: Programming
tags: [ai, machine-learning, deep-learning, llm, transformer, 總覽]
created: 2026-06-24
updated: "2026"
---

# 01 - AI 總覽：原理、歷史與應用

> ⚡ 資料更新至：2026 年初（整合 AI/ML 領域公認里程碑論文與官方資料）
> 📖 定位：由淺入深的一篇入門到進階總覽。完全新手可從頭讀；想懂現代技術可直接跳第 4 章。

---

## 1. AI 是什麼

### 白話定義

**AI（Artificial Intelligence，人工智慧）**：讓電腦做「本來需要人類智慧才能做的事」——例如辨識影像、聽懂語言、下棋、寫文章、寫程式。

注意 AI 不是單一技術，而是一個**大傘**，底下層層包含更具體的方法：

### 層次圖（由大到小）

```
┌─────────────────────────────────────────────┐
│ AI 人工智慧（最廣：任何「像有智慧」的系統）        │
│  ┌────────────────────────────────────────┐  │
│  │ ML 機器學習（從資料中「學」規則，不靠人寫死）  │  │
│  │  ┌──────────────────────────────────┐  │  │
│  │  │ DL 深度學習（用多層神經網路 learn）    │  │  │
│  │  │  ┌────────────────────────────┐  │  │  │
│  │  │  │ 生成式 AI / LLM             │  │  │  │
│  │  │  │ (GPT、Claude、Gemini…)      │  │  │  │
│  │  │  └────────────────────────────┘  │  │  │
│  │  └──────────────────────────────────┘  │  │
│  └────────────────────────────────────────┘  │
└─────────────────────────────────────────────┘
```

- **AI ⊃ ML ⊃ DL ⊃ 生成式 AI / LLM**。
- 早期的 AI（如下象棋的規則引擎、專家系統）**不一定**用 ML——它們是人類手寫規則。所以「AI」比「ML」更廣。

### Narrow AI vs General AI

| 類別 | 說明 | 現況 |
|------|------|------|
| **Narrow AI（弱 AI / 狹義 AI）** | 只擅長**特定任務**（下圍棋、翻譯、辨識肺結節） | 目前所有實際落地的 AI 都屬此類 |
| **AGI（Artificial General Intelligence，通用 AI）** | 像人一樣能**跨領域**學習與推理 | 尚未實現；是研究目標與爭論焦點 |
| **ASI（Superintelligence，超智慧）** | 全面超越人類 | 純屬理論／未來推測 |

> 重點：今天的 ChatGPT / Claude 雖然很強、看起來「萬能」，技術上仍屬 **narrow AI**（雖然是「很廣的 narrow」）。是否、何時達到 AGI 仍無定論。

---

## 2. 原理基礎

### 2.1 機器學習三型

機器學習的核心精神：**不寫死規則，而是給資料讓電腦自己找規律**。依「給什麼資料、學什麼」分三大類：

| 類型 | 一句話 | 資料長相 | 例子 |
|------|--------|----------|------|
| **Supervised learning 監督式** | 給「題目 + 正確答案」學對應關係 | 有標籤（X→y） | 看胸部 X 光（X）判斷有無肺炎（y）；垃圾郵件分類 |
| **Unsupervised learning 非監督式** | 只給資料、沒答案，讓它找結構 | 無標籤 | 把客戶自動分群（clustering）；異常偵測 |
| **Reinforcement learning 強化學習（RL）** | 透過「試錯 + 獎勵」學最佳行動策略 | 環境回饋（reward） | AlphaGo 下圍棋；機器人走路；LLM 的 RLHF |

> 半監督（semi-supervised）與自監督（self-supervised）是混合型。**自監督**特別重要：現代 LLM 預訓練就是自監督——把「預測下一個字」當成自動產生的題目，不需人工標註，所以能吃下整個網際網路的文字。

### 2.2 神經網路與深度學習（白話）

**Neural network 神經網路**是模仿大腦神經元概念的數學模型：

- **Neuron（神經元 / node）**：一個小單元，收進多個數字、各乘上一個**權重（weight）**、加總、再過一個非線性函數（activation，如 ReLU）輸出。
- **Layer（層）**：很多神經元並排成一層；多層串起來。「**深度**學習」的「深」就是指**層數很多**。
- **權重 weights**：模型真正「學到的東西」全藏在這些數字裡。一個現代大模型有數十億～上兆個權重（parameters）。

**怎麼「學」？訓練的四步循環：**

1. **Forward 前向傳播**：資料進去，跑出一個預測。
2. **Loss 損失函數**：比較「預測」與「正確答案」差多少，算出一個誤差數字（越小越好）。
3. **Back-propagation 反向傳播**：用微積分（chain rule）反推「每個權重該往哪調、調多少」才能讓 loss 變小。
4. **Gradient descent 梯度下降**：照算出的方向，把每個權重往「讓誤差下降最快」的方向挪一小步（步幅 = learning rate）。

重複幾百萬次 → loss 越來越小 → 模型越來越準。**這就是「訓練」的本質：不斷微調權重去降低誤差。**

> 類比：在大霧的山上要走到谷底（loss 最低點）。每一步用腳感受「哪邊比較斜」（gradient），就往下坡走一小步。走很多步後到達谷底。

### 2.3 表示學習、Embedding、特徵

- **Feature 特徵**：描述一筆資料的屬性。傳統 ML 要**人工挑特徵**（feature engineering，例如手動算「郵件裡有幾個驚嘆號」）。
- **Representation learning 表示學習**：深度學習的關鍵突破——**讓模型自己學出有用的特徵**，不用人手挑。底層學邊緣、中層學形狀、高層學「貓臉」。
- **Embedding 嵌入**：把離散的東西（一個字、一張圖、一個使用者）轉成一串數字向量（vector），讓**語意相近的東西在向量空間中也靠得近**。
  - 經典直覺：`king − man + woman ≈ queen`（向量運算竟對應語意關係）。
  - Embedding 是現代 AI 的通用語言，也是 RAG（見 §4.4）做「語意搜尋」的基礎。

---

## 3. 歷史演進（時間線）

> 以下年份與代表作皆為領域公認里程碑。

### 第一波：符號主義 / 規則與專家系統（約 1950s–1980s）

- **1950**：Alan Turing 提出「Turing Test（圖靈測試）」——機器能否讓人分不出是不是人。
- **1956**：Dartmouth 會議，"Artificial Intelligence" 一詞正式誕生（John McCarthy 等人）。
- 主流路線是 **symbolic AI / 符號主義**：用人手寫的邏輯規則與知識庫推理。
- **Expert systems 專家系統**（1970s–80s，如醫療診斷系統 MYCIN）：`IF 症狀 THEN 診斷` 規則庫。
- **限制**：規則寫不完、無法處理模糊與例外 → 進入「**AI winter**（AI 寒冬）」，資金與信心退潮。

### 第二波：連結主義 / 類神經網路（萌芽很早，1980s 復甦）

- **1958**：Perceptron（感知器，Frank Rosenblatt）——最早的單層神經網路雛形。
- **1986**：Back-propagation 被推廣（Rumelhart, Hinton, Williams 的論文使其廣為人知），讓**多層**網路可有效訓練——連結主義（connectionism）復興的關鍵。
- **1989/1998**：CNN（卷積神經網路）用於辨識手寫數字，**LeNet-5**（Yann LeCun）；但受限於算力與資料，尚未大爆發。

### 第三波：統計式機器學習（約 1990s–2000s）

- SVM（支援向量機）、random forest、boosting 等統計式方法當道，理論扎實、在中等資料上很強。
- 同期 **IBM Deep Blue 於 1997 擊敗西洋棋世界冠軍 Kasparov**（仍偏搜尋+規則，但象徵意義大）。
- 神經網路相對沉寂，被視為「調不動、算力吃不消」。

### 第四波：深度學習復興（2012 起）

- **2012 — AlexNet**：Krizhevsky、Sutskever、Hinton 的深度 CNN 在 **ImageNet** 影像辨識競賽大勝（錯誤率斷崖式下降）。關鍵組合：**大資料（ImageNet）+ GPU 算力 + 深層 CNN**。被視為深度學習時代的引爆點。
- 之後幾年：影像（ResNet, 2015）、語音辨識、機器翻譯全面被深度學習刷新。
- **2014 — GAN（生成對抗網路，Goodfellow et al.）**：生成器 vs 鑑別器互相對抗，開啟「AI 生成逼真影像」的早期路線。
- **2016 — AlphaGo**（DeepMind）擊敗圍棋頂尖棋士 Lee Sedol；2017 **AlphaGo Zero** 純自我對弈（RL）從零超越前代。展示 **deep RL** 威力。

### 第五波：Transformer 與大型語言模型（2017 起）

- **2017 — "Attention Is All You Need"（Vaswani et al., Google）**：提出 **Transformer** 架構，拋棄 RNN/迴圈，純靠 **attention** 並行處理序列。**這是現代所有 LLM 的共同地基。**
- **2018 — BERT（Google）/ GPT-1（OpenAI）**：開創「大規模**預訓練** + 下游**微調**」範式。
- **2019–2020 — GPT-2 / GPT-3（OpenAI）**：模型規模暴增（GPT-3 達 175B 參數），展現驚人的 few-shot 能力——**只給幾個例子就會做新任務**，不用重訓。
- **2022 — ChatGPT（OpenAI）**：以 **RLHF（人類回饋強化學習）** 對齊出好用的對話介面，引爆全民 AI 浪潮。
- **2023 起 — 模型百花齊放**：GPT-4、Anthropic 的 **Claude**、Google 的 **Gemini**、Meta 的開源 **Llama** 等；能力、context window、多模態快速擴張。

### 第六波：多模態、Agent 與推理模型（近年～2026）

- **多模態（multimodal）**：單一模型同時吃文字 / 影像 / 語音 / 影片（如 GPT-4o、Gemini、Claude 的視覺能力）。
- **影像生成擴散模型（diffusion）**：DALL·E、Stable Diffusion、Midjourney 等以文字生圖、生影片。
- **Reasoning models 推理模型**（如 OpenAI o 系列）：訓練模型在回答前**先「想」**（test-time compute / chain-of-thought），顯著提升數學、程式、邏輯題表現。
- **Agents 代理**：LLM 不只聊天，還能**呼叫工具、讀寫檔案、上網、多步驟自主完成任務**（如各種 coding agents）。
- **MCP（Model Context Protocol）**：標準化「模型 ↔ 外部工具/資料」的連接協定（見 §4.4）。

---

## 4. 現代核心技術

### 4.1 Transformer 架構

現代 LLM 幾乎都是 Transformer。三個一定要懂的概念：

- **Tokens**：模型不是逐「字」處理，而是切成 **token**（子詞片段；英文約 1 token ≈ 0.75 字，中文常 1 字 ≈ 1–2 tokens）。模型本質是**預測下一個 token 的機率**。
- **Attention 注意力機制（白話）**：處理某個 token 時，模型會「環顧」句子裡所有其他 token，**動態決定該多注意誰**。例如「牠很累所以**牠**坐下」——模型靠 attention 把「牠」連回正確的主詞。能並行算全句、又能抓長距離關係，是 Transformer 強大的核心。
- **Context window 上下文視窗**：模型一次能「看進去」的 token 上限（記憶容量）。早期幾千 tokens，現代已達數十萬～百萬級。超出視窗的內容模型就「看不到」。

### 4.2 預訓練 + 微調

現代 LLM 的養成是**多階段**的：

| 階段 | 做什麼 | 直覺 |
|------|--------|------|
| **Pretraining 預訓練** | 在海量網路文字上自監督學「預測下一個 token」 | 大量閱讀，建立通用語言與世界知識 |
| **Fine-tuning 微調** | 在特定資料上續訓，讓模型專精某領域/任務 | 上專業課 |
| **Instruction tuning 指令微調** | 用「指令→理想回答」範例教它**聽懂並照做指令** | 學會「怎麼當助理」 |
| **RLHF（人類回饋強化學習）** | 人類對多個回答排序，訓 reward model 再用 RL 對齊 | 學會「人類偏好哪種回答」——更有用、更安全 |

> RLHF 是讓原始預訓練模型（會接話但不一定有用/安全）變成好用助理的關鍵一步。近年也有 RLAIF（用 AI 回饋）、DPO 等變體。

### 4.3 Scaling laws 與 Emergent abilities

- **Scaling laws 縮放法則**：實證發現模型表現會隨**參數量、資料量、算力**增加而**可預測地**變好（大致呈冪次關係）。這支撐了「把模型做更大」的策略。
- **Emergent abilities 湧現能力**：某些能力（如多步推理、做沒見過的任務）在模型小的時候幾乎沒有，**規模跨過某門檻後突然出現**。是 LLM 令人意外之處（也有研究對「是否真湧現 vs 評測指標假象」有爭論——屬開放問題）。

### 4.4 把模型「接上世界」：RAG、工具、Agent、MCP

純 LLM 有兩個天生限制：**知識停在訓練截止日**、**會一本正經地胡說（hallucination）**。以下技術用來補強：

- **RAG（Retrieval-Augmented Generation 檢索增強生成）**：回答前先去**外部知識庫/文件檢索**相關片段（常用 embedding 做語意搜尋），把找到的內容塞進 prompt 再讓模型回答。好處：**內容更新即時、可附出處、減少幻覺**。企業導入 AI 最常見的做法。
- **Function calling / Tool use 工具呼叫**：讓模型「決定要呼叫哪個工具、傳什麼參數」（查天氣、算數、查資料庫、執行程式碼）。模型負責決策，實際動作交給工具。
- **Agents 代理**：把「LLM + 工具 + 多步驟規劃 + 記憶」組合起來，讓模型**自主拆解任務、反覆執行、自我修正**直到完成目標（如自動寫程式、跑測試、修 bug 的 coding agent）。
- **MCP（Model Context Protocol）**：Anthropic 提出並開源的**開放標準**，統一「AI 應用 ↔ 外部工具 / 資料源」的接法——像 AI 世界的 USB-C，讓工具一次接好、各家模型都能用，不用每個整合都重寫。

### 4.5 推理模型（Reasoning / Chain-of-Thought / Test-time compute）

- **Chain-of-Thought（CoT，思維鏈）**：引導模型「**一步步想**」再給答案，對數學、邏輯、程式題顯著加分（最簡單的觸發甚至只是 prompt 加「Let's think step by step」）。
- **Reasoning models 推理模型**：直接把「先長時間思考再回答」訓進模型（如 OpenAI o 系列、後續各家推理版本）。核心觀念是 **test-time compute（推論時算力）**——**回答時多花算力去想**，而不只靠把模型做更大。權衡是較慢、較貴，但難題正確率更高。

### 4.6 多模態與擴散模型

- **多模態 multimodal**：同一模型理解/生成跨型態內容——文字、影像、語音、影片。例如上傳一張圖請模型解讀、或語音對話。
- **Diffusion models 擴散模型**（影像/影片生成主流）：訓練時學「**如何把加了雜訊的圖一步步去噪還原**」；生成時就**從純雜訊開始反向去噪**，逐步「長」出符合文字描述的圖。代表：Stable Diffusion、DALL·E、Midjourney，以及延伸到影片生成。

---

## 5. 應用領域

| 領域 | 怎麼用 AI | 例子 |
|------|-----------|------|
| **寫程式（coding agents）** | 自動補全、解 bug、跨檔重構、整個 feature 自主完成 | Claude Code、Codex、Copilot；**本筆記庫自己就是 AI 協作維護的**（見 §下方註） |
| **醫療** | 影像判讀（X 光/病理/眼底）、風險預測、文獻整理、病歷草擬、衛教 | 輔助診斷、研究文獻彙整（仍須醫師把關，AI 不取代臨床判斷） |
| **研究** | 文獻檢索與摘要、資料分析、假說發想、蛋白質結構預測（如 AlphaFold） | 加速科學發現流程 |
| **教育** | 個人化家教、即時答疑、出題與批改、語言學習 | 因材施教、24h 可問 |
| **內容生成** | 文案、翻譯、配圖、配音、影片、簡報草稿 | 大幅降低製作門檻 |
| **自動化工作流** | 客服、資料整理、報表、Email 分類、流程串接（agent + 工具） | 把重複性知識工作外包給 AI |

> 📌 **本筆記庫即活例**：這個 Obsidian 內科醫學筆記庫採「**半人工半 AI 並行**」維護——使用者念書、AI agent 依規範新增/補強筆記並維護 wiki 知識圖譜。正是「AI 自動化知識工作流」的具體落地。

---

## 6. 限制與風險

| 風險 | 說明 | 因應 |
|------|------|------|
| **Hallucination 幻覺** | 模型會**自信地編造**不存在的事實、引用、數字（它是在「猜最像的下一個字」，不是查資料庫） | RAG 引外部來源、要求附出處、人工查核（**醫學/法律等高風險領域務必驗證**） |
| **Bias 偏誤** | 訓練資料含人類偏見 → 輸出可能放大刻板印象或不公平 | 資料審查、評測、對齊 |
| **知識截止 / 時效** | 模型只知道訓練截止日前的事；之後的新事一律不知道 | RAG、工具上網、註明 knowledge cutoff |
| **Alignment 安全與對齊** | 讓模型行為符合人類意圖與價值、不被濫用、不產生有害輸出 | RLHF、red-teaming、安全護欄、政策 |
| **隱私** | 敏感資料（病歷、個資）餵進外部模型有外洩風險 | 去識別化、本地/私有部署、合規（如個資法）、不上傳機密 |
| **成本 / 算力 / 能耗** | 訓練與推論吃大量 GPU、電力、金錢；大規模使用成本高 | 模型蒸餾/量化、選對規模的模型、快取 |

> ⚠️ 對醫療使用者尤其重要：**AI 不是醫療建議來源，輸出（特別是 dosing、PMID、trial 數據）必須由專業人員逐項查證**——這也是本筆記庫「絕不捏造、必標源」鐵則的由來。

---

## 7. 實用觀念

### 7.1 Prompt engineering 基礎

寫好 prompt（指令）能大幅提升輸出品質。幾條通則：

- **講清楚角色、任務、格式**：「你是內科主治，請用條列、繁中、附 PMID 整理 X」。
- **給範例（few-shot）**：示範一兩個理想輸出，模型會照樣學。
- **要它「一步步想」（CoT）**：難題請它先推理再下結論。
- **提供脈絡 / 資料**：把相關文件貼進去（或用 RAG），比叫它「憑記憶」可靠得多。
- **明確限制**：字數、語氣、不要做什麼、不確定就說不確定（降低幻覺）。
- **迭代**：把第一次結果當草稿，指出問題讓它修。

### 7.2 怎麼選模型

| 考量 | 偏向 |
|------|------|
| 要**快、便宜、量大** | 小型/輕量模型 |
| 要**難推理、品質高** | 大型 / 推理模型（較慢較貴） |
| 要**最新資訊** | 搭配 RAG / 上網工具，而非單靠模型內知識 |
| 要**隱私 / 離線** | 開源模型自行/私有部署 |
| 要**多模態**（圖、語音） | 選具該能力的多模態模型 |

> 沒有「最強模型」，只有「對這個任務最合適」的模型；多數實務是**混搭**（routing：簡單任務用小模型、難的才升級）。

### 7.3 什麼任務適合 / 不適合 AI

- ✅ **適合**：草稿生成、摘要、翻譯、改寫、分類、腦力激盪、寫/解程式碼、把模糊需求結構化、整理大量文件。
- ⚠️ **要人把關**：任何**對與錯後果嚴重**的事——醫療決策、法律、財務、引用事實與數字。**AI 出草稿，人負責定稿。**
- ❌ **不適合 / 別只靠 AI**：需要**保證 100% 正確**的計算（用工具/程式）、需要**即時權威事實**（用檢索）、需要**真正理解後果並負責**的決定。

---

## 8. 延伸閱讀（同庫筆記）

- 程式工具系列：[[Programming/Codex/Codex從0開始使用教學/00-Index|Codex 教學]]、[[Programming/Git-GitHub/00-Index|Git / GitHub 系列]]、[[Programming/Python/00-Index|Python 系列]]
- 後續可建：`[[02-AI大事件與新知]]`（追蹤新模型/論文時間線；如已存在請連入）

---

## 📚 參考資料（權威來源）

> 以下為文中里程碑對應的原始論文／官方資料，皆為真實公開文獻。

- Turing, A. M. *Computing Machinery and Intelligence.* Mind, 1950.
- Rosenblatt, F. *The Perceptron.* Psychological Review, 1958.
- Rumelhart, Hinton & Williams. *Learning representations by back-propagating errors.* Nature, 1986.
- LeCun et al. *Gradient-Based Learning Applied to Document Recognition* (LeNet). Proc. IEEE, 1998.
- Krizhevsky, Sutskever & Hinton. *ImageNet Classification with Deep CNNs* (**AlexNet**). NeurIPS, 2012.
- Goodfellow et al. *Generative Adversarial Networks* (**GAN**). NeurIPS, 2014.
- Silver et al. *Mastering the game of Go…* (**AlphaGo**). Nature, 2016；*…without human knowledge* (AlphaGo Zero). Nature, 2017.
- Vaswani et al. *Attention Is All You Need* (**Transformer**). NeurIPS, 2017.
- Devlin et al. *BERT.* NAACL, 2019；Radford et al. *GPT*（OpenAI 技術報告，2018–2020）。
- Brown et al. *Language Models are Few-Shot Learners* (**GPT-3**). NeurIPS, 2020.
- Ouyang et al. *Training language models to follow instructions with human feedback* (**InstructGPT / RLHF**). 2022.
- Wei et al. *Chain-of-Thought Prompting…*. NeurIPS, 2022；Wei et al. *Emergent Abilities of Large Language Models.* TMLR, 2022.
- Ho et al. *Denoising Diffusion Probabilistic Models* (**diffusion**). NeurIPS, 2020.
- Lewis et al. *Retrieval-Augmented Generation* (**RAG**). NeurIPS, 2020.
- Jumper et al. *Highly accurate protein structure prediction* (**AlphaFold 2**). Nature, 2021.
- **MCP（Model Context Protocol）**：Anthropic 官方文件與開放規格（2024 起公開）。
- 官方來源：OpenAI、Anthropic、Google DeepMind、Meta AI 各自模型發布頁與技術報告。

> ⚠️ 本篇為入門總覽，年份與論文為領域公認里程碑；個別模型的精確參數/發布細節以各官方頁為準。具體 PMID/DOI 若需引用學術用途，請至原始來源核對。
