01 - AI 總覽:原理、歷史與應用
⚡ 資料更新至:2026 年初(整合 AI/ML 領域公認里程碑論文與官方資料) 📖 定位:由淺入深的一篇入門到進階總覽。完全新手可從頭讀;想懂現代技術可直接跳第 4 章。
1. AI 是什麼
白話定義
AI(Artificial Intelligence,人工智慧):讓電腦做「本來需要人類智慧才能做的事」——例如辨識影像、聽懂語言、下棋、寫文章、寫程式。
注意 AI 不是單一技術,而是一個大傘,底下層層包含更具體的方法:
層次圖(由大到小)
┌─────────────────────────────────────────────┐
│ AI 人工智慧(最廣:任何「像有智慧」的系統) │
│ ┌────────────────────────────────────────┐ │
│ │ ML 機器學習(從資料中「學」規則,不靠人寫死) │ │
│ │ ┌──────────────────────────────────┐ │ │
│ │ │ DL 深度學習(用多層神經網路 learn) │ │ │
│ │ │ ┌────────────────────────────┐ │ │ │
│ │ │ │ 生成式 AI / LLM │ │ │ │
│ │ │ │ (GPT、Claude、Gemini…) │ │ │ │
│ │ │ └────────────────────────────┘ │ │ │
│ │ └──────────────────────────────────┘ │ │
│ └────────────────────────────────────────┘ │
└─────────────────────────────────────────────┘
- AI ⊃ ML ⊃ DL ⊃ 生成式 AI / LLM。
- 早期的 AI(如下象棋的規則引擎、專家系統)不一定用 ML——它們是人類手寫規則。所以「AI」比「ML」更廣。
Narrow AI vs General AI
| 類別 | 說明 | 現況 |
|---|---|---|
| Narrow AI(弱 AI / 狹義 AI) | 只擅長特定任務(下圍棋、翻譯、辨識肺結節) | 目前所有實際落地的 AI 都屬此類 |
| AGI(Artificial General Intelligence,通用 AI) | 像人一樣能跨領域學習與推理 | 尚未實現;是研究目標與爭論焦點 |
| ASI(Superintelligence,超智慧) | 全面超越人類 | 純屬理論/未來推測 |
重點:今天的 ChatGPT / Claude 雖然很強、看起來「萬能」,技術上仍屬 narrow AI(雖然是「很廣的 narrow」)。是否、何時達到 AGI 仍無定論。
2. 原理基礎
2.1 機器學習三型
機器學習的核心精神:不寫死規則,而是給資料讓電腦自己找規律。依「給什麼資料、學什麼」分三大類:
| 類型 | 一句話 | 資料長相 | 例子 |
|---|---|---|---|
| Supervised learning 監督式 | 給「題目 + 正確答案」學對應關係 | 有標籤(X→y) | 看胸部 X 光(X)判斷有無肺炎(y);垃圾郵件分類 |
| Unsupervised learning 非監督式 | 只給資料、沒答案,讓它找結構 | 無標籤 | 把客戶自動分群(clustering);異常偵測 |
| Reinforcement learning 強化學習(RL) | 透過「試錯 + 獎勵」學最佳行動策略 | 環境回饋(reward) | AlphaGo 下圍棋;機器人走路;LLM 的 RLHF |
半監督(semi-supervised)與自監督(self-supervised)是混合型。自監督特別重要:現代 LLM 預訓練就是自監督——把「預測下一個字」當成自動產生的題目,不需人工標註,所以能吃下整個網際網路的文字。
2.2 神經網路與深度學習(白話)
Neural network 神經網路是模仿大腦神經元概念的數學模型:
- Neuron(神經元 / node):一個小單元,收進多個數字、各乘上一個權重(weight)、加總、再過一個非線性函數(activation,如 ReLU)輸出。
- Layer(層):很多神經元並排成一層;多層串起來。「深度學習」的「深」就是指層數很多。
- 權重 weights:模型真正「學到的東西」全藏在這些數字裡。一個現代大模型有數十億~上兆個權重(parameters)。
怎麼「學」?訓練的四步循環:
- Forward 前向傳播:資料進去,跑出一個預測。
- Loss 損失函數:比較「預測」與「正確答案」差多少,算出一個誤差數字(越小越好)。
- Back-propagation 反向傳播:用微積分(chain rule)反推「每個權重該往哪調、調多少」才能讓 loss 變小。
- Gradient descent 梯度下降:照算出的方向,把每個權重往「讓誤差下降最快」的方向挪一小步(步幅 = learning rate)。
重複幾百萬次 → loss 越來越小 → 模型越來越準。這就是「訓練」的本質:不斷微調權重去降低誤差。
類比:在大霧的山上要走到谷底(loss 最低點)。每一步用腳感受「哪邊比較斜」(gradient),就往下坡走一小步。走很多步後到達谷底。
2.3 表示學習、Embedding、特徵
- Feature 特徵:描述一筆資料的屬性。傳統 ML 要人工挑特徵(feature engineering,例如手動算「郵件裡有幾個驚嘆號」)。
- Representation learning 表示學習:深度學習的關鍵突破——讓模型自己學出有用的特徵,不用人手挑。底層學邊緣、中層學形狀、高層學「貓臉」。
- Embedding 嵌入:把離散的東西(一個字、一張圖、一個使用者)轉成一串數字向量(vector),讓語意相近的東西在向量空間中也靠得近。
- 經典直覺:
king − man + woman ≈ queen(向量運算竟對應語意關係)。 - Embedding 是現代 AI 的通用語言,也是 RAG(見 §4.4)做「語意搜尋」的基礎。
- 經典直覺:
3. 歷史演進(時間線)
以下年份與代表作皆為領域公認里程碑。
第一波:符號主義 / 規則與專家系統(約 1950s–1980s)
- 1950:Alan Turing 提出「Turing Test(圖靈測試)」——機器能否讓人分不出是不是人。
- 1956:Dartmouth 會議,“Artificial Intelligence” 一詞正式誕生(John McCarthy 等人)。
- 主流路線是 symbolic AI / 符號主義:用人手寫的邏輯規則與知識庫推理。
- Expert systems 專家系統(1970s–80s,如醫療診斷系統 MYCIN):
IF 症狀 THEN 診斷規則庫。 - 限制:規則寫不完、無法處理模糊與例外 → 進入「AI winter(AI 寒冬)」,資金與信心退潮。
第二波:連結主義 / 類神經網路(萌芽很早,1980s 復甦)
- 1958:Perceptron(感知器,Frank Rosenblatt)——最早的單層神經網路雛形。
- 1986:Back-propagation 被推廣(Rumelhart, Hinton, Williams 的論文使其廣為人知),讓多層網路可有效訓練——連結主義(connectionism)復興的關鍵。
- 1989/1998:CNN(卷積神經網路)用於辨識手寫數字,LeNet-5(Yann LeCun);但受限於算力與資料,尚未大爆發。
第三波:統計式機器學習(約 1990s–2000s)
- SVM(支援向量機)、random forest、boosting 等統計式方法當道,理論扎實、在中等資料上很強。
- 同期 IBM Deep Blue 於 1997 擊敗西洋棋世界冠軍 Kasparov(仍偏搜尋+規則,但象徵意義大)。
- 神經網路相對沉寂,被視為「調不動、算力吃不消」。
第四波:深度學習復興(2012 起)
- 2012 — AlexNet:Krizhevsky、Sutskever、Hinton 的深度 CNN 在 ImageNet 影像辨識競賽大勝(錯誤率斷崖式下降)。關鍵組合:大資料(ImageNet)+ GPU 算力 + 深層 CNN。被視為深度學習時代的引爆點。
- 之後幾年:影像(ResNet, 2015)、語音辨識、機器翻譯全面被深度學習刷新。
- 2014 — GAN(生成對抗網路,Goodfellow et al.):生成器 vs 鑑別器互相對抗,開啟「AI 生成逼真影像」的早期路線。
- 2016 — AlphaGo(DeepMind)擊敗圍棋頂尖棋士 Lee Sedol;2017 AlphaGo Zero 純自我對弈(RL)從零超越前代。展示 deep RL 威力。
第五波:Transformer 與大型語言模型(2017 起)
- 2017 — “Attention Is All You Need”(Vaswani et al., Google):提出 Transformer 架構,拋棄 RNN/迴圈,純靠 attention 並行處理序列。這是現代所有 LLM 的共同地基。
- 2018 — BERT(Google)/ GPT-1(OpenAI):開創「大規模預訓練 + 下游微調」範式。
- 2019–2020 — GPT-2 / GPT-3(OpenAI):模型規模暴增(GPT-3 達 175B 參數),展現驚人的 few-shot 能力——只給幾個例子就會做新任務,不用重訓。
- 2022 — ChatGPT(OpenAI):以 RLHF(人類回饋強化學習) 對齊出好用的對話介面,引爆全民 AI 浪潮。
- 2023 起 — 模型百花齊放:GPT-4、Anthropic 的 Claude、Google 的 Gemini、Meta 的開源 Llama 等;能力、context window、多模態快速擴張。
第六波:多模態、Agent 與推理模型(近年~2026)
- 多模態(multimodal):單一模型同時吃文字 / 影像 / 語音 / 影片(如 GPT-4o、Gemini、Claude 的視覺能力)。
- 影像生成擴散模型(diffusion):DALL·E、Stable Diffusion、Midjourney 等以文字生圖、生影片。
- Reasoning models 推理模型(如 OpenAI o 系列):訓練模型在回答前先「想」(test-time compute / chain-of-thought),顯著提升數學、程式、邏輯題表現。
- Agents 代理:LLM 不只聊天,還能呼叫工具、讀寫檔案、上網、多步驟自主完成任務(如各種 coding agents)。
- MCP(Model Context Protocol):標準化「模型 ↔ 外部工具/資料」的連接協定(見 §4.4)。
4. 現代核心技術
4.1 Transformer 架構
現代 LLM 幾乎都是 Transformer。三個一定要懂的概念:
- Tokens:模型不是逐「字」處理,而是切成 token(子詞片段;英文約 1 token ≈ 0.75 字,中文常 1 字 ≈ 1–2 tokens)。模型本質是預測下一個 token 的機率。
- Attention 注意力機制(白話):處理某個 token 時,模型會「環顧」句子裡所有其他 token,動態決定該多注意誰。例如「牠很累所以牠坐下」——模型靠 attention 把「牠」連回正確的主詞。能並行算全句、又能抓長距離關係,是 Transformer 強大的核心。
- Context window 上下文視窗:模型一次能「看進去」的 token 上限(記憶容量)。早期幾千 tokens,現代已達數十萬~百萬級。超出視窗的內容模型就「看不到」。
4.2 預訓練 + 微調
現代 LLM 的養成是多階段的:
| 階段 | 做什麼 | 直覺 |
|---|---|---|
| Pretraining 預訓練 | 在海量網路文字上自監督學「預測下一個 token」 | 大量閱讀,建立通用語言與世界知識 |
| Fine-tuning 微調 | 在特定資料上續訓,讓模型專精某領域/任務 | 上專業課 |
| Instruction tuning 指令微調 | 用「指令→理想回答」範例教它聽懂並照做指令 | 學會「怎麼當助理」 |
| RLHF(人類回饋強化學習) | 人類對多個回答排序,訓 reward model 再用 RL 對齊 | 學會「人類偏好哪種回答」——更有用、更安全 |
RLHF 是讓原始預訓練模型(會接話但不一定有用/安全)變成好用助理的關鍵一步。近年也有 RLAIF(用 AI 回饋)、DPO 等變體。
4.3 Scaling laws 與 Emergent abilities
- Scaling laws 縮放法則:實證發現模型表現會隨參數量、資料量、算力增加而可預測地變好(大致呈冪次關係)。這支撐了「把模型做更大」的策略。
- Emergent abilities 湧現能力:某些能力(如多步推理、做沒見過的任務)在模型小的時候幾乎沒有,規模跨過某門檻後突然出現。是 LLM 令人意外之處(也有研究對「是否真湧現 vs 評測指標假象」有爭論——屬開放問題)。
4.4 把模型「接上世界」:RAG、工具、Agent、MCP
純 LLM 有兩個天生限制:知識停在訓練截止日、會一本正經地胡說(hallucination)。以下技術用來補強:
- RAG(Retrieval-Augmented Generation 檢索增強生成):回答前先去外部知識庫/文件檢索相關片段(常用 embedding 做語意搜尋),把找到的內容塞進 prompt 再讓模型回答。好處:內容更新即時、可附出處、減少幻覺。企業導入 AI 最常見的做法。
- Function calling / Tool use 工具呼叫:讓模型「決定要呼叫哪個工具、傳什麼參數」(查天氣、算數、查資料庫、執行程式碼)。模型負責決策,實際動作交給工具。
- Agents 代理:把「LLM + 工具 + 多步驟規劃 + 記憶」組合起來,讓模型自主拆解任務、反覆執行、自我修正直到完成目標(如自動寫程式、跑測試、修 bug 的 coding agent)。
- MCP(Model Context Protocol):Anthropic 提出並開源的開放標準,統一「AI 應用 ↔ 外部工具 / 資料源」的接法——像 AI 世界的 USB-C,讓工具一次接好、各家模型都能用,不用每個整合都重寫。
4.5 推理模型(Reasoning / Chain-of-Thought / Test-time compute)
- Chain-of-Thought(CoT,思維鏈):引導模型「一步步想」再給答案,對數學、邏輯、程式題顯著加分(最簡單的觸發甚至只是 prompt 加「Let’s think step by step」)。
- Reasoning models 推理模型:直接把「先長時間思考再回答」訓進模型(如 OpenAI o 系列、後續各家推理版本)。核心觀念是 test-time compute(推論時算力)——回答時多花算力去想,而不只靠把模型做更大。權衡是較慢、較貴,但難題正確率更高。
4.6 多模態與擴散模型
- 多模態 multimodal:同一模型理解/生成跨型態內容——文字、影像、語音、影片。例如上傳一張圖請模型解讀、或語音對話。
- Diffusion models 擴散模型(影像/影片生成主流):訓練時學「如何把加了雜訊的圖一步步去噪還原」;生成時就從純雜訊開始反向去噪,逐步「長」出符合文字描述的圖。代表:Stable Diffusion、DALL·E、Midjourney,以及延伸到影片生成。
5. 應用領域
| 領域 | 怎麼用 AI | 例子 |
|---|---|---|
| 寫程式(coding agents) | 自動補全、解 bug、跨檔重構、整個 feature 自主完成 | Claude Code、Codex、Copilot;本筆記庫自己就是 AI 協作維護的(見 §下方註) |
| 醫療 | 影像判讀(X 光/病理/眼底)、風險預測、文獻整理、病歷草擬、衛教 | 輔助診斷、研究文獻彙整(仍須醫師把關,AI 不取代臨床判斷) |
| 研究 | 文獻檢索與摘要、資料分析、假說發想、蛋白質結構預測(如 AlphaFold) | 加速科學發現流程 |
| 教育 | 個人化家教、即時答疑、出題與批改、語言學習 | 因材施教、24h 可問 |
| 內容生成 | 文案、翻譯、配圖、配音、影片、簡報草稿 | 大幅降低製作門檻 |
| 自動化工作流 | 客服、資料整理、報表、Email 分類、流程串接(agent + 工具) | 把重複性知識工作外包給 AI |
📌 本筆記庫即活例:這個 Obsidian 內科醫學筆記庫採「半人工半 AI 並行」維護——使用者念書、AI agent 依規範新增/補強筆記並維護 wiki 知識圖譜。正是「AI 自動化知識工作流」的具體落地。
6. 限制與風險
| 風險 | 說明 | 因應 |
|---|---|---|
| Hallucination 幻覺 | 模型會自信地編造不存在的事實、引用、數字(它是在「猜最像的下一個字」,不是查資料庫) | RAG 引外部來源、要求附出處、人工查核(醫學/法律等高風險領域務必驗證) |
| Bias 偏誤 | 訓練資料含人類偏見 → 輸出可能放大刻板印象或不公平 | 資料審查、評測、對齊 |
| 知識截止 / 時效 | 模型只知道訓練截止日前的事;之後的新事一律不知道 | RAG、工具上網、註明 knowledge cutoff |
| Alignment 安全與對齊 | 讓模型行為符合人類意圖與價值、不被濫用、不產生有害輸出 | RLHF、red-teaming、安全護欄、政策 |
| 隱私 | 敏感資料(病歷、個資)餵進外部模型有外洩風險 | 去識別化、本地/私有部署、合規(如個資法)、不上傳機密 |
| 成本 / 算力 / 能耗 | 訓練與推論吃大量 GPU、電力、金錢;大規模使用成本高 | 模型蒸餾/量化、選對規模的模型、快取 |
⚠️ 對醫療使用者尤其重要:AI 不是醫療建議來源,輸出(特別是 dosing、PMID、trial 數據)必須由專業人員逐項查證——這也是本筆記庫「絕不捏造、必標源」鐵則的由來。
7. 實用觀念
7.1 Prompt engineering 基礎
寫好 prompt(指令)能大幅提升輸出品質。幾條通則:
- 講清楚角色、任務、格式:「你是內科主治,請用條列、繁中、附 PMID 整理 X」。
- 給範例(few-shot):示範一兩個理想輸出,模型會照樣學。
- 要它「一步步想」(CoT):難題請它先推理再下結論。
- 提供脈絡 / 資料:把相關文件貼進去(或用 RAG),比叫它「憑記憶」可靠得多。
- 明確限制:字數、語氣、不要做什麼、不確定就說不確定(降低幻覺)。
- 迭代:把第一次結果當草稿,指出問題讓它修。
7.2 怎麼選模型
| 考量 | 偏向 |
|---|---|
| 要快、便宜、量大 | 小型/輕量模型 |
| 要難推理、品質高 | 大型 / 推理模型(較慢較貴) |
| 要最新資訊 | 搭配 RAG / 上網工具,而非單靠模型內知識 |
| 要隱私 / 離線 | 開源模型自行/私有部署 |
| 要多模態(圖、語音) | 選具該能力的多模態模型 |
沒有「最強模型」,只有「對這個任務最合適」的模型;多數實務是混搭(routing:簡單任務用小模型、難的才升級)。
7.3 什麼任務適合 / 不適合 AI
- ✅ 適合:草稿生成、摘要、翻譯、改寫、分類、腦力激盪、寫/解程式碼、把模糊需求結構化、整理大量文件。
- ⚠️ 要人把關:任何對與錯後果嚴重的事——醫療決策、法律、財務、引用事實與數字。AI 出草稿,人負責定稿。
- ❌ 不適合 / 別只靠 AI:需要保證 100% 正確的計算(用工具/程式)、需要即時權威事實(用檢索)、需要真正理解後果並負責的決定。
8. 延伸閱讀(同庫筆記)
📚 參考資料(權威來源)
以下為文中里程碑對應的原始論文/官方資料,皆為真實公開文獻。
- Turing, A. M. Computing Machinery and Intelligence. Mind, 1950.
- Rosenblatt, F. The Perceptron. Psychological Review, 1958.
- Rumelhart, Hinton & Williams. Learning representations by back-propagating errors. Nature, 1986.
- LeCun et al. Gradient-Based Learning Applied to Document Recognition (LeNet). Proc. IEEE, 1998.
- Krizhevsky, Sutskever & Hinton. ImageNet Classification with Deep CNNs (AlexNet). NeurIPS, 2012.
- Goodfellow et al. Generative Adversarial Networks (GAN). NeurIPS, 2014.
- Silver et al. Mastering the game of Go… (AlphaGo). Nature, 2016;…without human knowledge (AlphaGo Zero). Nature, 2017.
- Vaswani et al. Attention Is All You Need (Transformer). NeurIPS, 2017.
- Devlin et al. BERT. NAACL, 2019;Radford et al. GPT(OpenAI 技術報告,2018–2020)。
- Brown et al. Language Models are Few-Shot Learners (GPT-3). NeurIPS, 2020.
- Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT / RLHF). 2022.
- Wei et al. Chain-of-Thought Prompting…. NeurIPS, 2022;Wei et al. Emergent Abilities of Large Language Models. TMLR, 2022.
- Ho et al. Denoising Diffusion Probabilistic Models (diffusion). NeurIPS, 2020.
- Lewis et al. Retrieval-Augmented Generation (RAG). NeurIPS, 2020.
- Jumper et al. Highly accurate protein structure prediction (AlphaFold 2). Nature, 2021.
- MCP(Model Context Protocol):Anthropic 官方文件與開放規格(2024 起公開)。
- 官方來源:OpenAI、Anthropic、Google DeepMind、Meta AI 各自模型發布頁與技術報告。
⚠️ 本篇為入門總覽,年份與論文為領域公認里程碑;個別模型的精確參數/發布細節以各官方頁為準。具體 PMID/DOI 若需引用學術用途,請至原始來源核對。