<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>530 - 大型語言模型 (LLM) on 嗡嗡的隨手筆記</title>
        <link>https://wongwongnotes.com/posts/ai/large-language-models/</link>
        <description>Recent content in 530 - 大型語言模型 (LLM) on 嗡嗡的隨手筆記</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <copyright>嗡嗡</copyright>
        <lastBuildDate>Wed, 22 Apr 2026 14:00:00 +0800</lastBuildDate><atom:link href="https://wongwongnotes.com/posts/ai/large-language-models/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>【LLM #2】LLM 跟 Encoder / Decoder 的關係 — 為什麼主流 LLM 都是 decoder-only？</title>
        <link>https://wongwongnotes.com/posts/ai/large-language-models/llm-encoder-decoder/</link>
        <pubDate>Wed, 22 Apr 2026 14:00:00 +0800</pubDate>
        
        <guid>https://wongwongnotes.com/posts/ai/large-language-models/llm-encoder-decoder/</guid>
        <description>&lt;h2 id=&#34;前言&#34;&gt;前言&lt;/h2&gt;
&lt;p&gt;寫完上一篇 &lt;a class=&#34;link&#34; href=&#34;https://wongwongnotes.com/posts/ai/large-language-models/llm-introduction/&#34; &gt;【LLM #1】什麼是 LLM&lt;/a&gt; 後，&lt;br&gt;
我腦中其實冒出一個蠢問題：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;欸，Transformer 原本不是有 encoder 跟 decoder 嗎？&lt;br&gt;
&lt;mark&gt;那現在 LLM 都去哪了？為什麼大家講 GPT 都說它是「decoder-only」？&lt;/mark&gt;&lt;br&gt;
那 encoder 是不是失業了？ 🫠&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;查了一下發現這題其實滿多人搞不清楚的，&lt;br&gt;
於是就順手整理成筆記給自己 XD。&lt;br&gt;
（我還是菜，如果有地方寫錯歡迎糾正！）&lt;/p&gt;
&lt;h2 id=&#34;transformer-的原始長相2017-版&#34;&gt;Transformer 的原始長相（2017 版）&lt;/h2&gt;
&lt;p&gt;先來個老派的回憶。2017 年那篇著名的「Attention is All You Need」，&lt;br&gt;
原始 Transformer 架構其實&lt;strong&gt;不是為了 chatbot 設計的&lt;/strong&gt;，它是為了&lt;strong&gt;機器翻譯&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;所以它天然長成這樣：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;[輸入句子]  →  Encoder  →  (壓縮後的語意表示)  →  Decoder  →  [輸出句子]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;「I love cats」  →  Encoder  →  [...向量...]  →  Decoder  →  「我愛貓」
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Encoder&lt;/strong&gt;：把輸入句吃進去、理解它、壓成一堆向量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Decoder&lt;/strong&gt;：參考 encoder 給的向量，一個字一個字生出來&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;用白話比喻：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Encoder 像是「閱讀理解」的人：&lt;strong&gt;讀完整段，抓到意思&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Decoder 像是「寫作」的人：&lt;strong&gt;參考理解好的結果，一邊寫一邊看自己已經寫了什麼&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;encoder-跟-decoder-的關鍵差異&#34;&gt;Encoder 跟 Decoder 的關鍵差異&lt;/h2&gt;
&lt;p&gt;兩邊都用 attention 機制，但注意力的「看法」不同：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;特性&lt;/th&gt;
          &lt;th&gt;Encoder&lt;/th&gt;
          &lt;th&gt;Decoder&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;注意力方向&lt;/td&gt;
          &lt;td&gt;雙向（可看前後所有字）&lt;/td&gt;
          &lt;td&gt;單向（只能看已生成的前文）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;典型任務&lt;/td&gt;
          &lt;td&gt;理解、分類、embedding&lt;/td&gt;
          &lt;td&gt;生成、續寫&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;訓練目標&lt;/td&gt;
          &lt;td&gt;填空題（mask 掉某個字讓它猜）&lt;/td&gt;
          &lt;td&gt;接龍（預測下一個字）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;輸出結果&lt;/td&gt;
          &lt;td&gt;一堆向量（高維語意表示）&lt;/td&gt;
          &lt;td&gt;一連串 token（看得懂的文字）&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;mark&gt;Decoder 只能看「過去」這件事非常重要&lt;/mark&gt;，&lt;br&gt;
因為它要模擬「一邊寫一邊決定下一個字」的過程，&lt;br&gt;
不能作弊偷看答案（未來的字），才不會在真的 inference 時失靈。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;後來-transformer-被拆成三個家族&#34;&gt;後來 Transformer 被拆成三個家族&lt;/h2&gt;
&lt;p&gt;慢慢地，大家發現「不一定要 encoder + decoder 一起用」，&lt;br&gt;
不同任務適合不同變形：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;家族&lt;/th&gt;
          &lt;th&gt;代表模型&lt;/th&gt;
          &lt;th&gt;擅長的事&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Encoder-only&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;BERT&lt;/td&gt;
          &lt;td&gt;理解類任務：分類、情感分析、&lt;strong&gt;命名實體辨識 (NER；從句子抓出人名、地名、公司名)&lt;/strong&gt;、語意搜尋&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Decoder-only&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;GPT 系列、Claude、Llama、Qwen、Gemini&lt;/td&gt;
          &lt;td&gt;生成類任務：寫作、對話、程式碼&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Encoder-Decoder&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;T5、BART、原始 Transformer&lt;/td&gt;
          &lt;td&gt;明確的「輸入→輸出」轉換：翻譯、摘要&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;順帶一提&lt;/strong&gt;（知道會更好，這篇不展開）：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;BERT 後來有 &lt;strong&gt;RoBERTa、DeBERTa&lt;/strong&gt; 等變形，訓練策略微調後效果通常更好&lt;/li&gt;
&lt;li&gt;T5 / BART 則是 encoder-decoder 在 LLM 時代的代表作，聊三大家族時常被一起提&lt;/li&gt;
&lt;/ul&gt;&lt;/blockquote&gt;
&lt;h3 id=&#34;encoder-only閱讀理解專家&#34;&gt;Encoder-only：閱讀理解專家&lt;/h3&gt;
&lt;p&gt;BERT 就是代表，2018 出來那時超有名。&lt;br&gt;
這類模型&lt;strong&gt;不會自己生東西&lt;/strong&gt;，你丟一段文字進去，它還你一組向量，&lt;br&gt;
你再接一個小小的 classifier 去做分類。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;適合：&lt;strong&gt;句子分類、情感分析、命名實體辨識 (NER)、語意搜尋&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;不適合：&lt;strong&gt;要生成一段話&lt;/strong&gt;（要逼它做會很痛苦）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;decoder-only一直接龍的模型&#34;&gt;Decoder-only：一直接龍的模型&lt;/h3&gt;
&lt;p&gt;這是 GPT、Claude、Llama 的家族。&lt;br&gt;
它的訓練方式很「暴力美學」：&lt;strong&gt;看到 N 個字，猜第 N+1 個字&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;就這樣用全世界的文字練上幾千億次後，它就學會了語言。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;適合：&lt;strong&gt;幾乎所有語言任務&lt;/strong&gt;（只要會轉成「給我接下去寫」的形式）&lt;/li&gt;
&lt;li&gt;不適合：&lt;del&gt;（好像沒什麼不適合的？這就是它贏的原因 XD）&lt;/del&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;encoder-decoder原汁原味派&#34;&gt;Encoder-Decoder：原汁原味派&lt;/h3&gt;
&lt;p&gt;T5、BART 這類。明確區分「輸入」和「輸出」。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;適合：&lt;strong&gt;有明確 source → target 的任務&lt;/strong&gt;，例如翻譯、摘要、文法糾正&lt;/li&gt;
&lt;li&gt;不適合：&lt;strong&gt;開放式對話&lt;/strong&gt;（因為它習慣「轉換」而不是「延續」）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;為什麼現在主流-llm-都是-decoder-only&#34;&gt;為什麼現在主流 LLM 都是 decoder-only？&lt;/h2&gt;
&lt;p&gt;這是我一開始最想不通的點。既然 encoder 這麼擅長理解，&lt;br&gt;
為什麼不用 encoder-decoder 來做 LLM？答案大概有三層：&lt;/p&gt;
&lt;h3 id=&#34;1-一把刀切所有東西prompt-就能扮演-encoder&#34;&gt;1. 一把刀切所有東西：prompt 就能扮演 encoder&lt;/h3&gt;
&lt;p&gt;Decoder-only 的 prompt 前半段，其實就在做 encoder 的工作。&lt;/p&gt;
&lt;p&gt;舉個例子：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;請把下面這段英文翻成中文：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;I love cats.
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;→
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;模型在讀「請把下面這段英文翻成中文」+「I love cats」的時候，&lt;br&gt;
就等於在做&lt;strong&gt;理解&lt;/strong&gt;（等同 encoder 的工作）；&lt;br&gt;
讀完後開始輸出「我愛貓」，這才是&lt;strong&gt;生成&lt;/strong&gt;（decoder 的工作）。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;mark&gt;換句話說，decoder-only 是把 encoder 跟 decoder 合併成同一個東西。&lt;/mark&gt;&lt;br&gt;
&lt;strong&gt;一個模型就能做「理解 + 生成」&lt;/strong&gt;，不用養兩套。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h3 id=&#34;2-scaling-友善參數集中在一邊&#34;&gt;2. Scaling 友善：參數集中在一邊&lt;/h3&gt;
&lt;p&gt;Encoder-decoder 要維持兩邊的連結（cross-attention），&lt;br&gt;
架構比較複雜，也不太好擴展到超大規模。&lt;/p&gt;
&lt;p&gt;Decoder-only 架構單純：&lt;strong&gt;一個 stack 堆到底&lt;/strong&gt;，&lt;br&gt;
scaling law 的實驗也更好做，這在「大就是好」的 LLM 時代是硬優勢。&lt;/p&gt;
&lt;h3 id=&#34;3-in-context-learning-是意外大禮&#34;&gt;3. In-context learning 是意外大禮&lt;/h3&gt;
&lt;p&gt;OpenAI 在 GPT-3 發現一件超威的事：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;只要在 prompt 裡塞幾個範例，&lt;br&gt;
decoder-only 模型就能「臨時學會」新任務，&lt;br&gt;
&lt;strong&gt;不用重新訓練&lt;/strong&gt; — 這就是 few-shot / in-context learning。&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;這個能力基本上只有 decoder-only 做得到，&lt;br&gt;
而這個能力又&lt;strong&gt;徹底改變了 LLM 的使用方式&lt;/strong&gt;（prompt engineering 就是從這時開始熱門的）。&lt;/p&gt;
&lt;h2 id=&#34;那-encoder-是不是就失業了&#34;&gt;那 encoder 是不是就失業了？&lt;/h2&gt;
&lt;p&gt;並沒有 XD。Encoder 在 2026 年依然活得好好的，只是分工變了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Search / RAG 系統裡的 embedding&lt;/strong&gt;：用 encoder 把文件變向量做語意搜尋，這塊 encoder 還是主力（生產環境常見的 embedding 模型如 OpenAI 的 「text-embedding-3-large」、開源的 「bge-m3」，底層都是 encoder）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;輕量的分類任務&lt;/strong&gt;：BERT 家族在生產環境依然很常見，因為便宜、快、夠用。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;專門的翻譯 / 摘要系統&lt;/strong&gt;：encoder-decoder 架構（T5、BART）依然有優勢。&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;只是在「&lt;strong&gt;通用對話 AI&lt;/strong&gt;」這個最吸睛的戰場，decoder-only 勝出了。&lt;br&gt;
就像內燃機跟電動車 — 不是內燃機不會動，是電動車在主流乘用市場贏了。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結&lt;/h2&gt;
&lt;p&gt;整理完這題，我自己的一點小心得：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;mark&gt;Encoder 跟 decoder 是「工具差別」不是「好壞差別」&lt;/mark&gt;&lt;/li&gt;
&lt;li&gt;&lt;mark&gt;Decoder-only 贏了是因為它「夠泛用」，不是因為它「最強」&lt;/mark&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這讓我想起寫程式時的老話：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;能用少的組件解決的問題，就不要硬加架構。&lt;/strong&gt;&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;Decoder-only 用一個 stack 解決「理解 + 生成」兩件事，&lt;br&gt;
架構簡單、scaling 容易、prompt 就能切換任務 —&lt;br&gt;
在「什麼都要做」的大語言模型時代，這組特性真的太加分。&lt;/p&gt;
&lt;h2 id=&#34;reference&#34;&gt;Reference&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/1706.03762&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Attention Is All You Need (Vaswani et al., 2017)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://jalammar.github.io/illustrated-transformer/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;The Illustrated Transformer — Jay Alammar&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/1810.04805&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2005.14165&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Language Models are Few-Shot Learners (GPT-3 paper, Brown et al., 2020)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/learn/nlp-course/chapter1/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face - Transformer models families&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>【LLM #1】什麼是 LLM (Large Language Model)？給自己的一點入門筆記</title>
        <link>https://wongwongnotes.com/posts/ai/large-language-models/llm-introduction/</link>
        <pubDate>Wed, 22 Apr 2026 10:00:00 +0800</pubDate>
        
        <guid>https://wongwongnotes.com/posts/ai/large-language-models/llm-introduction/</guid>
        <description>&lt;h2 id=&#34;前言&#34;&gt;前言&lt;/h2&gt;
&lt;p&gt;最近 AI 工具真的滿山滿谷，&lt;br&gt;
ChatGPT、Claude、Gemini&amp;hellip; 感覺不用一下就會被時代丟在後面 🫠&lt;/p&gt;
&lt;p&gt;說實在自從 2023 年後，我自己也是大量在用這些工具，&lt;br&gt;
但我發現我好像都「會用」但沒有真的「理解」這些東西是什麼，&lt;br&gt;
於是就想來寫一篇給自己看的筆記 XD。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;這篇文章不會深入到數學公式或 Transformer 架構，&lt;br&gt;
純粹是從「使用者」角度，把我自己常被問的幾個關鍵字整理一下。&lt;br&gt;
&lt;mark&gt;如果你也是剛開始接觸 LLM 的朋友，希望對你有幫助！&lt;/mark&gt;&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;什麼是-llm&#34;&gt;什麼是 LLM？&lt;/h2&gt;
&lt;p&gt;LLM = &lt;strong&gt;Large Language Model&lt;/strong&gt;，中文翻作&lt;strong&gt;大型語言模型&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;一句話版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;mark&gt;一個「吃了超多文字」之後，學會「接下一個字」的機率模型。&lt;/mark&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;然後這個「超多文字」真的是超多，&lt;br&gt;
通常是整個網路上能抓到的大部分公開文本 (書、論文、維基、Reddit、GitHub&amp;hellip; 什麼都有)，&lt;br&gt;
模型參數量動輒幾十億 (B) 到幾千億 (T)。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;所以它不是真的「理解」什麼事情，&lt;br&gt;
而是「統計上」知道下一個字最有可能是什麼 — 只是這個統計好到讓我們覺得它在思考 XD&lt;/p&gt;&lt;/blockquote&gt;
&lt;h3 id=&#34;常見混淆llm--encoder-decoder-架構&#34;&gt;常見混淆：LLM ≠ encoder-decoder 架構&lt;/h3&gt;
&lt;p&gt;這邊順便釐清一個很多人會搞混（包括以前的我）的地方。&lt;/p&gt;
&lt;p&gt;有人問「LLM 是什麼？」時，反射動作常常會從&lt;strong&gt;架構&lt;/strong&gt;角度答：&lt;br&gt;
「它是 Transformer，有 encoder 跟 decoder&amp;hellip;」&lt;/p&gt;
&lt;p&gt;這個回答其實不太精準。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;mark&gt;LLM 最核心的定義是它「做什麼」，不是「怎麼做」。&lt;/mark&gt;&lt;/li&gt;
&lt;li&gt;最乾淨的版本就是上面那句：&lt;strong&gt;「能一直接下一個字的大模型」&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;現代主流 LLM（GPT、Claude、Llama 家族）架構上其實都是 &lt;strong&gt;decoder-only&lt;/strong&gt;，&lt;strong&gt;沒有 encoder&lt;/strong&gt;。&lt;br&gt;
「encoder-decoder」的印象來自 2017 年原始的 Transformer 論文（那篇是為機器翻譯設計的），&lt;br&gt;
但 LLM 後來演化成另一種樣子了。&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;架構是實作細節，定義是它做什麼。&lt;br&gt;
講定義時先給「生下一個字」，架構的部分可以之後再補。&lt;/p&gt;
&lt;p&gt;這題其實滿值得展開，我寫在了系列第二篇：&lt;a class=&#34;link&#34; href=&#34;https://wongwongnotes.com/posts/ai/large-language-models/llm-encoder-decoder/&#34; &gt;【LLM #2】LLM 跟 Encoder / Decoder 的關係&lt;/a&gt;。&lt;/p&gt;
&lt;h2 id=&#34;llm-能做什麼&#34;&gt;LLM 能做什麼&lt;/h2&gt;
&lt;p&gt;老實說目前大家也還在摸索邊界，但以我日常用到的來看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;寫程式&lt;/strong&gt;：寫 code、debug、解釋別人的 code、不同程式語言互轉&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;整理資訊&lt;/strong&gt;：摘要長文、抓重點、翻譯、改寫&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文字創作&lt;/strong&gt;：寫文章初稿、email、slogan、社群貼文&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;閱讀助手&lt;/strong&gt;：丟一份論文/文件問它裡面的內容&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Agent 類應用&lt;/strong&gt;：串工具 (檔案系統、瀏覽器、API) 幫你跑任務&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;對我個人影響最大的其實不是「產出」，&lt;br&gt;
而是「&lt;mark&gt;能隨時問一個不會不耐煩的對象&lt;/mark&gt;」這件事 XDD&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;幾個一定會遇到的關鍵字&#34;&gt;幾個一定會遇到的關鍵字&lt;/h2&gt;
&lt;h3 id=&#34;token&#34;&gt;Token&lt;/h3&gt;
&lt;p&gt;LLM 不是用「字」或「word」在算，而是用 &lt;strong&gt;Token&lt;/strong&gt; (子詞)。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;英文大約 1 個 token ≈ 0.75 個單字&lt;/li&gt;
&lt;li&gt;中文常常 1 個字 ≈ 1~2 個 token (看 tokenizer)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;為什麼要知道這個？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;因為 &lt;strong&gt;LLM 的計費、輸入長度限制，通通是按 token 算&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;context-window&#34;&gt;Context Window&lt;/h3&gt;
&lt;p&gt;又叫做「上下文視窗」，指的是模型一次最多可以「看進去」多少 token。&lt;/p&gt;
&lt;p&gt;常見的幾個數字：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;早期 GPT-3.5：4K tokens (差不多幾千字)&lt;/li&gt;
&lt;li&gt;現在主流：128K ~ 200K tokens&lt;/li&gt;
&lt;li&gt;部分旗艦：1M tokens (可以丟整本小說進去)&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;mark&gt;超過 context window 的內容，模型就「看不到」了&lt;/mark&gt;，&lt;br&gt;
這也是為什麼長對話久了會覺得它開始「失憶」的原因。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h3 id=&#34;prompt&#34;&gt;Prompt&lt;/h3&gt;
&lt;p&gt;就是&lt;strong&gt;你丟給模型的輸入&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;聽起來很簡單，但其實「怎麼寫 prompt」本身已經演化成一門學問，&lt;br&gt;
大家叫它 &lt;strong&gt;Prompt Engineering&lt;/strong&gt;。&lt;br&gt;
簡單的心法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把「角色」、「任務」、「限制條件」、「輸出格式」講清楚&lt;/li&gt;
&lt;li&gt;給 1~2 個範例 (few-shot) 通常會比空口白話好很多&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;hallucination-幻覺&#34;&gt;Hallucination (幻覺)&lt;/h3&gt;
&lt;p&gt;這是 LLM 最有名的毛病：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;mark&gt;它會「一本正經地胡說八道」&lt;/mark&gt;，&lt;/li&gt;
&lt;li&gt;語氣非常自信，但內容是錯的、甚至是它自己編的。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以重要的事情還是要驗證，尤其是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;具體的人名、書名、論文、API 規格&lt;/li&gt;
&lt;li&gt;法律、醫療、財務類建議&lt;/li&gt;
&lt;li&gt;冷門領域的事實&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;用 LLM 的一個心態我覺得滿重要：&lt;br&gt;
把它當成「很強但有點唬爛的實習生」，&lt;br&gt;
能大幅提升效率，但不能全然信任。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;常見的幾家-llm&#34;&gt;常見的幾家 LLM&lt;/h2&gt;
&lt;p&gt;快速流水帳版本 (2026 年初視角)：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;家族&lt;/th&gt;
          &lt;th&gt;公司&lt;/th&gt;
          &lt;th&gt;特色&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;GPT 系列&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;OpenAI&lt;/td&gt;
          &lt;td&gt;最有名，生態最大&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Claude 系列&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;Anthropic&lt;/td&gt;
          &lt;td&gt;長文處理、寫作品質我自己最愛&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Gemini 系列&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;Google&lt;/td&gt;
          &lt;td&gt;多模態強，整合 Google 產品&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Llama 系列&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;Meta&lt;/td&gt;
          &lt;td&gt;開源大宗，能自己部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Qwen / DeepSeek&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;阿里 / DeepSeek&lt;/td&gt;
          &lt;td&gt;中文開源模型代表&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Mistral&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;Mistral AI&lt;/td&gt;
          &lt;td&gt;歐洲開源，小而美&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;我的使用習慣是 Claude 寫東西、GPT 問一些快答案、&lt;br&gt;
本地小任務跑 Qwen 之類的開源模型，&lt;br&gt;
看你的需求與預算來選就好！&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;小結以做筆記的站長視角看-llm&#34;&gt;小結：以「做筆記的站長」視角看 LLM&lt;/h2&gt;
&lt;p&gt;這個網站的初衷是「幫我自己整理筆記」，&lt;br&gt;
AI 崛起後我一度懷疑這件事還有沒有意義 (畢竟什麼都可以問 LLM 了 🫠)，&lt;br&gt;
但用了這麼多它之後，我反而覺得：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;mark&gt;LLM 給的是「即時但可能錯」的答案&lt;/mark&gt;&lt;/li&gt;
&lt;li&gt;&lt;mark&gt;自己的筆記是「慢慢累積但被自己驗證過」的答案&lt;/mark&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;兩者並不衝突，甚至互補 —&lt;br&gt;
我現在常常把 LLM 當成「第一層草稿機」，&lt;br&gt;
然後再自己整理成能放上網站的筆記，效率高很多。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;佛系經營 + AI 輔助，似乎是個滿舒服的組合 🌿&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;reference&#34;&gt;Reference&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://en.wikipedia.org/wiki/Large_language_model&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Wikipedia - Large language model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic - What is a prompt?&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.openai.com/tokenizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenAI - Tokenizer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face - Open LLM Leaderboard&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
