⌂ 總覽
Agent Skill 一日工作坊 · 先備知識

九個常聽卻講不清的概念
半小時講明白

AI 拆開來其實很單純:一顆會想的腦、一雙能動手的手腳、再插上可拆換的技能。最後那塊 Skill,就是你今天要親手做的。

九個概念半小時講完LLM → … → Agent → Skill

第一層 · LLM

ChatGPT、Claude 背後那顆腦,其實在玩文字接龍

你給它幾個字,它就猜下一個最可能的字,接上去,再猜下一個。如此而已。


今天天氣真+猜 →
今天天氣真好+猜 →

接上去、再猜下一個。一個字一個字,就這樣吐出一整句。它不是魔法,是個會接龍的工具。看懂這件事,你就不會神化它,也不會怕它。

接龍拆解

「小明長的真帥」它是這樣一個字一個字吐的


「小明」 → 你給的輸入
1猜最可能的下一個字 → 「長」
2「小明長」接回去再猜 → 「的」
3「小明長的」再猜 → 「真」 … 最後湊出「小明長的真帥」

每一步都重複同一件事:看現有的字,猜下一個。沒有更多秘密。

第二層 · Token

AI 不是一個字一個字讀,它把文字切成一塊一塊的 Token

中間有個翻譯官叫 Tokenizer,把你的文字切塊、轉成數字餵給 AI。那一塊一塊的單位,就叫 Token。

Tokenizer 像翻譯官:左邊文字、右邊數字,中間負責來回轉譯
Tokenizer:文字 ⇄ 數字來回轉

一句話被切開的樣子

工作開始 → 5 個 Token
程式設計 → 3 個 Token

Token 是 AI 的計價單位,也是它「能看多少」的衡量單位。

翻譯官的工作

AI 其實不認識文字,它只認數字


切分 · 「小明長的真帥」六個字

「帥」拆成 2 塊

映射 · Tokenizer 編碼成 Token ID

5820110713508116167910315198

你只看到頭尾的文字,中間全是數字的世界。注意看:6 個字卻切成 7 塊。所以 token 不一定等於字

重要陷阱

一個字,不一定是一個 Token

字數Token 數切成
工作坊3 字2 Token工作 | 坊
程式設計師5 字3 Token程式 | 設計 | 師
workflow8 字母1 Tokenworkflow

火山矽肺症(世上最長的英文單字之一) 45 個字母 → 15 個 Token

Pneumonoultramicroscopicsilicovolcanoconiosis

平均換算:1 個 Token ≈ 0.75 個英文字 ≈ 1.5~2 個中文字。API 按 Token 收費,叫 AI 讀一整份大手冊很貴。

第三層 · Context

AI 沒有真記憶,它靠一張桌子

LLM 無狀態:每次請求都重置回同一狀態、重讀整段歷史
stateless:每次請求都重置回空白
它不是在「學」模型是無狀態(stateless)。每一次請求都重置回同一個空白,把整段對話從頭重讀一次。
「記得」是錯覺它像記得前文,是因為程式每次都把對話歷史重新餵進去。沒餵的,它一個字都不知道。

這整包每次重新攤開給它看的東西,就叫 Context(上下文)。像一張桌子,沒攤上去的,它看不到。

Context Window

桌子有上限。攤越多越貴越慢

上限

Context Window 是什麼

桌子的大小上限叫 Context Window。主流模型現在約 100 萬 Token,差不多就是一整套哈利波特全集的份量。

陷阱

滿不等於好

桌子不是越滿越聰明。攤太多東西,AI 的注意力會被稀釋,開始跳步、忘記前面交代的規則。


Context 容量比例示意

哈利波特全集 ≈ 90~100%
一個 Skill 約 5~10%

記住這張桌子。等一下動手做 skill 的時候,你會看到一個聰明的設計,專門省這張桌子。

第四層 · Prompt

Prompt,就是你給 AI 的指令

沒那麼玄。你在對話框裡打的那一句話,就是一個 Prompt。


01 · 你輸入

一句問題或指令

例:「幫我寫一封感謝信,對象是客戶小明,語氣專業。」

02 · AI 接龍生成

把 Prompt 加上 Context

把你的 Prompt 加上 Context 裡的所有資訊,一個字一個字猜出來。

03 · 輸出結果

一封感謝信

你的 Prompt 講得多清楚,輸出就多到位。


Prompt 是你唯一能控制的輸入。講得清楚,AI 就能做出你要的東西。

兩種 Prompt

你看得見的,和藏在背後

使用者看見的

User's View台北天氣如何?

你只打了一句「台北天氣如何?」。

AI 看見的

↓ 這層你看不到<System Prompt>你是個友善的助理,絕對不能……
<User Prompt>台北天氣如何?

同一句話,配不同的 System Prompt,回答天差地遠。你今天要做的 Skill,本質上就是一份預先寫好、能隨時套上的 System Prompt 加操作步驟。

Prompt Engineering

不是在背技巧。是想清楚你要什麼

模糊的 Prompt

「幫我寫文章」

輸出:不知道主題、風格、長度、對象。隨機生成,猜你要什麼。

清楚的 Prompt

「針對 30~40 歲媽媽族群,寫一篇 300 字的 IG 文案,推廣暑假親子課程,語氣溫暖帶行動呼籲。」

輸出:精準。一次到位。

把這 5 件事先想清楚,AI 就不用猜

主題
對象
長度
語氣
格式

想清楚你要什麼,永遠比背技巧更重要。等一下做 Skill,description 寫得好不好,就是這門功夫的應用。

第五層 · Tool · 先講痛點

AI 碰不到真實世界

問它「今天台北天氣怎樣」,它只會說「抱歉我查不到即時資訊」。它沒有手、沒有眼睛。

大模型
文字進、文字出。沒有感知器官。
即時天氣
查不到
Gmail
發不了
瀏覽器
開不了
Google Sheet
看不到

這不是 AI 不夠聰明,是它天生的設計限制。打破這道牆,才是下一頁要講的事。

Tool 的本質

大模型只能說「我要呼叫」,真正動手的是平台

給它工具,它也不自己動手。它只「說」我要用這個工具,真正去敲的是背後的平台。


1
你問
「台北天氣?」
2
大模型「說」
我要呼叫天氣工具
3
平台「做」
實際去敲天氣工具
4
整理成人話
「台北今天 25°C,晴」

記住這一刀:大模型只負責「說要呼叫」,平台才是真正去敲、把結果拿回來的那一個。Tool 就是 AI 伸出去的手。今天階梯 6 用 serper 查 Google、階梯 8 用瀏覽器抓競品,那些都是 Tool。

第六層 · API · 別怕這個詞

API 就是得來速的點餐窗口

你不用進廚房,照菜單說「我要一號餐」,窗口就把餐遞出來。這就是 API。

API 像得來速:程式開車到窗口點餐、資料從窗口遞出
你的程式開車來點餐,資料從窗口遞出

你需要記住的三件事

照規矩點餐每個 API 有自己的菜單(文件)。照文件格式傳參數,廚房才看得懂。
不用懂廚房廚房怎麼煮是別人的事。你只管點餐、拿餐,不用知道後端怎麼實作。
要先領資格卡大多數 API 要先申請一把 API Key。沒有卡,窗口不理你。

敲窗口的背後

「敲窗口」其實是發一個 HTTP 請求

HTTP 是電腦之間的「對話規則」。你的程式跟網站要交換資料,就靠它一來一回,像一個幫你跑腿的快遞員。


① 請求 Request你的瀏覽器發出去:「我要看 google 首頁」 →
② 回應 Response伺服器回送回來:「這是網頁內容,拿去」 ←

你打開瀏覽器輸入 google.com,背後就是瀏覽器發了一個 HTTP 請求、Google 回一個回應。你每天都在做,只是沒看到。

你想做什麼

發請求時,先講你想做什麼

每個請求都要指定一個「方法」,告訴對方你要對資料做什麼。天天會碰到的就這四個。

方法做什麼例如
GET取得資料從天氣 API 讀今天氣溫
POST新增資料送出表單、發一則訊息
PUT更新資料修改你的個人資料
DELETE刪除資料刪掉一筆商品

八成情況只會碰到 GET 跟 POST。小測驗:想查最新天氣該用哪個?GET,因為你只是要「取得」資料。

一個請求長怎樣

一張請求單,三個欄位

把一個 HTTP 請求想成包裹上的快遞單,拆開就這三部分。


① 網址 + 參數

要寄去哪

附帶什麼條件。? 後面就是參數,直接寫在網址上。

…/search?keyword=藍牙耳機
② 標頭 Headers

包裹上的備註標籤

身分驗證(API 金鑰)、資料格式(JSON/XML)、瀏覽器等附加資訊。

③ 內容 Body

要傳的詳細資料

{
"name": "John",
"email": "j@x.com"
}

簡單查詢,網址+參數就夠;要傳大量或機密資料,放進 Body。差別下一頁細說。

放網址上,還是放裡面

參數 還是 Body

參數 Query Parameters

…/latest?city=Taipei&unit=celsius
放哪接在網址上、看得到
用途查詢、篩選、搜尋,不放敏感資料,主要配 GET

Google 搜「貓」→ …/search?q=貓

Body 請求體

{ "username": "john",
"password": "secret" }
放哪藏在請求內部、網址看不到
用途傳大量或敏感資料(密碼、付款),比較安全,配 POST/PUT

註冊新帳號,就是 POST 一包 Body


一句話分:查詢、簡單 → 用參數;大量、機密 → 用 Body

對方怎麼回你

每個回應,都帶一個 狀態碼

三位數字,一眼看出成功還是失敗、為什麼失敗。

200成功。一切正常,資料拿到了
201已建立。成功新增,例如註冊好了
400錯誤請求。你的格式錯了、少了參數
401未授權。要登入或補上 API 金鑰
404找不到。網址或資源不存在
500伺服器錯誤。對方的系統出包

查天氣網址拼錯 → 拿到 404。記個大方向:4 開頭通常是你寫錯,5 開頭是對方伺服器的問題。

API 無所不在

你用過的每個 App,背後都在叫 API

你沒寫一行程式,但每天已經在「用」一堆 API,只是沒看到那面窗口。


Foodpanda 找餐廳

地圖 API

Foodpanda 結帳

金流 API · LINE Pay

Uber 叫車配對

Uber 自家 API


用 LINE/Google 登入

登入 API

收到簡訊驗證碼

簡訊 API

下單後的確認信

Email API · SendGrid


位置、付款、登入、驗證碼、推薦商品… 幾乎每一步,都是在跟別人的系統「叫 API」

親手敲一個真 API

打開瀏覽器,現在就敲一個

不用寫程式。在網址列貼這個,你就發出了一個真的 HTTP 請求。


1在網址列貼上、按 Enter(發出 GET 請求)
https://dog.ceo/api/breeds/image/random
2伺服器回一包 JSON
{
"message": "https://images.dog.ceo/breeds/…/n02….jpg",
"status": "success"
}
3message 那條網址再貼回瀏覽器 → 一張隨機狗狗照

你剛剛做的,就是 AI 在做的事:發一個請求、拿回一包 JSON、再用裡面的資料。差別只是它一秒能做幾百次。

連到今天

三個窗口,今天都會親手敲

API Key 就是「點餐資格卡」。申請到卡,窗口才理你。這就是我們課堂上會帶你申請的原因。


serper
Google 搜尋結果。說「查這個關鍵字」,它把前十名、別人也問、相關搜尋整包回給你。

階梯 6 用到 · 現場申請 Key
DataForSEO
搜量與 SEO 數據。關鍵字月搜量、競爭度、SERP 分析。你的 Skill 自己去敲窗口拿資料。

SEO 分析階梯用到 · 現場申請 Key
Google 服務
Search Console / Docs / Sheet。GSC 流量數據、自動寫進 Sheet、更新 Google Doc 報告,全是 API 窗口。

後段階梯用到 · OAuth 授權替代 Key

你的 Skill 就是那台開進得來速的車。它知道對哪個窗口說什麼,把資料拿回來給大模型用。

看一個真的

問一句,AI 自己去敲窗口


1你問 「台北中山區有什麼火鍋店?」
2AI 寫一小段請求,去敲 serper 窗口(照菜單格式點餐)
POST api.serper.dev/search
{ "q": "台北中山區 火鍋" }
3窗口回一包 JSON,AI 整理成人話
{ "organic": [
{ "title": "詹記麻辣鍋", "rating": 4.5 },
{ "title": "馬辣中山店", "rating": 4.3 }
] }
→ 中山區評價較高的有詹記(4.5)、馬辣(4.3)、這一鍋(4.2)。

這段「寫請求去敲窗口」的小腳本,AI 自己會寫。階梯 1 你就會親手玩到,不用先會寫程式。

第七層 · MCP · 痛點

同一個工具,要寫三遍

工具要能被 AI 使用,得先「接入」平台。問題來了:每個平台各有一套規範。

一個工具,拉三條線各接一個 AI

OpenAI 格式→ ChatGPT
Anthropic 格式→ Claude
Google 格式→ Gemini

技術上:M × N 整合爆炸

M 個 AI app 要接 N 個服務,就得寫 M × N 種接法。

9

3 × 3 = 9 條線,每條格式都不同,全要各寫一遍。每加一個就乘上去。


接 ChatGPT 一套、接 Claude 又一套、接 Gemini 再一套。工程師寫到崩潰。這就是 MCP 出現之前的接入規範地獄。

MCP 是什麼

寫一次,所有 AI 都能用

✕ 沒有 MCP

同一工具要寫 三套規範。每增加一個 AI 平台,就多寫一遍。

工具 → OpenAI 格式
工具 → Anthropic 格式
工具 → Google 格式

✓ 有 MCP

只寫 一次。所有支援 MCP 的 AI 平台,全部能用。

工具 → MCP →ChatGPT
工具 → MCP →Claude
工具 → MCP →Gemini

MCP 全名 Model Context Protocol(模型上下文協定)。名字很學術,你把它記成「工具接入的統一規範」就好。一條線取代三條線。

換個角度看 MCP

API 要你照它的規格,MCP 把工具端上桌

同樣是讓 AI 用工具,差別在「誰要先懂規格」。

API / 你寫的 function

想用它,你得先讀文件,把每個欄位照規格拼對:

POST /weather
headers: { "api-key": ? }
body: { "city": ?, "unit": ? }

少一個欄位、格式錯一點就失敗。你去配合工具。

MCP

MCP 主動把整盤工具端出來,每個都自帶用法:

查天氣自帶說明 + 輸入格式
讀 Notion自帶說明 + 輸入格式
發 Slack自帶說明 + 輸入格式

AI 一連上就看到整份菜單,直接挑來用。工具主動報名。


差別就在誰要先懂規格:API 是你去配合它,MCP 是工具自己告訴 AI「我有哪些、怎麼用」。

一個比喻

MCP 就是工具接入的 Type-C

沒有 MCP 像一抽屜雜亂專用線,有 MCP 像一條 Type-C 通吃
左:每服務一條專用線 · 右:一條 Type-C 通吃

技術上:一套插孔規範

MCP 是一套插孔規範(protocol)。任何 AI client 用同一種講法,對接任何工具 server。

M × NM + N

每邊只接 MCP 一次,不必兩兩相乘。


MCP = 廚房,給你存取權,解決「連得上什麼」;Skill = 食譜,解決「連上之後怎麼把事做對」。


記成「工具接入的 Type-C」就好。能連到廚房不等於做得出好菜,菜好不好靠食譜。所以今天重點在教你寫 Skill。

第八層 · Agent

Agent:會自己規劃的 AI

把前面學的全裝在一起,再加上一句:自己規劃下一步。你只下一個目標,其餘它自己跑。

Agent 機器人:會自己規劃下一步的 AI
Agent · 自己規劃下一步

把前面學過的零件裝在一起

大腦= LLM,負責決策
= Tool · MCP,對外動作
記憶= Context,記住進度
看結果= 觀察環境回饋
= 只下一個目標,其餘它自己跑

Agent = 把 LLM + Tool + Context 裝在一起,再加上「自己規劃下一步」。你今天用的 Claude Code,就是這種 Agent。

Agent 怎麼跑

從規劃到執行:Agent 的迴圈

不是一次做完。是規劃、執行、看結果、不夠好就修正再來一輪,直到達成。


1
規劃
LLM 想步驟
2
執行
Tool 動手
3
看結果
Context 記下
4
修正
不夠好就再規劃

跑一個真例子 · 目標:整理這 100 張照片

規劃先看有哪些 → 按日期分 → 改名
執行寫一段腳本,跑過 100 張
看結果97 張成功、3 張失敗(格式怪)
修正針對那 3 張改寫規則,重跑 → 100 張全部歸位

關鍵在那個「看結果 → 修正」的迴圈。它做錯不會卡住,會自己發現、自己調整、再跑一輪。這是 Agent 跟一次性回答最大的差別。

兩種用法對照

它會自己跑,不用你盯

同一顆 LLM,差別在「誰負責規劃跟動手」。看左右就懂。

一般問答
你問一句,它答一句。

手是你的,它給建議,動作要你自己做。做錯了你回來再問,每一步都要你接力,全程盯著、逐句下指令。

像問一位顧問:問什麼,答什麼。
Agent
你給目標,它把成果帶回來。

自己動手:規劃步驟、連續呼叫工具。自己修正:做錯了自己發現、重跑。跑完帶成果回來,你只需驗收。

像交辦一位同事:給目標,等成果。

今天用的 Claude Code、codex 就是這種 Agent。你只下意圖,它自己規劃、執行、修正,把事跑完帶回來給你。

第九層 · Skill · 主角登場

Skill:提前寫好塞給 Agent 的說明書

Agent 很強,但它不知道你的私人規則。每次重打很煩。Skill 解這個問題。


沒有 Skill 之前
每次都要重打規則:輸出格式、語氣、流程、限制條件。打完還要確認它有沒有漏讀。
有 Skill 之後
規則提前寫進 Skill,以後只說一句「出門助手」,它就自動照你的規矩辦,不用每次重講。

超能力光碟。平常收著不佔位置,要用才插上去。一份 Markdown 檔,就是你給 Agent 的完整說明書。

接下來做什麼

這就是今天的主角。你會親手做好幾個

接下來十個階梯,你會把最煩的 SEO 工序,一個一個變成一句話就跑完的 Skill。


✦ Skill← 今天你要親手做的,站在最頂端
Agent你用的 Claude Code
MCP統一插座
API點餐窗口
ToolAI 的手
Prompt / Context / Token / LLM最底層的地基

你今天學的九個概念,全疊在這座塔上,Skill 就站在最頂端。把最煩的 SEO 工序一個一個變成 Skill,最後做出一個用你自己風格寫作的 Skill。我們開始。

九層收斂

九層疊起來,只學最頂那層


LLM腦。猜下一個字的文字接龍機器。
Token它的眼。文字被切成塊後轉成數字。
Context桌子。它當下能看到的全部東西。
Prompt你的指令。System 設規則、User 問問題。
Tool它的手。讓它碰到真實世界。
API服務的點餐窗口。程式照菜單呼叫。
MCP工具的統一插座。Type-C 的概念。
Agent會自己規劃的它。你只下意圖。
✦ Skill你教它做事的說明書。今天你來寫這個。

你不用懂怎麼造腦造手。你只要學會寫最頂層那份說明書。我們開始。