我不是工程師。是一個詠春拳教練、整復師,單兵創業 11 年,從 2025 年 10 月開始把工作流搬到 AI 系統上跑。

這篇是今天一個下午的聊天紀錄整理。從一則免費領 Token 的消息開始,一路追到我自己的數位遊牧目標。

寫給跟我一樣的人——資源不多、技術不深、但想用 AI 把一人公司跑出規模的奈米級玩家。


為什麼一個詠春教練要寫這個?

我不是科技 KOL。每天的工作是教拳、是整復——很實體的東西。AI 最無法取代的那塊,需要靠雙手做事、感覺的實體服務端。

但 11 年單兵創業教我一件事:任何工具,要先在自己的事業上跑得起來,才有資格教別人。我從 2025 年 10 月開始建自己的 AI 多代理系統,到今天已超過六個月。

這六個月每天看的科技新聞,跟科技業內人看的是同一份。但我看的角度不一樣——我是用「這個東西能不能讓我一個人撐起一家公司」這把尺在篩。

這篇是我這把尺今天篩出來的七個東西。


起點:小米在送 Token

今天看到一則消息:小米跟 MiMo-V2.5 系列模型開源同步,推出「Orbit 百萬億 Token 計畫」,4 月 28 日到 5 月 28 日,向全球開發者免費發放共 100 兆 Token 額度。

申請網址:100t.xiaomimimo.com

流程很簡單:填表 → 等 3 個工作天 → 收信 → 登入平台 → 24 小時內到帳。整個計畫採申請制,依申請內容分梯度給方案。最高一檔是 16 億 Credits(值 ¥659)。我自己拿到「Pro 月度套餐」,7 億 Credits,有效期 1 個月。

對奈米級用戶來說,這個機會的價值不在「省一筆錢」,而在「不用先押注就能完整測一輪」。一個月的密集測試,就能弄清楚 MiMo-V2.5-Pro 在你 workflow 裡的能力邊界——這個資訊本身值錢。


為什麼大陸模型便宜得不合理?

這不是行銷策略,是結構性原因。

DeepSeek V4-Pro 目前促銷期輸入定價 $0.145 / 1M tokens;Claude Opus 4.7 是 $5 / 1M tokens——便宜約 7 倍。即使 V4-Pro 回到原價($1.74/M),也仍然比西方旗艦便宜一個數量級。

原因有三:

① MoE 架構:DeepSeek V4-Pro 1.6T 總參數,每次推理只激活 49B;小米 MiMo-V2.5-Pro 1.02T 總參數,只激活 42B。運算成本遠低於同級稠密大模型。

② 自建算力:中國廠商大量使用自建 GPU/NPU 集群,邊際成本低,不需要向 AWS/Azure 買算力。

③ 開源換流量:MIT 授權吸引開發者黏著,再用 API 服務變現,所以 API 定價可以壓到幾乎不賺錢。

對奈米級用戶來說:「用最頂級的模型」不再是大公司的特權。一個月 100 美元的 AI 預算,過去只夠重度用一家旗艦;現在可以同時養好幾個工作流,跑在不同模型上。

而且 DeepSeek 已透露,昇騰 950 超節點 2026 Q4 上線後,V4-Pro 還會再大幅降價。現在的價格還不是最低點。


四款旗艦,到底選哪個?

模型輸入價格特色
MiMo-V2.5-Pro¥1.4 / 1M tokensAgent 任務 token 效率高,開源 MIT
DeepSeek V4-Pro$0.145 / 1M(促銷)SWE-bench 80.6%,1M 上下文
Claude Sonnet 4.6$3 / 1M tokens指令遵循穩定,Agent 工具呼叫可靠
Claude Opus 4.7$5 / 1M tokens頂線推理能力,SWE-bench 領先

單一模型解決所有任務的時代過了。現在的問題不是「哪個最強」,而是「怎麼配,才划算又夠用」。

對話、決策、規劃這類「不能踩線」的任務,找穩定的模型;大量 coding 或 agent 跑批,找便宜又有大 context 的;中文初稿和發散整理,用免費或低價額度養。每個任務分配一個剛好夠用的模型,不要每件事都派最貴的去做。


本地 LLM 追上了嗎?

這是我最在意的問題,因為我一直在評估何時能把雲端依賴降下來。

答案是:特定任務,已經追上了。

2026 年 4 月 Alibaba 釋出的 Qwen3.6-27B 是 27B 參數的稠密開源模型。它在 Terminal-Bench 2.0 拿到 59.3 分——這個分數恰好跟 Claude Opus 4.6 持平。SWE-bench Verified 上 77.2%,距離 Opus 4.6 的 80.8% 只差 3.7 分。

一個 27B 的開源模型,跑在你自己的硬體上,特定 Agent 任務已經摸到頂線閉源模型的天花板。

但有一個重要的概念要釐清:參數數字不是能力的絕對值。Qwen3.6-35B-A3B 每次推理只激活 3B 參數,但實測在許多任務上全面超越前一代 72B 稠密版。關鍵是架構效率和訓練方式,不是數字本身。

我目前 Mac mini M4 16GB,能跑 Qwen3.6-35B-A3B(MoE 架構,激活 3B),速度約 15 tok/s。要無限制跑 72B 級的,需要 48GB 以上統一記憶體——那是 Mac mini M5 Pro 的領域,預計 2026 年 6 月 WWDC 後發表。

這個分水嶺對奈米級用戶很重要。等到 M5 Pro 出,自建本地 + 雲端混合的架構,可以把 AI 月費壓到趨近於零,只剩硬體攤提。這個方向值得早點開始評估。


顯卡缺貨,何時會好?

一句話:AI 伺服器把消費端的記憶體產能搶光了。

三星、SK 海力士、美光的選擇很簡單:HBM(AI 伺服器用)毛利高、大客戶鎖單;GDDR7(消費端用)利潤普通。產能往 HBM 移,消費端斷貨。

幾個關鍵數字:NVIDIA 在 2026 上半年已將 GeForce RTX 50 系列產能下調 30-40%;三大廠商雖合計投資 500 億美元擴充 HBM 產能,但新廠從動工到投產需要 18-24 個月。業界主流預估:消費顯卡缺貨要等到 2028-2029 才會回到正常的供需平衡。NVIDIA RTX 6000 系列發布時程也已傳出延後到 2027 年底。

對想買顯卡跑本地 LLM 的人:RTX 5090 二手市場詐騙猖獗——挖晶片退貨空殼、石頭毛巾包裝(中國論壇都已有實例)。加上 575W 功耗的電費——Mac 的統一記憶體架構在這個時間點反而是更理性的選擇。


用大陸模型,資料安全嗎?

台灣國安局 2025 年 11 月示警 5 款中國 AI 模型,問題集中在手機 App 層級——強制截圖、蒐集地理位置、回傳境外伺服器。

但透過 API 使用的風險型態完全不同。API 的風險只在於:你送進去的 Prompt 內容會被儲存。

判斷邏輯很簡單:你送進去的內容有多敏感?

  • 公開課程素材、行銷文案、一般 Agent 任務 → 風險可接受
  • 客戶個資、財務資訊、商業機密 → 換到受 GDPR/SOC2 規範的美系服務

涉及學員、案主資料的工作流,永遠不會碰中國 API;寫一篇教學文章的草稿?放心送進去。判斷敏感度,比拒絕一切更實用。


最後一件事:奈米級用戶的 10 萬月收入

我問了自己一個問題:靠 Agent workflow、內容創作、知識管理,月收入 10 萬台幣,可能嗎?

分析下來的答案是:可能,但前提是讓對的人看到你在做什麼。

多數在摸索 AI 的人,卡的不是能力,是曝光。他們在用工具,但沒人知道他們用得多好。在這個時間點,「會用 AI」已經不是門檻了——能拉開差距的,是你帶到 AI 面前的那個本來的自己。

奈米級用戶的差異化護城河,不在工具,在你過去那些跟 AI 無關的累積。一個 11 年的詠春教練拿 AI 去做的事情,跟一個剛畢業的工程師拿 AI 去做的事情,產出會長得完全不一樣——不是技術問題,是輸入素材本來就不同。

最大的風險不是市場,是繼續只跟 AI 對話、不讓外面的人看到你在做什麼。


作者:Frank(陳師父)。詠春拳教練(黃系第四代)/ 整復師(勞動部 22700 職類)/ 孵化署創辦人。11 年單兵創業,2025 年 10 月起進入 AI 系統建構。這篇文章是用我自己建的多代理系統輔助完成的。