跳到主要內容
🌐

這篇文章也有英文版本Read in English →

AI 實戰 · · 7 分鐘閱讀

我花四小時做了一個 AI 會議記錄工具,成本不到十塊台幣

我花四小時做了一個 AI 會議記錄工具,成本不到十塊台幣

每次開完會,你記得多少?

如果你跟我一樣,答案大概是「大方向記得,細節忘了一半」。

開會的時候不可能一邊記筆記一邊專心對話——在打字的時候,對方已經講到下一個重點了。會前準備了議程和重點筆記,但現場翻不到、來不及看。會後想整理筆記,拖一天就忘了關鍵細節。

市面上有 AI 會議記錄工具,但月費 $10-30 美元,而且會議內容會經過第三方伺服器。

所以我自己做了一個。


四小時,從想法到 Prototype

我的個人工作系統已經把 email、目標管理、知識管理全部接上了 AI。

但會議這一塊一直覺得卡卡的,想優化。

每次跟人開會,我不可能一邊記筆記。雖然我會事先做 playbook(會前準備——這次要談什麼、會議目標、對方是誰),但 playbook 放在旁邊很難看,不可能邊找邊對話。

一開始我只想解決一件事:把錄音轉文字,自動產出會議記錄。有逐字稿,有 playbook,讓 AI 把兩個合在一起,生成結構化的筆記——決策、行動項目、討論重點。

但做著做著,我發現一件事:既然我手上已經有 playbook 又有即時逐字稿,為什麼不讓 AI 在會議「進行中」就給我建議?

一個念頭冒出來:one click 教練。

我在第二個螢幕按一下按鈕,系統就把 playbook 的內容和最近十五秒的逐字稿丟給 Claude,幾秒後回傳一段建議——根據我的準備和現場狀況,告訴我接下來可以怎麼接。用 Sonnet 大約 3-4 秒,Opus 要 5-10 秒但建議品質更好,看場景取捨。

四個小時後,這個東西就能用了。


它長什麼樣

三欄式的 Web 介面:

左欄:Playbook

會前準備的所有東西——目標、議程、背景資料。上傳一份 Markdown 檔案就好。

中欄:即時逐字稿

開會的時候,AI 語音轉文字每 10 秒一個片段,邊錄邊產出逐字稿。線上會議用立體雙聲道模式,自動分離雙方的聲音,逐字稿上會標記「我方」和「對方」。

右欄:AI 教練

這是整個工具最關鍵的部分。

會議中隨時按一下按鈕,系統把 playbook 和最近的對話內容丟給 Claude Opus,幾秒後回傳一段建議。

今天和一位 Minerva 的校友聊到這個工具,他聽完之後馬上聯想到我們學校的講師模式——Minerva 的講師介面本來就有一個固定的 playbook,寫好整堂課的 flow,在老師需要的時候給 hint。

他說:「傳統教師手冊的邏輯就是先寫好劇本,在老師需要時給 hint。但課堂狀況千變萬化。」

這就是 AI 教練補的那一塊——playbook 是固定的框架,但 AI 能根據「現在正在發生什麼」來調整建議。

他用一句話總結了這個工具的定位:「你要談什麼是事先定好的,但現場需要即興,而且兩三秒就要反應。」

不能問 ChatGPT,沒時間切到另一個視窗打字。就是 one click,兩三秒出結果。

而且會議快結束的時候,還能讓 AI 對照 playbook 檢查:我會前列了三個目標,現在達成幾個了?還有什麼沒談到?


一小時不到十塊錢

這是成本拆解:

項目工具成本
語音轉文字Qwen3-ASR~$0.32/hr
逐字稿清理Claude Opus$0
會議摘要Claude Opus$0
即時教練Claude Opus$0
一小時會議合計~$0.32 ≈ 10 元台幣

為什麼 Claude Opus(Anthropic 最頂級的模型)是零?

因為我用 Claude Code 訂閱。Anthropic 的包月方案(Pro $20/月、Max $100 或 $200/月),API 用量包含在訂閱裡。所以不管我拿 Opus 做逐字稿清理、會議摘要、還是即時教練,都不額外收費。

唯一的變動成本是 AI 語音轉文字。我用阿里的 Qwen3-ASR 做錄音轉文字,國際價格 $0.00009/秒,一小時大約 $0.32。

對比一下市面上的 SaaS:

  • Otter.ai:$16.99/月,只有轉錄和摘要
  • Fireflies:$18/月,只有轉錄和摘要
  • 這個工具:一小時 $0.32,而且多了即時 AI 教練

而且所有資料都在本地處理。會議內容不經過第三方伺服器。


不只會議

做出來之後,我開始想到更多場景。

那位 Minerva 校友在對話中就自然列了好幾個:

顧問諮詢。 會前研究客戶背景和會議目標,寫進 playbook。現場談到一半,AI 提醒還有一個議題沒涵蓋到。

教育現場。 老師的 playbook 就是課本內容和教案。上課時 AI 根據學生的反應和課堂進度給 hint——不是替老師教,是在需要靈感的時候推一把。

面試。 不管是面試官還是求職者——JD、履歷、公司研究,這些都是 context。面試過程中 AI 根據對話內容提醒該補充或追問什麼。

諮商、引導、教練。 任何「有準備但需要即興」的場景。

共同點是什麼?有一個相對固定的框架(playbook),但現場千變萬化,需要在很短的時間內做出反應,而且不方便中途去查資料。

這個工具的價值不在轉錄——轉錄只是基礎設施。價值在「playbook + 即時對話 → AI 教練」這個組合。


技術選擇

這個工具有兩層模型:AI 語音轉文字(錄音轉文字、語音辨識)和文字處理(逐字稿清理、AI 會議記錄、即時教練)。兩層的選擇邏輯完全不同。

語音轉文字:Qwen3-ASR

中英混雜辨識是我的硬需求。我的會議至少有一半是中英夾雜的。Qwen3-ASR 原生支援 52 種語言和 22 種中文方言,中英混雜的辨識品質在目前測過的幾個引擎裡相對好,雖然還不完美,仍在持續測試其他模型。成本只要 $0.32/hr。

我設計了可切換的引擎系統——Qwen、Soniox、OpenAI、Groq 都可以用。不綁死在一家。如果某天有更便宜或更準的引擎出來,換一行設定就好。

文字處理:Claude Opus(訂閱制)

逐字稿清理、會議摘要、即時教練,全部交給 Claude Opus。為什麼不直接呼叫 API?因為 Claude Code 訂閱包含了 API 用量。如果我直接用 Anthropic API,Opus 的價格是 $15/M input tokens + $75/M output tokens,一場一小時的會議光是摘要和教練就要五塊美金以上。訂閱讓這筆成本變成零。

立體雙聲道。

線上會議用 BlackHole 擷取系統音訊,把麥克風和對方的聲音分到不同聲道。逐字稿自動標記誰在說話。這對會議記錄的品質影響很大——知道是誰說了什麼,不用猜。


整合進工作流

這個工具不是獨立存在的。它是我整個可程式化工作流的一環。

會前。 我輸入 /meeting prep,AI 自動從行事曆、來往的郵件、專案進度中提取背景資訊,三分鐘生成 playbook 初稿,跟我討論定版。這是一個 Claude Skill——寫一次,每次會前自動套用,不用從零開始準備。

會中。 打開 Web UI,選擇 playbook,開始錄音——三秒搞定。即時逐字稿 + AI 教練在第二個螢幕上跑。

會後。 按一下「Summarize」,Claude 根據逐字稿和 playbook 生成會議記錄——摘要、決策、行動項目、討論重點。按「Save」,自動存進我的知識管理系統。

知識循環。 會議中產生的洞察會變成知識卡片,歸檔進知識庫。下次開相關的會議,playbook 裡就能帶上過去的 context。

從「一個轉錄工具」變成「工作流的一環」,差別在哪裡?

差別在會議不再是一個孤島。每場會議的輸出,會成為下場會議的輸入。


寫在最後

會前 AI 備好 playbook,我做決策——哪些目標留、哪些刪。會中 AI 給建議,我決定怎麼接話。會後 AI 整理記錄,我確認就歸檔。

髒活累活交給機器,人只負責判斷和方向。

我的 AI 工作流已經接上了 email、目標管理、知識庫、內容創作。但之前每次開完會,還是得自己整理筆記——這個洞一直在漏水。四小時做的 prototype,把它補上了。


如果這篇讓你有了想法,訂閱每週一封信——我固定寫 AI 工作流、和一路上想通的事。

想聊聊怎麼把 AI 融入你的工作流?看看我的服務

#AI #meeting #agentic coding #Claude Code #building-in-public #語音轉文字 #錄音轉文字

常見問題

這個工具的成本是多少?
一小時會議約 $0.32 美元(約 10 元台幣)。因為我本來就用 Claude Code 訂閱方案工作,逐字稿清理、會議摘要、即時教練都包含在訂閱裡,唯一的額外成本是語音轉文字(~$0.32/hr)。
跟 Otter.ai、Fireflies 這些工具有什麼不同?
市面 SaaS 月費 $10-30,提供轉錄和摘要。這個工具多了即時 AI 教練——開會時 one click 就能根據你的 playbook 和現場對話取得建議。而且資料全部在本地處理,不經過第三方。
這個工具其他人可以用嗎?
這是我自己做的工具,目前是個人使用的 prototype,還沒有商品化。如果你對這個方向有興趣——不管是企業導入、產品合作、還是想聊聊怎麼做類似的系統——歡迎聯繫我。
支援哪些語言?
支援 52 種語言和方言,中英混雜辨識特別強。

相關文章