跳到主要內容
🌐

這篇文章也有英文版本Read in English →

AI 實戰 · · 8 分鐘閱讀

我花四小時做了一個 AI 會議記錄工具,成本不到十塊台幣

我花四小時做了一個 AI 會議記錄工具,成本不到十塊台幣

每次開完會,你記得多少?

如果你跟我一樣,答案大概是「大方向記得,細節忘了一半」。

開會的時候不可能一邊記筆記一邊專心對話——在打字的時候,對方已經講到下一個重點了。會前準備了議程和重點筆記,但現場翻不到、來不及看。會後想整理筆記,拖一天就忘了關鍵細節。

市面上有 AI 會議記錄工具,但月費 $10-30 美元,而且會議記錄存在別人的雲端。

所以我自己做了一個。


四小時,從想法到 Prototype

我的個人工作系統已經把 email、目標管理、知識管理全部接上了 AI。

但會議這一塊一直覺得卡卡的,想優化。

每次跟人開會,我不可能一邊記筆記。雖然我會事先做 playbook(會議作戰手冊——對方是誰、背景脈絡、希望達成的具體目標、要問的關鍵問題),但 playbook 放在旁邊很難看,不可能邊找邊對話。

一開始我只想解決一件事:把錄音轉文字,自動產出會議記錄。有逐字稿,有 playbook,讓 AI 把兩個合在一起,生成結構化的筆記——決策、行動項目、討論重點。

但做著做著,我發現一件事:既然我手上已經有 playbook 又有即時逐字稿,為什麼不讓 AI 在會議「進行中」就給我建議?

一個念頭冒出來:one click 即時戰術顧問。

我在第二個螢幕按一下按鈕,系統就把 playbook 的內容和最近十五秒的逐字稿丟給 Claude,幾秒後回傳一段建議——根據我的準備和現場狀況,告訴我接下來可以怎麼接。用 Sonnet 大約 3-4 秒,Opus 要 5-10 秒但建議品質更好,看場景取捨。

四個小時後,這個東西就能用了。


它長什麼樣

三欄式的 Web 介面:

Meeting Transcriber 三欄式介面

左欄:Playbook

你的會議作戰手冊——對方是誰、背景脈絡、希望達成的具體目標、要問的關鍵問題。上傳一份 Markdown 檔案就好。

中欄:即時逐字稿

開會的時候,AI 語音轉文字每 10 秒一個片段,邊錄邊產出逐字稿。線上會議用立體雙聲道模式,自動分離雙方的聲音,逐字稿上會標記「我方」和「對方」。

右欄:AI 戰術顧問

這是整個工具最關鍵的部分。

會議中隨時按一下按鈕,系統把 playbook 和最近的對話內容丟給 Claude Opus,幾秒後回傳一段建議。

今天和一位 Minerva 的校友聊到這個工具,他聽完之後馬上聯想到我們學校的講師模式——Minerva 的講師介面本來就有一個固定的 playbook,寫好整堂課的 flow,在老師需要的時候給 hint。

他說:「傳統教師手冊的邏輯就是先寫好劇本,在老師需要時給 hint。但課堂狀況千變萬化。」

這就是 AI 戰術顧問補的那一塊——playbook 是固定的框架,但 AI 能根據「現在正在發生什麼」來調整建議。

他用一句話總結了這個工具的定位:「你要談什麼是事先定好的,但現場需要即興,而且兩三秒就要反應。」

不能問 ChatGPT,沒時間切到另一個視窗打字。就是 one click,兩三秒出結果。

而且會議快結束的時候,還能讓 AI 對照 playbook 檢查:我會前列了三個目標,現在達成幾個了?還有什麼沒談到?


一小時不到十塊錢

這是成本拆解:

項目工具成本
語音轉文字Qwen3-ASR~$0.32/hr
逐字稿清理Claude Opus$0
會議摘要Claude Opus$0
即時戰術顧問Claude Opus$0
一小時會議合計~$0.32 ≈ 10 元台幣

為什麼 Claude Opus(Anthropic 最頂級的模型)是零?

因為我用 Claude Code 訂閱。Anthropic 的包月方案(Pro $20/月、Max $100 或 $200/月),API 用量包含在訂閱裡。所以不管我拿 Opus 做逐字稿清理、會議摘要、還是即時戰術顧問,都不額外收費。

唯一的變動成本是 AI 語音轉文字。我用阿里的 Qwen3-ASR 做錄音轉文字,國際價格 $0.00009/秒,一小時大約 $0.32。

對比一下市面上的 SaaS:

工具月費會前準備即時建議資料處理
Otter.ai$16.99/月雲端
Fireflies$18/月雲端
Krisp$16/月雲端
Jamie€25/月雲端
這個工具$0.32/hrAI 自動生成 playbook即時戰術顧問本地儲存

這些工具做的是「會中轉錄 + 會後摘要」。我的工具多了兩層:會前 AI 自動從行事曆、email、專案進度生成 playbook,會中根據 playbook 和即時對話給出戰術建議——而且跑的是 Claude Opus,Anthropic 最頂級的推理模型。音訊片段送到語音辨識 API、文字送到 Claude API 處理,但錄音檔和會議記錄全部留在本機,不存在任何第三方的雲端儲存。


不只會議

做出來之後,我開始想到更多場景。

那位 Minerva 校友在對話中就自然列了好幾個:

顧問諮詢。 會前研究客戶背景和會議目標,寫進 playbook。現場談到一半,AI 提醒還有一個議題沒涵蓋到。

教育現場。 老師的 playbook 就是課本內容和教案。上課時 AI 根據學生的反應和課堂進度給 hint——不是替老師教,是在需要靈感的時候推一把。

面試。 不管是面試官還是求職者——JD、履歷、公司研究,這些都是 context。面試過程中 AI 根據對話內容提醒該補充或追問什麼。

諮商、引導、教練。 任何「有準備但需要即興」的場景。

共同點是什麼?有一個相對固定的框架(playbook),但現場千變萬化,需要在很短的時間內做出反應,而且不方便中途去查資料。

這個工具的價值不在轉錄——轉錄只是基礎設施。價值在「playbook + 即時對話 → AI 戰術顧問」這個組合。


技術選擇

這個工具有兩層模型:AI 語音轉文字(錄音轉文字、語音辨識)和文字處理(逐字稿清理、AI 會議記錄、即時戰術顧問)。兩層的選擇邏輯完全不同。

語音轉文字:Qwen3-ASR

中英混雜辨識是我的硬需求。我的會議至少有一半是中英夾雜的。Qwen3-ASR 原生支援 52 種語言和 22 種中文方言,中英混雜的辨識品質在目前測過的幾個引擎裡相對好,雖然還不完美,仍在持續測試其他模型。成本只要 $0.32/hr。

我設計了可切換的引擎系統——Qwen、Soniox、OpenAI、Groq 都可以用。不綁死在一家。如果某天有更便宜或更準的引擎出來,換一行設定就好。

文字處理:Claude Opus(訂閱制)

逐字稿清理、會議摘要、即時戰術顧問,全部交給 Claude Opus。為什麼不直接呼叫 API?因為 Claude Code 訂閱包含了 API 用量。如果我直接用 Anthropic API,Opus 的價格是 $15/M input tokens + $75/M output tokens,一場一小時的會議光是摘要和戰術顧問就要五塊美金以上。訂閱讓這筆成本變成零。

立體雙聲道。

線上會議用 BlackHole 擷取系統音訊,把麥克風和對方的聲音分到不同聲道。逐字稿自動標記誰在說話。這對會議記錄的品質影響很大——知道是誰說了什麼,不用猜。


整合進工作流

這個工具不是獨立存在的。它是我整個可程式化工作流的一環。

會前。 我輸入 /meeting prep,AI 自動從行事曆、來往的郵件、專案進度中提取背景資訊,三分鐘生成 playbook 初稿,跟我討論定版。這是一個 Claude Skill——寫一次,每次會前自動套用,不用從零開始準備。

會中。 打開 Web UI,選擇 playbook,開始錄音——三秒搞定。即時逐字稿 + AI 戰術顧問在第二個螢幕上跑。

會後。 按一下「Summarize」,Claude 根據逐字稿和 playbook 生成會議記錄——摘要、決策、行動項目、討論重點。按「Save」,自動存進我的目標和專案管理系統。

知識循環。 開完一場客戶會議,會議記錄自動存進對應的專案資料夾。AI 問你:「記錄裡有三個行動項目,要排進本週還是先記著?」你決定完,隔天早上 Brief 提醒你「昨天答應客戶的報價還沒寄」。下次跟同一個客戶開會,playbook 裡自動帶著上次的決策和執行結果。

從「一個轉錄工具」變成「工作流的一環」,差別在哪裡?

差別在會議不再是一個孤島。每場會議的輸出,會成為下場會議的輸入。


寫在最後

會前 AI 備好 playbook,我做決策——哪些目標留、哪些刪。會中 AI 給建議,我決定怎麼接話。會後 AI 整理記錄,我確認就歸檔。

判斷和方向是人的事,其餘交給系統。

我的 AI 工作流已經接上了 email、目標管理、知識庫、內容創作——我把它叫做可程式化工作流。但之前每次開完會,還是得自己整理筆記。這個洞一直在漏水。四小時做的 prototype,把它補上了。

做完之後跟幾個朋友聊到,有人問能不能用在他們公司,也有人想自己用。但從 prototype 到產品,要處理的東西完全不同:更多使用場景、邊界情況、穩定性、部署方式。我不想為了做產品而做產品。但如果你也想要這個東西——來讓我知道


如果這篇讓你有了想法,訂閱每週一封信——我固定寫 AI 工作流、和一路上想通的事。

#AI #meeting #agentic coding #Claude Code #building-in-public #語音轉文字 #錄音轉文字

常見問題

這個工具的成本是多少?
一小時會議約 $0.32 美元(約 10 元台幣)。因為我本來就用 Claude Code 訂閱方案工作,逐字稿清理、會議摘要、即時戰術顧問都包含在訂閱裡,唯一的額外成本是語音轉文字(~$0.32/hr)。
跟 Otter.ai、Fireflies 這些工具有什麼不同?
市面 SaaS 月費 $10-30,提供轉錄和摘要。這個工具多了即時 AI 戰術顧問——開會時 one click 就能根據你的 playbook 和現場對話取得建議。錄音檔和會議記錄全部留在本機,不存在第三方雲端儲存。
這個工具其他人可以用嗎?
這是我自己做的工具,目前是個人使用的 prototype,還沒有商品化。如果你對這個方向有興趣——不管是企業導入、產品合作、還是想聊聊怎麼做類似的系統——歡迎聯繫我。
支援哪些語言?
支援 52 種語言和方言,中英混雜辨識特別強。

相關文章