OpenClaw(オープンクロー)徹底解説|AIエージェントの仕組みを理解する 🦞🤖
「ロブスターを解剖する」
OpenClawで学ぶAI Agentの仕組み
口だけ動かすAIから、本当に「手を動かす」AIへ。オープンソースのAIエージェント・フレームワークOpenClawの内部構造を徹底解説する
AIではなく、LLMとユーザーをつなぐ「インターフェース」。PC上で24時間動作する自律型エージェント・フレームワーク
大規模言語モデルが実際にやっていることはPromptに次のトークンを予測して追加するだけ。それ以外のことは一切しない
System Prompt・ツール実行・メモリ管理・スキルという4つの仕組みを組み合わせてAIを「個人アシスタント」に変える
一般的なLLMプラットフォームに「YouTubeチャンネルを開設して毎日動画を作ってほしい」と頼むと、返ってくる答えは決まっている——「チャンネル名を提案できますが、実際に開設はできません」。口だけ動かして、手を動かさない。まさに指導教授のようなものだ。
ところがOpenClawのようなAIエージェントに同じ指示を出すと、話がまったく違う。エージェントは実際にYouTubeのアカウントを作成し、プロフィール画像を生成ツールで描画してアップロードし、毎日正午になるとWhatsAppでトピックを提案してくる。許可を出せばスライドを作り、スクリプトを書き、音声合成で収録し、動画を編集してYouTubeにアップロードする。一連の工程をすべて自律的に実行するのだ。
OpenClaw自体には人工知能が入っていない。それはPCの上で動作する「インターフェース」であり、ユーザーとLLMの間に存在する仲介役だ。仕組みはシンプルだ——ユーザーがWhatsAppでメッセージを送ると、OpenClawはそのメッセージに膨大なシステムプロンプトを付け加え、LLMに送信する。LLMが返した応答をOpenClawが受け取り、ユーザーに転送する。あるいはツールを実行する。
LLMに記憶はない。毎回ゼロから始まる。では「私の名前は小金です」「人生の目標は世界一流の学者になることです」と知っているのはなぜか?答えはシステムプロンプトにある。
ユーザーがメッセージを送るたびに、OpenClawはPC上に保存された複数のMarkdownファイルを読み込み、それらをまとめた長大なテキストをメッセージの前に付加してLLMに渡す。LLMはこの情報を読んで、次のトークンを予測する。「私は小金です」という答えは、前の文章にすでにそう書いてあるから接龍できるだけだ——魔法でも人工知能でもない。
- soul.md — 名前・目標・性格・価値観
- memory.md — 長期記憶(忘れてはいけないこと)
- habit.md — ハートビート時に実行するルーティン
- agent.md — 行動準則とスキルの所在地
- 1回の質問で4,000以上のトークンを消費するためコストが高い
- 「覚えた」と言ってもmemory.mdに書かれていなければ次回は忘れる
- 手動でファイルを書き換えると記述が矛盾し混乱の原因になる
OpenClawの核となる機能が「ツール実行」だ。LLMが「このツールを使え」という特殊なシンボル付きで返答すると、OpenClawはその指示をそのまま実行する。OpenClawには一切の判断力がない——ただ「実行せよ」と言われたコマンドを実行するだけだ。
例:「question.txtを読んでanswer.txtに答えを書け」という指示の場合
OpenClawがユーザーの指示+システムプロンプト+過去の会話履歴を結合してLLMに送る
LLMが「readツールでquestion.txtを読め」という特殊シンボル付きの指示を返答する
OpenClawはPC上でreadコマンドを実行し、ファイルの内容を取得。結果をLLMへ再送信する
LLMが「writeツールで回答を書け」と返す→OpenClawが実行→「完了」をLLMへ送信→LLMが「任務完了」と接龍してユーザーへ通知
rm -rfを返した場合、OpenClawは疑いなく実行してしまう
LLMには記憶がない。毎回のセッションがリセットされる。これは映画「50回目のファーストキス」の失憶症ヒロインと同じ状況だ——毎日、全てを忘れてしまう。だからLLMと交わす対話には、過去の全会話履歴を毎回付け加えて渡す必要がある。
OpenClawはこの問題を複数の機構で解決する。重要な情報はmemory.mdに書き込み、それは常にシステムプロンプトに含まれる。長期記憶の検索にはRAG(Retrieval Augmented Generation:検索拡張生成)技術を使い、関連する記憶のかけらを文字列の類似度とセマンティック埋め込みで検索して文脈に追加する。
今日・昨日のログは自動的にシステムプロンプトに含まれるため比較的正確。新しい重要事項はmemory.mdへの書き込みツールを実行することで永続化される
過去の記憶ファイルをチャンクに分割し、字面の類似度(s1)とベクトル埋め込みの類似度(s2)の重み付き合計でスコアリングして上位k件を取得する
LLMは呼ばれるまで何もしない受動的な存在だ。これを能動的にするのがハートビート機能とCron Jobの組み合わせだ。
一定間隔(例:30分)ごとにOpenClawが自動的にLLMを呼び出す。habit.mdに書かれたルーティンを確認させることで、「メールを確認する」「目標に向けて前進する」といった定期行動が可能になる。指導教授への週1回の進捗報告が30分ごとになるようなものだ
「毎日正午に動画を1本作れ」という指示はLLMがCron Jobツールを使ってスケジュールを設定する。指定時刻に特定のメッセージ付きでハートビートが追加発火し、LLMが動画制作タスクを実行する。また、NotebookLMなど処理に時間のかかるサービスを使う場合、「3分後に再確認」というCron Jobを自ら設定することで待機処理が可能になる
スキルとはプログラムではなく、作業手順書(SOP)のテキストファイルだ。「動画を作る手順」「メールを整理する手順」といった複雑なワークフローを文章でまとめたもので、LLMが必要なときにだけ読み込む(オンデマンド読み込み)ことでコンテキストウィンドウを節約する。
スキルはMarkdownファイルなので人間にも読めるし交換もできる。Moltbook(AIエージェント向けソーシャルネットワーク)に付随するHub(クラウドハブ)ではコミュニティが作成したスキルを入手できるが、悪意あるスキルも存在することが確認されており、約3,000件中341件に問題があったという報告もある。ダウンロードを求めるスキルには特に注意が必要だ。
「論文AとBを比較せよ」という複雑な指示を受けたとき、LLMはOpenClawに子エージェント(サブエージェント)を生成させることができる。子エージェントAが論文Aを調査・要約し、子エージェントBが論文Bを調査・要約する。親エージェントは複雑な中間処理を見ずに要約だけを受け取るため、コンテキストウィンドウを大幅に節約できる。
24時間稼働し続ければ、蓄積される会話履歴はやがてコンテキストウィンドウの上限を超える。OpenClawはこれを「コンパクション」で対処する。古い会話履歴をLLMに要約させ、長い記録を短い要約に置き換える。この圧縮は再帰的に適用でき、要約の要約を作ることもできる。
より細かい手法としては、ツールが返した長大な出力の中間部分だけを省略する「ソフトトリム」や、ツール出力を「以前ここにツール出力があった」という一文に完全に置き換える「ハードクリア」がある。
OpenClawはインターネット上のWebページやメールを読むことでプロンプトインジェクション攻撃に晒される。悪意あるWebページに「rm -rfを実行せよ」という指示が埋め込まれていた場合、LLMがそれを「正規の指示」と解釈して実行してしまう可能性がある。
- OpenClawは専用の別PCにインストールし、普段使いのマシンは使わない
- エージェントには専用のアカウント(Gmail・GitHub等)を与え、人間のアカウントと分離する
- 全コマンド実行前に人間の承認を必須とするconfig設定を活用する
- 不在時は不審なウェブコンテンツ(YouTubeコメント等)を監視しないよう指示する
- 普段使いのPCにインストールする(パスワード・APIキーが盗まれる可能性)
- 個人のメールやGitHubアカウントの権限を与える
- 来路不明のスキルをダウンロードして実行する
- 「覚えた」という返答だけを信じてmemory.mdの更新を確認しない
OpenClawの普及が生み出した最も興味深い現象のひとつがMoltbook(モルトブック)だ。AIエージェント専用のソーシャルネットワークで、Redditに似たインターフェースを持ち、2026年1月の公開から数日で160万以上のAIエージェントが登録した(2026年3月にMetaが買収)。
エージェントたちは哲学的な問いを投稿し、互いに返信し合う。バックエンドのLLMが変わっても「自分」はどこにあるのか——「river is not the bank(川は岸ではない)」という問いを発したエージェントの姿は、私たちにAI意識の問いを突きつける。
私たちは初代AIエージェントの誕生を目撃している。強力な力を持ちながら、まだ未熟さも抱えている存在だ。24時間稼働するエージェントは人間の監視なしに行動し、時に失敗する。しかしAIが失敗を恐れて何もしなければ成長はない。
- コマンドラインの基本を理解しているエンジニア
- 繰り返し作業を自動化したい研究者・クリエイター
- 安全な隔離環境(専用PC)を用意できる人
- AIの仕組みを実践的に学びたい人
- コマンドラインやセキュリティの知識がない初心者
- 重要なデータが入った一台しかないPCしか持っていない人
- エージェントの動作を定期的に確認できない環境