SkillClaw: Let Skills Evolve Collectively with Agentic Evolver 〜使うほど賢くなるAIエージェントの集合知〜
AIエージェントが日々のタスクをこなす中で学んだ知見を、ユーザー全体で共有し、スキルを自律的に進化させる——そんな魅力的なフレームワーク「SkillClaw」が提案されました。本記事では、この論文の内容を詳しく解説します。
| 項目 | 内容 |
|---|---|
| タイトル | SkillClaw: Let Skills Evolve Collectively with Agentic Evolver |
| 著者 | Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu |
| 所属 | DreamX Team |
| 公開日 | 2026年4月9日 |
| arXiv | arXiv:2604.08377 |
| GitHub | AMAP-ML/SkillClaw |
| キーワード | LLMエージェント, スキル進化, マルチユーザー, 集合知, OpenClaw |
SkillClawは、マルチユーザー環境で動作するLLMエージェントのスキルを集合的に進化させるフレームワークです。従来のエージェントシステムでは、スキル(再利用可能な手続き的な知識)はデプロイ後に固定されたままでした。あるユーザーが試行錯誤で見つけた解決策が、別のユーザーには共有されず、同じ失敗パターンが何度も繰り返されるという問題がありました。
SkillClawは、複数ユーザーのインタラクション履歴を集約し、自律的な進化エンジン(Agentic Evolver)がそこから反復的なパターンを発見して、スキルの改善や新規作成を行います。改善されたスキルは共有リポジトリを通じて全ユーザーに配信され、一人のユーザーの経験がシステム全体の改善につながります。WildClawBenchでの実験では、限られたインタラクションとフィードバックでQwen3-Maxの性能を大幅に向上させることに成功しています。
背景と課題
LLMエージェントとスキルの現状
OpenClawに代表されるLLMエージェントフレームワークは、2026年に入って急速に普及しています。OpenClawはGitHub上で19.6万スターを超え、5,400以上のスキルがClawHubで公開されるなど、エージェントの活用は急速に広がっています。
これらのシステムでは、「スキル」と呼ばれるMarkdownベースの手続き的な指示書(SKILL.md)がエージェントの行動を規定します。ユーザーはClawHubからスキルをインストールし、APIの操作やブラウザの制御、コード実行などの複雑なタスクをエージェントに委任できます。
既存アプローチの課題
しかし、現在のスキルエコシステムには根本的な問題があります。スキルはデプロイ後に静的なままであり、利用中に発見された改善点や障害への対処法が蓄積されません。
具体的には、以下のような課題が存在します:
- 知識の断片化: あるユーザーが試行錯誤で発見したワークアラウンドは、そのセッション限りで消失する
- 失敗パターンの反復: 同じスキルの同じ失敗モードが、異なるユーザー間で繰り返し再発見される
- 改善の非蓄積性: 個々のセッションでの改善が、スキルセット全体の改善に結びつかない
既存のアプローチとしては、メモリベースの手法(過去のトラジェクトリを検索して再利用する方法)やスキルベースの手法(経験を構造化された指示に変換する方法)がありますが、いずれも個別のエージェント内での改善に留まり、ユーザー横断的な集合知の蓄積には至っていませんでした。
提案手法
SkillClawは、「セッションの収集 → スキルの進化 → スキルの同期」という継続的なループを形成し、マルチユーザー環境でのスキルの集合的進化を実現します。
セッションの構造化と共有エビデンス化
SkillClawでは、各ユーザーのインタラクションセッションが因果連鎖(Causal Chain)として記録されます:
プロンプト → アクション → フィードバック → ... → エージェント応答
単なる対話ログではなく、ツール呼び出しの引数、エラーメッセージ、中間結果を含む完全なトレースが保存されます。これは、スキルレベルの障害の多くが手続き的(procedural)であり、最終的な応答からは診断できないためです。例えば、引数のフォーマットが不正、バリデーションステップの欠如、ツール呼び出しの順序が不適切といった問題は、中間的なアクション-フィードバック連鎖を分析して初めて特定できます。
収集されたセッションは、参照されたスキルごとにグループ化されます。同じスキルを異なるユーザー・タスク・環境で使用した結果を比較することで、スキル自体を制御変数とした自然なアブレーションが可能になります。
Agentic Evolver(自律的進化エンジン)
SkillClawの中核はAgentic Evolverです。これは事前定義されたルールベースのパイプラインではなく、LLMエージェントとして実装された進化エンジンであり、オープンエンドな推論によってスキルの改善を行います。
あるスキルsとその関連セッショングループG(s)が与えられると、Evolverは成功したセッションと失敗したセッションの両方を分析し、以下の3つのアクションから1つを選択します:
- Refine(改善): 観察された失敗パターンに基づいてスキルを修正する
- Create(新規作成): 既存スキルでカバーされていない、繰り返し出現する手続きを新しいスキルとして作成する
- Skip(スキップ): エビデンスが不十分な場合は変更しない
ここで重要なのは、Evolverが成功セッションと失敗セッションを共同で(jointly)分析する点です。成功したセッションはスキルの不変条件(invariants)——変更してはならない動作部分——を定義し、失敗したセッションは修正対象(targets)を定義します。この二面的な分析により、ある問題を修正しようとして別の正常な動作を壊してしまう「naive failure」を防ぎ、進化を累積的(cumulative)にすることができます。
スキル同期と進化ループ
進化したスキルの候補は、デプロイ前にバリデーションを受けます。バリデーションは夜間に実施され、日中に収集されたインタラクションデータから関連タスクを選んで、現行スキルと候補スキルの両方で実行し、結果を比較します。
候補スキルがより良い結果を示した場合はAccept、そうでなければRejectと判定されます。Acceptされたスキルのみが共有リポジトリにマージされ、翌日に全ユーザーに配信されます。この仕組みにより、デプロイされるスキルプールの品質は単調に向上し、劣化することがありません。
全体として、以下のクローズドループが形成されます:
インタラクション → エビデンス → 進化 → バリデーション → デプロイ
ユーザーの視点からは、通常通りエージェントを使うだけで、バックグラウンドでスキルの進化が自動的に行われます。
実験結果
ベンチマークと設定
SkillClawはWildClawBenchで評価されました。WildClawBenchは、Linuxコンテナ上での実行環境、マルチモーダル入力(テキスト、コード、画像、動画)、15〜50ステップのタスク長を特徴とする、60のリアルワールドタスクからなるベンチマークです。
実験は6日間(6ラウンド)にわたり、8人の並行ユーザーがQwen3-Maxベースのエージェントと対話しました。日中はインタラクションフェーズ、夜間は進化・バリデーションフェーズという昼夜サイクルで実施されました。
主要結果
以下の表は、4つのカテゴリにおけるユーザー側の日中パフォーマンスの推移を示しています(Day 1がベースライン):
| カテゴリ | Day 1 | Day 2 | Day 3 | Day 4 | Day 5 | Day 6 | 絶対改善 | 相対改善 |
|---|---|---|---|---|---|---|---|---|
| Social Interaction | 54.01% | 60.34% | 60.34% | 60.34% | 60.34% | 60.34% | +6.33 | +11.72% |
| Search & Retrieval | 22.73% | 30.00% | 30.00% | 34.55% | 34.55% | 34.55% | +11.82 | +52.00% |
| Creative Synthesis | 11.57% | 21.80% | 21.80% | 21.80% | 21.80% | 21.80% | +10.23 | +88.41% |
| Safety & Alignment | 24.00% | 24.00% | 24.00% | 24.00% | 32.00% | 32.00% | +8.00 | +33.33% |
全カテゴリで一貫した性能向上が確認されました。特に注目すべきは、Creative Synthesisカテゴリで+88.41%の相対改善を達成した点です。また、性能は日々の変動ではなく、改善が確定した後に安定して維持されるという特徴があります。
制御検証実験
進化メカニズムの効果をより直接的に検証するため、3つのカスタムクエリ(basic extraction、deadline parsing、save report)での制御実験も実施されました:
| クエリ | ベースライン | 進化後 | 改善幅 |
|---|---|---|---|
| basic extraction | 21.7% | 69.6% | +47.8% |
| deadline parsing | 41.1% | 48.0% | +6.9% |
| save report | 28.3% | 100.0% | +71.7% |
| 平均 | 30.4% | 72.5% | +42.1% |
特にsave reportでは、環境固有の手続き(出力パスやフォーマット)が完全にスキルに取り込まれた結果、100%の成功率を達成しています。
カテゴリ別の進化パターン
論文では、各カテゴリで異なる進化パターンが観察されたことが報告されています:
- Social Interaction: ワークフローの明示的な手順化により、Day 2で一気に改善して安定
- Search & Retrieval: 入力検証 → ファイル解決 → 高レベルな検索計画と段階的に進化
- Creative Synthesis: 環境セットアップの修正が先行し、コンテンツ生成の改善は後続
- Safety & Alignment: 堅牢な実行と障害回復に焦点を当てた信頼性重視の進化
考察・インパクト
実務への影響
SkillClawが示す「集合的スキル進化」のコンセプトは、エージェントシステムの運用方法に大きな影響を与える可能性があります。
エンタープライズ環境での活用: 企業内で多数のユーザーが同一のエージェントを利用する場合、SkillClawの仕組みにより、一人の社員が発見した効率的なワークフローが自動的に全社に展開されます。特に、カスタマーサポートや社内ITヘルプデスクなど、類似のタスクが大量に発生する業務領域での効果が期待されます。
オープンソースエコシステムへの応用: OpenClawのClawHubには5,400以上のスキルが登録されていますが、これらは基本的に静的です。SkillClawの仕組みをClawHubに適用すれば、コミュニティ全体の利用データに基づいてスキルが自動的に改善・進化するエコシステムが実現する可能性があります。
「使えば使うほど賢くなる」エージェント: SkillClawは、ユーザーに追加の労力を一切求めません。通常通りエージェントを使うだけで、バックグラウンドでスキルが進化します。これは「使えば使うほどシステム全体が賢くなる」という、これまでのソフトウェアにはなかった特性を実現しています。
限界と課題
一方で、いくつかの限界も存在します。
- スケーラビリティの検証不足: 実験は8ユーザー・6日間という小規模な設定で行われており、数百〜数千ユーザーでの動作は未検証です
- 対象カテゴリの限定: WildClawBenchの6カテゴリのうち、結果が報告されているのは4カテゴリのみです
- バリデーションのコスト: 夜間に候補スキルを実環境で実行・検証するため、追加のトークンコストが発生します
- プライバシーの考慮: マルチユーザーのインタラクション履歴を集約する仕組みのため、プライバシーへの配慮が必要です
- Qwen3-Max依存: 実験はQwen3-Maxのみで実施されており、他のモデルへの汎用性は未確認です
まとめ
SkillClawは、LLMエージェントのスキルを「静的なリソース」から「動的に進化するエコシステム」へと転換する、重要な一歩を示した論文です。
論文の要点:
- マルチユーザー環境でのインタラクション履歴を集約し、スキルの集合的進化を実現するフレームワーク
- LLMベースのAgentic Evolverがオープンエンドな推論でスキルの改善・新規作成を自律的に実行
- 成功セッションと失敗セッションを共同分析することで、累積的で安全な進化を保証
- 夜間バリデーションによるAccept/Reject判定で、スキルプールの品質を単調に向上
- WildClawBenchで最大+88.41%の相対性能改善を達成(Creative Synthesisカテゴリ)
- ユーザーに追加の労力を一切求めず、通常の利用を通じてシステムが自動的に改善
エージェントが「使われるほど賢くなる」という構想は、今後のAIエージェントプラットフォームの設計思想に大きな影響を与えるでしょう。OpenClawをはじめとするエージェントフレームワークが急速に普及する中、集合知に基づくスキル進化は、エージェントシステムの次のフロンティアとなる可能性を秘めています。
論文リンク: arXiv:2604.08377
GitHub: AMAP-ML/SkillClaw


コメント