paint-brush
WLTech の AI エージェントが 100 万ドルのチャレンジで大勝利@wltechai
121 測定値

WLTech の AI エージェントが 100 万ドルのチャレンジで大勝利

長すぎる; 読むには

AGI は、知識とスキルを真に一般化できる AI システムの作成を目指しています。まったく新しい状況に適用できる基本原理を学習できます。現在の AI では、何千時間ものトレーニング データが必要になります。
featured image - WLTech の AI エージェントが 100 万ドルのチャレンジで大勝利
WLTech.AI (WebLab Technology) HackerNoon profile picture


運転の学習について少し考えてみましょう。私たちは誰でも、数回のデモンストレーションで運転の基本原理を学ぶことができます。ステアリング、加速、ブレーキなどの概念を理解すれば、小型セダンから大型トラックまで、あらゆる車にそれらのスキルを適用できます。これらのスキルがあれば、これまで遭遇したことのないさまざまな道路状況、天候、交通状況にもすぐに適応できます。ただし、現在の AI では、特定の車両や状況ごとに何千時間ものトレーニング データが必要になりますが、AGI は運転の基本原理を理解し、それを幅広く適用することができます。


AGI は、知識とスキルを真に一般化できる AI システムの作成を目指しています。つまり、まったく新しい状況に適用できる基本原理を学習することです。車の運転、チーズ ゲーム、囲碁、Minecraft などです。これは、主に膨大なトレーニング データセット全体にわたる高度なパターン マッチングを通じて動作する LLM などの今日の AI システムとは大きく異なります。


現代の法学修士は、一見すると知的な会話を交わし、複雑な問題を解決できますが、基本的には、トレーニング中に遭遇したパターンを認識して再結合することで機能します。これは、真の因果モデルや世界の抽象的な表現を構築しないため、真の理解と一般化というよりも、非常に高度な暗記と統計的相関に似ています。法学修士が一般化しているように見える場合、通常は、より深い原理を理解しているのではなく、トレーニング データ内の微妙な統計パターンを見つけているだけです。

ARC が重要な理由は何ですか?

ARC は、AI 研究における重要な測定問題、つまり AI システムが一般化できるかどうかを実際にどのようにテストするかという問題に取り組んでいます。


従来のベンチマークでは、通常、大規模なトレーニング データセットを使用して特定のタスクのパフォーマンスを測定しますが、高いスコアは必ずしも真の一般化能力を示すものではありません。AI は、真の理解を深めるのではなく、トレーニング データ内のパターンを記憶するだけで優れたパフォーマンスを発揮する場合があります。


F. Chollet 氏は次のように書いています。「私たちの知る限り、ARC は既存の機械学習技術 (ディープラーニングを含む) では実現できないようです。」


主な困難は次のとおりです。

– 期待される出力はラベルやラベルのセットではなく、最大 30 x 30 のサイズで最大 10 色のカラー グリッドです。したがって、これは構造化予測の領域に属します。

– 予測出力は期待出力と正確に一致する必要があります。1 つのセルが間違っていると、タスクは失敗したとみなされます。これを補うために、入力グリッドごとに 3 回の試行が許可されます。

– 各タスクには、通常、2 ~ 4 個のトレーニング インスタンス (入力グリッド + 出力グリッド) と、予測を行う必要がある 1 ~ 2 個のテスト インスタンスがあります。

– 各タスクは、入力グリッドから出力グリッドへの個別の変換に依存します。特に、トレーニング タスクで学習した変換を再利用することで評価タスクを解決することはできません。各タスクは個別の学習問題であり、ARC が評価するのは広範な一般化と少数ショットの学習です。


ARC は、各パズルに 3 ~ 5 個のサンプルのみ、つまり少数のサンプルのみを提供することで、より厳密な一般化テストを提供します。この最小限のトレーニング データにより、AI は広範なパターン マッチングに頼ることができず、人間と同じように、基礎となる原理を抽出して新しい状況に適用する必要があります。また、パズルは、近道や暗記戦略に抵抗するように意図的に設計されています。


ARC が特に価値があるのは、一般化能力を定量的に測定できる点です。AI システムが哲学的な意味で本当に「理解」しているかどうかを議論するのではなく、慎重に設計された推論タスクの具体的なパフォーマンスを測定できます。これにより、研究者は人工汎用知能に向けた進歩の明確なベンチマークを得ることができます。


ARC ベンチマークとそれが AI 開発にどのような意味を持つのかについて詳しく知りたい場合は、まずこのビデオをご覧ください。

ARCを解決するためのアプローチ

  1. ブルートフォースアプローチ

2020 年の Kaggle コンテストでは、ARC を解決する最初のアプローチの 1 つである、定義済みの変換の空間を総当たりで探索する手法が発表されました。優勝したソリューションでは、142 個の手作業で作成されたグリッド操作を含むドメイン固有言語 (DSL) が構築されました。これらの操作の組み合わせを体系的に検索することで、プライベート評価タスクで 20% の精度を達成しました。文法進化を使用して変換検索をガイドする別の同様のソリューションでは、3~7.68% の精度を達成しました。


これらのソリューションは当初の成功が注目されましたが、重要な限界が明らかになりました。つまり、実際の理解や一般化の能力を開発するのではなく、事前にプログラムされたルールの徹底的な検索に依存していたのです。プログラムによる検索と真の知能との間のこのギャップは、ARC が一般化能力を測定するための難しいベンチマークであり続けている理由を示しています。


  1. 最小記述長 (MDL)

現在のアプローチ ( https://github.com/sebferre/ARC-MDL/tree/master ) は、パターンを発見し、データを可能な限り簡潔に説明するモデルを構築するために使用される基本原則に基づいています。MDL の核心は、「一部のデータに最適なモデルは、データの大部分を圧縮するモデルである」ということです。


このソリューションでは、グリッド パターンを効率的に記述するために、特殊なモデリング言語を使用します。この言語は、入力グリッドと出力グリッドの両方を基本要素の組み合わせとして構造的に表現する方法を提供します。


最高レベルでは、各パズルはペアとして表され、2 つのグリッドが含まれます。

● 入力グリッド(in)

● 出力グリッド(out)


各グリッドは、次の 3 つのコンポーネントによって定義されます。

  1. サイズベクトル(高さと幅を定義)
  2. 背景色
  3. オブジェクトを含むレイヤーのリスト


オブジェクトは配置された図形であり、各図形は次のいずれかになります。

● 単色の点

● 指定されたサイズ、色、マスクを持つ長方形


マスク システムは特に強力で、長方形をさまざまな形にすることができます。

● フル(実線の長方形)

● 枠線(アウトラインのみ)

● チェックボードパターン(偶数または奇数)

● クロスパターン(プラスまたはマイナスの形)

● カスタムビットマップパターン


この言語により、システムは複雑なグリッド パターンをコンパクトに記述できます。たとえば、10 x 10 グリッドをピクセルごとに (100 個の値で) 保存する代わりに、「位置 (2,2) に 3 x 3 の赤い四角形がある黒い背景」として保存します。これにより、はるかに少ない値で基本的な構造を捉えることができます。


パターンを検索するとき、システムはこの言語を使用して、入力グリッドと出力グリッドの両方の最も簡潔な説明を見つけようとします。優れたソリューションは、入力と出力の間で要素を再利用する傾向があり (入力から形状を取得して出力で変換するなど)、これにより説明が短くなり、圧縮率が向上します。


このアプローチの成功 (400 個のトレーニング タスクのうち 94 個を解決) は、この言語が特定の例への過剰適合を回避するために十分に制約されながら、ARC パズルに存在する主要なパターンの多くを捉えていることを示唆しています。


  1. 基本的な LLM による直接出力予測

LLM は多くの分野で優れた能力を発揮していますが、ARC の解決に直接使用すると、機会と課題の両方が生じます。単純なアプローチでは、LLM に入力と出力の例を提供し、新しい入力に対する答えを予測するように要求します。ただし、この方法には大きな制限があります。このコンテキストでは、LLM の空間推論能力は非常に限られており、グリッド変換を予測しようとすると幻覚に陥りやすくなります。


  1. LLM問題解決のための思考連鎖強化

このアプローチは、直接予測法に基づいており、まず LLM に入力と出力のペアで観察されるパターンを分析して記述するよう求めます。この追加の推論ステップは、LLM が問題を分解するのを助けることでより良い結果をもたらしますが、それでも同じ基本的な制限があります。モデルは、潜在的なパターンを特定した後でも、最終的な出力を予測しようとすると、高い確率で幻覚を示します。これは、明示的な推論ステップを追加するだけでは、ARC の課題を解決する際の LLM の空間推論の制限を克服するには不十分であることを示しています。

AIエージェントとAGIにおけるその役割

WLTech.AIでは、AGI の追求において AI エージェントが果たす役割は非常に大きいと考えています。AI エージェントは、設定と動的にやり取りし、学習内容に基づいて適応し、自ら学習するように設計されています。一度だけトレーニングされた静的モデルとは異なり、AI エージェントは継続的なやり取りから学習し、変化する状況に適応できるため、AGI の開発において不可欠な要素となります。


AI エージェントはオペレーションの頭脳であり、タスクの特定の要求に合わせてさまざまな技術を調整します。シンボリック システムは、正確なルールベースの推論に優れているため、回転や反射などの変換を理解する必要があるタスクに最適です。ニューラル ネットワークは、パターンを認識し、データから一般化することに優れているため、ARC タスクの基本的な構造を識別するのに非常に役立ちます。


しかし、ARC の課題は記号操作やパターン認識だけでは終わりません。多くのタスクでは、新しいルールの作成、接続の作成、新しい状況への適応など、より高度な抽象化レベルが必要です。言語モデルは、プログラム合成や抽象的推論などに使用できるため、ここでは役立ちます。検索アルゴリズムは、可能な変換を効率的に探索してソリューションを特定できるため、ボックス内のもう 1 つのツールです。一方、計画システムは、複雑な問題を 1 つずつ分解して取り組むためのフレームワークを提供します。


AI エージェントが非常に賢いのは、これらすべての異なるアプローチを組み合わせられるからです。一度に 1 つの方法だけを使用するのではなく、それぞれの固有の問題に対処するために最適な技術の組み合わせを評価して展開します。この臨機応変な適応能力は人間を際立たせ、AGI を進化させる上で重要な要素です。

AI エージェントは本質的にはインテリジェントなコーディネーターです。何が機能し、何が機能しなかったかを継続的に記録し、過去の経験から学習します。


当社の Agentic AI ソリューション ソリューションは、こちらでご覧いただけます: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharingまたは Github: https://github.com/weblab-technology/arc-challenge-2024-10



私たちの画期的な進歩は、例の分析、ルールの仮説、テスト、改良といった人間の問題解決行動を模倣することで生まれました。私たちの AI は、力ずくではなく、生成関数 (変換を定義する Python コード) を記述し、それをトレーニング データですぐにテストすることに重点を置いています。

主な手順:

  1. パターンの分析: AI は入力と出力のペアの関係を識別します。
  2. 関数の生成:観測されたパターンに基づいて、変換 (入力): 出力関数を記述します。
  3. 即時テスト:関数はトレーニング入力でテストされます。出力が完全に一致する場合、ソリューションは有効であるとみなされ、テスト入力に適用されます。
  4. 反復:テストが失敗した場合、関数は改良され、再テストされます。


私たちのアプローチで驚くべき発見があったのは、反復的な改善は進歩を助けるどころか、むしろ妨げになることが多いということでした。生成関数の背後にある最初の仮定に欠陥がある場合、それを改良しようとすると、エラーを修正するどころか、エラーが増幅されるのが普通です。この認識により、私たちの方法論は根本的に変わりました。

洗練よりも新鮮なアイデア

誤った仮定を修正する代わりに、次のことを行う方が効果的であることがわかりました。

  1. 欠陥のあるアプローチを完全に破棄します。
  2. トレーニング データからの最新の洞察に基づいて、ゼロから新しい仮説を生成します。


これは、解決策の道筋が非生産的であることが判明したときに、壊れた戦略を修正するのではなく、リセットして再考するという人間の行動を反映しています。

遺伝的アルゴリズムが機能しなかった理由

この洞察は、遺伝的アルゴリズムが結果を改善できなかった理由も説明しています。遺伝的アルゴリズムは設計上、ソリューションを段階的に進化させ、世代を重ねるごとに改良していきます。しかし、基本的な前提が間違っていると、段階的な変更によって複雑なソリューションが生まれ、正しい変換からさらに外れてしまいます。


LLM評価: Claude 3.5 Sonnetが競合他社を上回る

ARC の課題に取り組むために、生成関数の記述を支援する複数の大規模言語モデル (LLM) を徹底的にテストしました。その中で、Claude 3.5 Sonnet が最も有能であり、競合製品を大幅に上回りました。


主な調査結果:

Claude 3.5 Sonnet 対 GPT-4o:

パフォーマンス: Claude 3.5 Sonnet は GPT-4o よりも多くのパターンを識別し、パターン認識の精度がほぼ 2 倍になりました。

効率性: Claude は、OpenAI の GPT-4o と同じ結果を 1/7 の実行時間で達成し、より効果的であるだけでなく、より高速になりました。


GPT-4oの衰退:

● 時間の経過とともに GPT-4o のパフォーマンスが著しく低下していることがわかりました。GPT-4o の初期バージョンは、後続のバージョンよりも ARC タスクに非常に優れていましたが、この課題に対するパターン認識と推論を妨げる最適化の潜在的な変化を示しています。


クロード 3.5 ソネットが傑出している理由


Claude の優位性は、微妙な変換を一般化して識別する能力にあります。これは、ARC の少数ショットの性質にとって非常に重要です。その一貫したパフォーマンスと効率性により、Claude は当社の AI エージェント フレームワークに統合するための明確な選択肢となり、構造化された問題解決における LLM 主導の推論の新しい標準を確立しました。

結果

私たちのアプローチは、ARC 評価セットで 30% 近くの精度を達成し、ベースライン メソッドを大幅に上回りました。この結果は、人間の問題解決行動を模倣すること、反復的な改良よりも新しい仮説を活用すること、Claude 3.5 Sonnet のような最も有能な LLM を利用することの強みを強調しています。まだかなりの改善の余地はありますが、このマイルストーンは、ARC の課題に対処し、AI のより広範な一般化に向けて前進する上で有意義な進歩を示しています。

ARCの今後の方向性

WLTech.AIでは、ARC を解決する未来は、LLM 機能の継続的な成長と、最小記述長 (MDL) などの高レベルの推論フレームワークや、簡潔なパターン説明のための同様のアプローチとの組み合わせにあると考えています。これらの進歩により、モデルは変換をより抽象化および一般化できるようになります。さらに、成長し続けるソリューション バンクに基づく自己改良プロンプト システムを統合すると、モデルは推論を反復的に改善し、過去の成功から引き出して、より適応的で効率的な問題解決パイプラインを作成できます。高度な LLM、構造化された説明、適応型学習のこの相乗効果は、ARC および AGI 開発の新たなマイルストーンを切り開く可能性を秘めています。

注目のARCソルバー

抽象化および推論コーパス (ARC) ベンチマークは、AI が一般的なルールをどの程度適用し、より抽象的な方法で考えることができるかをテストするための鍵となっています。長年にわたり、数多くの傑出したソルバーが登場し、それぞれがこの分野に異なるものをもたらしてきました。


● ライアン・グリーンブラットのアプローチ

2024年、Redwood Researchのエンジニアであるライアン・グリーンブラット氏は、ARC-AGIパブリック評価セットで42%のスコアを獲得し、検証スコアは43%という大きなマイルストーンを達成しました。彼のアプローチは、GPT-4oを使用していくつかのPythonプログラムを生成および改良し、提出に最適なものを選択するというものでした。これは、大規模な言語モデルとプログラム合成を使用して複雑な推論タスクに取り組む方法を示しています。


● アイスキューバー2020

前回のコンテストで優勝した「icecuber 2020」ソリューションは、公開評価スコア 39%、検証スコア 17% を獲得しました。方法論に関する詳細はすべて把握しているわけではありませんが、このソリューションは、その後の ARC ソルバーの基準を設定する上で非常に重要なものとなっています。

ARC賞2024リーダーボード

ARC Prize 2024 リーダーボードには、次のトップ パフォーマーが掲載されています。


● MindsAIが55.5%のスコアでトップに立っています。

● ARChitects は 53.5% のスコアで僅差で続いています。

● ギジェルモ・バルバディージョが40%の得点で3位。

● 4 位の Alijs も 40% でした。

● TuMinhDangは38%の得点で5位。


これらのスコアは、全員が懸命に取り組んで、ARC ベンチマークに取り組むための新しい方法を考案していることを示しています。また、さまざまなチームがさまざまな戦略を使用していることも示しています。

AI研究者に刺激を与えるARCの役割

ARC ベンチマークは、AI システムがどれだけうまく推論し、一般化できるかをテストする優れた方法です。大きな進歩はあったものの、ARC を完全に理解できるモデルはまだ存在せず、人工汎用知能を実現するのがいかに難しいかを示しています。研究者や実践者は常に、記号推論とニューラル ネットワークを使用してさまざまなアプローチを組み合わせる方法を模索し、問題解決に近づきつつあります。


ARC のようなベンチマークは、AI 研究の将来を垣間見せてくれます。この分野は、人間のように考え、適応できるシステムへと移行しています。まだゆっくりとした進歩ではありますが、ARC はすでに AGI を実現するための明確な道筋を示しています。


焦点は一般化へと移りつつあります。 ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )

将来、AI システムは特化ではなく一般化するように設計されるでしょう。ARC タスクが示すように、再トレーニングせずに新しい問題を解決できることは、真の知性の重要な兆候です。研究者は、人間の脳の働きからヒントを得て、少数ショット学習やゼロショット学習に優れたモデルを開発すると思われます。


ハイブリッドモデルが標準になります。

ARC ソルバーの成功は、単一アプローチのシステムには限界があることをすでに示しています。AI の未来は、ニューラル ネットワーク、シンボリック システム、確率的推論を統合したハイブリッド モデルになるでしょう。これらのモデルは ARC でうまく機能しますが、柔軟性と適応性が鍵となる現実世界の問題にも対処できるようになります。


認知アーキテクチャに新たな焦点が当てられています。

ARC は、さまざまな推論方法を組み合わせる人間の脳の能力を模倣した認知アーキテクチャについて人々に考えさせています。ワーキング メモリ、メタ学習、マルチエージェント システムに関する研究がさらに進み、即座に推論、学習、適応できる AI への道が開かれるでしょう。


AI システムが賢くなると、単に人間の仕事をこなすだけでなく、人間と連携して働くようになります。ARC のようなベンチマークは、科学的発見や創造的な問題解決などの複雑な分野で洞察やソリューションを提供し、人間と連携して働く AI システムの開発に役立っています。


このようなコンテストは、AI コミュニティに大きな刺激を与えています。賞金が 100 万ドルを超える ARC 賞は、研究者にとって、現在のベンチマークを上回るオープンソース ソリューションを考案する大きな動機となります。


WLTech.AIでは、このようなソリューションの価値が 100 万ドルをはるかに超えることを認識しており、来年もこのチャレンジに参加してこの分野をさらに発展させていきたいと考えています。