paint-brush
WLTech کے AI ایجنٹ نے $1 ملین چیلنج میں بڑا اسکور کیا۔کی طرف سے@wltechai
121 ریڈنگز

WLTech کے AI ایجنٹ نے $1 ملین چیلنج میں بڑا اسکور کیا۔

کی طرف سے WLTech.AI (WebLab Technology)12m2025/01/06
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

AGI کا مقصد ایسے AI نظام بنانا ہے جو علم اور مہارت کو حقیقی معنوں میں عام کر سکے۔ یہ بنیادی اصول سیکھ سکتا ہے جن کا اطلاق بالکل نئے حالات پر کیا جا سکتا ہے۔ موجودہ AI کو ہزاروں گھنٹوں کے تربیتی ڈیٹا کی ضرورت ہوگی۔
featured image - WLTech کے AI ایجنٹ نے $1 ملین چیلنج میں بڑا اسکور کیا۔
WLTech.AI (WebLab Technology) HackerNoon profile picture


چلیں گاڑی چلانا سیکھنے کے بارے میں سوچنے کے لیے ایک لمحہ نکالیں۔ ہم میں سے کوئی بھی صرف چند مظاہروں سے ڈرائیونگ کے بنیادی اصول سیکھ سکتا ہے، اور ایک بار جب ہم اسٹیئرنگ، ایکسلریشن، اور بریک لگانے جیسے تصورات کو سمجھ لیتے ہیں، تو ہم ان مہارتوں کو کسی بھی کار پر لاگو کر سکتے ہیں — ایک کمپیکٹ سیڈان سے لے کر بڑے ٹرک تک۔ ان مہارتوں کے ساتھ، ہم سڑک کے مختلف حالات، موسم اور ٹریفک کے حالات میں بھی تیزی سے موافقت کر سکتے ہیں، چاہے ہم نے پہلے کبھی ان کا سامنا نہ کیا ہو۔ تاہم، موجودہ AI کو ہر مخصوص گاڑی اور حالت کے لیے ہزاروں گھنٹوں کے تربیتی ڈیٹا کی ضرورت ہوگی، جبکہ AGI ڈرائیونگ کے بنیادی اصولوں کو سمجھنے اور ان کا وسیع پیمانے پر اطلاق کرنے کے قابل ہوگا۔


AGI کا مقصد ایسے AI سسٹم بنانا ہے جو صحیح معنوں میں علم اور ہنر کو عام کر سکے — بنیادی اصولوں کو سیکھنا جن کا اطلاق بالکل نئے حالات پر کیا جا سکتا ہے۔ کار چلانا، پنیر کھیلنا، گو، مائن کرافٹ، وغیرہ۔ یہ آج کے AI سسٹمز سے واضح طور پر مختلف ہے، بشمول LLM، جو بنیادی طور پر وسیع تربیتی ڈیٹاسیٹس میں نفیس نمونوں کی مماثلت کے ذریعے کام کرتے ہیں۔


اگرچہ جدید LLM بظاہر ذہین گفتگو میں مشغول ہو سکتے ہیں اور پیچیدہ مسائل کو حل کر سکتے ہیں، وہ بنیادی طور پر تربیت کے دوران جن نمونوں کا سامنا کرتے ہیں ان کو پہچان کر اور دوبارہ ملا کر کام کرتے ہیں۔ یہ حقیقی تفہیم اور عام کرنے کے مقابلے میں انتہائی اعلی درجے کی یادداشت اور شماریاتی ارتباط سے زیادہ مشابہت رکھتا ہے، کیونکہ یہ دنیا کی حقیقی وجہ ماڈل یا تجریدی نمائندگی نہیں بناتے ہیں۔ جب وہ عام نظر آتے ہیں، تو وہ عام طور پر گہرے اصولوں کو سمجھنے کے بجائے اپنے تربیتی ڈیٹا میں صرف ٹھیک ٹھیک شماریاتی نمونے تلاش کر رہے ہوتے ہیں۔

ARC کیوں اہم ہے؟

اے آر سی AI تحقیق میں پیمائش کے ایک اہم مسئلے کو حل کرتا ہے - ہم اصل میں کیسے جانچیں گے کہ آیا کوئی AI نظام عام کر سکتا ہے؟


روایتی بینچ مارکس عام طور پر بڑے تربیتی ڈیٹا سیٹس کے ساتھ مخصوص کاموں پر کارکردگی کی پیمائش کرتے ہیں، لیکن اعلیٰ سکور ضروری طور پر حقیقی عام کرنے کی صلاحیت کی نشاندہی نہیں کرتے ہیں۔ ایک AI حقیقی تفہیم کو فروغ دینے کے بجائے تربیتی ڈیٹا میں نمونوں کو حفظ کرکے اچھی کارکردگی کا مظاہرہ کرسکتا ہے۔


جیسا کہ F. Chollet لکھتے ہیں: "ہمارے بہترین علم کے مطابق، ARC کسی بھی موجودہ مشین لرننگ تکنیک (بشمول ڈیپ لرننگ) کے ذریعے قابل رسائی دکھائی نہیں دیتا"۔


اہم مشکلات درج ذیل ہیں:

- متوقع آؤٹ پٹ لیبل یا لیبل کا ایک سیٹ نہیں ہے، بلکہ 30x30 تک سائز اور 10 مختلف رنگوں کے ساتھ رنگین گرڈ ہے۔ لہذا، یہ ساختی پیشن گوئی کے ڈومین میں آتا ہے.

- پیش گوئی شدہ آؤٹ پٹ کو متوقع آؤٹ پٹ سے بالکل مماثل ہونا چاہئے۔ اگر ایک سیل غلط ہے، تو کام کو ناکام سمجھا جاتا ہے۔ اس کی تلافی کے لیے، ہر ان پٹ گرڈ کے لیے تین کوششوں کی اجازت ہے۔

- ہر کام میں، عموماً دو سے چار تربیتی مثالیں (ان پٹ گرڈ + آؤٹ پٹ گرڈ)، اور ایک یا دو ٹیسٹ مثالیں ہوتی ہیں جن کے لیے پیشین گوئی کی جانی چاہیے۔

- ہر کام ان پٹ گرڈ سے آؤٹ پٹ گرڈ میں ایک الگ تبدیلی پر انحصار کرتا ہے۔ خاص طور پر، تربیتی کاموں میں سیکھی گئی تبدیلی کو دوبارہ استعمال کر کے کسی بھی تشخیصی کام کو حل نہیں کیا جا سکتا۔ ہر کام سیکھنے کا ایک الگ مسئلہ ہے، اور ARC جس چیز کا جائزہ لیتا ہے وہ ایک وسیع عام اور چند شاٹ لرننگ ہے۔


اے آر سی ہر ایک پہیلی کو صرف 3-5 نمونوں کے ساتھ، صرف چند شاٹ کے ساتھ پیش کرکے عام کرنے کا زیادہ سخت امتحان پیش کرتا ہے۔ اس کم سے کم تربیتی اعداد و شمار کا مطلب ہے کہ AI وسیع پیٹرن میچنگ پر بھروسہ نہیں کر سکتا - اسے بنیادی اصولوں کو نکالنا چاہیے اور انہیں نئے حالات میں لاگو کرنا چاہیے، جیسا کہ انسان کرتے ہیں۔ پہیلیاں بھی جان بوجھ کر شارٹ کٹ حل یا یادداشت کی حکمت عملیوں کی مزاحمت کے لیے بنائی گئی ہیں۔


جو چیز ARC کو خاص طور پر قیمتی بناتی ہے وہ یہ ہے کہ یہ عام کرنے کی قابلیت کا قابل مقداری پیمانہ فراہم کرتا ہے۔ اس بات پر بحث کرنے کے بجائے کہ آیا کوئی AI نظام کسی فلسفیانہ معنوں میں واقعی "سمجھتا ہے"، ہم ان احتیاط سے ڈیزائن کیے گئے استدلال کے کاموں پر ٹھوس کارکردگی کی پیمائش کر سکتے ہیں۔ یہ محققین کو مصنوعی عمومی ذہانت کی طرف پیش رفت کے لیے ایک واضح معیار فراہم کرتا ہے۔


اگر آپ ARC بینچ مارک کے بارے میں مزید جاننا چاہتے ہیں اور AI کی ترقی کے لیے اس کا کیا مطلب ہے، تو یہ ویڈیو شروع کرنے کے لیے ایک بہترین جگہ ہے:

ARC کو حل کرنے کے طریقے

  1. بروٹ فورس اپروچز

2020 Kaggle مقابلے نے ARC کو حل کرنے کے پہلے طریقوں میں سے ایک کا انکشاف کیا - پہلے سے طے شدہ تبدیلیوں کی جگہ کے ذریعے بروٹ فورس کی تلاش۔ جیتنے والے حل نے ایک ڈومین مخصوص زبان (DSL) تیار کی جس میں 142 ہاتھ سے تیار کردہ گرڈ آپریشنز شامل ہیں۔ ان آپریشنز کے مجموعوں کے ذریعے منظم طریقے سے تلاش کرکے، اس نے نجی تشخیصی کاموں پر 20% درستگی حاصل کی۔ تبدیلی کی تلاش کی رہنمائی کے لیے گراماتی ارتقاء کا استعمال کرتے ہوئے اسی طرح کا ایک اور حل 3–7.68% درستگی تک پہنچ گیا۔


اپنی ابتدائی کامیابی کے لیے قابل ذکر ہونے کے باوجود، ان حلوں نے ایک اہم حد کو اجاگر کیا: انہوں نے کسی حقیقی تفہیم یا عام کرنے کی صلاحیت کو فروغ دینے کے بجائے پہلے سے پروگرام شدہ اصولوں کی مکمل تلاش پر انحصار کیا۔ پروگرامیٹک تلاش اور حقیقی ذہانت کے درمیان یہ فرق ظاہر کرتا ہے کہ کیوں ARC عمومی صلاحیتوں کی پیمائش کے لیے ایک چیلنجنگ بینچ مارک بنا ہوا ہے۔


  1. کم از کم تفصیل کی لمبائی (MDL)

موجودہ نقطہ نظر ( https://github.com/sebferre/ARC-MDL/tree/master ) ایک بنیادی اصول پر مبنی ہے جو نمونوں کو دریافت کرنے اور ماڈلز بنانے کے لیے استعمال کیا جاتا ہے جو ڈیٹا کو سب سے زیادہ جامع انداز میں بیان کرتے ہیں۔ اس کے مرکز میں، MDL کا کہنا ہے کہ "کچھ ڈیٹا کے لیے بہترین ماڈل وہ ہے جو زیادہ تر ڈیٹا کو کمپریس کرتا ہے۔"


حل گرڈ پیٹرن کو موثر انداز میں بیان کرنے کے لیے ایک مخصوص ماڈلنگ زبان کا استعمال کرتا ہے۔ یہ زبان بنیادی عناصر کے مجموعے کے طور پر ان پٹ اور آؤٹ پٹ گرڈ دونوں کی نمائندگی کرنے کا ایک منظم طریقہ فراہم کرتی ہے:


اعلی ترین سطح پر، ہر پہیلی کو ایک جوڑے کے طور پر پیش کیا جاتا ہے اور اس میں دو گرڈ ہوتے ہیں:

● ایک ان پٹ گرڈ (ان میں)

● ایک آؤٹ پٹ گرڈ (باہر)


ہر گرڈ کی وضاحت تین اجزاء سے ہوتی ہے:

  1. ایک سائز ویکٹر (اونچائی اور چوڑائی کی وضاحت)
  2. پس منظر کا رنگ
  3. اشیاء پر مشتمل تہوں کی فہرست


آبجیکٹ کی پوزیشن میں شکلیں ہیں، جہاں ہر شکل یا تو ہو سکتی ہے:

● ایک رنگ کا نقطہ

● مخصوص سائز، رنگ، اور ماسک کے ساتھ ایک مستطیل


ماسک سسٹم خاص طور پر طاقتور ہے، مستطیل کو مختلف شکلیں لینے کی اجازت دیتا ہے:

● مکمل (ٹھوس مستطیل)

● بارڈر (صرف خاکہ)

● چیک بورڈ پیٹرن (جفت یا طاق)

● کراس پیٹرن (جمع یا اوقات کی شکل)

● حسب ضرورت بٹ میپ پیٹرن


یہ زبان سسٹم کو پیچیدہ گرڈ پیٹرن کو جامع انداز میں بیان کرنے کی اجازت دیتی ہے۔ مثال کے طور پر، 10x10 گرڈ پکسل بذریعہ پکسل (100 اقدار) کو ذخیرہ کرنے کے بجائے، یہ اسے "ایک سیاہ پس منظر کے ساتھ 3x3 سرخ مستطیل پوزیشن پر (2,2)" کے طور پر اسٹور کر سکتا ہے — ضروری ڈھانچے کو کیپچر کرتے ہوئے بہت کم اقدار کا استعمال کرتے ہوئے۔


پیٹرن کی تلاش کرتے وقت، نظام اس زبان کا استعمال کرتے ہوئے ان پٹ اور آؤٹ پٹ گرڈ دونوں کی سب سے جامع وضاحت تلاش کرنے کی کوشش کرتا ہے۔ اچھے حل ان پٹ اور آؤٹ پٹ کے درمیان عناصر کو دوبارہ استعمال کرنے کا رجحان رکھتے ہیں (جیسے ان پٹ سے شکل لینا اور اسے آؤٹ پٹ میں تبدیل کرنا)، جو مختصر وضاحت اور بہتر کمپریشن کا باعث بنتا ہے۔


اس نقطہ نظر کی کامیابی (94/400 تربیتی کاموں کو حل کیا گیا) سے پتہ چلتا ہے کہ یہ زبان ARC پہیلیاں میں موجود بہت سے کلیدی نمونوں کو اپنی گرفت میں لے لیتی ہے جب کہ مخصوص مثالوں کو زیادہ فٹ ہونے سے بچنے کے لیے کافی محدود ہے۔


  1. بنیادی LLMs کے ساتھ براہ راست آؤٹ پٹ کی پیشن گوئی

جب کہ LLMs نے بہت سے ڈومینز میں متاثر کن صلاحیتوں کا مظاہرہ کیا ہے، لیکن انہیں براہ راست ARC کو حل کرنے کے لیے استعمال کرنا مواقع اور چیلنجز دونوں پیش کرتا ہے۔ سادہ انداز میں LLM کو ان پٹ آؤٹ پٹ کی مثالیں فراہم کرنا اور اس سے نئے ان پٹ کے جواب کی پیشین گوئی کرنا شامل ہے۔ تاہم، اس طریقہ کار میں اہم حدود ہیں۔ ایل ایل ایم اس تناظر میں بہت محدود مقامی استدلال کی صلاحیتوں کا مظاہرہ کرتے ہیں اور گرڈ کی تبدیلیوں کی پیشین گوئی کرنے کی کوشش کرتے وقت فریب کا شکار ہوتے ہیں۔


  1. ایل ایل ایم کے مسائل کے حل کے لیے سوچ میں اضافے کا سلسلہ

یہ نقطہ نظر براہ راست پیشین گوئی کے طریقہ کار پر استوار ہوتا ہے اور پہلے LLM سے ان نمونوں کا تجزیہ کرنے اور ان کی وضاحت کرنے کے لیے کہتا ہے جن کا وہ ان پٹ آؤٹ پٹ جوڑوں میں مشاہدہ کرتا ہے۔ اگرچہ یہ اضافی استدلال قدم LLM کو مسئلے کو حل کرنے میں مدد کر کے بہتر نتائج دیتا ہے، لیکن اس میں اب بھی وہی بنیادی حدود ہیں۔ ممکنہ نمونوں کی نشاندہی کرنے کے بعد بھی حتمی نتائج کی پیشن گوئی کرنے کی کوشش کرتے وقت ماڈل فریب کی اعلی شرح کی نمائش کرتا رہتا ہے۔ اس سے پتہ چلتا ہے کہ ARC چیلنجوں کو حل کرنے میں LLM کی مقامی استدلال کی حدود پر قابو پانے کے لیے اکیلے واضح استدلال کے اقدامات کو شامل کرنا ناکافی ہے۔

AI ایجنٹس اور AGI میں ان کا کردار

WLTech.AI میں، ہم دیکھتے ہیں کہ AGI کے حصول میں AI ایجنٹوں کا بہت بڑا کردار بہت اہمیت کا حامل ہے۔ انہیں اپنی ترتیبات کے ساتھ متحرک طور پر تعامل کرنے، جو کچھ وہ سیکھتے ہیں اس کی بنیاد پر موافقت کرنے اور خود سیکھنے کے لیے ڈیزائن کیا گیا ہے۔ صرف ایک بار تربیت یافتہ جامد ماڈلز کے برعکس، AI ایجنٹس جاری تعاملات سے سیکھ سکتے ہیں اور بدلتے ہوئے حالات کے مطابق ڈھال سکتے ہیں، جس سے وہ AGI کی ترقی میں ایک اہم جزو بن سکتے ہیں۔


اے آئی ایجنٹ آپریشن کے دماغ ہوتے ہیں، مختلف تکنیکوں کو مربوط کرتے ہیں جو کسی کام کے مخصوص مطالبات کے مطابق ہوتی ہیں۔ علامتی نظام درست، اصول پر مبنی استدلال میں بہت اچھے ہوتے ہیں، جو انہیں ان کاموں کے لیے بہترین بناتا ہے جن کے لیے گردش یا عکاسی جیسی تبدیلیوں کو سمجھنے کی ضرورت ہوتی ہے۔ عصبی نیٹ ورک پیٹرن کو پہچاننے اور ڈیٹا کو عام کرنے میں بہت اچھے ہیں، جو اے آر سی کے کاموں میں بنیادی ڈھانچے کی شناخت کے لیے واقعی مفید ہے۔


تاہم، ARC کے چیلنجز علامتی ہیرا پھیری یا پیٹرن کی شناخت کے ساتھ ختم نہیں ہوتے ہیں۔ بہت سے کاموں میں تجرید کی زیادہ اعلی درجے کی ضرورت ہوتی ہے، بشمول نئے اصول بنانے، کنکشن بنانے اور نئے حالات کے مطابق ڈھالنے کی صلاحیت۔ زبان کے ماڈل یہاں کارآمد ہیں، کیونکہ انہیں پروگرام کی ترکیب اور تجریدی استدلال جیسی چیزوں کے لیے استعمال کیا جا سکتا ہے۔ تلاش کے الگورتھم باکس میں ایک اور ٹول ہیں کیونکہ وہ حل کی شناخت کے لیے ممکنہ تبدیلیوں کو مؤثر طریقے سے تلاش کر سکتے ہیں۔ دوسری طرف، منصوبہ بندی کے نظام ایک وقت میں ایک قدم پر پیچیدہ مسائل کو توڑنے اور ان سے نمٹنے کے لیے فریم ورک فراہم کرتے ہیں۔


کیا چیز AI ایجنٹوں کو اتنا ہوشیار بناتی ہے کہ وہ ان تمام مختلف طریقوں کو ایک ساتھ لا سکتے ہیں۔ وہ ایک وقت میں صرف ایک طریقہ استعمال نہیں کرتے۔ وہ ہر منفرد مسئلے کو حل کرنے کے لیے تکنیکوں کے بہترین امتزاج کا جائزہ لیتے ہیں اور ان کو تعینات کرتے ہیں۔ مکھی پر اپنانے کی یہ صلاحیت انسانوں کو الگ کرتی ہے اور AGI کو آگے بڑھانے کا ایک اہم حصہ ہے۔

ان کے مرکز میں، AI ایجنٹس بنیادی طور پر ذہین کوآرڈینیٹر ہوتے ہیں۔ وہ اس بات کا رننگ ریکارڈ رکھتے ہیں کہ کیا کام کرتا ہے اور کیا نہیں، تاکہ وہ ماضی کے تجربات سے سیکھ سکیں۔


ہمارا ایجنٹ AI حل آپ ہمارا حل یہاں تلاش کر سکتے ہیں: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing یا Github پر: https://github.com/weblab-technology/ آرک چیلنج-2024-10



ہماری پیش رفت انسانی مسائل کو حل کرنے والے رویے کی نقل کرنے سے ہوئی ہے: مثالوں کا تجزیہ کرنا، اصولوں کا قیاس کرنا، جانچ کرنا، اور بہتر بنانا۔ بریٹ فورس کے بجائے، ہمارا AI جنریشن فنکشنز لکھنے پر توجہ مرکوز کرتا ہے — Python کوڈ جو تبدیلیوں کی وضاحت کرتا ہے — اور فوری طور پر تربیتی ڈیٹا پر ان کی جانچ کرتا ہے۔

اہم اقدامات:

  1. پیٹرنز کا تجزیہ کریں: AI ان پٹ آؤٹ پٹ جوڑوں میں رشتوں کی نشاندہی کرتا ہے۔
  2. جنریٹ فنکشن: یہ ایک ٹرانسفارم (ان پٹ) لکھتا ہے: مشاہدہ شدہ نمونوں کی بنیاد پر آؤٹ پٹ فنکشن۔
  3. فوری جانچ: فنکشن کا تجربہ تربیتی آدانوں پر کیا جاتا ہے۔ اگر آؤٹ پٹس بالکل مماثل ہیں تو، حل کو درست سمجھا جاتا ہے اور ٹیسٹ ان پٹس پر لاگو کیا جاتا ہے۔
  4. اعادہ کریں: اگر ٹیسٹ ناکام ہو جاتے ہیں تو فنکشن کو بہتر کیا جاتا ہے اور دوبارہ ٹیسٹ کیا جاتا ہے۔


ہمارے نقطہ نظر میں ایک حیران کن دریافت یہ تھی کہ تکراری بہتری اکثر مدد کرنے کی بجائے ترقی میں رکاوٹ بنتی ہے۔ اگر کسی جنریشن فنکشن کے پیچھے ابتدائی مفروضہ غلط ہے، تو اسے بہتر کرنے کی کوشش عام طور پر غلطی کو درست کرنے کے بجائے بڑھا دیتی ہے۔ اس احساس نے بنیادی طور پر ہمارے طریقہ کار کو نئی شکل دی۔

تطہیر سے زیادہ تازہ خیالات

غلط مفروضوں کو بہتر کرنے کے بجائے، ہم نے اسے زیادہ مؤثر پایا:

  1. ناقص نقطہ نظر کو مکمل طور پر ترک کر دیں۔
  2. تربیتی ڈیٹا سے تازہ بصیرت کی بنیاد پر شروع سے ایک نیا مفروضہ تیار کریں۔


یہ انسانی رویے کو دوبارہ ترتیب دینے اور دوبارہ سوچنے کی عکاسی کرتا ہے جب حل کا راستہ کسی ٹوٹی ہوئی حکمت عملی کو ٹھیک کرنے کے بجائے غیر نتیجہ خیز ثابت ہوتا ہے۔

جینیاتی الگورتھم کیوں کام نہیں کرتے

یہ بصیرت یہ بھی بتاتی ہے کہ جینیاتی الگورتھم نتائج کو بہتر بنانے میں کیوں ناکام رہے۔ ڈیزائن کے لحاظ سے، جینیاتی الگورتھم بتدریج حل تیار کرتے ہیں، انہیں نسل در نسل بہتر کرتے ہیں۔ تاہم، جب بنیادی مفروضے غلط ہوتے ہیں، تو بڑھتی ہوئی تبدیلیاں پیچیدہ حل کی طرف لے جاتی ہیں جو درست تبدیلی سے مزید بھٹک جاتی ہیں۔


ایل ایل ایم کی تشخیص: کلاڈ 3.5 سونیٹ نے حریفوں کو پیچھے چھوڑ دیا۔

ARC چیلنج سے نمٹنے کے لیے، ہم نے وسیع پیمانے پر ایک سے زیادہ بڑے لینگوئج ماڈلز (LLMs) کا تجربہ کیا تاکہ جنریشن فنکشن لکھنے میں مدد کی جا سکے۔ ان میں، کلاڈ 3.5 سونیٹ سب سے زیادہ قابل کے طور پر ابھرا، جس نے اپنے حریفوں کو نمایاں طور پر پیچھے چھوڑ دیا۔


کلیدی نتائج:

کلاڈ 3.5 سونیٹ بمقابلہ GPT-4o:

کارکردگی: کلاڈ 3.5 سونیٹ نے GPT-4o سے زیادہ پیٹرن کی نشاندہی کی، پیٹرن کی شناخت میں تقریباً دوگنا درستگی حاصل کی۔

کارکردگی: Claude نے عمل درآمد کے وقت کے 1/7 میں OpenAI کے GPT-4o جیسے ہی نتائج حاصل کیے، جس سے یہ نہ صرف زیادہ موثر بلکہ تیز تر بھی ہے۔


GPT-4o کی کمی:

● ہم نے وقت کے ساتھ GPT-4o کی کارکردگی میں نمایاں کمی دیکھی۔ GPT-4o کا ابتدائی ورژن بعد کے ورژنز کے مقابلے ARC کاموں کے لیے کہیں زیادہ قابل تھا، جو اس کی اصلاح میں ممکنہ تبدیلی کی نشاندہی کرتا ہے جو اس چیلنج کے لیے پیٹرن کی شناخت اور استدلال میں رکاوٹ ہے۔


کیوں کلاڈ 3.5 سونیٹ باہر کھڑا ہے۔


کلاڈ کا کنارہ ٹھیک ٹھیک تبدیلیوں کو عام کرنے اور ان کی شناخت کرنے کی صلاحیت میں مضمر ہے، جو ARC کی چند شاٹ نوعیت کے لیے اہم ہے۔ اس کی مسلسل کارکردگی اور کارکردگی نے اسے ہمارے AI ایجنٹ کے فریم ورک میں ضم کرنے کے لیے واضح انتخاب بنا دیا، جس سے ساختی مسائل کے حل میں LLM پر مبنی استدلال کے لیے ایک نیا معیار قائم کیا گیا۔

نتائج

ہمارے نقطہ نظر نے ARC تشخیصی سیٹ پر 30% کے قریب درستگی حاصل کی ، جو کہ نمایاں طور پر بنیادی طریقوں سے بہتر کارکردگی کا مظاہرہ کرتی ہے۔ یہ نتیجہ انسانی مسائل کو حل کرنے کے رویے کی نقل کرنے، تکراری اصلاحات پر تازہ مفروضوں کا فائدہ اٹھانے، اور کلاڈ 3.5 سونیٹ جیسے انتہائی قابل LLMs کو استعمال کرنے کی طاقت کو اجاگر کرتا ہے۔ اگرچہ ابھی بھی بہتری کی کافی گنجائش موجود ہے، یہ سنگ میل اے آر سی کے چیلنجوں سے نمٹنے اور AI میں وسیع تر عام کرنے کی طرف پیش رفت کرنے میں بامعنی پیش رفت کو ظاہر کرتا ہے۔

ARC کے لیے مستقبل کی سمتیں

WLTech.AI میں ہمیں یقین ہے کہ ARC کو حل کرنے کا مستقبل LLM صلاحیتوں کی مسلسل ترقی میں مضمر ہے جس میں اعلیٰ سطحی استدلال کے فریم ورک جیسے کم از کم تفصیل کی لمبائی (MDL) یا جامع پیٹرن کی وضاحت کے لیے اسی طرح کے طریقوں کے ساتھ مل کر ہے۔ یہ پیشرفت ماڈلز کو بہتر خلاصہ اور تبدیلیوں کو عام کرنے کے قابل بنا سکتی ہے۔ مزید برآں، بڑھتے ہوئے سلوشنز بینک کی بنیاد پر خود کو صاف کرنے والے پرامپٹ سسٹم کو مربوط کرنے سے ماڈلز کو بار بار اپنے استدلال کو بہتر بنانے اور ماضی کی کامیابیوں سے فائدہ اٹھانے کی اجازت ملے گی، جس سے مسائل کو حل کرنے کے لیے ایک زیادہ موافق اور موثر پائپ لائن بن سکے گی۔ اعلی درجے کی LLMs، ساختی وضاحت، اور انکولی سیکھنے کے درمیان یہ ہم آہنگی ARC اور AGI کی ترقی میں نئے سنگ میل کو کھولنے کی صلاحیت رکھتی ہے۔

قابل ذکر ARC حل کرنے والے

Abstraction and Reasoning Corpus (ARC) بینچ مارک یہ جانچنے کے لیے کلیدی حیثیت رکھتا ہے کہ AI کس حد تک عام اصولوں کو لاگو کر سکتا ہے اور زیادہ تجریدی انداز میں سوچ سکتا ہے۔ برسوں کے دوران، ہم نے متعدد اسٹینڈ آؤٹ حل کرنے والوں کو ساتھ آتے دیکھا ہے، ہر ایک فیلڈ میں کچھ مختلف کرتا ہے۔


● ریان گرین بلیٹ کا نقطہ نظر

2024 میں، Ryan Greenblatt، Redwood Research کے ایک انجینئر نے ARC-AGI پبلک ایویلیویشن سیٹ پر 43% کے تصدیقی اسکور کے ساتھ 42% اسکور کر کے ایک اہم سنگ میل کو حاصل کیا۔ اس کے نقطہ نظر میں کئی Python پروگراموں کو بنانے اور بہتر کرنے کے لیے GPT-4o کا استعمال کرنا اور جمع کرانے کے لیے بہترین پروگراموں کا انتخاب شامل ہے۔ اس سے پتہ چلتا ہے کہ ہم پیچیدہ استدلال کے کاموں سے نمٹنے کے لیے کس طرح پروگرام کی ترکیب کے ساتھ بڑے زبان کے ماڈل استعمال کر سکتے ہیں۔


● آئس کیوبر 2020

"آئس کیوبر 2020" حل، جو ایک سابقہ مقابلہ جیتنے والا تھا، نے عوامی تشخیص کا اسکور 39% اور تصدیق کا اسکور 17% حاصل کیا۔ اگرچہ ہمارے پاس طریقہ کار کے بارے میں تمام تفصیلات نہیں ہیں، لیکن یہ حل بعد میں آنے والے ARC حل کرنے والوں کے لیے بار ترتیب دینے میں واقعی اہم رہا ہے۔

اے آر سی پرائز 2024 لیڈر بورڈ

ARC پرائز 2024 لیڈر بورڈ میں درج ذیل سرفہرست اداکاروں کی خصوصیات ہیں:


● MindsAI 55.5% کے اسکور کے ساتھ آگے ہے۔

● آرکیٹیکٹس 53.5% کے اسکور کے ساتھ پیچھے ہیں۔

● 40% کے اسکور کے ساتھ تیسرے نمبر پر گیلرمو بارباڈیلو۔

● چوتھے نمبر پر علیز، 40% پر بھی۔

● TuMinhDang 38% کے اسکور کے ساتھ پانچویں نمبر پر۔


یہ اسکور دکھاتے ہیں کہ کس طرح ہر کوئی سخت محنت کر رہا ہے اور ARC بینچ مارک سے نمٹنے کے نئے طریقے تلاش کر رہا ہے۔ وہ یہ بھی دکھاتے ہیں کہ کس طرح مختلف ٹیمیں مختلف حکمت عملیوں کا استعمال کر رہی ہیں۔

AI محققین کو متاثر کرنے میں ARC کا کردار

اے آر سی بینچ مارک اب بھی یہ جانچنے کا ایک بہترین طریقہ ہے کہ اے آئی سسٹم کتنی اچھی طرح سے استدلال اور عام کر سکتے ہیں۔ اگرچہ کچھ بڑی پیشرفت ہوئی ہے، کوئی بھی ماڈل ARC کے ساتھ مکمل طور پر گرفت میں نہیں آیا ہے، جس سے یہ ظاہر ہوتا ہے کہ مصنوعی جنرل انٹیلی جنس حاصل کرنا کتنا مشکل ہے۔ محققین اور پریکٹیشنرز ہمیشہ مختلف طریقوں کو یکجا کرنے کے طریقے تلاش کرتے رہتے ہیں، عصبی نیٹ ورکس کے ساتھ علامتی استدلال کا استعمال کرتے ہوئے، مسائل کو حل کرنے کے قریب جانے کے لیے۔


اے آر سی جیسے بینچ مارکس ہمیں ایک جھانک کر جھانکتے ہیں کہ مستقبل میں AI تحقیق کا کیا فائدہ ہے۔ وہ میدان کو ایسے نظاموں کی طرف لے جا رہے ہیں جو انسانوں کی طرح سوچ سکتے اور ڈھال سکتے ہیں۔ جب کہ ہم ابھی بھی سست ترقی کر رہے ہیں، ARC نے پہلے ہی AGI حاصل کرنے کے لیے ایک واضح راستہ طے کر لیا ہے۔


توجہ عام کرنے کی طرف بڑھ رہی ہے۔ ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )

مستقبل میں، اے آئی سسٹمز کو اسپیشلائز کرنے کی بجائے عام کرنے کے لیے ڈیزائن کیا جائے گا۔ جیسا کہ ARC ٹاسک دکھاتا ہے، نئے مسائل کو دوبارہ تربیت دیے بغیر حل کرنے کے قابل ہونا حقیقی ذہانت کی ایک اہم علامت ہے۔ ایسا لگتا ہے کہ محققین ایسے ماڈل تیار کریں گے جو چند شاٹ یا زیرو شاٹ لرننگ میں بہترین ہوں گے، اس سے متاثر ہوں گے کہ ہمارے دماغ کیسے کام کرتے ہیں۔


ہائبرڈ ماڈل معمول بننے جا رہے ہیں۔

اے آر سی حل کرنے والوں کی کامیابی نے ہمیں پہلے ہی دکھایا ہے کہ سنگل اپروچ سسٹم کی اپنی حدود ہوتی ہیں۔ AI کا مستقبل ہائبرڈ ماڈل بننے جا رہا ہے جو عصبی نیٹ ورکس، علامتی نظام، اور امکانی استدلال کو مربوط کرتا ہے۔ یہ ماڈل اے آر سی پر اچھا کام کریں گے، لیکن وہ حقیقی دنیا کے مسائل کو بھی سنبھال سکیں گے جہاں لچک اور موافقت کلیدی حیثیت رکھتی ہے۔


علمی فن تعمیر پر ایک نیا فوکس ہے۔

ARC نے لوگوں کو علمی فن تعمیر کے بارے میں سوچنے پر مجبور کیا ہے جو انسانی دماغ کی استدلال کے مختلف طریقوں کو یکجا کرنے کی صلاحیت کو نقل کرتے ہیں۔ ہم ورکنگ میموری، میٹا لرننگ، اور ملٹی ایجنٹ سسٹمز کے بارے میں مزید تحقیق دیکھیں گے، جو AI کے لیے راہ ہموار کرنے میں مدد کرے گا جو پرواز پر استدلال، سیکھنے اور موافقت کر سکتا ہے۔


جیسے جیسے AI سسٹمز بہتر ہوتے جائیں گے، وہ ہمارے لیے ہمارے کام کرنے کے بجائے ہمارے ساتھ کام کرنا شروع کر دیں گے۔ ARC جیسے بینچ مارک ایسے AI نظاموں کو تیار کرنے میں مدد کر رہے ہیں جو انسانوں کے ساتھ مل کر کام کرتے ہیں، سائنسی دریافت اور تخلیقی مسائل کے حل جیسے پیچیدہ شعبوں میں بصیرت اور حل پیش کرتے ہیں۔


اس طرح کے مقابلوں نے واقعی AI کمیونٹی کو متاثر کیا ہے۔ $1,000,000 سے زیادہ کے انعام کے ساتھ، ARC پرائز محققین کے لیے اوپن سورس حل پیش کرنے کے لیے ایک بہترین ترغیب ہے جو موجودہ بینچ مارکس کو مات دے سکتے ہیں۔


WLTech.AI میں، ہم تسلیم کرتے ہیں کہ اس طرح کے حل کی قیمت $1,000,000 سے کہیں زیادہ ہے، اور ہم اگلے سال دوبارہ چیلنج میں حصہ لینے کے لیے پرجوش ہیں تاکہ میدان کو آگے بڑھاتے رہیں۔