
গত শুক্রবার, ওপেনএআই তাদের নতুন কোডিং সিস্টেম Codex চালু করেছে, যা সাধারণ ভাষার নির্দেশ থেকে জটিল প্রোগ্রামিং কাজ করতে পারে। Codex মূলত এমন একটি প্রযুক্তির অংশ, যাকে বলা হয় agentic coding tools — যা এখন ধীরে ধীরে গড়ে উঠছে। আগের AI কোডিং টুল যেমন GitHub Copilot বা আধুনিক Cursor ও Windsurf মূলত খুব বুদ্ধিমান অটো–কমপ্লিট এর মতো কাজ করে। এগুলো সাধারণত কোড এডিটরে বসেই ব্যবহার করতে হয়, যেখানে ব্যবহারকারী নিজে কোড দেখে এবং সম্পাদনা করে।
কিন্তু Codex এবং Devin, SWE-Agent, OpenHands এর মতো নতুন এজেন্টিক টুলগুলো এমনভাবে তৈরি হয়েছে, যাতে ব্যবহারকারীকে কোড দেখতে বা লিখতে না হয়। বরং আপনি যেমন একজন প্রকৌশল দলের ম্যানেজার হিসেবে টাস্ক দেন, তেমনি এই টুলগুলোকে কাজ বুঝিয়ে দিয়ে শুধু সমাধান চেক করতে পারেন। প্রিন্সটনের গবেষক কিলিয়ান লিয়েরেট বলেন, “শুরুতে মানুষ নিজের হাতে কোড লিখত। তারপর এল Copilot, যেটা কিছুটা শর্টকাট দিল। এখন আমরা এমন পর্যায়ে যাচ্ছি, যেখানে শুধুই সমস্যা জানালেই বট সেটা ঠিক করে দেবে।” তবে বাস্তবে এখনও এই সিস্টেমগুলো পুরোপুরি নির্ভরযোগ্য হয়ে ওঠেনি। Devin চালুর পর অনেক ইউটিউবার এবং প্রাথমিক ব্যবহারকারীরা সমালোচনা করেছেন — বলছেন, এত ভুল হয় যে মানুষকে বসে বসে ঠিক করতে হয়, যা নিজে কোড লেখার মতোই সময়সাপেক্ষ। তবুও এর সম্ভাবনা দেখে Cognition AI, Devin-এর নির্মাতা কোম্পানি, ইতিমধ্যেই $৪ বিলিয়ন মূল্যায়নে বড় বিনিয়োগ পেয়েছে।
All Hands AI এর সিইও রবার্ট ব্রেনান বলেন, “এখনও কোড রিভিউয়ে একজন মানুষ লাগেই। অনেকে এজেন্টের লেখা কোড সরাসরি মেনে নিয়ে সমস্যায় পড়েছেন।” একটি বড় সমস্যা হচ্ছে হ্যালুসিনেশন, মানে এজেন্ট ভুল তথ্য বানিয়ে ফেলে। যেমন, একবার এজেন্ট একটি API নিয়ে তথ্য দিয়েছিল, যেটা বাস্তবে ছিল না। All Hands AI বলছে, তারা এসব ধরার জন্য নতুন সিস্টেম বানাচ্ছে, কিন্তু সহজ কোনো সমাধান এখনো নেই। বর্তমানে এজেন্টিক কোডিংয়ের উন্নতির একটি বড় মাপকাঠি হলো SWE-Bench leaderboard, যেখানে টুলগুলোকে GitHub-এর বাস্তব সমস্যায় পরীক্ষা করা হয়। OpenHands এখন শীর্ষে আছে, ৬৫.৮% সমস্যা সমাধান করতে পেরে। ওপেনএআই দাবি করেছে, তাদের Codex-1 মডেল ৭২.১% সমস্যা সমাধান করতে পারে, যদিও সেটা এখনো স্বাধীনভাবে যাচাই হয়নি। তবে প্রশ্ন হলো — এই উচ্চ স্কোরের মানে কি সত্যিই কম পরিশ্রমে বেশি কাজ করা? যদি তিনটি সমস্যার মধ্যে একটি ঠিক না হয়, তাহলে মানুষের নজরদারি এখনো খুবই জরুরি। সবশেষে, ভবিষ্যতের দিকে তাকিয়ে আশা করা যায়, উন্নত মডেলের মাধ্যমে এজেন্টিক কোডিং টুলগুলো আরও নির্ভরযোগ্য হয়ে উঠবে। তবে বিশ্বাসযোগ্যতা ও ভুল কমানোই এখন সবচেয়ে বড় চ্যালেঞ্জ। রবার্ট ব্রেনান বলেন, “এটা যেন সাউন্ড ব্যারিয়ার ভাঙার মতো — প্রশ্ন হলো, আপনি কতোটা দায়িত্ব এজেন্টকে দেবেন, যাতে দিন শেষে আপনার নিজের কাজটা সত্যিই কমে যায়?”