আর্টিফিসিয়াল ইন্টেলিজেন্স (artificial intelligence), যাকে সংক্ষেপে আমরা ‘এ আই’ (AI) বলে জানি, তার আক্ষরিক অনুবাদ হোলো ‘কৃত্রিম বুদ্ধিমত্তা’। প্রকৃতিতে প্রতিটি প্রাণীর আচরণে কম বেশি যে বুদ্ধির প্রকাশ দেখা যায়, মানুষের তৈরি কোনও যন্ত্রে যদি তারই কোন অংশ ফুটে ওঠে, তাকে আমরা এ আই বলে মানতে পারি। এই যন্ত্র একটি রোবট হতে পারে, একটি কারখানার স্বয়ংক্রিয় নিয়ন্ত্রণ ব্যবস্থা হতে পারে, বা মোবাইলের একটি আ্যপও হতে পারে।
আজকাল যে অনেক বেশি এ আই-এর কথা শোনা যায় তার প্রধান কারণ হল মোবাইলের অনেক আ্যপে এর ব্যবহার। ছবির মধ্যে কারও মুখ চেনা, ম্যাপে দ্রুত গন্তব্যস্থলে পৌঁছনোর রাস্তা দেখানো, টাইপ করার সময় ঠিক কোন শব্দটি খুঁজছি তা বলে দেওয়া, টাইপের পরিবর্তে মুখের কথা শুনে নেওয়া, ই-মেইলের সম্ভাব্য সংক্ষিপ্ত উত্তর বানিয়ে দেওয়া, এ সবই এ আই-এর মহিমা এবং প্রকাশ। এ আই এর প্রয়োগ ক্ষেত্র অবশ্য এর চেয়ে অনেক বিস্তীর্ণ – চিকিৎসাবিদ্যায় রোগনির্ণয় থেকে শুরু করে ওষুধ তৈরির কলাকৌশল, রোবটের গতি নিয়ন্ত্রণ থেকে শুরু করে স্বয়ংচালিত গাড়ি, এমনকি শেয়ার বাজারের দামের ওঠানামার ভবিষদ্বাণী থেকে অ্যাস্ট্রোফিজিক্সের বৃহদায়তন তথ্য বিশ্লেষণ, এই সবের জন্যই এই প্রযুক্তি অপরিহার্য হয়ে উঠেছে।
বুদ্ধির প্রকৃতি
বুদ্ধির প্রকৃতি নিয়ে আমাদের মনে নানান ধারণা আছে। এর মধ্যে সবচেয়ে প্রচলিত ধারণা হোলো ধাঁধা বা অঙ্কের সমাধান করার ক্ষমতা। আমাদের কাছে যা কঠিন, তাতেই বুদ্ধির প্রয়োজন, এমন মনে হওয়াই স্বাভাবিক। কিন্তু কম্পিউটারের সামর্থ্য অন্যরকম। সে মুহূর্তের মধ্যে অনেক হিসাব কষে ফেলতে পারে, লক্ষ লক্ষ তথ্যের মধ্যে থেকে প্রয়োজনীয় তথ্যটি খুঁজে নিতে পারে। এই কাজ আমাদের করতে গেলে দিন কেটে যাবে, ভুল হবে। আবার আমরা খুব সহজে চোখে দেখে আশপাশের জিনিসগুলো চিনে নিই, এবং তাদের আকৃতি ও অবস্থান সম্বন্ধেও অনেকটা ধারণা করতে পারি। আমরা কথা বলে এবং শুনে নিজেদের মধ্যে নির্ভুলভাবে যোগাযোগ করতে পারি। এর সবকটিই কম্পিউটারের জন্য বেশ কষ্টসাধ্য। কম্পিউটারকে দিয়ে এই আপাত সহজ কাজগুলো নির্ভরযোগ্য ভাবে করানো এ আই-এর অন্যতম লক্ষ্য।
মানুষের চিরকালের স্বপ্ন নিজের মত একটি দক্ষ ও বুদ্ধিমান রোবট বানানোর। সেই রোবটের অঙ্গ প্রত্যঙ্গ চালনা করার নির্দেশ ও নিয়ন্ত্রণের দায়িত্ব আবার সেই কম্পিউটারের হাতেই। আমরা যদিও অনায়াসেই হাঁটতে, লাফাতে ও দৌড়তে পারি, একটি রোবটকে দিয়ে এইগুলো করানো কিন্তু মোটেও সহজ নয়। অনেক জটিল গতিবিদ্যার তত্ত্ব কষেও কম্পিউটার এখনো রোবটকে স্বচ্ছন্দে যে কোনও ভূখণ্ডে হাঁটাতে পারে না। মানুষ যেমন ছোট থেকে বড় হওয়ার পথে এই ক্ষমতাগুলো নিজেই আয়ত্ত করে ফেলে, সেরকম কম্পিউটারও কি পারে না? এটাও এ আই এর জন্য একটা বিরাট চ্যালেঞ্জ।
সন্ধানের ভিত্তিতে সমাধান
কম্পিউটারকে দ্ব্যর্থহীনভাবে সব নির্দেশ না দিলে সে সঠিক কাজ করতে পারে না। এইভাবে অনেক লম্বা এবং জটিল হিসাব নির্ভুল ভাবে এবং মুহূর্তের মধ্যে করা সম্ভব, কিন্তু ধাঁধা বা অঙ্কের সমাধান কি কম্পিউটার করতে পারবে? কিভাবে? গত শতাব্দীর ষাটের দশকে নিউয়েল, শ ও সায়মন দেখালেন কি ধরনের কম্পিউটার প্রোগ্রাম একটি জ্যামিতির উপপাদ্য প্রমাণ করতে পারে [১]। এর প্রধান উপাদান ছিল সমস্যা নির্ভর কয়েকটি সরল চাল ও তাদের প্রয়োগ পদ্ধতি। ওঁরা এমন একটি কম্পিউটার প্রোগ্রামের কাঠামো বানালেন যাতে সমস্যার শুরুর অবস্থার উপর পর্যায়ক্রমে এই সরল চালগুলি প্রয়োগ করে দেখা যায় গন্তব্য পরিস্থিতিতে পৌঁছানো গেল কিনা। কার্যকরী না হলে আবার পূর্ব পরিস্থিতিতে ফিরে অন্য চালের কথাও ভাবা যায়। এইভাবে কয়েকটি সরল চাল দিয়ে বেশ জটিল সমস্যার সমাধান সম্ভব। মোটামুটি এইভাবেই আমরাও ধাঁধা বা অঙ্কের সমাধান করি, তবে এত গুছিয়ে করি না, তাই কখনো তাড়াতাড়ি, আবার কখনো বেশ দেরি হয়, বা সমাধান মেলে না।
সমস্যা নির্ভর কয়েকটি সরল চাল দিয়ে সমাধানে পৌঁছনোর এই কাঠামোটির ব্যবহার করে প্রথমে চাইনিস চেকার, তারপর দাবা খেলায় কম্পিউটারের নৈপুণ্য প্রদর্শিত হোলো। দাবা খেলায় চালের সংখ্যা প্রচুর, তাই এই ক্ষেত্রে সমস্যা সম্পর্কিত জ্ঞানের ব্যবহার সবচেয়ে গুরুত্বপূর্ণ হয়ে ওঠে। দাবার বোর্ডে ঘুঁটির অবস্থান অনুযায়ী খেলার পরিস্থিতির প্রকৃত মূল্যায়ন করার চেষ্টাই এই জ্ঞানের মুখ্য কৌশল বলা যেতে পারে। তার সাথে যোগ হোলো আধুনিক কম্পিউটারের তীব্র গতি ও বিপুল স্মৃতির ভান্ডার। শেষ পর্যন্ত ১৯৯৭ সনে গ্যারি কাস্পারভকে হারালো আইবিএমের ডীপ ব্লু কম্পিউটারে অধিষ্ঠিত দাবার প্রোগ্রাম। এ আই এর জন্য এটি ছিল একটি বিশেষ সাফল্যের মুহূর্ত। তবে এই সাফল্য অনেকটাই কম্পিউটারের গণনা ও অন্বেষণের পাশবিক শক্তির ফল। গ্র্যান্ড মাস্টার যে বিচার ও সুচতুর অনুমান থেকে চাল দেন তা কিন্তু এখনও কম্পিউটারের বোধের বাইরে।
এতো ছিল নিতান্তই খেলা। এছাড়াও অনেক বাস্তব সমস্যার সমাধানে মোটামুটি এই কাঠামোটি প্রয়োগ করা যেতে পারে – যেমন ক্যালকুলাসে ইন্টিগ্রেশন, এবং সাধারণ ভাবে যে কোনো সরলীকরণ প্রক্রিয়ায়, রাসায়নিক শিল্পে পাইপের বিন্যাস, ইন্টিগ্রেটেড সারকিটের নকশা, রোবটের নির্বাধ গতিপথ নির্ধারণ, ধাতব পাত বা প্লাইউড বোর্ড সবচেয়ে কার্যকারী ভাবে কাটা, ইত্যাদি। এখনকার যে কোনো কম্পিউটার সহায়তায় পরিকল্পনা (Computer-aided Design বা CAD) প্যাকেজের এগুলি অবিচ্ছেদ্য অংশ।
সমাধানে জ্ঞানের ভূমিকা
নিউয়েল, শ ও সায়মন প্রনোদিত এই কাঠামোকে তাঁরা নাম দিলেন ‘জেনারাল প্রব্লেম সল্ভার’ (General Problem Solver), অর্থাৎ যে কোনো সমস্যা সমাধানের উপায়। কার্যত দেখা গেলো বেশিরভাগ বাস্তব সমস্যার সমাধানের জন্য সেই বিষয়ের অনেক জ্ঞানের প্রয়োজন। সেই জ্ঞানকে ঠিক কিভাবে নিবেদন করলে সমস্যার সমাধান সহজ হয়ে উঠবে তাই নিয়ে অনেক চর্চা হোলো। এই নতুন বিষয়টির নাম হোলো ‘নলেজ রিপ্রেসেন্টেশন’ (knowledge representation) বা জ্ঞান উপস্থাপনার পদ্ধতি। একটি বিশেষ বিষয়ের জ্ঞানকে উপযুক্ত ভাবে উপস্থাপনা করে তার থেকে বিভিন্ন পরিস্থিতিতে পরামর্শ নেওয়ার জন্য তৈরি হল ‘এক্সপার্ট সিস্টেম’ (expert systems) বা বিশেষজ্ঞ প্যাকেজ।
অনেক ক্ষেত্রেই বিষয়ের জ্ঞানকে কতগুলি নিয়মের মধ্যে ধরা হোতো। এই নিয়মের গঠন হোলো ‘যদি X সত্য হয়, তবে Y সত্য বা Y করা যেতে পারে’। অনেকটা আগের মতন কাঠামোতেই সরল চালের জায়গায় সমস্যা সমাধানের নিয়ম প্রয়োগ করা যায়। একটি বিশেষ প্রয়োগ ক্ষেত্রে, যেমন চিকিৎসাবিদ্যায় রোগনির্ণয় বা চিকিৎসাদানের জন্য, এমন বেশ কিছু নিয়ম বানানো যায়, এবং রোগীর উপসর্গ থেকে শুরু করে উপযুক্ত নিয়মের প্রয়োগের মাধ্যমে কার্যকরী চিকিৎসায় পৌঁছনো যেতে পারে। সত্তরের দশকে রক্তের সংক্রমণ নির্ণয়ের জন্য মাইসিন নামে একটি বিশেষজ্ঞ প্যাকেজ বেশ সাফল্য অর্জন করে [২]। তবে এর ব্যবহার তেমন হয়নি, কারণ ভুল হলে তার দায়িত্ব নেবে কে?
লিখিত ভাষার মর্মোদ্ধার
এ আই এর আরেকটি দিক হল কোনো লিখিত বর্ণনা পড়ে, তার মানে বুঝে, প্রশ্নের উত্তর দেওয়া। কম্পিউটার যদিও অনায়াসে প্রোগ্রামের ভাষা বুঝে নেয়, লিখিত ভাষা বোঝা একেবারে অন্যরকম ব্যাপার। প্রোগ্রামের ভাষার একটি খণ্ডের অর্থ একই, তা প্রোগ্রামের যেখানেই আসুক না কেন। লিখিত ভাষায় অনেক ক্ষেত্রেই একটি শব্দের বা বাক্য খণ্ডের অর্থ কি প্রসঙ্গে বলা হচ্ছে, অর্থাৎ আগে কি বলা হয়েছে, তার উপর নির্ভর করে। তাই লিখিত ভাষার মানে বোঝা কম্পিউটারের পক্ষে বিশেষ কঠিন।
এর জন্য প্রথমে বাক্যের শব্দ এবং যতিচিহ্নগুলি আলাদা করে ব্যাকরণ অনুযায়ী তার গঠনটি বুঝে নিতে হয়। বাক্যের উদ্দেশ্য-বিধেয়, বিশেষ্য-বিশেষণ-ক্রিয়াপদ ইত্যাদি বুঝে একটি উপযুক্ত অভ্যন্তরীণ বর্ণনা তৈরি করা হয়। এই বর্ণনায় প্রত্যেকটি শব্দের অর্থ ও তাদের মধ্যে সম্পর্ককে ধরা আছে। বলাই বাহুল্য, অনেক সময়ই একাধিক অর্থের সম্ভাবনা নিয়ে এগিয়ে যেতে হয় যতক্ষণ না নতুন তথ্যের আলোয় বোঝা যায় এদের মধ্যে কোনটি ঠিক। আরও একটি কঠিন ব্যাপার হলো একটি বাক্যের সাথে তার পরের বাক্যের সম্পর্ক বুঝে জ্ঞানের অভ্যন্তরীণ বর্ণনায় উপযুক্ত পরিবর্তন ও পরিবর্ধন করা। প্রশ্নের উত্তর দেওয়ার জন্য আরও প্রয়োজন হল অভ্যন্তরীণ এই জ্ঞানের বর্ণনা থেকে শুদ্ধ বাক্য রচনা করার ক্ষমতা। এই পর্যায়ে অন্য একটি ভাষাতেও বাক্য রচনা করা যেতে পারে। সেটা হবে যন্ত্রের অনুবাদ। লিখিত ভাষা বুঝে প্রশ্নের উত্তর দেওয়ার এই পদ্ধতি নিয়েও অনেক বছর ধরে অনেক গবেষণা হয়েছে। বিচ্ছিন্ন ভাবে সাফল্যও এসেছে, তবু এই পদ্ধতি দৈনন্দিন জীবনে ব্যবহারের উপযুক্ত হয়ে ওঠেনি। এর উপরে যখন উচ্চারিত কথা শুনে ও সেটা বুঝে কম্পিউটারকে তার উত্তর দিতে হয়, ভুলের সম্ভাবনা যায় আরও অনেক গুন বেড়ে।
ছবি চেনা
এ আই-এর আরেকটি লক্ষ্য হলো ক্যামেরার ছবি বা ভিডিওর থেকে আশপাশের জিনিসগুলোকে চেনা ও তাদের পারস্পরিক অবস্থান সম্বন্ধে ধারণা করা। একটি রোবটের এই ক্ষমতার বিশেষ প্রয়োজন, কারণ তবেই সে কিভাবে কাজ করবে তার পরিকল্পনা করতে পারে। এই বিষয়টি গবেষকদের দৃষ্টি আকর্ষণ করেছে ষাটের দশক থেকে, এবং এ বিষয়ে কাজও হয়েছে প্রচুর। তবে এই সমস্যাটি এতই কঠিন যে সব পরিস্থিতিতে কার্যকরী হবে এমন সমাধান পাওয়া মুশকিল।
ক্যামেরার থেকে যে ছবি পাওয়া যায়, তার প্রতিটি বিন্দুতে রঙ ও ঔজ্জ্বল্য কত সেই তথ্য কম্পিউটারকে দেওয়া হয়। এই তথ্য থেকেই বিভিন্ন পদ্ধতিতে কম্পিউটার বোঝার চেষ্টা করে ছবিতে কি দেখা যাচ্ছে। এর জন্য প্রথমে ছবির বিভিন্ন অংশকে আলাদা করা হয় – যেমন একটি ছবিতে দেয়াল, টেবিল, ও টেবিলের ওপরে রাখা একটি বইকে আলাদা করা যেতে পারে। একটি অংশের মধ্যে রঙ ও ঔজ্জ্বল্যের মাত্রা প্রায় একই থাকে অথবা খুব ধীরে পরিবর্তন হয়; প্রাথমিক ভাবে এই নীতি প্রয়োগ করেই অংশগুলিকে আলাদা করা হয়।
এরপর সবচেয়ে গুরুত্বপূর্ণ হোলো প্রতিটি অংশের মধ্যে প্রচ্ছন্ন জিনিসটির সীমাসূচক রেখাগুলিকে আবিষ্কার করা। ছবির মধ্যে যে বিন্দুগুলিতে ঔজ্জ্বল্যের পরিবর্তনের হার সবচেয়ে বেশি তাদের নিয়েই এই রেখাগুলি তৈরি। এই রেখাগুলির প্রত্যেকের দিক ও কিভাবে তারা এক একটি বিন্দুতে এসে মিলেছে, তার মধ্যে জিনিসটির আকৃতির একটি ছাপ থাকে, যা দিয়ে তাকে চেনা যায়। জিনিসের আকৃতি ও ভঙ্গি অনুযায়ী এই রেখার বিন্যাস ভিন্ন হয়। পরিচিত জিনিসের সম্ভাব্য রেখার বিন্যাসের তথ্য কম্পিউটারের কাছে তালিকাভুক্ত থাকে। তার সাথে মিলিয়ে সে বুঝে নেয় ছবিতে কোন জিনিসটি দেখা যাচ্ছে এবং তার ভঙ্গি কি। অবশ্যই ব্যাপারটা অত সহজ নয়, এবং কম্পিউটার প্রায়ই বুঝে উঠতে পারে না, বা ভুল বোঝে। এর প্রধান কারণ প্রতিকূল আলোয় কোনো রেখার মাঝপথে হারিয়ে যাওয়া, জিনিসের আংশিক ভাবে ক্যামেরার দৃষ্টির আড়ালে পড়ে যাওয়া, এবং সর্বোপরি জিনিসের আকৃতির ভীষণ বৈচিত্র্য যা জ্যামিতিক বর্ণনায় ধরা কঠিন। এরপর অবশ্য এই প্রাথমিক পদ্ধতিটির সঙ্গে আরো অনেক আনুষঙ্গিক পদ্ধতির যোগ হয়, যেমন আলো ছায়ার থেকে বিভিন্ন পৃষ্ঠতল কোন দিকে মুখ করে আছে তা অনুমান করা। পৃষ্ঠতল কতটা উজ্জ্বল বা নিষ্প্রভ অথবা কতটা দানাদার তার থেকেও জিনিস চিনতে সুবিধা হয়। কিন্তু এ সত্বেও দৈনন্দিন ব্যবহারের অনেক জিনিসই কম্পিউটারের পক্ষে নির্ভুল ভাবে চেনা সহজ ছিল না। সম্প্রতি নতুন প্রযুক্তিতে অবস্থার অনেক উন্নতি হয়েছে।
এ পর্যন্ত এআই এর যে অতি সংক্ষিপ্ত রূপরেখা দেওয়া হোলো, তাকে সনাতন এ আই বলা যেতে পারে। এর ভিত্তি ছিল যুক্তিবাদ, অর্থাৎ প্রতিটি বুদ্ধির কাজকে বিশ্লেষণ করে বোঝার চেষ্টা করা হয়েছে কিভাবে কম্পিউটারকে এই ক্ষমতা দেওয়া যেতে পারে। তাতে সব ক্ষেত্রেই কিছু সরল সমস্যার সমাধান হলেও, বাস্তবের অনেক সমস্যাই ধরাছোঁয়ার বাইরে থেকে গেছে। অথচ একটু খেয়াল করলেই বোঝা যায়, আমাদের ক্রিয়াকলাপ প্রায়ই আমাদের অজান্তে অবচেতন থেকে নিয়ন্ত্রিত হয়। আশপাশটা দেখে বুঝে বা চিনে নেওয়া, কথা বলা এবং শোনা, এসবের জন্য আমরা কখনও ভাবতে বসিনা। কিভাবে আমাদের অবচতেনকে ধরাছোঁয়ার মধ্যে এনে দিলো নিউরাল নেটওয়ার্ক, সেটা আমরা দেখবো পরের পর্বে।
প্রচ্ছদের ছবির সূত্র :Photo by Tara Winstead from Pexels
কিছু রেফারেন্স:
[১] Newell, A., Shaw, J. C., & Simon, H. A. (1958). Elements of a theory of human problem solving. Psychological Review, 65(3), 151–166. https://doi.org/10.1037/h0048495
[২] https://en.wikipedia.org/wiki/Mycin