28-04-2026 21:24:53 pm

print

 
বিজ্ঞান - Bigyan-logo

বিজ্ঞান - Bigyan

বাংলা ভাষায় বিজ্ঞান জনপ্রিয়করণের এক বৈদ্যুতিন মাধ্যম
An online Bengali Popular Science magazine

https://bigyan.org.in

 

ঘরে বসে AI নিয়ে কতদূর যাওয়া যায়?


%e0%a6%a1-%e0%a6%ae%e0%a6%a8%e0%a7%8b%e0%a6%9c%e0%a6%bf%e0%a7%8e-%e0%a6%9a%e0%a7%8c%e0%a6%a7%e0%a7%81%e0%a6%b0%e0%a7%80
ড: মনোজিৎ চৌধুরী

(MBZ University)

 
%e0%a6%b6%e0%a7%8c%e0%a6%b0%e0%a7%8d%e0%a6%af-%e0%a6%b8%e0%a7%87%e0%a6%a8%e0%a6%97%e0%a7%81%e0%a6%aa%e0%a7%8d%e0%a6%a4
শৌর্য সেনগুপ্ত

(UIUC)

 
29 Apr 2026
 

Link: https://bigyan.org.in/ai-research-industry-vs-academia

%e0%a6%98%e0%a6%b0%e0%a7%87-%e0%a6%ac%e0%a6%b8%e0%a7%87-ai-%e0%a6%a8%e0%a6%bf%e0%a6%af%e0%a6%bc%e0%a7%87-%e0%a6%95%e0%a6%a4%e0%a6%a6%e0%a7%82%e0%a6%b0-%e0%a6%af%e0%a6%be%e0%a6%93%e0%a6%af%e0%a6%bc

AI গবেষণাগুলো কি শুধুই বড় বড় কোম্পানিগুলোর একচেটিয়া? এই ধরণের কোম্পানির ভিতর না থাকলে এবং বিপুল পরিমাণ গণনার ক্ষমতা (computing resources) হাতে না থাকলে AI নিয়ে কী ধরণের কাজ করা যায়? এক গবেষকের সঙ্গে আড্ডায় এই প্রশ্নগুলো উঠে এলো। কম্পিউটারকে মানুষের ভাষা বোঝানো (Natural Language Processing বা NLP), এই বিষয়টি নিয়ে উনি গবেষণা করেন এবং একসময় মাইক্রোসফ্ট রিসার্চ-এ কাজ করতেন। মাইক্রোসফ্ট-এর মত বড়ো কোম্পানিতে আপাতদৃষ্টিতে এত সুযোগসুবিধে থাকা সত্ত্বেও উনি কেন গবেষণার জন্য বিশ্ববিদ্যালয়ের কাঠামোর মধ্যে চলে এলেন, সেই নিয়েও উনি কিছুটা আলোকপাত করেছেন। “গবেষণা” বলতে ঠিক কি বোঝায়, সেই প্রশ্নটি এই আলোচনার কেন্দ্রে রয়েছে।

শৌর্য (বিজ্ঞান): মানুষের ভাষা কম্পিউটারকে বোঝানোর (Natural Language Processing) ক্ষেত্রে AI এখন খুবই গুরুত্বপূর্ণ ভূমিকা পালন করছে। ChatGPT–এর মতো সিস্টেমগুলো মানুষের মতো ভাষা বুঝতে ও লিখতে পারে। কিন্তু এই মডেলগুলোর খাঁই অনেকটা। অধিকাংশ AI মডেল চালাতে বিপুল পরিমাণ গণনার ক্ষমতা দরকার হয় (DeepSeek হয়তো কিছুটা আলাদা)।

এই প্রসঙ্গে আমার দুটি প্রশ্ন আছে।

প্রথম প্রশ্নটি হলো—বর্তমান সময়ে এমন কোনো গবেষণা সমস্যা কি আছে যেখানে বিপুল পরিমাণ গণনার ক্ষমতা ছাড়াই AI ব্যবহার করা সম্ভব? অর্থাৎ, এমন সমস্যা যেখানে একজন ব্যক্তি তার বাড়ির একটি সাধারণ কম্পিউটার, ছোট একটি GPU ক্লাস্টার, কিংবা মাঝারি মানের শক্তিশালী কম্পিউটার ব্যবহার করে সেই গবেষণায় অবদান রাখতে পারেন?

GPU ক্লাস্টার হলো একাধিক Graphics Processing Unit (GPU) একসঙ্গে সংযুক্ত করে তৈরি করা একটি উচ্চক্ষমতাসম্পন্ন কম্পিউটিং ব্যবস্থা। এখানে সবগুলো GPU সমন্বিতভাবে কাজ করে বড় ও জটিল গণনামূলক কাজ দ্রুত সম্পন্ন করে।

আর দ্বিতীয় প্রশ্নটি হলো—বর্তমানে NLP–র প্রায় সব গবেষণা বড় বড় প্রযুক্তি কোম্পানিগুলোর হাতেই কেন্দ্রীভূত হয়ে পড়েছে। অনেক ক্ষেত্রেই দেখা যায়, এই তথ্যপ্রযুক্তিশিল্প প্রতিষ্ঠানগুলোই আধুনিক (state of the art) গবেষণায় নেতৃত্ব দিচ্ছে, কারণ তাদের কাছে রয়েছে বিপুল ডেটা, শক্তিশালী কম্পিউটেশনাল অবকাঠামো এবং বৃহৎ গবেষণা দল।

এমন প্রেক্ষাপটে, আপনি Microsoft Research–এর মতো একটি শীর্ষস্থানীয় গবেষণা প্রতিষ্ঠান ছেড়ে একটি বিশ্ববিদ্যালয়ে যোগ দেন। সেই সিদ্ধান্তের পেছনে কী ধরনের কারণ ও প্রেরণা কাজ করতে পারে সেই বিষয়টি নিয়ে যদি আপনার দৃষ্টিভঙ্গি থেকে একটু ব্যাখ্যা করতেন।

ড: মনোজিত চৌধুরী: প্রথম প্রশ্নটি হলো—ধরা যাক, আমার কাছে শুধু একটি কম্পিউটার আছে, তাহলে আমি কী ধরনের গবেষণা করতে পারি?

আজকের দিনে ঘরে বসেও অনেক গুরুত্বপূর্ণ কাজ করা সম্ভব। ধরা যাক, আমার কাছে বড় ধরনের কম্পিউটেশনাল শক্তি নেই। শুধুমাত্র একটি কম্পিউটার থাকলে এবং ইন্টারনেট সংযোগ থাকলে আমি ক্লাউডের মাধ্যমে বিভিন্ন মডেল রান করতে পারি। উদাহরণস্বরূপ, আমি GPT-4, DeepSeek, Gemini, কিংবা LLaMA-র মতো মডেলগুলো ব্যবহার করতে পারি। এই সব মডেলগুলোকে আমি তাদের API-এর মাধ্যমে ব্যবহার করতে পারি। অবশ্য, এতে কিছু খরচ হয়—

একটি প্রোগ্রাম অন্য আরেকটি প্রোগ্রাম বা সার্ভিসের কাছে একটি অনুরোধ পাঠায়, সেটাকেই বলে API Call। এই অনুরোধের মাধ্যমে কোনো প্রোগ্রাম থেকে ডেটা (data) নেওয়া যায় বা তার কোনো ফাংশন (function) ব্যবহার করা যায়। সহজভাবে বলতে গেলে, API ব্যবহার করা মানে হলো “API-এর মাধ্যমে তথ্য চাওয়া বা কাজ করানোর অনুরোধ”। এখানে অনুরোধকারীকে মাথা ঘামাতে হচ্ছে না কিভাবে তার অনুরোধ রাখা হবে। যেমন, একটা ডীপ লার্নিং মডেলকে API দিয়ে ডাকলে মডেলটার খুঁটিনাটি নিয়ে জানার কোনো প্রয়োজন নেই।

এটা 100-টা GPU কেনার যে বিশাল খরচ, তার তুলনায় একেবারেই —

অনেক কম। এবং এই মডেলগুলো ব্যবহার করার অনেকগুলো বিকল্প আছে। যদি GPT-4-এর সর্বাধুনিক মডেল, o1 বা o3, এগুলো নিয়ে কাজ করতে চাই, এগুলো খুব খরচসাপেক্ষ।

কিন্তু একই কাজ অনেক কম খরচেও করা সম্ভব। GPT-4o-mini বা LLaMA-র মতো বিনামূল্যের বা তুলনামূলকভাবে সস্তা মডেল ব্যবহার করলেই হয়তো একই কাজ করা যায়।

কিছু ক্ষেত্রে যেখানে GPU-র প্রয়োজন হয়, সেখানেও ব্যবস্থা রয়েছে। যেমন আছে Google Colab। সেখানে ছাত্রদের free credits দেওয়া হয়, যাতে তারা বিনামূল্যে সীমিত ব্যবহার করতে পারে। সেই প্ল্যাটফর্মে অনেক কিছু করা সম্ভব।

কিন্তু কী ধরণের গবেষণা করা যায়, এখানে গল্পটা একটু জটিল হয়ে যায় বলে আমার মনে হয়। আগে আমরা কম্পিউটার সায়েন্স-এ বা NLP-তে গবেষণা বলতে সাধারণত ভাবতাম — একটা নতুন পদ্ধতি বানাবো (algorithm design), সেটাকে প্রশিক্ষণ দেব (training), তারপর একটা পূর্ণাঙ্গ সিস্টেম (system) বানাব। এই কাজটা করা এখন প্রায় অসম্ভব, কারণ যদি আমি প্রশিক্ষণ দিয়ে একটা ডীপ লার্নিং সিস্টেম (deep learning system) বানাতে যাই, তার জন্য যে পরিমাণ সম্পদ লাগবে, তা খুব কম লোকের কাছেই রয়েছে। এমনকি বড় বড় বিশ্ববিদ্যালয়েও খুব কম লোকের এই ক্ষমতা আছে।

তাহলে কী করা যায়? আমি হয়তো শুধু একটা API-কে ডাকবো, আর মডেলটাকে একটি নির্দিষ্ট প্রম্প্ট (prompt) লিখে দেব। ওই প্রম্প্ট-এর পরে ব্যবহারকারীর ইনপুট (input) আসবে, যার উপর প্রম্প্ট-এর নির্দেশের ভিত্তিতে কাজ করা হবে।

আমি একটি খুব সাধারণ উদাহরণ দিচ্ছি। ধরো, আমি একটি অনুবাদ করার সিস্টেম তৈরি করতে চাই। অথবা আরেকটু আকর্ষণীয় উদাহরণ দিই—আমি একটি কবিতা লেখার সিস্টেম বানাতে চাই। ধরো, সেখানে আমি ব্যবহারকারীকে তিনটে জিনিস বলার সুযোগ দেব। কোন কবির আদলে লিখবে — রবীন্দ্রনাথের আদলে, নাকি শঙ্খ ঘোষের আদলে, নাকি চর্যাপদের ধাঁচে — এটা একটি জিনিস হতে পারে। আরেকটি হতে পারে কত লম্বা লিখবে। আরেকটি হতে পারে কী বিষয়ে লিখবে। আরও একটি হতে পারে কোন ছন্দে লিখবে। এই ধরনের বিভিন্ন ইনপুট নিয়ে আমার সিস্টেম একটা কবিতা তৈরি করে দেবে বাংলায়।

আমাকে যদি এটা বানাতে হয়, তাহলে আমি কী করবো? GPT-4-এর মতো একটি সিস্টেমে একটি প্রম্প্ট (prompt) পাঠাবো। তাতে এই চারটি জিনিসের উল্লেখ থাকবে—অমুক কবির ধাঁচে, এতটা লম্বা, এই বিষয়ে, অমুক ছন্দে কবিতাটি লেখো। কোন কবি, কোন ছন্দ, এগুলো আমাকে ব্যবহারকারী বলে দেবে। আমি শুধু সেগুলো জায়গামতো বসিয়ে পাঠিয়ে দেব। এর জন্য হয়তো আমাকে ছোট একটি কোড লিখতে হবে। একবার সেই নির্দেশগুলো (prompt) ইনপুট-সহ পাঠানো হয়ে গেলে, বাকিটা মডেল নিজেই করে দেবে।

এই সিস্টেমটা বানাতে হয়তো আমার এক ঘণ্টা লাগবে। তারপর সেটার ওপর হয়তো একটু পরীক্ষা–নিরীক্ষা করলাম। কতটা ভালো কাজ করছে দেখলাম, একটু ঘষামাজা করলাম (fine tuning), ঠিকঠাক করলাম — বড়জোর আরো সাত দিন লাগবে। তাহলে এটাকে কি গবেষণা বলা যায়? কাজটা খুবই আকর্ষণীয়, করতে বেশ আনন্দও লাগে। কিন্তু এটা সত্যিকারের গবেষণা কিনা, সেটা নিয়েও অনেক প্রশ্ন উঠছে।

কয়েক দিন আগে একজন অধ্যাপক টুইটারে লিখেছিলেন, ভাষা-প্রযুক্তি নিয়ে এখন যে গবেষণা হচ্ছে, তার অনেকটাই নাকি মনোবিজ্ঞানের (psychology) পরীক্ষার মতো কিন্তু খুব একটা ভেবেচিন্তে করা পরীক্ষা নয়। যেমন, মডেল কি কবিতা লিখতে পারে, মডেলের সৃজনশীলতা আছে কি না, এই ধরনের প্রশ্ন। যেমনটা মনোবিজ্ঞানে করা হয়ে থাকে, কিন্তু হয়তো সেখানে এ ধরনের পরীক্ষা অনেক সূক্ষ্ম পরিকল্পনা করে করা হয়। কিন্তু এখানে অনেক সময় পরীক্ষাগুলো সেভাবে পরিকল্পিত নয়, এমন সমালোচনাও শোনা যাচ্ছে।

মোদ্দা কথা হলো, পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করে এক ধরনের সিস্টেম তৈরি করা যায়, এবং সেগুলো মানুষের কাজে লাগতে পারে। এরপর সরেজমিনে দেখা যায় সেগুলো মানুষ ব্যবহার করার সময় কী ধরনের সমস্যা হচ্ছে (field study)। এটা অনেকটা মানুষ কীভাবে কম্পিউটারের ব্যবহার করে (human-computer interaction), সেই গবেষণার আওতায় পড়ে।

কিন্তু মডেলকে প্রশিক্ষণ দিতে চাইলে সেটা করা খুব মুশকিল। ঘরে বসে একটি সাধারণ কম্পিউটারে বড় মডেল প্রশিক্ষণ দেওয়া সম্ভব নয়। ছোট গ্রাফিক্স প্রসেসর–সমৃদ্ধ যন্ত্রে ছোট মডেল প্রশিক্ষণ দেওয়া যায়, কিন্তু সেগুলোর কর্মক্ষমতা (performance) খুব একটা ভালো হবে না।

তবে কিছু কিছু কাজ সেখানেও করা যায়। একটা উদাহরণ দি। যেমন, বাংলার বিভিন্ন আঞ্চলিক রূপ আছে, যেগুলো এই মডেলগুলো ভালোভাবে বোঝে না বা তৈরি করতে পারে না। এগুলো মূলত আধুনিক চলতি বাংলা বুঝতে এবং তৈরি করতে পারে। অনেকটা যেমন করে আমরা কথা বলছি। কিন্তু আমরা যদি পুরো পশ্চিমবঙ্গ আর বাংলাদেশ দেখি, তাহলে বাংলা ভাষার অনেক বৈচিত্র্য রয়েছে। আমি সিলেটি নিতে পারি, রাজবংশী নিতে পারি, মেদিনীপুরের উপভাষা নিতে পারি। কিন্তু এগুলো মডেল ঠিকমতো পারে না।

এবার আমি যদি একটা মডেল বানাতে চাই যেটা মেদিনীপুরের উপভাষা সামলাতে পারবে, তাহলে আমাকে একটা বড় মডেল — যেমন Llama জাতীয় কোনো মডেল — নিয়ে তার ওপর যাকে বলে একটা অভিযোজন স্তর (adaptor) বানাতে হবে। তারপর কিছু ডেটা সংগ্রহ করে সেই উপভাষায় তাকে প্রশিক্ষণ দিতে হবে। এই কাজগুলো দুই–তিন–চারটা গ্রাফিক্স প্রসেসর থাকলেও ছোট আকারে করা যায়।

আমরা দ্বিতীয় প্রশ্নটায় আসি — আপনার ইন্ডাস্ট্রি থেকে অ্যাকাডেমিয়ায় আসার প্রসঙ্গটা নিয়ে যদি একটু বলেন। এখন তো প্রচুর ক্ষেত্রে ইন্ডাস্ট্রিই এই ক্ষেত্রটাকে নেতৃত্ব দিচ্ছে।

ইন্ডাস্ট্রি যখন নেতৃত্ব দিচ্ছিল, তখন আমি একদম তার কেন্দ্রবিন্দুতেই ছিলাম। সংক্ষেপে আমার অভিজ্ঞতার গল্পটা বলি।

আমি প্রায় পনেরো বছর Microsoft Research-এ কাজ করেছি। 2022 সালের ফেব্রুয়ারিতে আমি Microsoft Research ছেড়ে Microsoft Project Turing নামে একটি দলে যোগ দিই। এটি Microsoft-এর ভেতরেই একটি দল, অনেকটা OpenAI-এর সমতুল্য উদ্যোগ, যেখানে আমরা Large Language Model তৈরি করতাম। আমি ইচ্ছে করেই ওই দলে যোগ দিয়েছিলাম, কারণ 2022 সালের দিকে Large Language Model এসে গেছে। 2020 সালে GPT-3 প্রকাশিত হয়েছে। তখন আমাদের NLP সম্প্রদায়ের মধ্যে এবং তথ্যপ্রযুক্তি শিল্পের জগতে এই বিষয়টা নিয়ে প্রবল আলোড়ন চলছিল। সাধারণ মানুষ তখনও বিষয়টা জানতেন না। সাধারণ মানুষের কাছে ব্যাপারটা পৌঁছায় ChatGPT-র মাধ্যমে। সেটা 2022 সালের নভেম্বর মাসে আসে এবং 2023 সালে ব্যাপকভাবে ছড়িয়ে পড়ে।

2022 সালের ফেব্রুয়ারিতে আমি ভাবলাম—এত কিছু যখন হচ্ছে এখানে, এটাই সব কর্মকাণ্ডের ঘাঁটি। দূর থেকে না দেখে একেবারে মাঝখানে গিয়ে কাজ করি। Large Language Model তৈরি করার কাজের সাথে সরাসরি যুক্ত হলাম। সেখানে আমি নীতি-সংক্রান্ত দিকগুলো দেখতাম। 2022 সালের আগস্টে আমি যোগ দেওয়ার চার মাসের মধ্যেই Microsoft এবং OpenAI-এর চুক্তি হয়ে গেছে, আর আমাদের GPT-4-এর এক ঝলক দেখানো হয়েছে। তখনও কিন্তু ChatGPT বাজারে আসেনি — ছয়–সাত মাস আগেই আমরা GPT-4-এর এক ঝলক দেখে ফেলেছি। সেটা দেখে আমরা সত্যিই হতবাক! এত দ্রুত এই অগ্রগতি হবে, ভাবতেই পারিনি।

আমি তখন যে কাজটা করছিলাম, তা হলো এইরকম: একটা কথা ক্ষতিকারক বা আপত্তিকর (toxic) কি না সেটা মডেল ঠিকমতো ধরতে পারছে কি না, তার জন্য একগুচ্ছ ডেটা (dataset) তৈরি করা। কারণ আমাদের Bing-এ এগুলো খুবই দরকার ছিল। মডেল বা চ্যাটবট যখন কিছু উত্তর দিচ্ছে, সেটা যাতে ক্ষতিকারক না হয়, সেটা নিশ্চিত করাই ছিল আমাদের একটি গুরুত্বপূর্ণ লক্ষ্য। এরপর সেই একগুচ্ছ ডেটা আমি GPT-4-কে দিলাম। বিশেষ কিছুই করিনি, শুধু একটা prompt লিখে দিলাম, “বলো তো এটা ক্ষতিকারক (toxic) কি না,” তারপর ডেটা দিলাম। দেখি ও 90% ক্ষেত্রে সঠিক বলতে পারছে, যেখানে এর আগে কোনো মডেল   পৌঁছতে পারেনি। মনে মনে ভাবলাম, আচ্ছা 10% তো বাকি আছে। কমপক্ষে ওই 10% নিয়ে গবেষণা করার সুযোগ আছে। তারপর ওই 10% error বিশ্লেষণ করে দেখলাম, প্রায় 5% ক্ষেত্রে আসলে উত্তর মেলানোর জন্য মানুষ যে তথ্যটা দিয়েছে, সেখানেই ভুল ছিল। GPT ঠিকই করেছিল। তার মানে দেখা গেল মানুষ 95% ক্ষেত্রে ঠিক, আবার মডেলও 95% ক্ষেত্রে ঠিক। বাকি 5% আসলে দ্ব্যর্থক। ওটা ক্ষতিকারক কি না, দু’ভাবেই ভাবা যায়, নিশ্চিতভাবে বলা কঠিন। অর্থাৎ মডেল প্রায় মানুষের জায়গায়, অনেক ক্ষেত্রে মানুষের থেকেও ভালো করছে। তবে এটা ইংরেজিতে ছিল, বাংলায় এখনও ততটা ভালো করে না।

তারপর পুরো গল্পটা অন্যদিকে গেল। Microsoft চার মাসের মধ্যেই সিদ্ধান্ত নিল Bing Copilot বানাবে GPT-4 দিয়ে। কে আগে যেতে পারে, সেই নিয়ে হুড়োহুড়ি পড়ে গেল বলা যায়। Google আগে বানিয়ে ফেলবে নাকি অন্য কোনো কোম্পানি আগে করবে, কে আগে বাজারে আনবে, সেইসব নিয়ে হুড়োহুড়ি। আমরা ভাবলাম, আমরা GPT-4 আগেই বানিয়েছি, তাহলে আমরাই আগে ছাড়বো। আমরা 2023 সালের ফেব্রুয়ারিতে Bing Copilot ছাড়লাম। তার আগে 2022 সালের নভেম্বর মাসে ChatGPT ছাড়া হয়েছিল, যেটা আসলে GPT-3.5 ছিল। আমাদের Bing Copilot-এর ভিতর ছিল GPT-4, তার অনেক উন্নত সংস্করণ। পরে OpenAI মার্চ বা এপ্রিল মাসে GPT-4 বার করে।

এরপর কী হলো, ইন্ডাস্ট্রির ভেতরে গবেষণার পরিবেশটা খুব বদলে গেল। দেখা গেল, অনেক কিছু শুধু প্রম্প্ট লিখলেই হয়ে যাচ্ছে। কিছুটা প্রম্প্ট, বাকিটা ইঞ্জিনিয়ারিং। ইঞ্জিনিয়ারিং-এ কিছু সমস্যা বাকি ছিল, কিন্তু আমরা ছিলাম বিজ্ঞানীর ভূমিকায়। অর্থাৎ গবেষণা করছিলাম  প্রয়োগধর্মী বিজ্ঞানী হিসেবে। সেখানে আর তেমন দীর্ঘমেয়াদি, গভীর গবেষণা করার সুযোগ রইল না। এখনও আমার অনেক প্রাক্তন সহকর্মী, যারা Microsoft, Google-এর AI গবেষণা বিভাগে যারা কাজ করছে, তাদের মধ্যেও একই প্রশ্ন — গবেষণার প্রশ্নগুলো ধাওয়া করার ইচ্ছেটা কোথায় গেল? গবেষণার প্রশ্ন মানে, যে প্রশ্নগুলো আকর্ষণীয় এবং ভবিষ্যতমুখী, মানে পাঁচ বছর পরে কী আসবে। সত্যিকারের গবেষণা তো ভবিষ্যতের দিকে তাকায় — 5 বছর পরে কী হবে, 10 বছর পরে কী হবে। আজকে যা কাজ করছে, সেটাকে আরও ভালো করাটা ঠিক গবেষণা নয়, অনেকটাই ইঞ্জিনিয়ারিং-এর আওতায় পড়ে। ইন্ডাস্ট্রির গবেষণা অনেকটাই এখন “এখানে এবং এখন”-কেন্দ্রিক হয়ে গেছে এবং বেশীরভাগটাই ইঞ্জিনিয়ারিং হচ্ছে।

তখন আমি ভাবলাম, আমার তো সবসময়ই অ্যাকাডেমিয়ায় যাওয়ার ইচ্ছে ছিল। আমি অনেক জায়গায় পড়িয়েছি, ছাত্রদের সঙ্গে কাজ করতে ভালোবাসি। ভাবলাম, এটাই হয়তো সঠিক সময়। এখন অ্যাকাডেমিয়ায় গিয়ে একটু সময় নিয়ে, একটু ভেবেচিন্তে, গভীর ও আকর্ষণীয় সমস্যা নিয়ে কাজ করা যায়। সেই ভাবনা থেকেই অ্যাকাডেমিয়ায় আসা। এক বছর হলো এখানে। এখনো পর্যন্ত মনে হচ্ছে, সিদ্ধান্তটা ভালোই ছিল।

এখন অ্যাকাডেমিয়া-তে বসে আমি গভীর নীতিশাস্ত্র (ethics) সংক্রান্ত প্রশ্ন, বা সংস্কৃতি, বা নৃতত্ত্ব (anthropology) এইসব নিয়ে ভাবতে পারছি। সমাজবিজ্ঞানের (social science) বিভিন্ন ক্ষেত্র থেকে প্রশ্ন এনে Large Language Model আর NLP দিয়ে সেগুলোর উপর কাজ করতে পারছি। বা দুটোর মধ্যে একটা যোগসাজশ বার করতে পারছি। যেগুলো আগে হয়তো করতে পারতাম না কারণ NLP এই পর্যায়ে এসে পৌঁছয়নি। আগেও আমরা এই ধরণের কাজ শুরু করেছিলাম। আমরা 2017 সালে “Artificial Social Intelligence” নামে একটা প্রজেক্ট শুরু করেছিলাম। এক বছর পর সেটা ছেড়ে দিতে হয়েছিল কারণ মডেলগুলোর ‘বুদ্ধি’-ই যেখানে যথেষ্ট ছিল না, ‘সামাজিক চেতনা’ কোথা থেকে আসবে? এখন সেই স্তরের বুদ্ধিমত্তা এসেছে। এখন আমরা অনেক জটিল প্রশ্ন করতে পারি।

যেমন, এই যে আমি তোমাকে “তুমি” বলছি, তুমি আমাকে “আপনি” বলছ, এটা বয়সের কারণে, সামাজিক অবস্থানের কারণে। এটা এক ধরনের সামাজিক প্রথা। মডেলকে কি  এগুলো বোঝে? না বুঝলে, কীভাবে মডেলকে এই সামাজিক প্রথাগুলো শেখানো যায়? এগুলো কিন্তু শুধু বয়সের বিষয় না। “আপনি”, “তুমি”, “তুই” কাকে বলা হবে, সেটা পরিস্থিতি, সম্পর্ক, ঘনিষ্ঠতা, অনেক কিছুর ওপর নির্ভর করে। এই নিয়মগুলো কোথাও লেখা নেই, কোনো বইয়ে স্পষ্টভাবে পাবে না। কিন্তু আমরা জানি। প্রশ্ন হলো—মডেল কি ডেটা থেকে এগুলো শিখেছে? না শিখে থাকলে, কেমন ধরনের ডেটা দিয়ে শেখানো যায়? এখন এই ধরনের গভীর, জটিল, আকর্ষণীয় প্রশ্ন নিয়ে গবেষণা করা সম্ভব।

কি ধরণের গবেষণা এখন করা যায়, সেই নিয়ে থাকবে পরের পর্বে।

(মূল ইন্টারভিউ থেকে এই লেখাটি তৈরি করেছেন ড: সায়ন্তী কর।)

প্রচ্ছদের ছবি: শ্রেয়া সুধীর

লেখাটি অনলাইন পড়তে হলে নিচের কোডটি স্ক্যান করো।

Scan the above code to read the post online.

Link: https://bigyan.org.in/ai-research-industry-vs-academia

print

 

© and ® by বিজ্ঞান - Bigyan, 2013-26