Wednesday, May 27, 2026

গবেষণা ও গবেষণাপত্রের পার্থক্য

গতদিন 'কীভাবে ৩ ঘণ্টায় Q1 জার্নালের জন্য পেপার রেডি করবেন' নিয়ে একটি ফানি পোস্ট দেওয়ার পর একটি বিষয় খুব ভালোভাবে বুঝলাম। অনেকেই, বিশেষ করে গবেষণার জগতে নতুন পা রাখা অনেকেই গবেষণা ও গবেষণাপত্র বিষয় দুটিকে এক মনে করে গুলিয়ে ফেলেন। তাঁরা ভাবেন, সুন্দর করে কয়েক পৃষ্ঠা ইংরেজি লিখে ফেলাই বুঝি রিসার্চ! বিষয়টা কিন্তু মোটেও তা নয়। একটি ম্যানুস্ক্রিপ্ট আপনি হয়তো AI এর সাহায্য নিয়ে খুব দ্রুত লিখে ফেলতে পারবেন। কিন্তু গবেষণা?

গবেষণা (Research) হলো পর্দার পেছনের মূল কাজ। ল্যাবে ঘণ্টার পর ঘণ্টা এক্সপেরিমেন্ট করা, রোদে পুড়ে মাঠে গিয়ে মানুষের কাছ থেকে ডেটা কালেক্ট করে ইনসাইট বের করে আনা, শত শত লিটারেচার রিভিউ করা, কিংবা ডেটা এনালাইসিস করতে গিয়ে হাঁপিয়ে ওঠা, এই পুরো জার্নিটাই হলো গবেষণা। একটি সিস্টেমেটিক পদ্ধতিতে নতুন জ্ঞান তৈরি করা বা অজানা কোনো প্রশ্নের উত্তর খোঁজাই হলো এর মূল উদ্দেশ্য।



বিষয়টা একদমই এমন নয় যে, গবেষণা করলেই সেটি সাথে সাথে গবেষণাপত্র আকারে প্রকাশ হয়ে যাবে বা সবাই প্রকাশ করে। যেমন ওয়ার্ল্ড লিড দেওয়া দুনিয়ার বড় বড় কোম্পানিগুলো বেশিরভাগ সময় তাদের গবেষণার ফলাফল প্রকাশ করে না, অথচ তারা বিলিয়ন ডলার খরচ করে গবেষণায়।
অন্যদিকে, গবেষণাপত্র (Research Paper) হলো আপনার সেই দীর্ঘ জার্নির একটি পরিপাটি ও সাজানো গোছানো প্রেজেন্টেশন। আপনি কী নিয়ে কাজ করলেন, কীভাবে ডেটা সংগ্রহ করলেন এবং শেষে কী ফলাফল পেলেন, সেটা যখন Introduction, Methodology, Results এবং Conclusion এর মতো একটি নির্দিষ্ট ফরম্যাটে লিখে একাডেমিক কমিউনিটিকে জানানোর জন্য তৈরি করেন, তখন তা গবেষণাপত্র হয়ে ওঠে।
সহজ কথায়, গবেষণা হলো আপনার আসল কাজ, আর গবেষণাপত্র হলো সেই কাজের প্রমাণ বা অন্যদের জানানোর মাধ্যম।
তাই যারা গবেষণার জগতে একদম বিগিনার, তাদের শুরুতেই শুধু কীভাবে পেপার লিখব সেই চিন্তায় অস্থির হলে চলবে না। পেপার লেখাটা একটা স্কিল, কিন্তু সবার আগে আপনাকে লজিক দিয়ে চিন্তা করা এবং আসল রিসার্চের কাজটায় মনোযোগ দিতে হবে। কাজটা ঠিকঠাক হলে, সেটার ওপর ভিত্তি করে একটি ভালো পেপার লেখা কেবল সময়ের ব্যাপার।
Share:

Friday, May 22, 2026

মডেল ফিট স্ট্যাটিস্টিক্স: আপনার তৈরি মডেলটি আসলে কতটা ভালো?

 ডেটা এনালাইসিসের পর সেই মডেলটা আসলে কতটা কার্যকর বা বাস্তবের সাথে কতটা মানানসইতা বোঝার জন্য আমরা  সাধারণত Model fit statistics ব্যবহার করি। সহজ কথায় বলতে গেলে, Model fit statistics হলো এমন কিছু গাণিতিক মাপকাঠিযা আমাদের বলে দেয় যে আমাদের তৈরি করা মডেলটি বাস্তবের ডেটার সাথে কতটা নিখুঁতভাবে মিলে যাচ্ছে। বিষয়টা অনেকটা এমন যে আপনি দর্জির কাছে গিয়ে মাপ দিয়ে একটি শার্ট বানালেন। শার্টটি তৈরি হওয়ার পর আপনি যখন গায়ে দেনতখন বুঝতে পারেন সেটি আপনার গায়ে ফিট হয়েছে কিনা। শার্ট যদি খুব ঢিলা বা খুব চাপা হয়তার মানে শার্টের ফিটিং ভালো হয়নি। ডেটা এনালাইসিসের ক্ষেত্রেও বিষয়টা ঠিক এমনই। আমরা আমাদের সংগৃহীত ডেটা দিয়ে যে মডেলটি তৈরি করিসেটি বাস্তবের ফলাফলগুলোকে কতটা নিখুঁতভাবে প্রেডিক্ট করতে পারছেতা যাচাই করার উপায়ই হলো Model fit statistics



মডেল কতটা ফিট সেটা যাচাই করার জন্য অনেক রকমের ইনডিকেটর আছে। যেমন R square, Adjusted R square, RMSE, Pseudo R square, Log-likelihood এর মতো বিষয়গুলো। তবে মনে রাখতে হবেসব মডেলে এই সবগুলোর প্রয়োজন হয় না। মডেলের ধরন অনুযায়ী আমাদের যাচাইয়ের পদ্ধতিও বদলে যায়। 

শুরুতেই ধরা যাক লিনিয়ার রিগ্রেশনের কথা। মনে করুনআপনি বের করতে চাইছেন একজন শিক্ষার্থীর পড়াশোনার সময় এবং ক্লাসে উপস্থিতির হারের ওপর তার সিজিপিএ কীভাবে নির্ভর করে। এই মডেলে আপনি প্রথমেই যেটা দেখবেনতা হলো R-squared। R-squared এর মান আপনাকে বলবে আপনার ইন্ডিপেন্ডেন্ট ভ্যারিয়েবলগুলোঅর্থাৎ পড়াশোনার সময় ও উপস্থিতি মিলে শিক্ষার্থীর সিজিপিএ এর কতটুকু পরিবর্তন বা ভ্যারিয়েশন বা কারণ ব্যাখ্যা করতে পারছে। আপনার মডেলে যদি  R-squared ০.৭০ আসেতার মানে হলো সিজিপিএ-র ৭০% পরিবর্তন আপনি পড়াশোনা ও উপস্থিতির সময় দিয়ে ব্যাখ্যা করতে পেরেছেন। বাকি ৩০% হয়তো তার মেধা বা পরীক্ষার দিনের মানসিক অবস্থা বা অন্য কোনো অজানা কারণের ওপর নির্ভর করছে যেগুলো মডেলে আনা হয়নি

কিন্তু শুধু R-square দেখলেই হবে নাআপনাকে Adjusted R-square এর দিকেও তাকাতে হবে। কারণ সাধারণত মডেলে আপনি যত ভ্যারিয়েবল যোগ করবেন (ধরে নিন আপনি শিক্ষার্থীর জুতার সাইজও মডেলে ঢুকিয়ে দিলেন) গাণিতিক কারণে R-square এর মান কিছুটা বেড়ে যায়। Adjusted R-square এখানেই গুরুত্বপূর্ণ ভূমিকা পালন করে। জুতার সাইজ তো আর সিজিপিএ তে কোনো প্রভাব ফেলে নাতাই এই অপ্রয়োজনীয় ভ্যারিয়েবল যোগ করলে Adjusted R-square বৃদ্ধি না পেয়ে  উল্টো কমে যাবে। 

এরপরে আসে RMSE (Root Mean Squared Error)। এটা হলো আপনার মডেল যে সিজিপিএ প্রেডিক্ট করেছেআর ওই শিক্ষার্থীর আসল সিজিপিএ এই দুটোর মধ্যে গড়ে কতটা দূরত্ব। এই মান যত কম হবেআপনার প্রেডিকশন তত নিখুঁত বলে ধরা হবে। লিনিয়ার রিগ্রেশনের ক্ষেত্রে সবচেয়ে গুরুত্বপূর্ণ অথচ সবচেয়ে অবহেলিত বিষয় হলো রেসিডিউয়াল প্লট (Residual Plot)। রেসিডিউয়াল মানে হলো শিক্ষার্থীর আসল সিজিপিএ থেকে আপনার প্রেডিক্ট করা সিজিপিএর বিয়োগফল। আপনি যদি এগুলো নিয়ে একটা গ্রাফ আঁকেন আর দেখেন বিন্দুগুলো এলোমেলোভাবে বা র‍্যান্ডমলি ছড়িয়ে আছেতাহলে বুঝবেন মডেল ঠিক আছে। কিন্তু যদি দেখেন একটা নির্দিষ্ট প্যাটার্ন তৈরি হয়েছে, তাহলে বুঝতে হবে আপনার মডেলে গুরুত্বপূর্ণ কোনো কিছু বাদ পড়েছে

এবার ধরুনআপনার গবেষণার বিষয়টা একটু আলাদা। আপনি সিজিপিএ জানতে চাইছেন নাআপনি দেখতে চাইছেন পড়াশোনার সময় এবং ক্লাস টেস্টের মার্কসের ওপর ভিত্তি করে একজন শিক্ষার্থী চূড়ান্ত পরীক্ষায় পাশ করবে নাকি ফেল করবে। যেহেতু ফলাফল এখানে পাশ বা ফেল ভিত্তিকতাই আপনাকে লজিস্টিক রিগ্রেশন ব্যবহার করতে হবে। লজিস্টিক মডেলে লিনিয়ার রিগ্রেশনের মতো সরাসরি R-square পাওয়া যায় না। এর পরিবর্তে আমরা McFadden’s বা Nagelkerke-এর মতো Pseudo R-square ব্যবহার করি। এগুলো দিয়ে হুবহু ভ্যারিয়েশন ব্যাখ্যা করা না গেলেওদুটো ভিন্ন মডেলের মধ্যে তুলনা করতে এগুলো কাজ করে। McFadden’s R-square এর মান ০.২ থেকে ০.৪-এর মধ্যে থাকলে ধরে নেওয়া হয় মডেলটা বেশ ভালো ফিট করেছে

লজিস্টিক মডেলে আপনাকে দেখতে হবে Hosmer-Lemeshow Test। এই টেস্ট বলে দেয় আপনার মডেলের প্রেডিক্ট করা পাশ করার সম্ভাব্যতার সাথে বাস্তবে সত্যিই পাশ করার কতটা মিল আছে। অন্যান্য টেস্টে p-value কম হলে আমরা খুশি হইকিন্তু এখানে ব্যাপারটা ঠিক উল্টো। Hosmer-Lemeshow Test এ p-value যদি ০.০৫ এর বেশি হয়তবেই মডেলটির ফিট ভালো ধরা হয়। p-value ছোট হওয়ার মানে হলো মডেল আর বাস্তব ডেটার মধ্যে বড় কোনো সমস্যা আছে। এর পাশাপাশি আপনাকে Confusion matrix দেখতে হবে। এটা একটা চমৎকার টেবিল বা ছকযা দেখায় আপনার মডেল কতজনকে সঠিকভাবে পাশ বলে প্রেডিক্ট করেছিল এবং বাস্তবেও তারা পাশ করেছেআর কতজনকে ফেল বলেছিল এবং বাস্তবেও তারা ফেল করেছে। এখান থেকেও  আপনি মডেলের Accuracy বা নির্ভুলতা বুঝতে পারবেন।

আপনি যদি লজিস্টিক রিগ্রেশনের বদলে প্রোবিট মডেল ব্যবহার করেনসেক্ষেত্রে চিত্রটা প্রায় একই রকমই থাকবে। কারণ প্রোবিট মডেলও পাশ-ফেল বা হ্যাঁ-না জাতীয় ডেটা নিয়েই কাজ করে। তবে এখানে মডেল যাচাইয়ের জন্য Log-likelihood এবং Likelihood Ratio (LR) Test-এর ওপর বেশি ফোকাস করা হয়। Log-likelihood আপনাকে বলবে আপনার ডেটার সাথে মডেলটা কতটা সামঞ্জস্যপূর্ণ। এই মানটি সাধারণত নেগেটিভ হয়আর এটি শূন্যের যত কাছাকাছি থাকবেমডেল তত ভালো বলে ধরে নেয়া হয়। অন্যদিকে LR Test হলো একটা তুলনামূলক পরীক্ষা। ধরুন আপনি একটা Null Model বানালেনযেখানে পড়াশোনার সময় বা ক্লাস টেস্টের মার্কসের মতো কোনো ভ্যারিয়েবলই নেইমডেল শুধু আন্দাজে পাশ-ফেল প্রেডিক্ট করছে। LR Test আপনার আসল মডেলটাকে এই Null Model-এর সাথে তুলনা করে। এর Chi-square মানটি যদি সিগনিফিকেন্ট হয়তার মানে হলো আপনার বানানো মডেলটা Null মডেলের চেয়ে অনেক অনেক গুণ ভালো কাজ করছে

এবার আসি টোবিট মডেল এর দিকে। ধরুনক্লাসে একটা খুব কঠিন পরীক্ষা হয়েছে। নিয়ম হলোকেউ ৪০-এর নিচে পেলে তার মার্কস খাতায় ০ হিসেবে লেখা হবে। পরীক্ষা এতই কঠিন ছিল যেক্লাসের অর্ধেকের বেশি শিক্ষার্থী ৪০ এর নিচে পেয়েছেতাই আপনার ডেটাসেটের অনেকগুলো মার্কস ০ তে আটকে আছেআর বাকিরা বিভিন্ন মার্কস পেয়েছে। এই ধরনের পরিস্থিতিতে টোবিট মডেলে আমরা আগের মত Log-likelihood এবং LR test দেখে থাকি। পাশাপাশি Pseudo R-square ও দেখা হয়। এর বাইরে টোবিট মডেল ঠিকমতো কাজ করছে কি নাতা বোঝার জন্য আপনার মডেল যেসব মার্কস প্রেডিক্ট করেছেতার ডিস্ট্রিবিউশন আর শিক্ষার্থীদের আসল মার্কসের ডিস্ট্রিবিউশন পাশাপাশি রেখে তুলনা করতে হয়। এই দুটো ডিস্ট্রিবিউশনের চেহারা যদি কাছাকাছি হয়তাহলে নিশ্চিন্ত হতে পারেন যে আপনার মডেল ঠিক আছে

সবশেষে আপনাকে মনে রাখতে হবে যে ডেটা এনালাইসিসের ক্ষেত্রে কোনো একটা নির্দিষ্ট ইন্ডিকেটর বা সংখ্যা দিয়ে মডেলের মান বিচার করা ঠিক নয়। R-square অনেক বেশি মানেই যে মডেল খুব ভালো বিষয়টা মোটেও এমন নয়। আপনাকে সব সময় কয়েকটা ইন্ডিকেটর একসাথে দেখতে হবে। আপনার পাওয়া পরিসংখ্যানগুলো আপনার গবেষণার মূল থিওরির সাথে কতটা মিলছেতার ওপর ভিত্তি করে চূড়ান্ত সিদ্ধান্ত নিতে হবে।

 

Share:

Thursday, May 14, 2026

ভাসিয়ে নিয়ে যাক সব

 সকাল ৬ টা বেজে ২৫ মিনিট। জানালার ওপাশেই একটা কৃষ্ণচূড়া ফুলের গাছ। সদ্য রোদ এসে পড়াতে গাছটা যেন প্রাণ ফিরে পেলো। সবুজ মাঠের মাঝে লাল ফুল খুব একটা খারাপ কম্বিনেশন না। 

অনেক সময় নিয়ে চেষ্টা করেছি ঘুমানোর। বদ অভ্যাস হয়ে গেছে। ইদানীং স্মৃতি কমে গেছে। চোখও কেমন যেন ঝাপসা হয়ে যাচ্ছে দিন দিন। অথচ মাথার ভেতরে হাজার খানিক চিন্তার চলাফেরা। জীবন কেমন যেন একটা অসীম দৌড়ের মধ্যে চলে গিয়েছে। 

পাশে মেহগুনি গাছের কচি পাতায় রোদ কেমন চিক চিক করছে। শরীরের এখন আর ঘুমানোর তাড়া নেই। বিকাল তিনটায় প্রোফেসরের সাথে মিটিং আছে। এখানে দিন রাত একাকার করে কোকিল ডাকে। অদ্ভুত লাগে কেমন যেন। অনবরত ডেকেই চলছে। আর আমি? 

এখন একটু কিছুতেই টায়ার্ড হয়ে যাই। ক্লান্তি ভর করে মন ও শরীরে। দৃষ্টির সীমানা কমে গিয়ে ঠেকেছে মেহগুনি গাছে মগডালে। পড়াশোনায় মনোযোগ নেই। মাঝে মাঝে ইচ্ছে হয় সব ছেড়ে একটা নিভৃতচারী জীবন পার করি। সেটা এখন আর খুব বেশি সম্ভব বলে মনে হয় না। শেকড় অনেক দূরে ছড়িয়ে গেছে। অথচ জীবন এত জটিল না করলে হতো বোধহয়। 

আমার এখানে একটা থেকে চারটার মধ্যে বৃষ্টি হবার সম্ভাবনা দেখাচ্ছে। হোক বৃষ্টি। প্রচণ্ড বৃষ্টিতে সব শেষ হয়ে যাক। সুনামি এসে ভাসিয়ে নিয়ে যাক সব। 

Share:

Thursday, May 7, 2026

Nature of Data | Regression Analysis

রিগ্রেশন এনালাইসিসের রেজাল্ট ভালই আসছিলো। কিন্তু সুপারভাইজারের মুখে বিরক্তি। তার বক্তব্য হলো আপনি নাকি ভুল এনালাইসিস করেছেন। কিন্তু প্রথম দেখাতে আপনার সেটা মনেই হয়নি। আপনি তো ঠিকঠাক এনালাইসিস করলেন। তাহলে কি সুপারভাইজার ভুল বললো?

একদমই না

আপনার এনালাইসিসের জন্য কোন রিগ্রেশন নির্বাচন করবেন সেটা অনেকটাই নির্ভর করবে ডিপেন্ডেন্ট ভ্যারিয়েবলের উপর। সমস্যা হলো ডিপেন্ডেন্ট ভ্যারিয়েবলের এই মান গুলোর মধ্যেই লুকিয়ে থাকে নানা ধরন। এই মান গুলো হলো এক পাল ভেড়ার মত। কিছু কিছু হয়তো আপনি খুব সহজেই আলাদা করে ফেলতে পারবেন। কিন্তু বেশিরভাগ দেখতে একই রকম। আর দেখতে একই রকম হলে তো আর সবাই এক না



চলুন আজকে এই ভেড়ার পাল গুলোকে এক এক করে চিনে নেই

আমরা সবচেয়ে বেশি যেটার সাথে পরিচিত সেটা হলো কন্টিনিউয়াস ডেটা। ১.৫২.৮৩.৭৫৪.২৫... এই ধরনের সংখ্যা যেখানে দশমিক থাকতে পারেদুই মানের মাঝে অসংখ্য মান থাকতে পারে। যেমন ফসলের ফলন (ton/hectare), পরিবারের আয় (টাকা)উচ্চতা (cm), তাপমাত্রা (°C)। এই ধরনের ডেটার জন্য আমরা সাধারণত লিনিয়ার রিগ্রেশন ব্যবহার করি

কিন্তু এখানে একটা শর্ত আছে, Dependent এবং Independent এর মধ্যে সম্পর্কটা linear হতে হবে। মানে একটা বাড়লে আর একটা proportionally বাড়বে বা কমবে। যদি সম্পর্কটা curved হয় (যেমন সার একটা limit পর্যন্ত ফলন বাড়ায়তারপর কমিয়ে দেয়)তাহলে শুধু লিনিয়ার দিয়ে কাজ হবে না

এতদূর পর্যন্ত সব সহজ মনে হচ্ছে। সমস্যা হলো এই continuous এর মধ্যেই কয়েকটা special case আছে যেটা আমরা অনেকেই মিস করি। 

ধরুন আপনি গবেষণা করছেন পরিবারের savings নিয়ে। ডেটা সংগ্রহ করতে গিয়ে দেখলেন অনেক পরিবারের savings ০ টাকা। তারা মাস শেষে কিছুই save করতে পারেন না। বাকি যারা save করেনতাদের amount বিভিন্ন - কেউ ৫০০কেউ ৫০০০কেউ ৫০০০০

এই ০ গুলো সাধারণ ০ না। অনেকের actual ability to save হয়তো negative-ও হতে পারতো (মানে তারা ঋণ করে চলেন)কিন্তু আমরা সেটা measure করতে পারছি না। শুধু ০ দেখছি। মানে ডেটা একটা limit এ এসে আটকে গেছে। এই অবস্থাকে বলে Censored data। অথবা সিজিপিএ এর কথাই হিসাব করুন। যতই মেধাবী হন না কেন আপনার রেজাল্ট ৪.০০ এর বেশি হবে না। এটাও Censored data

এই ধরনের ডেটার জন্য সাধারণ লিনিয়ার রিগ্রেশন ভুল ফলাফল দেবে। তখন আমরা ব্যবহার করি Tobit Regression

এখন আসি একটা সম্পূর্ণ আলাদা ধরনের সংখ্যার কথায়। ০৪... এই প্যাটার্নের সংখ্যা। এখানে ১.৫ বা ২.৮ আসবে না। এদের বলে Count data বা গণনাযোগ্য পূর্ণ সংখ্যা

যেমন একজন কৃষকের কয়টা গরু আছে (০৫)এক বছরে কতবার হসপিটাল ভিজিট করেন (৭)একজন কৃষক কতবার extension officer এর সাথে দেখা করেছেন (০৮)একটা গ্রামে এক মাসে কতটা accident হয়েছে (০৪), ইত্যাদি। 

এবার আমরা continuous আর count এর পার্থক্যটা বোঝার চেষ্টা করি। continuous এ দেখা হয় পরিমাণ? (১.৫ kg ধান)আর countএ দেখা হয় কয়টা? (৩টা গরু)। এই পার্থক্য না বুঝে count data তে লিনিয়ার মডেল রান করলেই সমস্যা তৈরি হবে। তখন দেখবেন ফলাফলে negative মান চলে আসছেযেটা logically impossible

Count data এর জন্য আমরা সাধারণত যেতে পারি Poisson Regression এ। কিন্তু এখানেই গল্প শেষ না

Poisson এর একটা critical শর্ত আছে। mean এবং variance প্রায় সমান হতে হবে। বাস্তবে কি হয়কিছু কৃষক কখনোই officer এর সাথে দেখা করেন নাআবার কেউ কেউ মাসে ৫-৬ বার দেখা করেন। ফলে এ সব ক্ষেত্রে mean এর তুলনায় variance অনেক বেশি হয়ে যায় । এই অবস্থাকে বলে overdispersion। তখন Poisson ভুল ফলাফল দেবে। এক্ষেত্রে p-value কে artificially ছোট দেখাবেএমন variable কেও significant দেখাবে যেগুলো আসলে significant না

এই overdispersion এর সমস্যা সামলাতে আমরা যাই Negative Binomial Regression এর দিকে

কিন্তু এখানেও একটা ঝামেলা আছে। এমন কি হতে পারে না যে আউটকাম ডেটার বেশীরভাগের মান শূন্য?

যেমন আপনার ক্লাসেই যদি সবাইকে জিজ্ঞেস করা হয় তুমি ডিনস এওয়ার্ড কয়টা পেয়েছএখানে দুই একজনের ৪-৫ থাকলেও বেশিরভাগের ক্ষেত্রে এই মান শূন্য হবে। এই অবস্থাকে বলা হয় Zero-Inflated। তখন Poisson বা Negative Binomial কোনোটাই ঠিকমতো কাজ করবে না। তখন আপনাকে যেতে হবে Zero-Inflated Poisson বা Zero-Inflated Negative Binomial এর দিকে। 

এবার আসি একদম ভিন্ন ধরনের ডেটার দিকে। এখানে ডিপেন্ডেন্ট ভ্যারিয়েবল কোনো পরিমাণ নাবরং গ্রুপ বা category ডিপেন্ডেন্ট যদি মাত্র দুইটা ক্যাটাগরির হয়, যেমন হ্যাঁ/নাসফল/ব্যর্থ, adopt করেছে/করেনি, তাহলে আপনি Binary Logistic Regression রান করবেন। যেমন কৃষক modern variety seed adopt করেছে কি করে নাইরোগী সুস্থ হয়েছে কি হয়নি। 

কিন্তু ক্যাটাগরিক্যাল আউটকাম আবার তিনটা বা তার বেশি হলে আপনাকে যেতে হবে Multinomial Logistic Regression এ। আবার সব সময় তিনটা ক্যাটাগরি দেখে খুশিতে আটখান হয়ে multinomial রান করলে হবে না

দেখতে হবে ক্যাটাগরি গুলোর মধ্যে কোন অর্ডার আছে কিনা। অর্থাৎ এই ক্যাটাগরি দিয়ে বড় ছোট বোঝাচ্ছে কিনা। যদি ক্যাটাগরির মধ্যে সিরিয়াল বা অর্ডার থাকে তাহলে আমাদের যেতে হবে Ordered Logistic Regression এর দিকে

ব্যাপারটা একটু পরিষ্কার করি। ধরুন আপনি জিজ্ঞেস করলেন কোন crop চাষ করেন? ধানগমনা ভুট্টা? এখানে ধান গমের চেয়ে বড় বা ছোট নাশুধু আলাদা। এটা nominal, এখানে multinomial logistic চলবে। কিন্তু যদি জিজ্ঞেস করেন এই কোম্পানির এর সার নিয়ে আপনি কতটা সন্তুষ্ট?  অসন্তুষ্টমাঝামাঝিনাকি সন্তুষ্টএখানে স্পষ্ট order আছে। সন্তুষ্ট অসন্তুষ্ট থেকে বেশি। এই পার্থক্য না বুঝে multinomial রান করলে আপনি ordering এর তথ্য হারাবেন, ফোলে ফলাফল হবে ভুল। 

আরেকটা ধরনের ডেটা আছে যেটা একদম আলাদা category. যেটাকে বলে time-to-event data বা survival data। এখানে ডিপেন্ডেন্ট ভ্যারিয়েবল শুধু একটা সংখ্যা নাএটা দুটো জিনিসের combinationসময় এবং event ঘটেছে কিনা

যেমন ধরুন আপনি দেখতে চান একটা নতুন variety seed কতদিন পর কৃষকরা adopt করছেন। কেউ ৬ মাসে adopt করলোকেউ ২ বছরে। কিন্তু study শেষ হয়ে গেলোকিছু কৃষক তখনো adopt করেননি।  এদের সম্পর্কে আমরা শুধু জানি এতদিন পর্যন্ত adopt করেনিকিন্তু ভবিষ্যতে করবে কিনা জানি না। এদের বলে censored observations (এই censoring আগের Tobit এর censoring থেকে আলাদা)

এই ধরনের ডেটার জন্য সাধারণ regression কাজ করবে না। এখানে আমরা ব্যবহার করি Cox Regression বা Survival Analysis

আরো কিছু উদাহরণ যেমন, রোগ সনাক্ত হবার পর রোগী কতদিন বাঁচলেনমেশিন চালু করার পর কতদিনে নষ্ট হলো, loan নেওয়ার পর কতদিনে default করলো এই সকল ক্ষেত্রেও Cox Regression বা Survival Analysis ব্যবহার করতে হবে। 

শেষে একটা স্পেশাল অবস্থার কথা বলি। সাধারণত গবেষণায়  আমরা একটা ডিপেন্ডেন্ট ভ্যারিয়েবল নিয়ে কাজ করি। কিন্তু কখনো কখনো একসাথে কয়েকটা binary outcome থাকে যেগুলো একে অপরের সাথে সম্পর্কিত।

যেমন আপনি দেখতে চাচ্ছেন একজন কৃষক একসাথে কয়টা technology adopt করেছেন। improved seed, fertilizer, pesticide, smart irrigation এই চারটা আলাদা আলাদা binary outcome (Yes/No)কিন্তু এরা আবার নিজেদের মধ্যে সম্পর্কিত। যে কৃষক improved seed use করেনতার smart irrigation ব্যবহার করার সম্ভাবনা বেশি থাকে। অর্থাৎ এই দুইটা technology adoption এর মধ্যে সম্পর্ক থাকতে পারে। এই correlated structure কে handle করতে হলে যেতে হয় Multivariate Probit (MVP) এর দিকে। 

Share:

Monday, April 13, 2026

Registration: Free Basic Statistics using Jamovi Session

 


এপ্রিলের ২৭ তারিখ থেকে শুরু হচ্ছে আমাদের Basic Statistics using Jamovi

এর একটি সম্পূর্ণ ফ্রি কোর্স। 

এই কোর্সটি বিশেষভাবে ডিজাইন করা হয়েছে বিগিনার এবং non-statistics background এর শিক্ষার্থীদের জন্য, যাতে খুব সহজভাবে basic data analysis শেখা যায়।

যারা অলরেডি বেসিক পরিসংখ্যান বা ডেটা এনালাইসিস জানেন,

এই কোর্স কোন ভাবেই তাদের জন্য নয়

📅 শুরুর তারিখ: ২৭/০৪/২০২৬
🗓 ক্লাস: প্রতি সোমবার ও বুধবার
সময়: বাংলাদেশ সময় রাত ৯টা
💻 প্ল্যাটফর্ম: Zoom

📚 কোর্স কনটেন্ট:

  1. Basics of Statistics

  2. Data Import

  3. Data Cleaning

  4. Descriptive Statistics

  5. Regression Analysis (Multiple Linear, Logistic, Probit)

  6. ANOVA

  7. Non-Parametric Statistics

⚠️ গুরুত্বপূর্ণ বিষয়:

  • কোনো certificate প্রদান করা হবে না

  • কোর্সটি সম্পূর্ণভাবে Jamovi software ব্যবহার করে পরিচালিত হবে

  • Registration করলেই selection নিশ্চিত নয়

  • Registration form-এর শেষ ২টি প্রশ্ন সঠিকভাবে উত্তর দিতে হবে

  • আপনার motivation যথেষ্ট না হলে selection নাও হতে পারে

  • আমরা selection process-এ যথেষ্ট strict

  • কোর্স কোয়ালিটি মেইনটেইন করতে আমরা সর্বোচ্চ ১০০ জনকে নিতে পারবো।

📅 Registration এর শেষ তারিখ: ২২ এপ্রিল ২০২৬ 

🔗 Registration Link: https://forms.gle/Rbj9ZwrhpwBemu3m6

📩 কোর্সের বিস্তারিত তথ্য ইমেইলের মাধ্যমে জানানো হবে।

তাই ২২ এপ্রিলের পর অবশ্যই আপনার email check করবেন।

Share: