ডেটা সাইন্স ইন্ডাস্ট্রি পাইপলাইন
আমাদের ভিতরে প্রায় সবারই একটা কনফিউশন কাজ করে যে ডেটা সাইন্স এর জব সেক্টরটা আসলে কিরকম । আমিও নিজেও কনফিউজড ছিলাম । মোটামোটি ঘাটাঘাটি করে যা বুঝতে পারলাম তা এখানে বিশ্লেষণ করবো । এটা একান্তই আমার ব্যক্তিগত রিসার্চ থেকে পাওয়া । তাই হয়তো যারা জব সেক্টরে আছেন তারা আরো ভালো বুঝতে পারবেন ।
ডেটা সাইন্সের পাইপলাইনটা আগে বলি ।
ডেটা কালেকশন -> ডেটা এক্সপ্লোরেশন -> ডেটা প্রিপ্রোসেসিং -> মডেলিং -> ভ্যালিডেশন -> কমিউনিকেশন
তো এই পাইপলাইনকে মোটামোটি ৪ টা ভাগে ভাগ করতে পারবেন জব সেক্টরে । এখানে এই পাইপলাইন অনুযায়ী একের পর একজন কিভাবে কাজ করে তা বর্ননা করবো ।
১. ডেটা লেবেলারঃ এইটা হলো ডেটা কালেকশনের পর্যায়টা, সাথে হালকা-পাতলা ডেটা এক্সপ্লোরেশনের কাজটাও আছে । এদের কাজ হলো ডেটা কালেক্ট করা । ডেটা কালেক্ট করা মানে এই না যে পুরো ডেটাবেস ধরে ডেটা কালেক্ট করে নিয়ে আসলো । এদের কাজ হলো দরকারী ডেটা ধরে ধরে নিয়ে আসা । কিছু কিছু ক্ষেত্রে ডেটাকে ক্যাটাগরাইজডও করতে হয় তাদের । তাই ক্লাস্টারিং এলগোরিদম গুলোর ব্যাপারে ধারনা থাকা জরুরী তাদের । এরা এই ডেটা সাবমিট করে ডেটা এনালিস্টদের কাছে ।
২. ডেটা এনালিস্টঃ এইটা হলো বেসিক্যালি ডেটা এক্সপ্লোরেশন এবং ডেটা এনালাইস করা ।ডেটা লেবেলার এর থেকে পাওয়া ডেটা নিয়েই হলো এদের কাজ । প্রিপ্রোসিং পার্টের কিছু কাজও করে থাকে এরা । এদের কাজ গুলো আসলে কিরকম? এদের কাজ হলো ডেটার ডিস্ট্রিবিউশন দেখা, কিভাবে ডেটা পরস্পরের সাথে কানেক্টেড । যেখান থেকে ডেটা এসেছে সেখান থেকে জ্ঞান নেয়া কিভাবে তাদের ডেটা জেনারেট হচ্ছে । ডেটা মিসিং থাকলে কেন মিসিং । কি ধরনের ডেটা মিসিং । এই কাজটা আমার ব্যক্তিগত ভাবে খুবই মজা লাগে । এরা পরবর্তীতে এই প্রসেসড ডেটা এবং এনালাইসিস রিপোর্ট জমা দেয় ডেটা সাইন্টিস্টদের কাছে ।
৩. ডেটা সাইন্টিস্টঃ ডেটা এনালিস্টদের কাছে থেকে পাওয়া ডেটা এবং এনালাইসিস রিপোর্টের উপরে বেস করে এরা ডেটা আরো প্রোসেস করে, ফিচার ইঞ্জিনিয়ারিং, ফিচার সিলেকশন, ডেটা স্কেলিং ইত্যাদি করার পরে মেশিন লার্নিং মডেল ট্রেইন করে । মডেল হাইপার টিউন, ক্রস ভ্যালিডেশন, বেস্ট মডেল আউটপুট বের করার কাজটা এদের । এই মডেল তারা জমা দেয় ডেটা ইঞ্জিনিয়ার/মেশিন লার্নিং ইঞ্জিনিয়ারদের কাছে ।
৪. ডেটা ইঞ্জিনিয়ার/মেশিন লার্নিং ইঞ্জিনিয়ারঃ ডেটা সাইন্টিস্টদের থেকে পাওয়া মডেল এরা ডেপ্লয়মেন্ট লেভেলে নিয়ে যায় । এদের কাজ হলো চেক করা মডেল কতোটা ভালো পারফর্ম্যান্স দিচ্ছে, মডেল এনাফ ফাস্ট কিনা, ডেপ্লয়মেন্ট লেভেলে নেয়ার মতো কিনা । এদের সফটওয়্যার ডেভেলপ এবং, এপাআই জেনারেশন স্কিলটা অনেক দরকারী ।
এই হলো মোটামটি জব সেক্টরে ডেটা সাইন্সের পাইপলাইন । আমি নিজে এই সেক্টরে জব করি না । প্রশ্ন জাগলো তাই ঘাটাঘাটি করে যা বুঝেছি নিজের মতো করে বোঝালাম এখানে । ভুল থাকলে ধরিয়ে দিবেন অবশ্যই । তবে কিছু কথা জানিয়ে রাখি আপনি কখনোই ইন্ডাস্ট্রি লেভেলে ডিরেক্ট ডেটা সাইন্টিস্ট হিসেবে ঢুকতে পারবেন না । আপনাকে অবশ্যই তার আগের লেভেল গুলো পার করতে হবে । ডেটা সাইন্টিস্টের কাজটা কিন্তু রিসার্চ বেজড পুরোটাই, ডেটা এনালিস্টেরও । তাই আপনাকে ইন্ডাস্ট্রি লেভেলে ধাপে ধাপে আগাতে হবে (যদি না আপনার খুব ভালো একাডেমিক এক্সপেরিয়েন্স থাকে) । আশা করি সবাই বুঝতে পেরেছেন এবং কনফিউশন গুলো ক্লিয়ার হয়েছে । ধন্যবাদ ।