ডেটা সাইন্স ইন্ডাস্ট্রি পাইপলাইন

Photo by Franki Chamaki on Unsplash

আমাদের ভিতরে প্রায় সবারই একটা কনফিউশন কাজ করে যে ডেটা সাইন্স এর জব সেক্টরটা আসলে কিরকম । আমিও নিজেও কনফিউজড ছিলাম । মোটামোটি ঘাটাঘাটি করে যা বুঝতে পারলাম তা এখানে বিশ্লেষণ করবো । এটা একান্তই আমার ব্যক্তিগত রিসার্চ থেকে পাওয়া । তাই হয়তো যারা জব সেক্টরে আছেন তারা আরো ভালো বুঝতে পারবেন ।

ডেটা সাইন্সের পাইপলাইনটা আগে বলি ।

ডেটা কালেকশন -> ডেটা এক্সপ্লোরেশন -> ডেটা প্রিপ্রোসেসিং -> মডেলিং -> ভ্যালিডেশন -> কমিউনিকেশন

তো এই পাইপলাইনকে মোটামোটি ৪ টা ভাগে ভাগ করতে পারবেন জব সেক্টরে । এখানে এই পাইপলাইন অনুযায়ী একের পর একজন কিভাবে কাজ করে তা বর্ননা করবো ।

১. ডেটা লেবেলারঃ এইটা হলো ডেটা কালেকশনের পর্যায়টা, সাথে হালকা-পাতলা ডেটা এক্সপ্লোরেশনের কাজটাও আছে । এদের কাজ হলো ডেটা কালেক্ট করা । ডেটা কালেক্ট করা মানে এই না যে পুরো ডেটাবেস ধরে ডেটা কালেক্ট করে নিয়ে আসলো । এদের কাজ হলো দরকারী ডেটা ধরে ধরে নিয়ে আসা । কিছু কিছু ক্ষেত্রে ডেটাকে ক্যাটাগরাইজডও করতে হয় তাদের । তাই ক্লাস্টারিং এলগোরিদম গুলোর ব্যাপারে ধারনা থাকা জরুরী তাদের । এরা এই ডেটা সাবমিট করে ডেটা এনালিস্টদের কাছে ।

২. ডেটা এনালিস্টঃ এইটা হলো বেসিক্যালি ডেটা এক্সপ্লোরেশন এবং ডেটা এনালাইস করা ।ডেটা লেবেলার এর থেকে পাওয়া ডেটা নিয়েই হলো এদের কাজ । প্রিপ্রোসিং পার্টের কিছু কাজও করে থাকে এরা । এদের কাজ গুলো আসলে কিরকম? এদের কাজ হলো ডেটার ডিস্ট্রিবিউশন দেখা, কিভাবে ডেটা পরস্পরের সাথে কানেক্টেড । যেখান থেকে ডেটা এসেছে সেখান থেকে জ্ঞান নেয়া কিভাবে তাদের ডেটা জেনারেট হচ্ছে । ডেটা মিসিং থাকলে কেন মিসিং । কি ধরনের ডেটা মিসিং । এই কাজটা আমার ব্যক্তিগত ভাবে খুবই মজা লাগে । এরা পরবর্তীতে এই প্রসেসড ডেটা এবং এনালাইসিস রিপোর্ট জমা দেয় ডেটা সাইন্টিস্টদের কাছে ।

৩. ডেটা সাইন্টিস্টঃ ডেটা এনালিস্টদের কাছে থেকে পাওয়া ডেটা এবং এনালাইসিস রিপোর্টের উপরে বেস করে এরা ডেটা আরো প্রোসেস করে, ফিচার ইঞ্জিনিয়ারিং, ফিচার সিলেকশন, ডেটা স্কেলিং ইত্যাদি করার পরে মেশিন লার্নিং মডেল ট্রেইন করে । মডেল হাইপার টিউন, ক্রস ভ্যালিডেশন, বেস্ট মডেল আউটপুট বের করার কাজটা এদের । এই মডেল তারা জমা দেয় ডেটা ইঞ্জিনিয়ার/মেশিন লার্নিং ইঞ্জিনিয়ারদের কাছে ।

৪. ডেটা ইঞ্জিনিয়ার/মেশিন লার্নিং ইঞ্জিনিয়ারঃ ডেটা সাইন্টিস্টদের থেকে পাওয়া মডেল এরা ডেপ্লয়মেন্ট লেভেলে নিয়ে যায় । এদের কাজ হলো চেক করা মডেল কতোটা ভালো পারফর্ম্যান্স দিচ্ছে, মডেল এনাফ ফাস্ট কিনা, ডেপ্লয়মেন্ট লেভেলে নেয়ার মতো কিনা । এদের সফটওয়্যার ডেভেলপ এবং, এপাআই জেনারেশন স্কিলটা অনেক দরকারী ।

এই হলো মোটামটি জব সেক্টরে ডেটা সাইন্সের পাইপলাইন । আমি নিজে এই সেক্টরে জব করি না । প্রশ্ন জাগলো তাই ঘাটাঘাটি করে যা বুঝেছি নিজের মতো করে বোঝালাম এখানে । ভুল থাকলে ধরিয়ে দিবেন অবশ্যই । তবে কিছু কথা জানিয়ে রাখি আপনি কখনোই ইন্ডাস্ট্রি লেভেলে ডিরেক্ট ডেটা সাইন্টিস্ট হিসেবে ঢুকতে পারবেন না । আপনাকে অবশ্যই তার আগের লেভেল গুলো পার করতে হবে । ডেটা সাইন্টিস্টের কাজটা কিন্তু রিসার্চ বেজড পুরোটাই, ডেটা এনালিস্টেরও । তাই আপনাকে ইন্ডাস্ট্রি লেভেলে ধাপে ধাপে আগাতে হবে (যদি না আপনার খুব ভালো একাডেমিক এক্সপেরিয়েন্স থাকে) । আশা করি সবাই বুঝতে পেরেছেন এবং কনফিউশন গুলো ক্লিয়ার হয়েছে । ধন্যবাদ ।

--

--

--

I’m a data science enthusiast. Always try to cope up with the upgraded technologies. Connect Me through polok.hasibul@gmail.com.

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Md. Hasibul Islam

Md. Hasibul Islam

I’m a data science enthusiast. Always try to cope up with the upgraded technologies. Connect Me through polok.hasibul@gmail.com.

More from Medium

Aeterna

Are you overwhelmed? So am I.

My Favorite Myth About Success