API দিয়ে অনায়াসে অনেক অনেক তথ্য সংগ্রহ করতে পারা যেমন অনেক কাজের একটা ব্যাপার কিন্তু তেমনি মাঝে মাঝে এত তথ্য নিয়ে বেসামাল অবস্থায় পড়তে হয়। দেখা যায় যে কোন তথ্য হয়ত আমরা যেমনভাবে চাই তেমন ভাবে নেই, যেমন এই প্রোজেক্টের ক্ষেত্রে আমাদের দরকার অ্যাকাউন্টের বয়স, কিন্তু আমরা পাচ্ছি অ্যাকাউন্ট তৈরীর তারিখ। তাই তথ্য সংগ্রহের পরের ধাপ হল তথ্য বিশ্লেষণ এবং পরিপাটি করা।

এই টিউটোরিয়ালটি ডেটা সাইন্সে হাতে খড়ি সিরিজের তৃতীয় পর্ব। অন্যান্য পর্ব: 1. [প্রস্তুতি]({{ site.url }}/datasci-intro-1-bn) 2. [ডেটা সংগ্রহ]({{ site.url }}/datasci-intro-2-bn) 3. [বিশ্লেষণ]({{ site.url }}/datasci-intro-3-bn) (<– আপনি এখন এখানে) 4. [ভিজুয়ালাইজেশন]({{ site.url }}/datasci-intro-4-bn)

গত পর্বে আমরা দেখেছি গিটহাবের API ব্যবহার করে কিভাবে ইউজারদের পাবলিক ডেটা সংগ্রহ করা যায়। পর্বের শেষে আমরা যে কোডটি লিখেছিলাম তা দিয়ে ইউজারদের নাম, আইডি, প্রোফাইলের ঠিকানা, পাবলিক রেপোজিটরির সংখ্যা এবং অ্যাকাউন্ট তৈরীর তারিখ জানতে পেরেছিলাম। এ পর্বে এই তথ্যগুলো বিশ্লেষণ করব আমরা।

তথ্য বিশ্লেষণ

পর্ব ২ এর কোডটি চালালে টার্মিনালে এভাবে ইউজারদের তথ্য দেখানোর কথা: {% highlight none %} name: Kenneth Reitz id: 119893 html_url: https://github.com/kennethreitz public_repos: 87 created_at: 2009-08-26T21:17:47Z {% endhighlight %}

এই তথ্য পর্যবেক্ষণ করে কিছু পয়েন্ট বের করা সম্ভব:

  • আর্মিন সবার আগে অ্যাকাউন্ট তৈরী করেছে (২০০৮ সালে)
  • সবচেয়ে কম প্রোজেক্ট আছে ডনের (২৫টি প্রোজেক্ট)
  • প্রোজেক্ট করার হার সবচেয়ে কম ইয়াকুবের (বছর প্রতি ৭টি)

আমাদের মূল লক্ষ্য ছিল অ্যাকাউন্টের বয়সের তুলনায় কার কতগুলো প্রোজেক্ট আছে তার গ্রাফ বানানো, X-axis বরাবর থাকবে রেপোজিটরির সংখ্যা আর Y-axis বরাবর বয়স। API থেকে পাওয়া তথ্য দেখে আমরা বলেই দিতে পারছি কে কবে তৈরী করেছে অ্যাকাউন্ট, কিন্তু কম্পিউটার তো আর সেটা পারে না। created_at এর মানগুলো খেয়াল করলে দেখবেন তারিখ এবং সময়ে দুটোই একসাথে একটা স্ট্রিং হিসাবে পাচ্ছি আমরা। এই স্ট্রিংটাকে পাইথনের বিল্টিন datetime ফরমেটে নিলে তারিখ এবং সাল আলাদা করা যাবে। এরকম স্ট্রিং থেকে তারিখ বের করতে dateutil মডিউল থেকে তারিখের parser.parse() ব্যবহার করা হয়। সাল বের করার পর বর্তমান সাল থেকে বিয়োগ করে অ্যাকাউন্টের বয়স বের করা তো মামুলি ব্যাপার, ক্লাস টু এর বাচ্চাও বলে দিতে পারবে। বর্তমান সাল পাওয়া যাবে datetime.date মডিউলের ‍ today() ফাংশনটায়।

সবার আগে মডিউলগুলো যোগ করুন কোডের শুরুতে:‌ {% highlight python %} import dateutil from datetime.date import today {% endhighlight %}

users এর লুপ শুরুর আগে বর্তমান তারিখ জমা রাখুন: {% highlight python %} now = today() {% endhighlight %}

তারপর properties এর লুপটার পর created_at এর পার্সিং এবং বয়স বের করুন: {% highlight python %} date = dateutil.parser.parse(page_info[“created_at”]) age = (now.year - creation_date.year) print(“age: {}".format(age))

{% endhighlight %}

এবার কোড রান করলে প্রতিটা ইউজারের তথ্যের শেষে age দেখা যাবে এভাবে: {% highlight none %} name: Kenneth Reitz id: 119893 html_url: https://github.com/kennethreitz public_repos: 87 created_at: 2009-08-26T21:17:47Z age: 7 {% endhighlight %}

এ পর্যন্ত করা হয়ে গেলে গ্রাফ করার জন্য যা যা দরকার ছিল তথ্য, সবই আমাদের বের করা হয়ে গেছে। কেনেথ, আর্মিন আর ইয়াকুবের মোট পাবলিক রেপোজিটরি যথাক্রমে ৮৭টি, ১৪৩টি এবং ৪৩টি। এগুলো X-axis এর মান। অন্য দিকে তাদের অ্যাকাউন্টের বয়স যথাক্রমে ৭ বছর, ৮ বছর এবং ৬ বছর। এগুলো আমাদের গ্রাফের Y-axis এর মান। এখন শুধু বাকি [ডেটা ভিজুয়ালাইজেশন (পর্ব ৪)]({{ site.url }}/datasci-intro-4-bn) এ গ্রাফটা বানানো! এ পর্বের সম্পূর্ণ কোড এখানে: