Selasa, 15 Januari 2019

Apa Itu Data Science? Pekerjaan Data Scientist

Data Science

Apa Itu Data Science? Profesi apa yang disebut Harvard sebagai Pekerjaan Terseksi abad ke-21? Itu benar ... ilmuwan data.

Ah ya, ilmuwan data yang misterius. Jadi apa sebenarnya saus rahasia ilmuwan data itu, dan apa yang sebenarnya dilakukan oleh orang "seksi" ini di tempat kerja setiap hari?

Apa Itu Data Science? Pekerjaan Data Scientist

Artikel ini dimaksudkan untuk membantu mendefinisikan peran ilmuwan data, termasuk keterampilan khas, kualifikasi, pendidikan, pengalaman, dan tanggung jawab. Definisi ini agak longgar karena sebenarnya tidak ada definisi standar dari peran ilmuwan data, dan mengingat bahwa pengalaman dan keahlian yang ideal relatif jarang ditemukan dalam satu individu.

Definisi ini selanjutnya dapat dikacaukan oleh fakta bahwa ada peran lain yang kadang-kadang dianggap sama, tetapi seringkali sangat berbeda. Beberapa di antaranya adalah analis data, insinyur data, dan sebagainya. Lebih lanjut tentang itu nanti.

Sementara ini, data science adalah disiplin ilmu lain dan bidang keahlian (tidak ditampilkan di sini), semuanya merupakan karakteristik peran ilmuwan data, saya suka menganggap yayasan ilmuwan data sebagai yang didasarkan pada empat pilar. Bidang keahlian lainnya yang lebih spesifik dapat diturunkan dari pilar-pilar ini.

Mari kita bahas mereka sekarang.

Pilar Keahlian Data Science

Sementara para ilmuwan data sering datang dari berbagai latar belakang pendidikan dan pengalaman kerja yang berbeda, sebagian besar harus kuat dalam, atau dalam kasus yang ideal menjadi ahli di empat bidang mendasar. Tanpa urutan prioritas atau kepentingan tertentu, ini adalah:


  • Domain bisnis
  • Statistik dan probabilitas
  • Ilmu komputer dan pemrograman perangkat lunak
  • Komunikasi tertulis dan verbal


Ada keterampilan dan keahlian lain yang sangat diinginkan juga, tetapi ini adalah empat utama menurut saya. Ini akan disebut sebagai pilar data ilmuwan untuk sisa artikel ini.

Pada kenyataannya, orang sering kuat dalam satu atau dua pilar ini, tetapi biasanya tidak sama kuatnya di keempat pilar tersebut. Jika Anda kebetulan bertemu seorang ilmuwan data yang benar-benar ahli dalam semua hal, maka pada dasarnya Anda menemukan diri Anda unicorn.

Berdasarkan pilar-pilar ini, seorang ilmuwan data adalah orang yang harus dapat memanfaatkan sumber data yang ada, dan membuat yang baru sesuai kebutuhan untuk mengekstraksi informasi yang bermakna dan wawasan yang dapat ditindaklanjuti. Wawasan ini dapat digunakan untuk mendorong keputusan dan perubahan bisnis yang dimaksudkan untuk mencapai tujuan bisnis.

Ini dilakukan melalui keahlian domain bisnis, komunikasi yang efektif dan interpretasi hasil, dan pemanfaatan setiap dan semua teknik statistik yang relevan, bahasa pemrograman, paket perangkat lunak dan perpustakaan, infrastruktur data, dan sebagainya.

Diagram Venn Data Science

Kita dapat menemukan banyak versi berbeda dari diagram ilmuwan data untuk membantu memvisualisasikan pilar-pilar ini (atau variasi) dan hubungannya dengan satu sama lain. David Taylor menulis artikel yang bagus tentang diagram Venn yang berjudul, Pertempuran Data Science Diagram Venn. Saya sangat merekomendasikan membacanya.

Proses Data Science

Proses sains data dapat sedikit variabel tergantung pada tujuan dan pendekatan proyek yang diambil, tetapi umumnya meniru yang berikut ini.

Baca Juga: Apa Itu Coding? 

Proses sains data melibatkan fase-fase ini, kurang lebih:


  • Akuisisi, pengumpulan, dan penyimpanan data
  • Penemuan dan identifikasi tujuan (ajukan pertanyaan yang tepat)
  • Mengakses, mencerna, dan mengintegrasikan data
  • Mengolah dan membersihkan data (munging / wrangling)
  • Investigasi data awal dan analisis data eksplorasi (EDA)
  • Memilih satu atau lebih model dan algoritma potensial
  • Menerapkan metode dan teknik sains data (mis., Pembelajaran mesin, pemodelan statistik, kecerdasan buatan, ...)
  • Mengukur dan meningkatkan hasil (validasi dan penyetelan)
  • Menyampaikan, berkomunikasi, dan / atau menyajikan hasil akhir
  • Keputusan dan / atau perubahan bisnis dibuat berdasarkan hasil
  • Ulangi proses ini untuk memecahkan masalah baru

Tidak ada komentar:

Posting Komentar