Perkenalan
Perusahaan yang sukses membuat keputusan berdasarkan informasi untuk menemukan peluang baru, mengidentifikasi kelemahan, meningkatkan efisiensi, dan meningkatkan kepuasan pelanggan. Analisis data adalah proses memeriksa data mentah untuk mengungkap tren, dan menemukan informasi yang digunakan untuk bertanya dan menjawab pertanyaan yang berkaitan dengan kinerja organisasi.
Misalnya, resor dan kasino dapat menggabungkan data dari kunjungan pelanggan sebelumnya untuk menentukan waktu terbaik untuk menjalankan kegiatan dan permainan tertentu. Seorang analis data mungkin mengambil data seperti pengeluaran pelanggan dan mencari korelasi dengan faktor-faktor lain seperti cuaca, peristiwa regional, atau bahkan kehadiran (atau tidak adanya) insentif seperti makanan dan minuman.
Contoh lainnya adalah industri kesehatan. Ada banyak data dalam industri perawatan kesehatan, termasuk catatan pasien dan informasi asuransi. Karena ada begitu banyak data, mungkin sulit untuk dikelola. Analisis data memungkinkan untuk melihat data secara menyeluruh dan dapat mengarah pada diagnosis atau rencana perawatan yang lebih cepat.
Jelaskan konsumsi dan pemrosesan data
Analisis data berkaitan dengan mengambil data dan menemukan informasi dan kesimpulan yang berarti darinya. Ini bisa seluas memilih berbagai produk yang ideal untuk pengecer, atau memilih kandidat vaksin terbaik untuk perusahaan bioteknologi.
Misalnya, dalam analisis data perusahaan mungkin berkaitan dengan mengambil data yang dihasilkan organisasi Anda, dan menggunakannya untuk menetapkan gambaran tentang bagaimana kinerja organisasi Anda, dan apa yang dapat Anda lakukan untuk mempertahankan kinerja bisnis. Analisis data dapat membantu Anda mengidentifikasi kekuatan dan kelemahan dalam organisasi Anda, dan memungkinkan Anda untuk membuat keputusan bisnis yang tepat.
Data yang digunakan perusahaan dapat berasal dari berbagai sumber. Mungkin ada banyak data historis untuk disisir, dan data baru terus berdatangan sepanjang waktu. Data ini bisa menjadi hasil dari pembelian pelanggan, transaksi bank, pergerakan harga saham, data cuaca real-time, perangkat pemantauan, atau bahkan kamera. Dalam solusi analisis data, Anda menggabungkan data ini dan membangun gudang data yang dapat Anda gunakan untuk mengajukan (dan menjawab) pertanyaan tentang operasi bisnis Anda. Membangun gudang data mengharuskan Anda dapat menangkap data yang Anda butuhkan dan bertengkar ke dalam format yang sesuai. Anda kemudian dapat menggunakan alat analisis dan visualisasi untuk memeriksa informasi, dan mengidentifikasi tren dan penyebabnya.
Di unit ini, Anda akan belajar tentang dua tahap penting dalam analisis data: konsumsi data, dan pemrosesan data. Diagram di bawah ini menunjukkan bagaimana tahap-tahap ini cocok bersama- sama.
Apa itu konsumsi data?
Konsumsi data adalah proses memperoleh dan mengimpor data untuk penggunaan langsung atau penyimpanan dalam database. Data dapat tiba sebagai aliran terus menerus, atau mungkin datang dalam batch, tergantung pada sumbernya. Tujuan dari proses konsumsi adalah untuk menangkap data ini dan menyimpannya. Data mentah ini dapat disimpan dalam repositori seperti sistem manajemen basis data, satu set file, atau beberapa jenis penyimpanan yang cepat dan mudah diakses lainnya.
Proses konsumsi juga dapat melakukan penyaringan. Misalnya, konsumsi mungkin menolak data yang mencurigakan, korup, atau diduplikasi. Data mencurigakan mungkin data yang berasal dari sumber yang tidak terduga. Data yang rusak atau diduplikasi bisa disebabkan oleh kesalahan perangkat, kegagalan transmisi, atau gangguan.
Mungkin juga untuk melakukan beberapa transformasi pada tahap ini, mengubah data menjadi bentuk standar untuk pemrosesan nanti. Misalnya, Anda mungkin ingin memformat ulang semua data tanggal dan waktu untuk menggunakan representasi tanggal dan waktu yang sama, dan mengonversi semua data pengukuran untuk menggunakan unit yang sama. Namun, transformasi ini harus cepat dilakukan. Jangan mencoba untuk menjalankan perhitungan yang kompleks atau agregasi pada data pada tahap ini.
Apa itu pengolahan data?
Tahap pemrosesan data terjadi setelah data tertelan dan dikumpulkan. Pengolahan data mengambil data dalam bentuk mentah, membersihkannya, dan mengubahnya menjadi format yang lebih bermakna (tabel, grafik, dokumen, dan sebagainya). Hasilnya adalah database data yang dapat Anda gunakan untuk melakukan kueri dan menghasilkan visualisasi, memberikan bentuk dan konteks yang diperlukan untuk ditafsirkan oleh komputer dan digunakan oleh karyawan di seluruh organisasi.
Tujuan pemrosesan data adalah untuk mengubah data mentah menjadi satu atau lebih model bisnis. Model bisnis menjelaskan data dalam hal entitas bisnis yang bermakna, dan dapat mengumpulkan item bersama-sama dan meringkas informasi. Tahap pemrosesan data juga dapat menghasilkan model prediktif atau analitis lainnya dari data. Pemrosesan data dapat menjadi kompleks, dan mungkin melibatkan skrip otomatis, dan alat-alat seperti Azure Databricks, Azure Functions, dan Azure Cognitive Services untuk memeriksa dan memformat ulang data, dan menghasilkan model. Seorang analis data dapat menggunakan pembelajaran mesin untuk membantu menentukan tren masa depan berdasarkan model-model ini.
Apa itu ELT dan ETL?
Mekanisme pemrosesan data dapat mengambil dua pendekatan untuk mengambil data yang tertelan, memproses data ini untuk mengubahnya dan menghasilkan model, dan kemudian menyimpan data dan model yang diubah. Pendekatan ini dikenal sebagai ETL dan ELT.
ETL adalah singkatan dari Extract, Transform, and Load. Data mentah diambil dan diubah sebelum disimpan. Ekstrak, transformasi, dan langkah-langkah beban dapat dilakukan sebagai pipa operasi yang berkelanjutan. Sangat cocok untuk sistem yang hanya membutuhkan model sederhana, dengan sedikit ketergantungan di antara item. Misalnya, jenis proses ini sering digunakan untuk tugas pembersihan data dasar, mendedikasikan data, dan memformat ulang isi bidang individu.
Pendekatan alternatif adalah ELT. ELT adalah singkatan dari Extract, Load, and Transform. Proses ini berbeda dari ETL karena data disimpan sebelum diubah. Mesin pemrosesan data dapat mengambil pendekatan berulang, mengambil dan memproses data dari penyimpanan, sebelum menulis data dan model yang diubah kembali ke penyimpanan. ELT lebih cocok untuk membangun model kompleks yang bergantung pada beberapa item dalam database, sering menggunakan pemrosesan batch periodik.
ELT adalah pendekatan terukur yang cocok untuk cloud karena dapat memanfaatkan daya pemrosesan ekstensif yang tersedia. Pendekatan ETL yang lebih berorientasi aliran lebih menekankan pada throughput. Namun, ETL dapat memfilter data sebelum disimpan. Dengan cara ini, ETL dapat membantu privasi dan kepatuhan data, menghapus data sensitif sebelum tiba di model data analitis Anda.
Azure menyediakan beberapa opsi yang dapat Anda gunakan untuk menerapkan pendekatan ELT dan ETL. Misalnya, jika Anda menyimpan data di Azure SQL Database, Anda dapat menggunakan Sql Server Integration Services. Layanan Integrasi dapat mengekstrak dan mengubah data dari berbagai sumber seperti file data XML, file datar, dan sumber data relasional, dan kemudian memuat data ke satu atau lebih tujuan.
Ini adalah tabel sederhana yang menunjukkan kelebihan ETL dan ELT dalam banyak kasus.
Pendekatan lain yang lebih umum adalah menggunakan Azure Data Factory. Azure Data Factory adalah layanan integrasi data berbasis cloud yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur pergerakan data dan mengubah data dalam skala besar. Menggunakan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut pipa) yang dapat menelan data dari penyimpanan data yang berbeda. Anda dapat membangun proses ETL kompleks yang mengubah data secara visual dengan aliran data, atau dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Azure Databricks,dan Azure SQL Database.
Menjelajahi visualisasi data
Model bisnis dapat berisi sejumlah besar informasi. Tujuan menghasilkan model seperti ini adalah untuk membantu Anda beralasan atas informasi yang dikandungnya, mengajukan pertanyaan, dan mudah-mudahan mendapatkan jawaban yang dapat membantu Anda mendorong bisnis Anda ke depan.
Unit ini membahas beberapa teknik yang dapat Anda gunakan untuk menganalisis dan memahami informasi dalam model Anda.
Apa yang dilaporkan?
Pelaporan adalah proses mengatur data ke dalam ringkasan informasi untuk memantau bagaimana berbagai bidang organisasi berkinerja. Pelaporan membantu perusahaan memantau bisnis online mereka, dan mengetahui kapan data berada di luar rentang yang diharapkan. Pelaporan yang baik harus menimbulkan pertanyaan tentang bisnis dari pengguna akhir. Pelaporan menunjukkan kepada Anda apa yang telah terjadi, sementara analisis berfokus pada menjelaskan mengapa hal itu terjadi dan apa yang dapat Anda lakukan tentang hal itu.
Apa itu intelijen bisnis?
Istilah Business Intelligence (BI) mengacu pada teknologi, aplikasi, dan praktik untuk pengumpulan, integrasi, analisis, dan penyajian informasi bisnis. Tujuan dari intelijen bisnis adalah untuk mendukung pengambilan keputusan yang lebih baik.
Sistem intelijen bisnis memberikan pandangan historis, terkini, dan prediktif tentang operasi bisnis, paling sering menggunakan data yang telah dikumpulkan ke gudang data, dan kadang-kadang bekerja dari data operasional langsung. Elemen perangkat lunak mendukung pelaporan, analisis tabel pivot "slice-and-dice" interaktif, visualisasi, dan penambangan data statistik. Aplikasi menangani penjualan, produksi, keuangan, dan banyak sumber data bisnis lainnya untuk tujuan yang mencakup manajemen kinerja bisnis. Informasi sering dikumpulkan tentang perusahaan lain di industri yang sama untuk perbandingan. Proses perbandingan dengan perusahaan lain di industri yang sama dikenal sebagai benchmarking.
Apa itu visualisasi data?
Visualisasi data adalah representasi grafis dari informasi dan data. Dengan menggunakan elemen visual seperti grafik, grafik, dan peta, alat visualisasi data menyediakan cara yang dapat diakses untuk melihat dan memahami tren, outlier, dan pola dalam data. Jika Anda menggunakan Azure, alat visualisasi data yang paling populer adalah Power BI.
Menggunakan Power BI, Anda dapat terhubung ke beberapa sumber data yang berbeda, dan menggabungkannya ke dalam model data. Model data ini memungkinkan Anda membangun visual, dan kumpulan visual yang dapat Anda bagikan sebagai laporan, dengan orang lain di dalam organisasi Anda.
Jelajahi opsi visualisasi untuk mewakili data
Visualisasi data membantu Anda untuk fokus pada makna data, daripada melihat data itu sendiri. Visualisasi data yang baik memungkinkan Anda untuk dengan cepat melihat tren, anomali, dan potensi masalah. Bentuk visualisasi yang paling umum adalah:
Bagan batang dan kolom:Bagan batang dan kolom memungkinkan Anda melihat bagaimana sekumpulan variabel berubah di berbagai kategori. Misalnya, bagan pertama di bawah ini menunjukkan bagaimana penjualan untuk sepasang pengecer fiktif bervariasi antar situs toko.
Bagan ini menunjukkan bagaimana penjualan bervariasi menurut bulan.
Grafik garismenekankan bentuk keseluruhan dari seluruh rangkaian nilai, biasanya dari waktu ke waktu.
Matriks:Matriks visual adalah struktur tabular yang merangkum data. Seringkali, desainer laporan menyertakan matriks dalam laporan dan dasbor untuk memungkinkan pengguna memilih satu atau beberapa elemen (baris, kolom, sel) dalam matriks untuk menyoroti silang visual lain pada halaman laporan.
Key influencers: A key influencer chart displays the major contributors to a selected result or value. Key influencers are a great choice to help you understand the factors that influence a key metric. For example, what influences customers to place a second order or why sales were so high last June.
Treemap: Treemaps are charts of colored rectangles, with size representing the relative value of each item. They can be hierarchical, with rectangles nested within the main rectangles.
Scatter: A scatter chart shows the relationship between two numerical values. A bubble chart is a scatter chart that replaces data points with bubbles, with the bubble size representing an additional third data dimension.
A dot plot chart is similar to a bubble chart and scatter chart, but can plot categorical data along the X-Axis.
Filled map. If you have geographical data, you can use a filled map to display how a value differs in proportion across a geography or region. You can see relative differences with shading that ranges from light (less-frequent/lower) to dark (more-frequent/more).
Jelajahi analisis data
Analisis data berkaitan dengan memeriksa, mengubah, dan mengatur data sehingga Anda dapat mempelajarinya dan mengekstrak informasi yang berguna. Analisis data adalah disiplin yang mencakup seluruh rentang tugas manajemen data. Tugas-tugas ini tidak hanya mencakup analisis, tetapi juga pengumpulan data, organisasi, penyimpanan, dan semua alat dan teknik yang digunakan.
Istilah analisis data adalah catch-all yang mencakup berbagai kegiatan, masing-masing dengan fokus dan tujuannya sendiri. Anda dapat mengkategorikan kegiatan ini sebagai deskriptif, diagnostik, prediktif, preskriptif,dan analisis kognitif.
Di unit ini, Anda akan belajar tentang kategori analisis data ini.
Analisis deskriptif
Analisis deskriptif membantu menjawab pertanyaan tentang apa yang telah terjadi, berdasarkan data historis. Teknik analisis deskriptif merangkum dataset besar untuk menggambarkan hasilnya kepada para pemangku kepentingan.
Dengan mengembangkan KPI (Key Performance Indicators), strategi ini dapat membantu melacak keberhasilan atau kegagalan tujuan utama. Metrik seperti laba atas investasi (ROI) digunakan di banyak industri. Metrik khusus dikembangkan untuk melacak kinerja di industri tertentu.
Contoh analisis deskriptif termasuk menghasilkan laporan untuk memberikan pandangan tentang penjualan dan data keuangan organisasi.
Analisis diagnostik
Analisis diagnostik membantu menjawab pertanyaan tentang mengapa hal-hal terjadi. Teknik analisis diagnostik melengkapi analisis deskriptif yang lebih mendasar. Mereka mengambil temuan dari analisis deskriptif dan menggali lebih dalam untuk menemukan penyebabnya. Indikator kinerja diselidiki lebih lanjut untuk menemukan mengapa mereka menjadi lebih baik atau lebih buruk. Hal ini umumnya terjadi dalam tiga langkah:
- Mengidentifikasi anomali dalam data. Ini mungkin perubahan tak terduga dalam metrik atau pasar tertentu.
- Kumpulkan data yang terkait dengan anomali ini.
- Gunakan teknik statistik untuk menemukan hubungan dan tren yang menjelaskan anomali ini.
Analisis prediktif
Analisis prediktif membantu menjawab pertanyaan tentang apa yang akan terjadi di masa depan. Teknik analisis prediktif menggunakan data historis untuk mengidentifikasi tren dan menentukan apakah mereka kemungkinan akan berulang. Alat analisis prediktif memberikan wawasan berharga tentang apa yang mungkin terjadi di masa depan. Teknik termasuk berbagai teknik pembelajaran statistik dan mesin seperti jaringan saraf, pohon keputusan, dan regresi.
Analisis preskriptif
Analisis preskriptif membantu menjawab pertanyaan tentang tindakan apa yang harus diambil untuk mencapai tujuan atau target. Dengan menggunakan wawasan dari analisis prediktif, keputusan berbasis data dapat dibuat. Teknik ini memungkinkan bisnis untuk membuat keputusan berdasarkan informasi dalam menghadapi ketidakpastian. Teknik analisis preskriptif bergantung pada strategi pembelajaran mesin untuk menemukan pola dalam dataset besar. Dengan menganalisis keputusan dan peristiwa masa lalu, kemungkinan hasil yang berbeda dapat diperkirakan.
Analisis kognitif
Analisis kognitif mencoba untuk menarik kesimpulan dari data dan pola yang ada, memperoleh kesimpulan berdasarkan basis pengetahuan yang ada, dan kemudian menambahkan temuan ini kembali ke basis pengetahuan untuk kesimpulan di masa depan - lingkaran umpan balik pembelajaran mandiri. Analisis kognitif membantu Anda mempelajari apa yang mungkin terjadi jika keadaan berubah, dan bagaimana Anda dapat menangani situasi ini.
Kesimpulan bukanlah kueri terstruktur berdasarkan database aturan, melainkan hipotesis tidak terstruktur yang dikumpulkan dari sejumlah sumber, dan dinyatakan dengan berbagai tingkat kepercayaan. Analisis kognitif yang efektif tergantung pada algoritma pembelajaran mesin. Ini menggunakan beberapa konsep NLP (Natural Language Processing) untuk memahami sumber data yang sebelumnya belum dimanfaatkan, seperti log percakapan call center dan ulasan produk.
Secara teoritis, dengan memanfaatkan manfaat komputasi paralel / terdistribusi besar-besaran dan jatuhnya biaya penyimpanan data dan daya komputasi, tidak ada batasan untuk perkembangan kognitif yang dapat dicapai sistem ini.
Komentar
Posting Komentar