Langsung ke konten utama

Jelajahi konsep analisis data

 

Perkenalan

Perusahaan yang sukses membuat keputusan berdasarkan informasi untuk menemukan peluang baru, mengidentifikasi kelemahan, meningkatkan efisiensi, dan meningkatkan kepuasan pelanggan. Analisis data adalah proses memeriksa data mentah untuk mengungkap tren, dan menemukan informasi yang digunakan untuk bertanya dan menjawab pertanyaan yang berkaitan dengan kinerja organisasi.

Misalnya, resor dan kasino dapat menggabungkan data dari kunjungan pelanggan sebelumnya untuk menentukan waktu terbaik untuk menjalankan kegiatan dan permainan tertentu. Seorang analis data mungkin mengambil data seperti pengeluaran pelanggan dan mencari korelasi dengan faktor-faktor lain seperti cuaca, peristiwa regional, atau bahkan kehadiran (atau tidak adanya) insentif seperti makanan dan minuman.

Contoh lainnya adalah industri kesehatan. Ada banyak data dalam industri perawatan kesehatan, termasuk catatan pasien dan informasi asuransi. Karena ada begitu banyak data, mungkin sulit untuk dikelola. Analisis data memungkinkan untuk melihat data secara menyeluruh dan dapat mengarah pada diagnosis atau rencana perawatan yang lebih cepat.


Jelaskan konsumsi dan pemrosesan data

Selesai

Analisis data berkaitan dengan mengambil data dan menemukan informasi dan kesimpulan yang berarti darinya. Ini bisa seluas memilih berbagai produk yang ideal untuk pengecer, atau memilih kandidat vaksin terbaik untuk perusahaan bioteknologi.

Misalnya, dalam analisis data perusahaan mungkin berkaitan dengan mengambil data yang dihasilkan organisasi Anda, dan menggunakannya untuk menetapkan gambaran tentang bagaimana kinerja organisasi Anda, dan apa yang dapat Anda lakukan untuk mempertahankan kinerja bisnis. Analisis data dapat membantu Anda mengidentifikasi kekuatan dan kelemahan dalam organisasi Anda, dan memungkinkan Anda untuk membuat keputusan bisnis yang tepat.

Data yang digunakan perusahaan dapat berasal dari berbagai sumber. Mungkin ada banyak data historis untuk disisir, dan data baru terus berdatangan sepanjang waktu. Data ini bisa menjadi hasil dari pembelian pelanggan, transaksi bank, pergerakan harga saham, data cuaca real-time, perangkat pemantauan, atau bahkan kamera. Dalam solusi analisis data, Anda menggabungkan data ini dan membangun gudang data yang dapat Anda gunakan untuk mengajukan (dan menjawab) pertanyaan tentang operasi bisnis Anda. Membangun gudang data mengharuskan Anda dapat menangkap data yang Anda butuhkan dan bertengkar ke dalam format yang sesuai. Anda kemudian dapat menggunakan alat analisis dan visualisasi untuk memeriksa informasi, dan mengidentifikasi tren dan penyebabnya.


Di unit ini, Anda akan belajar tentang dua tahap penting dalam analisis data: konsumsi data, dan pemrosesan data. Diagram di bawah ini menunjukkan bagaimana tahap-tahap ini cocok bersama- sama.

Arsitektur analisis data khas yang menggambarkan konsumsi data, pemrosesan, dan eksplorasi

Apa itu konsumsi data?

Konsumsi data adalah proses memperoleh dan mengimpor data untuk penggunaan langsung atau penyimpanan dalam database. Data dapat tiba sebagai aliran terus menerus, atau mungkin datang dalam batch, tergantung pada sumbernya. Tujuan dari proses konsumsi adalah untuk menangkap data ini dan menyimpannya. Data mentah ini dapat disimpan dalam repositori seperti sistem manajemen basis data, satu set file, atau beberapa jenis penyimpanan yang cepat dan mudah diakses lainnya.

Proses konsumsi juga dapat melakukan penyaringan. Misalnya, konsumsi mungkin menolak data yang mencurigakan, korup, atau diduplikasi. Data mencurigakan mungkin data yang berasal dari sumber yang tidak terduga. Data yang rusak atau diduplikasi bisa disebabkan oleh kesalahan perangkat, kegagalan transmisi, atau gangguan.

Mungkin juga untuk melakukan beberapa transformasi pada tahap ini, mengubah data menjadi bentuk standar untuk pemrosesan nanti. Misalnya, Anda mungkin ingin memformat ulang semua data tanggal dan waktu untuk menggunakan representasi tanggal dan waktu yang sama, dan mengonversi semua data pengukuran untuk menggunakan unit yang sama. Namun, transformasi ini harus cepat dilakukan. Jangan mencoba untuk menjalankan perhitungan yang kompleks atau agregasi pada data pada tahap ini.

Apa itu pengolahan data?

Tahap pemrosesan data terjadi setelah data tertelan dan dikumpulkan. Pengolahan data mengambil data dalam bentuk mentah, membersihkannya, dan mengubahnya menjadi format yang lebih bermakna (tabel, grafik, dokumen, dan sebagainya). Hasilnya adalah database data yang dapat Anda gunakan untuk melakukan kueri dan menghasilkan visualisasi, memberikan bentuk dan konteks yang diperlukan untuk ditafsirkan oleh komputer dan digunakan oleh karyawan di seluruh organisasi.


Tujuan pemrosesan data adalah untuk mengubah data mentah menjadi satu atau lebih model bisnis. Model bisnis menjelaskan data dalam hal entitas bisnis yang bermakna, dan dapat mengumpulkan item bersama-sama dan meringkas informasi. Tahap pemrosesan data juga dapat menghasilkan model prediktif atau analitis lainnya dari data. Pemrosesan data dapat menjadi kompleks, dan mungkin melibatkan skrip otomatis, dan alat-alat seperti Azure Databricks, Azure Functions, dan Azure Cognitive Services untuk memeriksa dan memformat ulang data, dan menghasilkan model. Seorang analis data dapat menggunakan pembelajaran mesin untuk membantu menentukan tren masa depan berdasarkan model-model ini.

Memproses data yang tertelan untuk menghasilkan model data

Apa itu ELT dan ETL?

Mekanisme pemrosesan data dapat mengambil dua pendekatan untuk mengambil data yang tertelan, memproses data ini untuk mengubahnya dan menghasilkan model, dan kemudian menyimpan data dan model yang diubah. Pendekatan ini dikenal sebagai ETL dan ELT.

ETL adalah singkatan dari Extract, Transform, and Load. Data mentah diambil dan diubah sebelum disimpan. Ekstrak, transformasi, dan langkah-langkah beban dapat dilakukan sebagai pipa operasi yang berkelanjutan. Sangat cocok untuk sistem yang hanya membutuhkan model sederhana, dengan sedikit ketergantungan di antara item. Misalnya, jenis proses ini sering digunakan untuk tugas pembersihan data dasar, mendedikasikan data, dan memformat ulang isi bidang individu.

Gambar yang memperlihatkan proses ETL

Pendekatan alternatif adalah ELT. ELT adalah singkatan dari Extract, Load, and Transform. Proses ini berbeda dari ETL karena data disimpan sebelum diubah. Mesin pemrosesan data dapat mengambil pendekatan berulang, mengambil dan memproses data dari penyimpanan, sebelum menulis data dan model yang diubah kembali ke penyimpanan. ELT lebih cocok untuk membangun model kompleks yang bergantung pada beberapa item dalam database, sering menggunakan pemrosesan batch periodik.

Gambar yang menunjukkan proses ELT

ELT adalah pendekatan terukur yang cocok untuk cloud karena dapat memanfaatkan daya pemrosesan ekstensif yang tersedia. Pendekatan ETL yang lebih berorientasi aliran lebih menekankan pada throughput. Namun, ETL dapat memfilter data sebelum disimpan. Dengan cara ini, ETL dapat membantu privasi dan kepatuhan data, menghapus data sensitif sebelum tiba di model data analitis Anda.

Azure menyediakan beberapa opsi yang dapat Anda gunakan untuk menerapkan pendekatan ELT dan ETL. Misalnya, jika Anda menyimpan data di Azure SQL Database, Anda dapat menggunakan Sql Server Integration Services. Layanan Integrasi dapat mengekstrak dan mengubah data dari berbagai sumber seperti file data XML, file datar, dan sumber data relasional, dan kemudian memuat data ke satu atau lebih tujuan.

Ini adalah tabel sederhana yang menunjukkan kelebihan ETL dan ELT dalam banyak kasus.

ETL versus ELT

Pendekatan lain yang lebih umum adalah menggunakan Azure Data Factory. Azure Data Factory adalah layanan integrasi data berbasis cloud yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur pergerakan data dan mengubah data dalam skala besar. Menggunakan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut pipa) yang dapat menelan data dari penyimpanan data yang berbeda. Anda dapat membangun proses ETL kompleks yang mengubah data secara visual dengan aliran data, atau dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Azure Databricks,dan Azure SQL Database.


Menjelajahi visualisasi data

Seles

Model bisnis dapat berisi sejumlah besar informasi. Tujuan menghasilkan model seperti ini adalah untuk membantu Anda beralasan atas informasi yang dikandungnya, mengajukan pertanyaan, dan mudah-mudahan mendapatkan jawaban yang dapat membantu Anda mendorong bisnis Anda ke depan.

Unit ini membahas beberapa teknik yang dapat Anda gunakan untuk menganalisis dan memahami informasi dalam model Anda.

Apa yang dilaporkan?

Pelaporan adalah proses mengatur data ke dalam ringkasan informasi untuk memantau bagaimana berbagai bidang organisasi berkinerja. Pelaporan membantu perusahaan memantau bisnis online mereka, dan mengetahui kapan data berada di luar rentang yang diharapkan. Pelaporan yang baik harus menimbulkan pertanyaan tentang bisnis dari pengguna akhir. Pelaporan menunjukkan kepada Anda apa yang telah terjadi, sementara analisis berfokus pada menjelaskan mengapa hal itu terjadi dan apa yang dapat Anda lakukan tentang hal itu.

Apa itu intelijen bisnis?

Istilah Business Intelligence (BI) mengacu pada teknologi, aplikasi, dan praktik untuk pengumpulan, integrasi, analisis, dan penyajian informasi bisnis. Tujuan dari intelijen bisnis adalah untuk mendukung pengambilan keputusan yang lebih baik.

Sistem intelijen bisnis memberikan pandangan historis, terkini, dan prediktif tentang operasi bisnis, paling sering menggunakan data yang telah dikumpulkan ke gudang data, dan kadang-kadang bekerja dari data operasional langsung. Elemen perangkat lunak mendukung pelaporan, analisis tabel pivot "slice-and-dice" interaktif, visualisasi, dan penambangan data statistik. Aplikasi menangani penjualan, produksi, keuangan, dan banyak sumber data bisnis lainnya untuk tujuan yang mencakup manajemen kinerja bisnis. Informasi sering dikumpulkan tentang perusahaan lain di industri yang sama untuk perbandingan. Proses perbandingan dengan perusahaan lain di industri yang sama dikenal sebagai benchmarking.

Apa itu visualisasi data?

Visualisasi data adalah representasi grafis dari informasi dan data. Dengan menggunakan elemen visual seperti grafik, grafik, dan peta, alat visualisasi data menyediakan cara yang dapat diakses untuk melihat dan memahami tren, outlier, dan pola dalam data. Jika Anda menggunakan Azure, alat visualisasi data yang paling populer adalah Power BI.

Menggunakan Power BI, Anda dapat terhubung ke beberapa sumber data yang berbeda, dan menggabungkannya ke dalam model data. Model data ini memungkinkan Anda membangun visual, dan kumpulan visual yang dapat Anda bagikan sebagai laporan, dengan orang lain di dalam organisasi Anda.

Jelajahi opsi visualisasi untuk mewakili data

Visualisasi data membantu Anda untuk fokus pada makna data, daripada melihat data itu sendiri. Visualisasi data yang baik memungkinkan Anda untuk dengan cepat melihat tren, anomali, dan potensi masalah. Bentuk visualisasi yang paling umum adalah:

  • Bagan batang dan kolom:Bagan batang dan kolom memungkinkan Anda melihat bagaimana sekumpulan variabel berubah di berbagai kategori. Misalnya, bagan pertama di bawah ini menunjukkan bagaimana penjualan untuk sepasang pengecer fiktif bervariasi antar situs toko.

    Contoh bagan kolom

    Bagan ini menunjukkan bagaimana penjualan bervariasi menurut bulan.

    Contoh bagan batang

  • Grafik garismenekankan bentuk keseluruhan dari seluruh rangkaian nilai, biasanya dari waktu ke waktu.

    Contoh bagan garis

  • Matriks:Matriks visual adalah struktur tabular yang merangkum data. Seringkali, desainer laporan menyertakan matriks dalam laporan dan dasbor untuk memungkinkan pengguna memilih satu atau beberapa elemen (baris, kolom, sel) dalam matriks untuk menyoroti silang visual lain pada halaman laporan.

    Contoh Visual Matriks

  • Key influencers: A key influencer chart displays the major contributors to a selected result or value. Key influencers are a great choice to help you understand the factors that influence a key metric. For example, what influences customers to place a second order or why sales were so high last June.

    Example of a Key influencers Visual

  • Treemap: Treemaps are charts of colored rectangles, with size representing the relative value of each item. They can be hierarchical, with rectangles nested within the main rectangles.

    Example of a treemap Visual

  • Scatter: A scatter chart shows the relationship between two numerical values. A bubble chart is a scatter chart that replaces data points with bubbles, with the bubble size representing an additional third data dimension.

    Example of a bubble Visual

    A dot plot chart is similar to a bubble chart and scatter chart, but can plot categorical data along the X-Axis.

    Example of a dotplot Visual

  • Filled map. If you have geographical data, you can use a filled map to display how a value differs in proportion across a geography or region. You can see relative differences with shading that ranges from light (less-frequent/lower) to dark (more-frequent/more).

    Contoh peta berisi Visual

Jelajahi analisis data

Selesai

Analisis data berkaitan dengan memeriksa, mengubah, dan mengatur data sehingga Anda dapat mempelajarinya dan mengekstrak informasi yang berguna. Analisis data adalah disiplin yang mencakup seluruh rentang tugas manajemen data. Tugas-tugas ini tidak hanya mencakup analisis, tetapi juga pengumpulan data, organisasi, penyimpanan, dan semua alat dan teknik yang digunakan.

Istilah analisis data adalah catch-all yang mencakup berbagai kegiatan, masing-masing dengan fokus dan tujuannya sendiri. Anda dapat mengkategorikan kegiatan ini sebagai deskriptif, diagnostik, prediktif, preskriptif,dan analisis kognitif.

Kategori analitik

Di unit ini, Anda akan belajar tentang kategori analisis data ini.

Analisis deskriptif

Analisis deskriptif membantu menjawab pertanyaan tentang apa yang telah terjadi, berdasarkan data historis. Teknik analisis deskriptif merangkum dataset besar untuk menggambarkan hasilnya kepada para pemangku kepentingan.

Dengan mengembangkan KPI (Key Performance Indicators), strategi ini dapat membantu melacak keberhasilan atau kegagalan tujuan utama. Metrik seperti laba atas investasi (ROI) digunakan di banyak industri. Metrik khusus dikembangkan untuk melacak kinerja di industri tertentu.

Contoh analisis deskriptif termasuk menghasilkan laporan untuk memberikan pandangan tentang penjualan dan data keuangan organisasi.

Analisis diagnostik

Analisis diagnostik membantu menjawab pertanyaan tentang mengapa hal-hal terjadi. Teknik analisis diagnostik melengkapi analisis deskriptif yang lebih mendasar. Mereka mengambil temuan dari analisis deskriptif dan menggali lebih dalam untuk menemukan penyebabnya. Indikator kinerja diselidiki lebih lanjut untuk menemukan mengapa mereka menjadi lebih baik atau lebih buruk. Hal ini umumnya terjadi dalam tiga langkah:

  1. Mengidentifikasi anomali dalam data. Ini mungkin perubahan tak terduga dalam metrik atau pasar tertentu.
  2. Kumpulkan data yang terkait dengan anomali ini.
  3. Gunakan teknik statistik untuk menemukan hubungan dan tren yang menjelaskan anomali ini.

Analisis prediktif

Analisis prediktif membantu menjawab pertanyaan tentang apa yang akan terjadi di masa depan. Teknik analisis prediktif menggunakan data historis untuk mengidentifikasi tren dan menentukan apakah mereka kemungkinan akan berulang. Alat analisis prediktif memberikan wawasan berharga tentang apa yang mungkin terjadi di masa depan. Teknik termasuk berbagai teknik pembelajaran statistik dan mesin seperti jaringan saraf, pohon keputusan, dan regresi.

Analisis preskriptif

Analisis preskriptif membantu menjawab pertanyaan tentang tindakan apa yang harus diambil untuk mencapai tujuan atau target. Dengan menggunakan wawasan dari analisis prediktif, keputusan berbasis data dapat dibuat. Teknik ini memungkinkan bisnis untuk membuat keputusan berdasarkan informasi dalam menghadapi ketidakpastian. Teknik analisis preskriptif bergantung pada strategi pembelajaran mesin untuk menemukan pola dalam dataset besar. Dengan menganalisis keputusan dan peristiwa masa lalu, kemungkinan hasil yang berbeda dapat diperkirakan.

Analisis kognitif

Analisis kognitif mencoba untuk menarik kesimpulan dari data dan pola yang ada, memperoleh kesimpulan berdasarkan basis pengetahuan yang ada, dan kemudian menambahkan temuan ini kembali ke basis pengetahuan untuk kesimpulan di masa depan - lingkaran umpan balik pembelajaran mandiri. Analisis kognitif membantu Anda mempelajari apa yang mungkin terjadi jika keadaan berubah, dan bagaimana Anda dapat menangani situasi ini.

Kesimpulan bukanlah kueri terstruktur berdasarkan database aturan, melainkan hipotesis tidak terstruktur yang dikumpulkan dari sejumlah sumber, dan dinyatakan dengan berbagai tingkat kepercayaan. Analisis kognitif yang efektif tergantung pada algoritma pembelajaran mesin. Ini menggunakan beberapa konsep NLP (Natural Language Processing) untuk memahami sumber data yang sebelumnya belum dimanfaatkan, seperti log percakapan call center dan ulasan produk.

Secara teoritis, dengan memanfaatkan manfaat komputasi paralel / terdistribusi besar-besaran dan jatuhnya biaya penyimpanan data dan daya komputasi, tidak ada batasan untuk perkembangan kognitif yang dapat dicapai sistem ini.

Komentar

Postingan populer dari blog ini

Jelajahi layanan data relasional di Azure

  Perkenalan Selesai Database adalah kumpulan data. Database bisa sesederhana spreadsheet desktop, atau serumit sistem global yang memegang petabyte informasi yang sangat terstruktur. Data dapat disusun dengan berbagai cara. Pendekatan umum adalah menyimpan data dalam format tabular, dengan baris dan kolom. Anda dapat menentukan hubungan antara tabel. Database ini disebut database  relasional. Database juga dapat semi-terstruktur atau tidak terstruktur, yang terdiri dari data semi-diproses atau tidak diproses. Database ini biasanya disebut sebagai  non-relasional.  Database dikelola menggunakan sistem manajemen database (DBMS). DBMS menangani aspek fisik dari database, seperti di mana dan bagaimana disimpan, siapa yang dapat mengaksesnya, dan bagaimana memastikan bahwa itu tersedia bila diperlukan. Banyak organisasi bergantung pada informasi yang tersimpan dalam database mereka untuk membantu membuat keputusan bisnis yang penting. Di masa lalu, organisasi-organisasi ...

Mengkueri data relasional di Azure

  Pengantar Dengan Azure, Anda bisa membuat database relasional menggunakan sejumlah teknologi, termasuk Azure SQL Database, Azure Database for PostgreSQL, Azure Database for MySQL, dan Azure Database for MariaDB. Bayangkan bahwa Anda bekerja sebagai pengembang untuk jaringan supermarket besar yang bernama Contoso. Perusahaan telah membuat penyimpanan data yang akan digunakan untuk menyimpan inventaris produk. Tim pengembangan telah menggunakan database Azure SQL untuk menyimpan datanya. Mereka perlu tahu cara mengkueri dan memanipulasi data ini menggunakan SQL. Dalam modul ini, Anda akan mempelajari cara menggunakan layanan database ini untuk menyimpan dan mengambil data. Anda akan memahami cara menggunakan beberapa alat umum yang tersedia untuk sistem manajemen database ini untuk menyambungkan ke layanan database yang dijalankan di Azure. Pengantar SQL Selesai SQL adalah singkatan dari Structured Query Language. SQL digunakan untuk berkomunikasi dengan database relasional. Ini ad...

Jelaskan konsep data relasional

Perkenalan Selesai Pada tahun-tahun awal database, setiap aplikasi menyimpan data dalam struktur uniknya sendiri. Ketika pengembang ingin membangun aplikasi untuk menggunakan data itu, mereka harus tahu banyak tentang struktur data tertentu untuk menemukan data yang mereka butuhkan. Struktur data ini tidak efisien, sulit dipertahankan, dan sulit dioptimalkan untuk memberikan kinerja aplikasi yang baik. Model database relasional dirancang untuk memecahkan masalah beberapa struktur data sewenang-wenang. Model relasional menyediakan cara standar untuk mewakili dan query data yang dapat digunakan oleh aplikasi apapun. Sejak awal, pengembang mengakui bahwa kekuatan utama dari model database relasional adalah dalam penggunaan tabel, yang merupakan cara intuitif, efisien, dan fleksibel untuk menyimpan dan mengakses informasi terstruktur. Model relasional sederhana namun kuat digunakan oleh organisasi dari semua jenis dan ukuran untuk berbagai kebutuhan manajemen informasi. Database relasional...