Transcript
- 1. 1
- 2. 2 1. Subject Oriented (Berorientasi subject) Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan (customers, products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama(customer invoicing, stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data. KARAKTERISTIK DATA WAREHOUSE
- 3. 3 Jadi, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Kita harus bisa membedakan data warehouse dan data operasional (database) Secara garis besar perbedaan antara data operasional dan data warehouse yaitu : Data Operasional a. Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu. b. Focusnya pada desain database dan proses. c. Berisi rincian atau detail data. d. Relasi antar table berdasar aturan terkini (selalu mengikuti rule(aturan) terbaru). KARAKTERISTIK DATA WAREHOUSE
- 4. 4 Data Warehouse a.Dirancang berdasar pada subjek-subjek tertentu(utama). b.Focusnya pada pemodelan data dan desain data. c.Berisi data-data history yang akan dipakai dalam proses analisis. d.Banyak aturan bisnis dapat tersaji antara tabel-tabel. KARAKTERISTIK DATA WAREHOUSE
- 5. 5 2. Integrated (Terintegrasi) Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya. KARAKTERISTIK DATA WAREHOUSE
- 6. 6 3. Time-variant (Rentang Waktu) Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain : a.Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan. b.Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut. c.Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only. KARAKTERISTIK DATA WAREHOUSE
- 7. 7 4. Non-Volatile ( tidak di update real time ) Karakteristik keempat dari data warehouse adalah non-volatile maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update, insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data). KARAKTERISTIK DATA WAREHOUSE
- 8. 8 OLTP DAN OLAP DALAM DATA WAREHOUSE Sistem informasi adalah sekumpulan fungsi yang bekerja secara bersama- sama dalam mengelola, mengumpulkan, menyimpan, memproses serta mendistribusikan informasi untuk tujuan tertentu. Sistem OLTP ( Online Transactional Processing ) adalah merupakan metode pengolahan data terpadu yang menunjang kegiatan operasional sebuah organisasi. Untuk itu system OLTP yang baik harus ditunjang dengan fungsi sistem basis data ( Database Management System ) yang baik pula. OLAP (OnLine Analytical Processing) adalah jenis perangkat lunak yang digunakan untuk melakukan permintaan terhadap data dalam bentuk yang kompleks dan bersifat sementara serta sewaktu-waktu. OLAP memanipulasi dan menganalisis data bervolume besar dari berbagai perspektif (multidimensi). Oleh karena itu OLAP seringkali disebut analisis data multidimensi.
- 9. 9 OLTP DAN OLAP DALAM DATA WAREHOUSE Ciri-ciri sistem OLTP yang baik adalah : a.Mendukung jumlah pengguna yang banyak yang sering menambah dan merubah data transaksi. b.Mengandung data dalam jumlah besar, termasuk di dalamnya validasi data transaksi. c.Memiliki struktur yang kompleks dan rumit. d.Diarahkan secara maksimal untuk melayani aktivitas transaksi harian. e.Menyediakan teknologi infrastruktur yang mendukung operasional transaksi data dalam perusahaan
- 10. 10 OLTP DAN OLAP DALAM DATA WAREHOUSE Beberapa fungsi OLAP a.l : Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa contoh permintaan yang ditangani oleh OLAP: • Menentukan Penjualan Maximum masing-2 kota • Menentukan 5 Penjualan sales tertinggi dalam 1 tahun • Menentukan total penjualan tertinggi pada setiap item produk.
- 11. 11 OLTP DAN OLAP DALAM DATA WAREHOUSE SYSTEM KERJA OLAP OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. 1. Konsolidasi Konsolidasi adalah fungsi Pengelompokan data. Sebagai contoh : a.kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. b.Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi .
- 12. 12 OLTP DAN OLAP DALAM DATA WAREHOUSE 2. Drill-down Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail. Sebagai contoh : Mula-mula data yang tersaji didasarkan pada Semester pertama. Jika dikehendaki, data masing-masing bulan pada Semester pertama tersebut bisa diperoleh, sehingga akan tersaji data bulan Januari, Februari, Maret, April, Mei, Juni.
- 13. 13 OLTP DAN OLAP DALAM DATA WAREHOUSE 3. Slicing and dicing (pivoting) Untuk menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan kebutuhan. Sebagai contoh : Mencari data penjualan berdasarkan semua lokasi atau hanya pada lokasi-lokasi tertentu.
- 14. 14 Tujuan Pembelajaran Teknik Clustering adalah : 1. Mengetahui tehnik cluster dan ide dasar clustering 2. Mengetahui ukuran kemiripan dan ketidak miripan 3. Mengenal tehnik cluster partisi dan hirarki 4.Mengetahui implementasinya kedalam kasus nyata. Tujuan utama tehnik cluster adalah untuk mengelompokkan sejunlah data/objek kedalam cluster atau group sehingga dalam setiap cluster terdapat sejumlah data yang mirip satu sama lain. Teknik cluster sudah banyak dikenal pada penggunaan data mining, tetapi hingga sekarang para ahli masih mencari tehnik dan metode pengklusteran yang baik dan efektif. Sehingga sebenarnya sampai sekarang sistem cluster belum merupakan hasil yang optimal. Tetapi hasil dengan metode yang akan kita pelajari ini adalah metode yang sudah cukup bagus dan praktis. TEKNIK CLUSTERING
- 15. 15 Diharapkan nantinya mahasiswa dapat mengembangkan metode clustering yang baik atau ada teknik yang lebih optimal. Metode Analisis data Mining dikelompokkan dalam 2 tehnik : a.Unsupervised learning Proses pengelompokkan yang dikerjakan tidak perlu dilakukan pembelajaran/training/pengujian data terlebih dahulu. jadi metode ini tidak membutuhkan label dari hasil keluaran yang dihasilkan. Misalnya : segala tehnik clustering data. b. Supervised learning Adalah metode yang memerlukan pelatihan/training dan testing. Karena hasil keluaran yang diharapkan harus merupakan keluaran terbaik. Misalnya : ANN ( Artificial Neural Network ), Analisis Diskriminan ( LDA ), Support Vector Machine ( SVM ) TEKNIK CLUSTERING
- 16. 16 Tehnik clustering hirarki, kita hitung jarak masing-2 titik / objek dengan objek lainnya, selanjutnya akan ditemukan jarak titik-titk terdekat, sehingga akan dkelompokkan objek dengan jarak masing-masing terdekat. Langkah clustering hirarki : 1.Kelompokkan objek ke dalam clusternya sendiri. 2.Menemukan data dengan pasangan paling mirip untuk dikelompokkan dalam cluster sama dengan melihat data dalam matrik kemiripan. 3.Gabungkan kedua objek dalam satu kelompok dan lakukan selanjutnya dengan data yang lain sampai tinggal satu cluster. CLUSTERING HIRARKI ( Hierarchical Clustering )
- 17. 17 Contoh tehnik Clustering Hirarki : 1. SIMILARITY DAN DISIMILARITY ( Kemiripan dan Ketidakmiripan ) Untuk menggabung dua objek dalam cluster dibutuhkan konsep mirip () dan tidak mirip ( disimilarity ), jadi semakin mirip objek, maka dapat dikelompokkan dalam satu cluster. Sebaliknya bila tidak mirip maka masuk cluster lain. Pengukuran kemiripan dapat dilakukan dengan : Cosinus, Kovarian dan Korelasi. Semakin besar nilainya maka semakin mirip, tetapi bila nilainya kecil berarti tidak mirip. 2. DENDOGRAM ( Pohon Kluster ) Tehnik ini adalah menunjukkan bagaimana urutan sebagaimana objek dikelompokkan dalam cluster. Sedangkan distribusi pengelompokkan dapat pula dikerjakan dengan pola cut off ( potong) pada jarak atau nilai tertentu, sehingga dapat membentuk kelompok cluster lainnya. CLUSTERING HIRARKI ( Hierarchical Clustering )