Skip to content

Dataset Titanic adalah salah satu dataset yang paling banyak digunakan dalam pembelajaran mesin, statistik, dan analisis data.

Notifications You must be signed in to change notification settings

fannyrahmasari/titanic_analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

titanic_analysis

Tentang Dataset

Data Titanic adalah dataset klasik yang sering digunakan dalam ilmu data untuk mengeksplorasi berbagai teknik analisis data dan pembelajaran mesin. Dataset ini berisi informasi tentang penumpang kapal RMS Titanic, yang tenggelam dalam pelayaran perdananya pada tahun 1912 setelah menabrak gunung es. Dataset ini umumnya digunakan untuk memprediksi apakah seorang penumpang selamat dari bencana berdasarkan berbagai atribut. Dataset source : https://www.kaggle.com/competitions/titanic PPT : https://drive.google.com/file/d/1-4HGqzTcfg8ijxQSyZJLqvN4CCO9OHsd/view?usp=sharing

Deskripsi Dataset Titanic

Dataset Titanic biasanya terdiri dari beberapa kolom yang menampilkan berbagai fitur penumpang dan kolom target yang menunjukkan apakah penumpang tersebut selamat atau tidak. Berikut adalah deskripsi umum dari kolom-kolom yang biasa ditemukan dalam dataset Titanic:

  1. PassengerId: Identitas unik untuk setiap penumpang.
  2. Survived: Menunjukkan apakah penumpang selamat (1) atau tidak selamat (0).
  3. Pclass: Kelas penumpang (1, 2, atau 3).
  4. Name: Nama penumpang.
  5. Sex: Jenis kelamin penumpang.
  6. Age: Usia penumpang.
  7. SibSp: Jumlah saudara kandung atau pasangan di kapal Titanic.
  8. Parch: Jumlah orang tua atau anak di kapal Titanic.
  9. Ticket: Nomor tiket.
  10. Fare: Tarif yang dibayar penumpang.
  11. Cabin: Nomor kabin.
  12. Embarked: Pelabuhan keberangkatan (C = Cherbourg; Q = Queenstown; S = Southampton).

Tujuan Analysis

Data dari Titanic sering digunakan untuk melatih model pembelajaran mesin untuk memprediksi keselamatan penumpang berdasarkan kelas tiket, jenis kelamin, usia, dll. Beberapa tujuan umum dari analisis kumpulan data Titanic termasuk:

  1. Prediksi Keselamatan: Berdasarkan data yang tersedia, model klasifikasi dapat digunakan untuk memprediksi keselamatan penumpang tertentu.
  2. Analisis Eksploratori Data (EDA): Mempelajari distribusi data, menemukan pola atau korelasi antara fitur, dan menemukan informasi tentang keselamatan penumpang.
  3. Pemodelan dan Evaluasi: Menciptakan dan menguji model pembelajaran mesin seperti pohon keputusan, regresi logistik, atau set algoritma (seperti GaussianNB dan DecisionTreeClassifier) untuk menentukan mana yang paling akurat.

Penggunaan

  1. Visualisasi Data: Membuat grafik yang menunjukkan perbedaan tingkat keselamatan berdasarkan kelas, jenis kelamin, usia, dll.
  2. Teknik Fitur: Menciptakan fitur baru, seperti mengelompokkan usia ke dalam kategori (anak-anak, dewasa, manula), atau menggabungkan data dari beberapa kolom untuk membuat variabel baru.
  3. Pembersihan Data: Mengisi nilai yang hilang, menghapus outlier, dan melakukan transformasi data untuk meningkatkan kualitas dataset.

Kesimpulan

Dataset Titanic adalah alat yang sangat berguna untuk belajar menggunakan algoritma pembelajaran mesin dan analisis data. Meskipun sederhana, ia menawarkan pengetahuan yang kaya tentang cara menyelesaikan masalah data dunia nyata, seperti memilih model analisis prediktif yang tepat, menangani nilai yang hilang, dan mengatasi data kategorikal.

Jangan ragu untuk menghubungi saya melalui pesan langsung di Linkedin saya untuk saran atau masukan https://www.linkedin.com/in/fanny-rahmasari

About

Dataset Titanic adalah salah satu dataset yang paling banyak digunakan dalam pembelajaran mesin, statistik, dan analisis data.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published