-
Siapkan Lingkungan Pengembangan Python
-
Instal Beautiful Soup
-
Buat Skrip Ekstraksi Data
-
Skrip ekstraksi data prototipe
-
Ekstrak data
Persyaratan
-
Diperlukan akses komputer dan internet
-
Pengetahuan dasar tentang HTML akan sangat membantu tetapi tidak wajib
Deskripsi
Python adalah bahasa pemrograman tujuan umum yang menjadi semakin populer untuk ilmu data. Perusahaan di seluruh dunia menggunakan Python untuk mengumpulkan wawasan dari data mereka dan mendapatkan keunggulan kompetitif.
Istilah yang digunakan untuk mengekstrak data dari web atau internet disebut sebagai web scraping. Anda akan mempelajari apa itu pengikisan web dan bagaimana hal itu dapat dicapai dengan bantuan pustaka sup Python yang handal.
Pengikisan web adalah teknik penting yang banyak digunakan sebagai langkah pertama dalam banyak alur kerja dalam penambangan data, pengambilan informasi, dan pembelajaran mesin berbasis teks.
Dalam kursus ini, Mengekstrak Data dari HTML dengan BeautifulSoup* Anda akan memperoleh kemampuan untuk membangun solusi pengikisan web yang kuat dan dapat dipelihara menggunakan pustaka Beautiful Soup dengan Python.
Beautiful Soup adalah pustaka Python murni untuk mengekstraksi data terstruktur dari situs web. Ini memungkinkan Anda untuk mengurai data dari file HTML dan XML. Ini bertindak sebagai modul pembantu dan berinteraksi dengan HTML dengan cara yang serupa dan lebih baik tentang bagaimana Anda akan berinteraksi dengan halaman web menggunakan alat pengembang lain yang tersedia.
Di saat internet kaya dengan begitu banyak data, dan ternyata data telah menjadi hal baru, web scraping menjadi semakin penting dan praktis untuk digunakan di berbagai aplikasi. Pengikisan web berkaitan dengan penggalian atau pengikisan informasi dari situs web. Pengikisan web juga kadang-kadang disebut sebagai pemanenan web atau ekstraksi data web. Menyalin teks dari situs web dan menempelkannya ke sistem lokal Anda juga merupakan pengikisan web. Namun, ini adalah tugas manual. Umumnya, web scraping berkaitan dengan penggalian data secara otomatis dengan bantuan web crawler. Perayap web adalah skrip yang terhubung ke world wide web menggunakan protokol HTTP dan memungkinkan Anda mengambil data secara otomatis.
Apakah Anda seorang ilmuwan data, insinyur, atau siapa saja yang menganalisis kumpulan data dalam jumlah besar, kemampuan untuk mengikis data dari web adalah keterampilan yang berguna untuk dimiliki. Katakanlah Anda menemukan data dari web, dan tidak ada cara langsung untuk mengunduhnya, web scraping menggunakan Python adalah keterampilan yang dapat Anda gunakan untuk mengekstrak data ke dalam bentuk yang berguna yang kemudian dapat diimpor dan digunakan dengan berbagai cara.
Untuk siapa kursus ini:
- Pemula untuk ekstraksi data web
- Analis Data Pemula
- Pemula Ilmu Data Data