Apa yang akan Anda pelajari?
-
Membuat perayap web di Scrapy
-
Merangkak satu atau beberapa halaman dan mengikis data
-
Menyebarkan & Menjadwalkan Spider ke ScrapingHub
-
Masuk ke Situs Web dengan Scrapy
-
Menjalankan Scrapy sebagai Skrip Mandiri
-
Mengintegrasikan Splash dengan Scrapy untuk mengikis situs web yang dirender JavaScript
-
Menggunakan Scrapy dengan Selenium dalam Kasus Khusus, misalnya untuk Mengikis Halaman Web yang Didorong JavaScript
-
Membangun Laba-laba Canggih
-
Lebih banyak fungsi yang ditawarkan Scrapy setelah Spider Selesai dengan Scraping
-
Mengedit dan Menggunakan Parameter Scrapy
-
Mengekspor data yang diekstraksi oleh Scrapy ke file CSV, Excel, XML, atau JSON
-
Menyimpan data yang diekstraksi oleh Scrapy ke dalam database MySQL dan MongoDB
-
Beberapa proyek pengikisan web kehidupan nyata, termasuk Craigslist, LinkedIn, dan banyak lainnya
-
Kode sumber python untuk semua latihan dalam tutorial Scrapy ini dapat diunduh
Persyaratan
-
Kursus Scrapy ini mengasumsikan bahwa Anda sudah mengetahui dasar-dasar penulisan program Python sederhana dan bahwa Anda umumnya akrab dengan fitur inti Python (struktur data, penanganan file, fungsi, kelas, modul, perpustakaan umum, dll.).
-
Python 2.7+ atau Python 3.3+
-
Sistem operasi apa pun (Linux, Mac, Windows).
-
Kepositifan dan kemauan untuk mempelajari hal-hal baru.
Keterangan
Mengapa kursus ini?
- Bergabunglah dengan kursus paling populer di Web Scraping dengan Scrapy, Selenium, dan Splash .
- Terapkan contoh dunia nyata dan proyek praktis dari situs web populer Web Scraping.
Scrapy adalah kerangka kerja perayapan web sumber terbuka dan gratis, yang ditulis dengan Python. Scrapy berguna untuk pengikisan web dan mengekstraksi data terstruktur yang dapat digunakan untuk berbagai aplikasi yang berguna, seperti penambangan data, pemrosesan informasi, atau pengarsipan historis. Kursus Python Scrapy ini mencakup dasar-dasar Scrapy.
Web scraping adalah teknik untuk mengumpulkan data atau informasi pada halaman web. Anda dapat mengunjungi kembali situs web favorit Anda setiap kali memperbarui informasi baru, atau Anda dapat menulis scraper web untuk membuatnya melakukannya untuk Anda!
Perayapan web biasanya merupakan langkah pertama penelitian data. Baik Anda ingin mendapatkan data dari situs web, melacak perubahan di internet, atau menggunakan API situs web, perayap web adalah cara yang bagus untuk mendapatkan data yang Anda butuhkan.
Perayap web, juga dikenal sebagai laba-laba web, adalah aplikasi yang dapat memindai World Wide Web dan mengekstrak informasi secara otomatis. Meskipun memiliki banyak komponen, perayap web pada dasarnya menggunakan proses sederhana: mengunduh data mentah, memproses dan mengekstraknya, dan, jika diinginkan, menyimpan data dalam file atau basis data. Ada banyak cara untuk melakukan ini, dan banyak bahasa yang dapat Anda gunakan untuk membuat web crawler atau spider.
Sebelum Scrapy, pengembang telah mengandalkan berbagai paket perangkat lunak untuk pekerjaan ini menggunakan Python seperti urllib2 dan BeautifulSoup yang banyak digunakan. Scrapy adalah paket Python baru yang bertujuan untuk perayapan web yang mudah, cepat, dan otomatis, yang baru-baru ini mendapatkan banyak popularitas.
Scrapy sekarang banyak diminta oleh banyak perusahaan, baik untuk pekerjaan lepas dan pekerjaan internal, dan itu adalah salah satu alasan penting untuk membuat kursus Python Scrapy ini, dan itu adalah salah satu alasan penting untuk membuat tutorial Python Scrapy ini untuk membantu Anda meningkatkan keterampilan dan mendapatkan penghasilan lebih.
Dalam kursus Scrapy ini, Anda akan belajar cara menginstal Scrapy. Anda juga akan membangun laba-laba dasar dan lanjutan, dan akhirnya mempelajari lebih lanjut tentang arsitektur Scrapy. Kemudian Anda akan belajar tentang menyebarkan laba-laba, masuk ke situs web dengan Scrapy. Kami akan membangun perayap web generik dengan Scrapy, dan kami juga akan mengintegrasikan Splash dan Selenium untuk bekerja dengan Scrapy untuk mengulangi halaman kami. Kami akan membangun laba-laba tingkat lanjut dengan opsi untuk mengulangi halaman kami dengan Scrapy, dan kami akan menutupnya menggunakan fungsi Tutup dengan Scrapy, dan kemudian mendiskusikan argumen Scrapy. Terakhir, dalam kursus ini, Anda akan belajar cara menyimpan output ke database, MySQL dan MongoDB. Ada bagian khusus untuk berbagai latihan pemecahan web scraping… dan pembaruan.
Salah satu keuntungan utama Scrapy adalah ia dibangun di atas Twisted, kerangka kerja jaringan asinkron. ” Asynchronous ” berarti Anda tidak perlu menunggu permintaan selesai sebelum membuat yang lain; Anda bahkan dapat mencapainya dengan kinerja tingkat tinggi. Diimplementasikan menggunakan kode non-blocking (alias asinkron) untuk konkurensi, Scrapy sangat efisien.
Perlu dicatat bahwa Scrapy mencoba tidak hanya untuk menyelesaikan ekstraksi konten (disebut scraping), tetapi juga navigasi ke halaman yang relevan untuk ekstraksi (disebut crawling). Untuk mencapai itu, konsep inti dalam kerangka kerja adalah Spider — dalam praktiknya, objek Python dengan beberapa fitur khusus, di mana Anda menulis kodenya dan kerangka kerja bertanggung jawab untuk memicunya.
Scrapy menyediakan banyak fungsi yang diperlukan untuk mengunduh situs web dan konten lain di internet, membuat proses pengembangan lebih cepat dan tidak terlalu intensif pemrograman. Kursus Python Scrapy ini akan mengajarkan Anda cara menggunakan Scrapy untuk membangun perayap web dan laba-laba web.
Scrapy adalah alat paling populer untuk pengikisan dan perayapan web yang ditulis dengan Python. Ini sederhana dan kuat, dengan banyak fitur dan kemungkinan ekstensi.
Topik Kursus Scraping Python:
Kursus Scrapy ini dimulai dengan membahas dasar-dasar penggunaan Scrapy, dan kemudian berkonsentrasi pada fitur-fitur canggih Scrapy untuk membuat dan mengotomatisasi perayap web. Topik utama dari kursus Python Scrapy ini adalah sebagai berikut:
- Apa itu Scrapy, perbedaan antara Scrapy dan perpustakaan scraping web berbasis Python lainnya seperti BeautifulSoup, LXML, Requests, dan Selenium, dan kapan sebaiknya menggunakan Scrapy.
- Kursus ini dimulai dengan cara membuat proyek Scrapy dan kemudian membangun Spider dasar untuk mengikis data dari situs web.
- Menjelajahi perintah XPath dan cara menggunakannya dengan Scrapy untuk mengekstrak data.
- Membangun laba-laba Scrapy yang lebih canggih untuk mengulangi beberapa halaman situs web dan mengikis data dari setiap halaman.
- Arsitektur Scrapy: tata letak keseluruhan proyek Scrapy; apa yang diwakili setiap bidang dan bagaimana Anda dapat menggunakannya dalam kode laba-laba Anda.
- Praktik terbaik Scraping Web untuk menghindari dilarang oleh situs web yang Anda kikis.
- Dalam kursus Scrapy ini, Anda juga akan belajar cara menyebarkan web crawler Scrapy ke platform Scrapy Cloud dengan mudah. Scrapy Cloud adalah platform dari Scrapinghub untuk menjalankan, mengotomatisasi, dan mengelola perayap web Anda di cloud, tanpa perlu menyiapkan server Anda sendiri.
- Kursus Scrapy ini juga mencakup cara menggunakan Scrapy untuk sesi pengguna yang diautentikasi (masuk) scraping web, yaitu di situs web yang memerlukan nama pengguna dan kata sandi sebelum menampilkan data.
- Kursus ini berkonsentrasi terutama pada cara membuat perayap web tingkat lanjut dengan Scrapy. Kami akan membahas penggunaan Scrapy CrawlSpider yang merupakan laba-laba yang paling umum digunakan untuk merayapi situs web biasa, karena ini menyediakan mekanisme yang nyaman untuk mengikuti tautan dengan menetapkan seperangkat aturan. Kami juga akan menggunakan objek Link Extractor yang menentukan bagaimana tautan akan diekstraksi dari setiap halaman yang dirayapi; itu memungkinkan kita untuk mengambil semua tautan di halaman, tidak peduli berapa banyak dari mereka.
- Selanjutnya ada bagian lengkap dalam kursus Scrapy ini untuk menunjukkan kepada Anda bagaimana menggabungkan Splash atau Selenium dengan Scrapy untuk membuat web crawler halaman web dinamis. Ketika Anda tidak dapat mengambil data langsung dari sumbernya, tetapi Anda perlu memuat halaman, mengisi formulir, klik di suatu tempat, gulir ke bawah dan sebagainya, yaitu jika Anda mencoba untuk mengikis data dari situs web yang memiliki banyak panggilan AJAX dan eksekusi JavaScript untuk merender halaman web, ada baiknya menggunakan Splash atau Selenium bersama dengan Scrapy.
- Kami juga akan membahas lebih banyak fungsi yang ditawarkan Scrapy setelah spider selesai dengan web scraping, dan cara mengedit dan menggunakan parameter Scrapy.
- Karena tujuan utama dari web scraping adalah untuk mengekstrak data, Anda akan belajar bagaimana menulis output ke file CSV, JSON, dan XML.
- Terakhir, Anda akan belajar cara menyimpan data yang diekstraksi oleh Scrapy ke dalam database MySQL dan MongoDB.
Untuk siapa kursus ini:
- Kursus Scrapy ini ditujukan bagi mereka yang terbiasa dengan Python dan ingin mempelajari cara membuat crawler dan scraper web yang efisien untuk menavigasi situs web dan mengikis konten dari halaman yang berisi informasi berguna.
- Kursus Scrapy ini sekarang mencakup bagian khusus tentang Splash dan cara menggunakannya dengan Scrapy untuk mengekstrak data dari situs web JavaScript.