Apa yang akan Anda pelajari
-
Cara menggunakan teknik Text Mining dan NLP yang umum
-
Cara menggunakan Regex untuk membersihkan Tweet
-
Cara menggunakan NLTK untuk melakukan pra-proses teks
-
Cara menggunakan Scikit-Learn untuk membuat model prediksi Analisis Sentimen
-
Bagaimana memprediksi sentimen dari setiap tweet
Persyaratan
-
IDE Python dasar (Spyder, Pycharm, dll.) atau IDE Python berbasis web (Jupyter Notebook, Google Colab, dll.). Google Colab akan digunakan secara default untuk mengajarkan kursus ini.
-
Pengetahuan umum tentang Python, karena ini adalah kursus tentang belajar Analisis Sentimen dan Penambangan Teks.
Keterangan
Sejak 2006, Twitter telah menjadi sumber informasi yang terus berkembang, memberi kami informasi tentang semua hal. Diperkirakan lebih dari 6.000 tweet dipertukarkan di platform setiap detik, menjadikannya tambang informasi yang tidak ada habisnya sehingga sayang untuk tidak digunakan.
Untungnya, ada berbagai cara untuk memproses tweet secara otomatis, dan mengambil informasi yang tepat dalam sekejap … Tertarik untuk mempelajari solusi seperti itu dengan cara yang cepat dan mudah?
Apa yang akan Anda pelajari dalam kursus ini?
Dengan mengikuti kursus ini, Anda akan mempelajari semua langkah yang diperlukan untuk membangun model prediksi Sentimen Tweet Anda sendiri. Yang mengatakan, Anda akan belajar lebih banyak karena kursus dipisahkan menjadi 4 bagian berbeda, dihubungkan bersama, tetapi memberikan bagian pengetahuannya di bidang tertentu (Penambangan Teks, NLP, dan Pembelajaran Mesin).
- BAGIAN 1: Pengantar Text Mining
Pada bagian pertama ini, kita akan membahas beberapa elemen umum yang mengatur masalah awal dan berbagai tantangan yang harus diatasi dengan data teks. Ini juga merupakan bagian di mana kita akan menemukan kumpulan data Twitter kita , menggunakan pustaka seperti Pandas atau Matplotlib .
- BAGIAN 2: Normalisasi Teks
Data Twitter dikenal sangat berantakan. Bagian ini bertujuan untuk membersihkan semua tweet kita secara mendalam, menggunakan teknik Text Mining dan beberapa pustaka yang sesuai seperti NLTK . Tokenisasi, stemming, atau lemmatisasi tidak akan menjadi rahasia bagi Anda setelah Anda selesai dengan bagian ini.
- BAGIAN 3: Representasi Teks
Sebelum data kami yang dibersihkan dapat dimasukkan ke model kami, kami perlu mempelajari cara merepresentasikannya dengan cara yang benar. Bagian ini bertujuan untuk membahas berbagai metode khusus untuk tujuan ini dan sering digunakan dalam NLP (Bag-of-Words, TF-IDF, dll.). Ini akan memberi kita kesempatan tambahan untuk menggunakan NLTK.
- BAGIAN 4: Pemodelan ML
Akhirnya … langkah paling seru dari semuanya! Bagian ini akan membahas tentang menyatukan semua yang telah kita pelajari, untuk membangun model prediksi Sentimen kita. Yang terpenting, ini tentang memiliki kesempatan untuk menggunakan salah satu pustaka yang paling banyak digunakan dalam Machine Learning: Scikit-Learn (SKLEARN).
Salah satu pembeda utama dari kursus ini adalah ini bukan tentang mempelajari Text Mining, NLP, atau Machine Learning secara umum. Tujuannya adalah untuk mengejar tujuan yang sangat tepat (Analisis Sentimen) dan memperdalam semua langkah yang diperlukan untuk mencapai tujuan tersebut, dengan menggunakan alat yang tepat.
Untuk siapa kursus ini:
- Siapa pun yang tertarik dengan Kecerdasan Buatan dan NLP
- Siapa pun yang ingin mempelajari apa itu Text Mining dan bagaimana itu bisa digunakan
- Siapa pun yang mau mempelajari cara memprediksi sentimen tweet apa pun dengan mudah