Apa yang akan Anda pelajari?
-
Teknik pra-pemrosesan teks pada kumpulan data yang sangat besar
-
Pengembangan NLP berbasis proyek kehidupan nyata menggunakan Good Old Fashioned AI.
Persyaratan
-
Python
-
Beberapa pengetahuan tentang algoritma ML klasik
Keterangan
Proyek Pembelajaran Mesin Tradisional menggunakan data numerik dan tekstual yang disimpan dalam database konvensional. Mengembangkan aplikasi cerdas berdasarkan data teks murni sangat menantang? Kenapa gitu? Pertama, data teks yang tersedia di dunia ini jutaan kali lebih banyak daripada data numerik yang tersedia bagi kita di database konvensional. Jadi, pertanyaannya adalah dapatkah kita mengekstrak beberapa informasi berguna dari kumpulan data teks yang sangat besar ini – yang dapat mencapai beberapa terabyte atau lebih tepatnya petabyte. Saat Anda berbicara tentang ukuran ini untuk data, seluruh perspektif pembelajaran mesin berubah. Dalam database tradisional, jumlah kolom cukup rendah dan dengan demikian jumlah fitur untuk pembelajaran mesin juga sangat kecil – umumnya mencapai puluhan dan paling banyak beberapa ratus, maks. Dalam aplikasi NLP, karena tidak ada kolom seperti database terstruktur, setiap kata dalam korpus teks menjadi kandidat yang mungkin untuk dipertimbangkan sebagai fitur untuk pelatihan model. Tidak mungkin melatih model dengan jutaan fitur. Jadi, untuk mengembangkan aplikasi ML, persyaratan pertama dan utama adalah mengurangi jumlah fitur ini dengan mengurangi kosakata. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. setiap kata dalam korpus teks menjadi kandidat yang memungkinkan untuk dipertimbangkan sebagai fitur untuk pelatihan model. Tidak mungkin melatih model dengan jutaan fitur. Jadi, untuk mengembangkan aplikasi ML, persyaratan pertama dan utama adalah mengurangi jumlah fitur ini dengan mengurangi kosakata. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. setiap kata dalam korpus teks menjadi kandidat yang memungkinkan untuk dipertimbangkan sebagai fitur untuk pelatihan model. Tidak mungkin melatih model dengan jutaan fitur. Jadi, untuk mengembangkan aplikasi ML, persyaratan pertama dan utama adalah mengurangi jumlah fitur ini dengan mengurangi kosakata. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. Tidak mungkin melatih model dengan jutaan fitur. Jadi, untuk mengembangkan aplikasi ML, persyaratan pertama dan utama adalah mengurangi jumlah fitur ini dengan mengurangi kosakata. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. Tidak mungkin melatih model dengan jutaan fitur. Jadi, untuk mengembangkan aplikasi ML, persyaratan pertama dan utama adalah mengurangi jumlah fitur ini dengan mengurangi kosakata. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI. Persyaratan utama lainnya adalah mengubah data teks menjadi format biner karena mesin bodoh kami hanya memahami biner. Di situlah pembelajaran NLP menjadi berbeda dari pengembangan model pada database terstruktur. Setelah data teks diproses sebelumnya untuk mendapatkan jumlah minimal fitur yang mewakili seluruh korpus teks, sisa proses pengembangan model tetap sama dengan yang tradisional – yang dikenal sebagai Good Old Fashioned AI.
Dalam kursus ini, Anda akan mempelajari banyak teknik pra-pemrosesan teks untuk membuat kumpulan data teks besar siap untuk pembelajaran mesin. Anda akan mempelajari banyak teknik pemrosesan teks seperti stemming, lemmatization, menghilangkan stop word, position-of-speech (POS) tagging, bag-of-words, dan tf-idf.
Anda kemudian akan belajar menerapkan algoritme berbasis statistik tradisional untuk melatih model. Anda akan mengembangkan lima aplikasi NLP kehidupan nyata standar industri. Aplikasi ini akan mencakup rentang domain NLP yang luas. Anda akan mempelajari klasifikasi biner dan multi-kelas. Anda akan menggunakan pembelajaran terawasi dan tidak terawasi. Anda akan belajar menggunakan pengelompokan tanpa pengawasan pada data teks. Anda akan menggunakan algoritma LDA (LatentDirichletAllocation) untuk pengelompokan. Anda akan menggunakan mesin vektor pendukung untuk mengklasifikasikan teks.
Di sisi bisnis, Anda akan mempelajari analisis sentimen, mengklasifikasikan artikel penelitian, memberi peringkat hotel berdasarkan ulasan pelanggan, ringkasan berita, pemodelan topik, dan awal cepat untuk Pemahaman Bahasa Alami (NLU).
Kursus ini membantu dalam memulai NLP dengan cepat dan menguasai beberapa teknik NLP melalui pendekatan yang sangat praktis. Setiap pelajaran memiliki kode untuk berlatih yang membuat pembelajaran Anda mudah dan cepat.
Untuk siapa kursus ini:
- Pengembang, praktisi ML, Ilmuwan Data, Akademisi, Mahasiswa