saya mempunyai dataset berupa data training dan testing email spam ([login to view URL]), saya telah melakukan pekerjaan saya namun terkendala saat membaca file eml.
Sistem yang saya bangun adalah email filtering SPAM pada aplikasi desktop dengan bahasa pemrograman C# *menggunakan Form bukan console pada Visual Studio*. Menggunakan dataset diatas, saya ingin membacanya (berhasil, namun HTML dan noise lainnya sangat banyak).
Goal dari pekerjaan ini adalah :
1. Browse file eml
2. File EML dapat terbaca di Visual Studio C# di richtextbox
3. Semua noise pada file yang di stream harus dibuang (html, header seperti from, sent to, date, subjek, dll)
4. Sehingga hasil akhirnya adalah hanya konten pada body email yang tersisa
Salam,
Pekerjaan ini dikerjakan dengan memfilter apa saja diluar dari yang diinginkan. konten body email dari eml posisinya fixed, jadi seharusnya tidak sulit membuat posisi dimana awal dan akhir dari pembacaan konten body emailnya.
Dengan Hormat.