Automatic Prediction of Comment Quality
Date
2016-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT : The problem of identifying and assessing the quality of short texts (e.g.
comments, reviews or web searches) has been intensively studied. There are
great bene ts to being able to analyse short texts. As an example, advertisers
might be interested in the sentiment of product reviews on e-commerce sites
to more e ciently pair marketing material to content. Analysing short texts
is a di cult problem, because traditional machine learning models generally
perform better on data sets with larger samples, which often translates to
more features. More data allow for better estimation of parameters for these
models. Short texts generally do not have much content, but still carry high
variability in that they may still consist of a large corpus of words.
This thesis investigates various methods for feature extraction for short
texts in the context of online user comments. These methods include the
leading manual feature extraction techniques for short texts, N-gram models
and techniques based on word embeddings. The e ect of using di erent
kernels for a support vector classi er is also investigated. The investigation
is centred around two data sets, one provided by News24 and the other
extracted from Slashdot.org. It was found that N-gram models performed
relatively well, mostly outperforming manual feature extraction techniques.
AFRIKAANSE OPSOMMING : Om die kwaliteit van kort tekste (bv. internet kommentaar, soektogte of resensies) te identi seer en te analiseer, is 'n probleem wat al redelik sorgvuldig in die navorsing bestudeer is. Daar is baie te baat by die vermo ë om die kwaliteit van aanlyn teks te analiseer. Byvoorbeeld, aanlyn winkels mag moontlik geinteresseerd wees in die sentiment van die verbruikers wat produkresensies gee oor hul produkte, aangesien dit kan help om meer akkurate bemarkings materiaal vir produkte te genereer. Analise van kort tekste is 'n uitdagende probleem, want tradisionele masjienleer algoritmes vaar gewoonlik beter op datastelle met meer kernmerke as wat kort tekste kan bied. Ryker datastelle laat toe vir meer akkurate skatting van model parameters. Hierdie tesis bestudeer verskeie metodes vir kenmerkkonstruksie van kort tekste in die konteks van aanlyn kommentaar. Die metodes sluit die voorstaande handgemaakde kenmerkkonstruksie tegnieke vir kort tekste, N-gram modelle en woordinbeddinge in. Die e ek van verskillende kernmetodes vir klassi kasie modelle word ook bestudeer. Die studie is gefokus rondom twee datastelle waarvan een deur News24 voorsien is en die ander vanaf Slashdot. org bekom is. Ons het gevind that N-gram modelle meestal beter presteer as die handgemaakde kenmerkkonstruksie tegnieke.
AFRIKAANSE OPSOMMING : Om die kwaliteit van kort tekste (bv. internet kommentaar, soektogte of resensies) te identi seer en te analiseer, is 'n probleem wat al redelik sorgvuldig in die navorsing bestudeer is. Daar is baie te baat by die vermo ë om die kwaliteit van aanlyn teks te analiseer. Byvoorbeeld, aanlyn winkels mag moontlik geinteresseerd wees in die sentiment van die verbruikers wat produkresensies gee oor hul produkte, aangesien dit kan help om meer akkurate bemarkings materiaal vir produkte te genereer. Analise van kort tekste is 'n uitdagende probleem, want tradisionele masjienleer algoritmes vaar gewoonlik beter op datastelle met meer kernmerke as wat kort tekste kan bied. Ryker datastelle laat toe vir meer akkurate skatting van model parameters. Hierdie tesis bestudeer verskeie metodes vir kenmerkkonstruksie van kort tekste in die konteks van aanlyn kommentaar. Die metodes sluit die voorstaande handgemaakde kenmerkkonstruksie tegnieke vir kort tekste, N-gram modelle en woordinbeddinge in. Die e ek van verskillende kernmetodes vir klassi kasie modelle word ook bestudeer. Die studie is gefokus rondom twee datastelle waarvan een deur News24 voorsien is en die ander vanaf Slashdot. org bekom is. Ons het gevind that N-gram modelle meestal beter presteer as die handgemaakde kenmerkkonstruksie tegnieke.
Description
Thesis (MSc)--Stellenbosch University, 2016
Keywords
News media -- Short text, Webiste -- Short text, N-grams, Computational probability, Online user comments, Computational linguistics, Word embedding, UCTD