A felügyelt tanulással működő nyelvtechnológiai eszközök fejlesztésének egyik alapvető problémája az, hogy honnan lehet olyan szövegeket gyűjteni, amik a tanítás alapjául szolgálhatnak. Ha nem egy adott közösség kommenjeit akarjuk feldolgozni (pl. egy subredditét), hanem általánosságban érdekelnek a hozzászólások, mert az egy témakörbe tartozó, de bárhol előforduló kommenteket szeretnénk azonosítani (pl. a spanyolajkúakkal foglalkozókat), akkor fontos, hogy az anyagaink minél több közösségből származzanak. Ahány közösség,  annyi féle szokás, nyelvhasználat, sztereotípia és nekünk mindet (vagy legalábbis minél többet) meg kell ismernünk, reprezentálnunk kell a modellalkotás során, hogy később azonosíthassuk, ha az általunk keresett téma felmerül a körükben. Ennek érdekében minél több kommentfelületről kell legyűjtenünk hozzászólásokat.

Az összeválogatott hozzászólás-gyűjtemény, a korpusz általában olyan kommenteket is tartalmaz (sőt, nagyrészük ilyen), melyek nem az általunk keresett témáról szólnak, ez azonban nem is baj, hiszen a tanítás során ezekre is szükség van. A legtöbb esetben viszont igen nehéz a keresett témába és a nem oda tartozó hozzászólásokat szétszortírozni (hiszen éppen ezért van szükség mesterséges intelligenciával működő eszközre). A szétválogatás egyik legbiztosabb, de leginkább időigényes módja az emberi megítéléssel történő osztályozás, vagyis az ún. gold standard korpusz létrehozása. Érdemes azonban átgondolni az aktuális kérdéstől függően, hogy mivel lehet jobb eredményt elérni: a természetéből adódóan kisebb mennyiségű és emberek által címkézett, vagy a jelentősen nagyobb mennyiségű, de nem ember által csoportosított gyűjteménnyel (silver standard korpusz), esetleg a kettő kombinációjával. Ha az azonosítani kívánt témakör nagyon sokszínű, szétágazó (ahogy például a latinókkal kapcsolatos hozzászólások általában), akkor a tanítás nagyon nagy mennyiségű címkézett kommentet igényel és ezért érdemes csupán másodlagosan alkalmazni az emberi címkézést, hiszen egy gold standard korpusz még nagy energiabefektetés árán is csak töredéke lehetne a megfigyelésre érdemes sokaságnak.

Hogy a későbbi szétválogatást megkönnyítsük, mind a gold-, mind pedig a silver standard korpusz összeállítása során érdemes eleve a témakörök figyelembevételével legyűjteni a hozzászólásokat, de a topikok előzetes ismerete az automatikus címkézés esetében kiemelten fontos. A továbbiakban bemutatok néhány olyan stratégiát és eszközt, amivel topikokba rendezett kommentek nyerhetők.

Emberi válogatás

Kereshetünk olyan oldalakat, amelyek az adott témával kapcsolatosak, ez azonban amellett, hogy a kézi címkézéshez hasonlóan rendkívül időigényes, csupán a kiválasztást végző személy által ismert (vagy egy rövid időn belül megismerhető) forrásokat listázza majd. A nehezen felderített oldalakon gyakran egyéni kommentfelületek vannak, ezért még a crawlerek megírása is megbonyolítja a helyzetet, ráadásul tapasztalataim szerint nehéz igazán nagy mennyiségű kommentet összegyűjteni ezzel a módszerrel.

Mások által témakörökbe sorolt oldalak

A DMOZ adatbázis humán szerkesztők által témákba rendezett weblapok címeit tartalmazza, melyek közt sok hozzászólási lehetőséget biztosít. Az oldalakat tartalmazó topikok (melyek sok-sok altopikra bomlanak) mind több szerkesztő munkái, azonban moderáltak. Lehetőség van az offenzív tartalmú oldalak jelentésére, ezeket szükség esetén eltávolítják a listából. Ezért ha éppen sértő kommenteket keresünk (vagy ezeket is figyelembe kell vennünk), akkor ez a gyűjtemény csak korlátozottan használható. A már említett crawler-probléma és egyes témakörökben a kommentek alacsony száma itt is fennáll.

A YouTube 

A videómegosztót is használhatjuk csoportosított kommentek legyűjtésére, mivel a YouTube algoritmusai a tartalom feltöltéskor megadott kulcsszavak és a leírás alapján minden videóról automatikusan megállapítják a központi témáját. Ha megfelelő mennyiségű, minőségű és nézettségű videó tartozik egy témához, akkor a YT létrehoz belőlük egy automatikusan generált csatornát. Ha lehetséges, akkor ezeket további alkategóriákba (lejátszási listákba) osztja, például a Hispanic and Latino Americans topikban vannak történelemmel, hírességekkel, zenével foglalkozó lejátszási listák. A YT videókon keresztül így nagy mennyiségű, azonos témakörbe tartozó kommentet gyűjthetünk (ebben még a YT API is segítségünkre van), hátránya azonban, hogy a topikok listája nem hozzáférhető (legalábbis nekem nem sikerült felkutatni), így a topikok összeválogatása nem könnyen automatizálható.

A Reddit 

A Redditről (a subredditeken keresztül) szintén jól tematizált, nagy mennyiségű komment nyerhető. A subredditek összeválogatása kulcsszavas keresés (ahogy a YouTubenál) és tematikus lista alapján is történhet, továbbá API is segíti a letöltést, azonban érdemes előzetesen tájékozódni a felhasználási feltételekről.

A kommentelők

Ha nem angol nyelvű kommenteket keresünk, akkor a korábbiakban felsorolt lehetőségek nem alkalmazhatók (kivéve az emberi leválogatást) vagy kevés hozzászóláshoz juttatnak. Ilyenkor elindulhatunk a kommentelők felől is: keresünk néhány témának megfelelő oldalt és innen kiindulva az ún. snowball technikával eljuthatunk újabb oldalakhoz/videókhoz/posztokhoz és azok kommentjeihez. Ez a módszer azoknál a kommentfelületeknél kivitelezhető, amelyek széles körben elterjedtek (pl. Disqus, Facebook, YouTube) és a lényege, hogy egy crawler végigköveti, hogy egy adott poszt/videó alatt kommentelők milyen oldalakon hagytak még hozzászólást. Az eljárás azonban csak részben oldja meg a kommentek tematizálási problémáját.

Bárhonnan szerezzük is a kommenteket, számolni kell azzal, hogy az oldalak/posztok/videók alatt megjelenő kommentek eltérő mértékben moderáltak és erre egyes felhasználások esetében (pl. a belfry.io moduljainak fejlesztése során) külön figyelmet kell fordítani.