L'idea della creazione di una classifica degli mc's italiani con il miglior vocabolario è stata presa da un progetto americano uscito qualche mese fa: The Largest Vocabulary in Hip Hop
Premetto subito che questa classifica non vuol dire assolutamente nulla, per diversi motivi:
per un mc avere un ottimo vocabolario è uno strumento importante. È un mezzo in più per poter chiudere rime, incastrare metriche, sacrificando il contenuto il meno possibile.
Quindi aver un buon vocabolario da un marcia in più, ma non è l'unica cosa: rime, metriche, tematiche, flow, stile, sono le cose che differenziano maggiormente gli mc's.
Tutte queste però, sono aspetti soggettivi e quindi non misurabili.
Altra cosa che non rende veritiera la classifica sul valore dell'mc è il fatto che la graduatoria non è esatta. Mi spiego: ci sono stati diversi problemi durante lo sviluppo, cerco di far mente locale e elencarli tutti.
I testi sono stati presi da Raptxt che, cercando su internet, è probabilmente il più completo sito di testi rap italiani. Per via della mole di mc's italiani e relativi testi, non sono presenti tutte le voci, alcune sono doppie (e come vedremo più avanti questo penalizzerà l'artista), altre hanno degli errori ecc.
Un altro problema che invalida la veridicità della classifica sta nei featuring. Infatti, per un computer è impossibile se dato un testo, capire quali parole ha scritto l'mc A e quali il rapper. Di conseguenza, se un artista nei suoi testi ha solitamente molte collaborazioni, sarà avvantaggiato rispetto a chi ne ha meno.
E ancora, il metodo di analisi. Questa classifica si poteva elaborare con diverse formule matematiche. Come vedrete ci sono 3 classifiche: la prima è il risultato delle due sottostanti.
La seconda classifica è stata fatta sommando tutte le parole univoche nell'intera carriera dell'artista; cosa vuol dire univoche? Per esempio la parola “che” può essere pronunciata diverse volte in un brano, ma sia che venga scritta una volta o cento per noi varrà sempre uno.
Nella terza classifica, invece, è stato preso in considerazione il numero delle parole univoche ed è stato diviso per il numero di parole totali scritte nella carriera dell'artista. In questo caso vengono premiati gli mc's che si ripetono il meno possibile nei testi. Un mc che ha usato un numero minore di parole univoche potrebbe avere una posizione migliore in classifica, di uno con un grande vocabolario.
Nell'esperimento americano hanno usato un terzo metodo. Hanno esaminato un “granulo”, ovvero hanno preso un campione di 35.000 parole (non ho capito se random o le prime 35000) e poi hanno contato le parole univoche.
Nella nostra versione questo test è stato svolto, ma siccome il risultato era molto simile alla classifica numero tre, abbiamo deciso di ometterlo in quanto un campione di 35000 è sicuramente meno completo di un campione “totale”.
Anche se abbiamo svolto diversi test e presi in considerazione solo due (classifica due e tre), abbiamo subito notato l'inconsistenza del risultato.
Infatti, ragionandoci, la seconda classifica avvantaggia gli mc's che ci sono da più tempo. È normale che gente che c'è da dieci anni abbia scritto di più e con conseguenti più parole univoche rispetto a chi magari ha fatto solo un paio di cd.
La terza classifica invece è l'opposto: è normale che un artista che scrive da una decade incominci a ripetere le parole, mentre chi ha scritto un paio di cd in meno, si ripeta meno.
Questi due esempi sono indicativi, non rappresentano esattamente una classifica di quanto hanno scritto gli mc's. Infatti, nella seconda classifica i primi sono Bassi Maestro, Fabri Fibra, i Club dogo, che seppur sono nella scena rap da un sacco di tempo non sono quelli che ci sono da più tempo.
Allo stesso modo Piotta, Space One, Caparezza non sono certo al loro primo demo.
A riprova di questi esempi la classifica tre non è speculare della due e viceversa.
Entrambe le classifiche però rappresentano valori importanti e sarebbe stato interessante unirle per vedere come poteva mutare il risultato.
Facendo il prodotto delle due classifiche è abbiamo ottenuto la classifica definitiva, riduendo al minimo i vantaggi e gli svantaggi elencati sopra.
Alla fine, nonostante tutte le perplessità e le pecche irrisolvibili che questa statistica portava con sè, siamo rimasti soddisfatti del risultato: abbiamo ottenuto una conclusione piuttosto plausibile.
Vi starete però chiedendo dove sono alcuni artisti? Manca Clementino, Rocco Hunt, Ntò, Turi ecc...
Cosa accomuna tutti questi artisti? Il dialetto.
Abbiamo visto che gli artisti che usano il dialetto misto con l'italiano erano enormemente avvantaggiati, per ovvi motivi. Chi invece cantava esclusivamente in dialetto aveva dei valori plausibili, senza effettivi vantaggi.
Di conseguenza è stato creato un algoritmo in modo tale che il computer che ha eseguito la statistica, riuscisse a capire chi canta in dialetto.
Come detto sopra i veri vantaggi li aveva chi mischiava italiano e dialetto piuttosto che chi utilizzava solamente il dialetto, però non sarebbe stato significativo avere una classifica sulle parole con due gruppi di variabili così diverse fra loro; e poi, volendo, concettualmente è accettabile, stiamo valutando chi ha il miglior vocabolario italiano.
L'uso del dialetto spesso è utilizzato nel meridione, spero che non me ne vogliano gli amici del sud, ma l'algoritmo ha rilevato anche artisti settentrionali, come Herman Medrano, che è stato anche lui escluso dal risultato finale.
"Ma come? Ho sentito canzoni di Dj Gruff con del dialetto, e pure di Kiave lo usa a volte."
Esatto, a volte. Abbiamo inserito una soglia: solo chi usava il dialetto abbastanza di frequente è stato rimosso.
L'introduzione di questa soglia è stata doverosa, altrimenti anche Marracash e moltissimi altri nomi sarebbero spariti dalla classifica perchè nelle loro tracce sono presenti featuring con artisti che rappano in dialetto.
"Ok, ma allora che ci fa Cicoria?"
Il dialetto romano tutto sommato utilizza molte parole italiane, più che altro si sente l'accento di Roma. O almeno, il computer non l'ha segnato con un valore alto di dialetto, forse c'è un dialetto stretto stretto di Roma che è poco comprensibile, ma effettivamente Cicoria, Noyz Narcos e molti altri della capitale, di fatto cantano in italiano.
Ci tengo a ripeterlo ancora una volta: questa classifica lascia un po' il tempo che trova, sono molto contento che in testa ci sia Caparezza e Bassi maestro che è probabilmente il mio mc preferito, ma altri artisti di altrettanto valore come Babaman o Caneda (si potrebbero fare tanti altri nomi) sono in fondo.
Forse Babaman per via dei ritornelli, Caneda probabilmente perché ha fatto del ripetere i concetti uno dei suoi tratti distintivi, non lo so, però indicativamente la classifica generata, con i vari errori del caso, è questa.