Statistica Parole

Vedi tutte le pagine e le modifiche recenti o scarica i sorgenti nella pagina


StatisticaParole

Semplicemente, contiamo le diverse parole in un testo, e restituiamo una statistica sulla frequenza d’uso. Notate che potete facilmente trasformare questo sistema in uno che conti i caratteri, per costruire quei comodi istogrammi di frequenza tanto cari ai programmi di decrittazione :)

in sostanza:

leggiamo il file:

fd=File.read('i_promes.txt')

spezziamolo e mettiamolo in un array:

ary=fd.split

creiamo un hash, e lo riempiamo di zeri:

hsh=Hash.new(0)

poi usiamo le parole come chiavi, incrementando ogni volta il valore:

for parola in ary
 hsh[parola]+=1
end

Finito :)

A questo punto possiamo ordinare il tutto:

istogramma=hsh.to_a.sort_by {|elem| elem[1]}

In realta’, scoprirete che l’ordinamento a’ dal meno frequente al piu’ frequente, ma il concetto non cambia :)

Ora, scoprirete come, nei promessi sposi, le dieci parole piu’ frequenti siano:

>> puts istogramma.last(10) un 3132 non 3144 in 3313 la 3385 il 3604

4213 a 4460 che 6010 di 6248 e 7009

finire, specificare accentate e unione righe e analisi una riga per volta

Created on November 25, 2005 13:43 by il gruppo (256.256.256.256)