IMDB.splits | Redes Neurais Recorrentes: Deep Learning com Pytorch

Obtive o seguinte erro ao tentar rodar o código mostrado na aula:

'function' object has no attribute 'splits'.

Aparentemente houveram algumas mudanças na biblioteca desde a produção desse material. O Field também mudou o caminho.

Encontrie a seguinte solução na documentação:

train_iter=datasets.IMDB(split=('train'))
test_iter=datasets.IMDB(split=('test'))


def tokenize(label, line):
    return line.split()

train = []
train_label=[]
for label, line in train_iter:
    train += tokenize(label, line)
    train_label.append(label)   

test = []
test_label=[]

for label, line in test_iter:
    test += tokenize(label, line)
    test_label.append(label) 


    TEXT.build_vocab(train,
                max_size=25_000,
                vectors='glove.6B.100d'    )

Utilizando essa solução obtive uma lista train com um tamanho de 5844680, sendo 280617 elementos únicos.

O problema é que o tamanho do vocabulários está ficando muito pequeno. 176 por 100.

print(TEXT.vocab.vectors.size())

está retornando:

TEXT.vocab.vectors.size([176,100])

Garanta sua matrícula hoje e ganhe + 2 meses grátis