Boa tarde. Sobre o Chunk ideal, o que sugerem para medir se o chunk que estou usando é bom ou ruim?Me ajudem a entender!
No vídeo foi recomendado verificar se o "Chunk" utilizado não resultou alguma informação quebrada, entretanto se o texto for longo e não houver uma divisão bem definida como ocorre no documento de exemplo onde as difisões são definidas por pergunta e resposta então poderia ser utilizado o parâmetro "overlap".
No exemplo no vídeo foi utilizado um chunk de 1200 que resultou em 10 nós, fiz os seguintes testes:
chunk = 500, total de 25 nós nodes[0].text : 'Serenatto – Loja online de cafés especiais Informações gerais P: Quais produtos são vendidos no site da Serenatto? R: A Serenatto é uma loja online especializada na venda de grãos de cafés especiais, \noferecendo\n \ngrãos\n \ntorrados,\n \nprovenientes\n \nde\n \nfazendas\n \nselecionadas\n \nde\n \nMinas\n \nGerais.\n \nTodos\n \nos\n \nnossos\n \ncafés\n \npossuem\n \nnota\n \nSCA\n \nacima\n \nde\n \n80,\n \ngarantindo\n \nalta\n \nqualidade\n \ne\n \nperfis\n \nsensoriais\n \nexcepcionais.\n P: De onde vêm os grãos de café da Serenatto? R: Nossos grãos são cuidadosamente selecionados de fazendas localizadas em Minas \nGerais,\n \nconhecidas\n \npela\n \nalta\n \nqualidade\n \nde\n \nseus\n \ncafés\n \nespeciais.\n \nCada\n \nfazenda\n \né\n \nescolhida\n \npor\n \nsuas\n \npráticas\n \nsustentáveis\n \ne\n \npelo\n \ncuidado\n \nexcepcional\n \ncom\n \na\n \nprodução.\n P: Qual é a quantidade vendida? R: Os grãos já torrados são vendidos em pacotes de 250g P: Quais são as variedades de café disponíveis?'
RESULTADO: 4 perguntas e 3 respostas
chunk = 1100, total de 11 nós nodes[0].text :
'Serenatto – Loja online de cafés especiais Informações gerais P: Quais produtos são vendidos no site da Serenatto? R: A Serenatto é uma loja online especializada na venda de grãos de cafés especiais, \noferecendo\n \ngrãos\n \ntorrados,\n \nprovenientes\n \nde\n \nfazendas\n \nselecionadas\n \nde\n \nMinas\n \nGerais.\n \nTodos\n \nos\n \nnossos\n \ncafés\n \npossuem\n \nnota\n \nSCA\n \nacima\n \nde\n \n80,\n \ngarantindo\n \nalta\n \nqualidade\n \ne\n \nperfis\n \nsensoriais\n \nexcepcionais.\n P: De onde vêm os grãos de café da Serenatto? R: Nossos grãos são cuidadosamente selecionados de fazendas localizadas em Minas \nGerais,\n \nconhecidas\n \npela\n \nalta\n \nqualidade\n \nde\n \nseus\n \ncafés\n \nespeciais.\n \nCada\n \nfazenda\n \né\n \nescolhida\n \npor\n \nsuas\n \npráticas\n \nsustentáveis\n \ne\n \npelo\n \ncuidado\n \nexcepcional\n \ncom\n \na\n \nprodução.\n P: Qual é a quantidade vendida? R: Os grãos já torrados são vendidos em pacotes de 250g P: Quais são as variedades de café disponíveis? R: Trabalhamos com as seguintes variedades de café em grãos: ● Bourbon vermelho ● Bourbon amarelo ● Blend especial (Mistura de Bourbon amarelo e vermelho) ● Catuaí amarelo ● Geisha ● Yirgacheffe P: Quais são os preços de cada variedade de café? R: Os preços sãos os seguintes: ● Bourbon vermelho: R$ 41,00 ● Bourbon amarelo: R$ 43,00 ● Blend especial: R$ 37,50 ● Catuaí amarelo: R$ 55,00 ● Geisha: R$ 105,00 ● Yirgacheffe: R$ 110,00'
RESULTADO: 5 perguntas e 5 respostas
chunk = 1180, total de 10 nós
- o mesmo resultado que chunk = 1200 RESULTADO: 5 perguntas e 5 respostas
chunk = 9000, total de 10 nós
- o mesmo resultado que chunk = 1200 RESULTADO: 5 perguntas e 5 respostas
RESULTADO APÓS OS TESTES
- Verifiquei o conteúdo de cada node[0]... e o conteúdo correspondente, notei que dependendo do valor do "Chunk" poderá ocorrer de um node armazenar o conteúdo de uma pergunta e a resposta corresponde estar no próximo "nodes".
- Diante disto, parece que o ajuste do "Chunk" está relacionado a garantir que o valor armazenado em cada "Chunk" seja o conteúdo exato de cada página, mas isso não parece fazer muito sentido pois com quanto mais seguimentado mais rápido será a busca pela informação que faça sentido à pergunta!?