3
respostas

Dimensão de Colunas

Estava fazendo o primeiro exercicio do curso, e foi pedido para que fosse feito a leitura de dados do dataset fornecido, usei essa estrutura:

import numpy as np url = "https://raw.githubusercontent.com/allanspadini/numpy/dados/citrus.csv" dados = np.loadtxt(url, delimiter=",", usecols=np.arange(1, 6), skiprows=1

Entretanto é possível ver que o dataset possui 6 colunas, mais se fosse um dataset com mais colunas, com tamanhos bem maiores que não fosse possível contar ? Poderia usar o .shape, porém precisaria fazer a leitura antes de ver quantas linhas e colunas possui. A questão é: Como eu posso descobrir quantas colunas meu dataset tem sem precisar contar ? e fazer isso antes da leitura dos dados é possível ?

3 respostas

Sim, é possível descobrir o número de colunas do dataset sem precisar contar manualmente antes de fazer a leitura dos dados. Uma maneira de fazer isso é utilizando a biblioteca Pandas em Python. O Pandas permite que você leia os dados do dataset sem a necessidade de conhecê-lo previamente, e então você pode verificar o número de colunas usando o atributo .shape.

Aqui está um exemplo de como você pode fazer isso:

import pandas as pd

url = "https://raw.githubusercontent.com/allanspadini/numpy/dados/citrus.csv"
df = pd.read_csv(url, sep=",")

num_colunas = df.shape[1]
print("Número de colunas:", num_colunas)

O código acima utiliza o Pandas para ler o dataset e armazená-lo em um DataFrame (df). Em seguida, o atributo .shape é utilizado para obter o número de colunas do DataFrame, que corresponde ao número de colunas do dataset.

Dessa forma, você pode descobrir o número de colunas sem a necessidade de contar manualmente e pode fazer isso antes de ler os dados para decidir quais colunas serão utilizadas. Isso é especialmente útil quando se trabalha com datasets grandes em que contar manualmente seria inviável.

Se isso te ajudou marca como solucionado.

Bom dia Pedro e Francisco.

Realmente a resposta do Francisco é válida. Eu não segui por esse caminho no curso porque na formação a pessoa ainda não teria tido contato com a Pandas. Uma alternativa usando a numpy seria ler o dataset sem especificar as colunas utilizadas e ir tentando entender sua estrutura e quais partes do dataset devem permanecer para podermos tirar o melhor proveito dos dados.

Olá, Francisco e Allan!

Muito obrigado pelas respostas, e de fato como o Allan falou, o caminho que foi feito pela Alura não traz o contato com o Pandas ainda, trazendo a necessidade de fazer tenta e erro, até ter uma forma de visualizar os dados como um todo.

De qualquer forma, muito obrigado pelas respostas!