Kako u Pandas zadržati samo određene stupce?

U radu s podacima često se susrećemo s potrebom da filtriramo ili zadržimo samo određene stupce iz većih skupova podataka. Pythonova biblioteka Pandas nudi jednostavne i učinkovite načine za to. U ovom članku, detaljno ćemo objasniti kako koristiti Pandas za zadržavanje samo određenih stupaca iz DataFrame-a, uz primjere i objašnjenja koja će vam pomoći da bolje razumijete proces.

Pandas je popularna biblioteka za analizu podataka koja omogućava rad s tabelarnim podacima. Kada radimo s DataFrame-om, često se dogodi da imamo mnogo stupaca, ali nas zanimaju samo neki od njih. Možda želimo zadržati stupce koji sadrže ključne informacije za našu analizu, dok ostale možemo zanemariti. Ovaj proces se naziva filtriranje stupaca.

Prvo, trebamo učitati potrebne biblioteke i stvoriti DataFrame. Za primjer, pretpostavimo da imamo skup podataka o prodaji proizvoda u različitim regijama. DataFrame može izgledati ovako:

import pandas as pd

data = {
    'Proizvod': ['A', 'B', 'C', 'D'],
    'Količina': [10, 20, 30, 40],
    'Cijena': [5.0, 7.5, 6.0, 8.0],
    'Regija': ['Sjever', 'Jug', 'Istok', 'Zapad']
}

df = pd.DataFrame(data)

Naš DataFrame će izgledati ovako:

  Proizvod  Količina  Cijena  Regija
0        A        10     5.0  Sjever
1        B        20     7.5    Jug
2        C        30     6.0   Istok
3        D        40     8.0   Zapad

Recimo da nas zanimaju samo stupci ‘Proizvod’ i ‘Cijena’. Kako bismo zadržali samo te stupce, koristit ćemo metodu loc ili jednostavno indeksiranje. Evo kako to možemo učiniti:

df_filtered = df[['Proizvod', 'Cijena']]

Rezultat će biti novi DataFrame koji sadrži samo odabrane stupce:

  Proizvod  Cijena
0        A     5.0
1        B     7.5
2        C     6.0
3        D     8.0

U ovom primjeru, koristili smo dvostruke uglaste zagrade [[]] da bismo specificirali koje stupce želimo zadržati. Ovo je jedan od najjednostavnijih i najčešće korištenih načina za filtriranje stupaca.

Osim loc metode, možemo također koristiti filter metodu koja nam omogućava filtriranje na temelju određenih kriterija. Na primjer, ako želimo zadržati sve stupce koji sadrže riječ ‘Cijena’, možemo to postići ovako:

df_filtered = df.filter(like='Cijena')

Ova metoda vraća sve stupce koji sadrže ‘Cijena’ u svom nazivu. U našem slučaju, to će rezultirati s istim DataFrame-om kao i prije, jer imamo samo jedan stupac koji zadovoljava taj uvjet.

Osim filtriranja po nazivima stupaca, ponekad želimo zadržati stupce temeljem određenih uvjeta. Na primjer, možemo zadržati samo one stupce koji imaju vrijednosti iznad određene granice. U tom slučaju možemo koristiti apply metodu za filtriranje podataka. Međutim, obično se koristi za filtriranje redaka, dok za stupce obično koristimo gore navedene metode.

Filtriranje stupaca u Pandas-u je vrlo jednostavno i korisno kada radimo s velikim skupovima podataka. To nam omogućava da se fokusiramo samo na relevantne informacije i olakšava analizu. Imajte na umu da ovakvo filtriranje ne mijenja izvorni DataFrame, već stvara novi DataFrame s odabranim stupcima.

Pandas je moćan alat za analizu podataka, a njegovo razumijevanje i pravilno korištenje može značajno poboljšati vašu produktivnost i učinkovitost u radu s podacima. Ako želite dublje ući u svijet analize podataka, preporučujemo da istražite i druge funkcionalnosti koje ova biblioteka nudi, kao što su grupiranje podataka, spajanje DataFrame-ova i vizualizacija podataka.

Was this article helpful?

Yes No

Related Articles

Leave a Comment Cancel