Pandas — одна из главных библиотек Python для анализа данных. Если вы только начинаете путь в Data Science, аналитике или автоматизации отчетов, важно понять 2 базовые сущности: Series и DataFrame.
Series — это одномерная структура данных.
Проще говоря, один столбец со значениями и индексами.
Пример:
import pandas as pd
s = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(s)Что важно:
- у каждого значения есть индекс
- можно обращаться по метке:
s["b"] - подходит для хранения одного набора данных
DataFrame — это двумерная таблица.
По сути, аналог Excel-таблицы или SQL-таблицы: строки + столбцы.
Пример:
df = pd.DataFrame({
"name": ["Анна", "Игорь", "Олег"],
"age": [25, 31, 28],
"city": ["Москва", "Казань", "СПб"]
})
print(df)Почему DataFrame удобен:
- можно хранить разные типы данных в одной таблице
- легко фильтровать, сортировать и группировать данные
- это основной формат для работы с CSV, Excel и аналитикой
Как посмотреть первые данные 👀
После загрузки таблицы полезно сразу проверить содержимое:
df.head()
df.tail()
df.info()
df.describe()Что делают методы:
head()— первые 5 строкtail()— последние 5 строкinfo()— типы данных и пропускиdescribe()— базовая статистика по числам
Как выбрать столбец или строки
Один столбец:
df["age"]Несколько столбцов:
df[["name", "city"]]Фильтр по условию:
df[df["age"] > 26]Это один из самых частых запросов новичков: как фильтровать данные в Pandas. Ответ — через логические условия внутри квадратных скобок.
Чтение CSV-файла 💾
Чаще всего Pandas используют для загрузки данных:
df = pd.read_csv("data.csv")После этого обычно делают:
df.head()
df.info()Так можно быстро понять:
- какие столбцы есть
- какие типы данных определились
- есть ли пустые значения
Частые ошибки новичков ⚠️
- путать
SeriesиDataFrame - забывать, что названия столбцов чувствительны к точному написанию
- не проверять
info()после загрузки файла - пытаться работать с числами, которые считались как строки
С чего начать изучение Pandas
- создать
Seriesвручную - собрать простой
DataFrame - научиться выбирать столбцы
- попробовать фильтрацию
- загрузить CSV и посмотреть структуру данных
Pandas — это базовый инструмент для аналитика, data scientist, Python-разработчика и инженера данных. Поняв Series и DataFrame, вы закладываете фундамент для обработки данных, визуализации и машинного обучения 🚀
Подборку каналов про IT — с Python, аналитикой, Data Science и разработкой — стоит посмотреть в закрепе/описании.