Для начала создадим DataFrame, содержащий несколько столбцов. Для примера будем использовать данные о фильмах: название, год выпуска, жанр и рейтинг. Датасет представим в виде списка словарей, где каждый словарь соответствует одному фильму. Затем этот список преобразуется в DataFrame с помощью конструктора pd.DataFrame().
Для начала, необходимо импортировать библиотеку pandas:
import pandas as pd
Затем, можно загрузить данные из файла или создать их самостоятельно. Например, воспользуемся функцией read_csv()
, чтобы загрузить данные из CSV-файла:
data = pd.read_csv('имя_файла.csv')
two_columns = data[['столбец1', 'столбец2']]
Теперь, мы можем вывести два выбранных столбца с помощью метода print()
:
print(two_columns)
Начало работы с библиотекой pandas
Для начала работы с библиотекой pandas необходимо установить ее, используя менеджер пакетов pip:
pip install pandas
После установки библиотеки можно начать использовать ее функциональность. Для этого необходимо импортировать библиотеку в свой проект:
import pandas as pd
Один из основных объектов библиотеки pandas — DataFrame. DataFrame представляет собой таблицу с данными, где каждая колонка может иметь свой тип данных. Для создания DataFrame можно использовать различные источники данных, например CSV-файлы, базы данных или массивы NumPy.
# Создание DataFrame из словаряdata = {'Имя': ['Анна', 'Иван', 'Мария', 'Петр'],'Возраст': [25, 30, 28, 32]}df = pd.DataFrame(data)
Теперь мы можем работать с данными в DataFrame. Например, чтобы вывести только две колонки, можно использовать следующий код:
print(df[[‘Имя’, ‘Возраст’]])
Этот код выведет следующий результат:
Имя Возраст0 Анна 251 Иван 302 Мария 283 Петр 32
Теперь у вас есть базовое представление о том, как начать работу с библиотекой pandas. Она предоставляет множество возможностей для работы с данными, включая фильтрацию, сортировку, группировку и анализ данных.
Загрузка данных в pandas
Существует несколько способов загрузки данных в pandas:
Метод | Описание |
---|---|
read_csv() | Загрузка данных из CSV-файла |
read_excel() | Загрузка данных из Excel-файла |
read_sql() | Загрузка данных из базы данных с помощью языка SQL |
read_json() | Загрузка данных из JSON-файла |
Каждый из этих методов возвращает DataFrame, который можно дальше использовать для анализа и манипуляций с данными.
Выбор нужных столбцов
Чтобы выбрать два столбца, необходимо передать их имена внутри двойных квадратных скобок. Например, для выбора столбцов с именами «столбец1» и «столбец2» необходимо использовать следующий синтаксис:
df[[‘столбец1’, ‘столбец2’]]
В результате будут выведены только выбранные столбцы и все строки, содержащиеся в них.
Если необходимо выбрать только уникальные значения в каждом из столбцов, можно использовать метод .drop_duplicates(). Этот метод удаляет все дублирующиеся строки из DataFrame и оставляет только уникальные значения.
Например, чтобы выбрать только уникальные значения в столбце «столбец1», необходимо использовать следующий синтаксис:
df['столбец1'].drop_duplicates()
При необходимости можно использовать метод rename(), чтобы изменить имена столбцов. Метод принимает на вход словарь, в котором ключами являются исходные имена столбцов, а значениями — новые имена. Например:
df.rename(columns={'столбец1': 'новое_имя1', 'столбец2': 'новое_имя2'})
Это позволит переименовать столбцы «столбец1» и «столбец2» в «новое_имя1» и «новое_имя2» соответственно.
Таким образом, используя сочетание методов [[ ]], .drop_duplicates() и rename(), можно выбрать и вывести желаемые столбцы из DataFrame, а также изменить их имена при необходимости.
Фильтрация данных
Для фильтрации данных в Pandas используется метод filter()
. Этот метод позволяет указать условие, по которому будут выбраны нужные строки. Например, для выбора строк, где значение в столбце column1
больше 10, можно использовать следующий код:
df_filtered = df.filter(df['column1'] > 10)
Результатом работы этого кода будет новый DataFrame, содержащий только те строки, где значение в столбце column1
больше 10.
Кроме того, фильтрацию можно провести и по нескольким условиям. Например, чтобы выбрать строки, где значение в столбце column1
больше 10 и значение в столбце column2
меньше 20, можно использовать следующий код:
df_filtered = df.filter((df['column1'] > 10) & (df['column2'] < 20))
Результатом работы этого кода будет новый DataFrame, содержащий только те строки, где значение в столбце column1
больше 10 и значение в столбце column2
меньше 20.
Таким образом, фильтрация данных является мощным инструментом для выбора нужных строк в DataFrame на основе заданных условий.
Пример:
import pandas as pd# Создание DataFramedata = {'Столбец 1': [1, 2, 3, 4, 5],'Столбец 2': ['А', 'Б', 'В', 'Г', 'Д']}df = pd.DataFrame(data)display(df[['Столбец 1', 'Столбец 2']])
Результат:
Столбец 1 Столбец 20 1 А1 2 Б2 3 В3 4 Г4 5 Д
Таким образом, используя метод display() и указав в квадратных скобках названия столбцов, вы можете легко вывести два столбца на экран.