Как осуществить вывод двух столбцов с помощью библиотеки pandas


Для начала создадим DataFrame, содержащий несколько столбцов. Для примера будем использовать данные о фильмах: название, год выпуска, жанр и рейтинг. Датасет представим в виде списка словарей, где каждый словарь соответствует одному фильму. Затем этот список преобразуется в DataFrame с помощью конструктора pd.DataFrame().

Для начала, необходимо импортировать библиотеку pandas:

import pandas as pd

Затем, можно загрузить данные из файла или создать их самостоятельно. Например, воспользуемся функцией read_csv(), чтобы загрузить данные из CSV-файла:

data = pd.read_csv('имя_файла.csv')
two_columns = data[['столбец1', 'столбец2']]

Теперь, мы можем вывести два выбранных столбца с помощью метода print():

print(two_columns)

Начало работы с библиотекой pandas

Для начала работы с библиотекой pandas необходимо установить ее, используя менеджер пакетов pip:

pip install pandas

После установки библиотеки можно начать использовать ее функциональность. Для этого необходимо импортировать библиотеку в свой проект:

import pandas as pd

Один из основных объектов библиотеки pandas — DataFrame. DataFrame представляет собой таблицу с данными, где каждая колонка может иметь свой тип данных. Для создания DataFrame можно использовать различные источники данных, например CSV-файлы, базы данных или массивы NumPy.

# Создание DataFrame из словаряdata = {'Имя': ['Анна', 'Иван', 'Мария', 'Петр'],'Возраст': [25, 30, 28, 32]}df = pd.DataFrame(data)

Теперь мы можем работать с данными в DataFrame. Например, чтобы вывести только две колонки, можно использовать следующий код:

print(df[[‘Имя’, ‘Возраст’]])

Этот код выведет следующий результат:

    Имя  Возраст0   Анна      251   Иван      302  Мария      283   Петр      32

Теперь у вас есть базовое представление о том, как начать работу с библиотекой pandas. Она предоставляет множество возможностей для работы с данными, включая фильтрацию, сортировку, группировку и анализ данных.

Загрузка данных в pandas

Существует несколько способов загрузки данных в pandas:

МетодОписание
read_csv()Загрузка данных из CSV-файла
read_excel()Загрузка данных из Excel-файла
read_sql()Загрузка данных из базы данных с помощью языка SQL
read_json()Загрузка данных из JSON-файла

Каждый из этих методов возвращает DataFrame, который можно дальше использовать для анализа и манипуляций с данными.

Выбор нужных столбцов

Чтобы выбрать два столбца, необходимо передать их имена внутри двойных квадратных скобок. Например, для выбора столбцов с именами «столбец1» и «столбец2» необходимо использовать следующий синтаксис:

df[[‘столбец1’, ‘столбец2’]]

В результате будут выведены только выбранные столбцы и все строки, содержащиеся в них.

Если необходимо выбрать только уникальные значения в каждом из столбцов, можно использовать метод .drop_duplicates(). Этот метод удаляет все дублирующиеся строки из DataFrame и оставляет только уникальные значения.

Например, чтобы выбрать только уникальные значения в столбце «столбец1», необходимо использовать следующий синтаксис:

df['столбец1'].drop_duplicates()

При необходимости можно использовать метод rename(), чтобы изменить имена столбцов. Метод принимает на вход словарь, в котором ключами являются исходные имена столбцов, а значениями — новые имена. Например:

df.rename(columns={'столбец1': 'новое_имя1', 'столбец2': 'новое_имя2'})

Это позволит переименовать столбцы «столбец1» и «столбец2» в «новое_имя1» и «новое_имя2» соответственно.

Таким образом, используя сочетание методов [[ ]], .drop_duplicates() и rename(), можно выбрать и вывести желаемые столбцы из DataFrame, а также изменить их имена при необходимости.

Фильтрация данных

Для фильтрации данных в Pandas используется метод filter(). Этот метод позволяет указать условие, по которому будут выбраны нужные строки. Например, для выбора строк, где значение в столбце column1 больше 10, можно использовать следующий код:

df_filtered = df.filter(df['column1'] > 10)

Результатом работы этого кода будет новый DataFrame, содержащий только те строки, где значение в столбце column1 больше 10.

Кроме того, фильтрацию можно провести и по нескольким условиям. Например, чтобы выбрать строки, где значение в столбце column1 больше 10 и значение в столбце column2 меньше 20, можно использовать следующий код:

df_filtered = df.filter((df['column1'] > 10) & (df['column2'] < 20))

Результатом работы этого кода будет новый DataFrame, содержащий только те строки, где значение в столбце column1 больше 10 и значение в столбце column2 меньше 20.

Таким образом, фильтрация данных является мощным инструментом для выбора нужных строк в DataFrame на основе заданных условий.

Пример:

import pandas as pd# Создание DataFramedata = {'Столбец 1': [1, 2, 3, 4, 5],'Столбец 2': ['А', 'Б', 'В', 'Г', 'Д']}df = pd.DataFrame(data)display(df[['Столбец 1', 'Столбец 2']])

Результат:

Столбец 1 Столбец 20          1        А1          2        Б2          3        В3          4        Г4          5        Д

Таким образом, используя метод display() и указав в квадратных скобках названия столбцов, вы можете легко вывести два столбца на экран.

Добавить комментарий

Вам также может понравиться