Галерея диаграмм связей Интеллектуальная статистическая технология
В нем подробно объясняется использование библиотек numpy, pandas и plt. Введение подробное, а знания всеобъемлющие. Надеюсь, оно будет полезно всем!
Отредактировано в 2024-02-04 00:48:40Интеллектуальная статистическая технология
введение
учебник
Статистическое мышление: статистика вероятностей для программистов Математика
анализ и применение данных Python
анализировать данные
ясная цель
предпосылки
направление
Сбор данных
база данных
другой
обработка данных
Очистка (предварительная обработка)
Конвертировать
извлекать
вычислить
анализ данных
анализ данных
панды
сбор данных
Отображение данных
диаграмма
лист
Слово
содержание
теория вероятности
статистика
Проведение количественного анализа
библиотека под названием
NumPy
Операции с массивами и матрицами
Чрезвычайно эффективный
Матплотлиб
Графики, визуализации
Панды
происхождение имени
панельные данные и анализ данных
Функция
Анализ и исследование данных
Расширенные структуры данных
Ряд
Одномерные данные
DataFream
2D-данные
NumPy
представлять
Мощный N-мерный массив ndarray
Функция трансляции ufunc
Инструменты для интеграции кода C/C/Fortran
Линейная алгебра, преобразование Фурье, генерация случайных чисел и другие функции.
ндаррей
эффект
Хранит многомерный массив одного типа данных.
создавать
Создание многомерных массивов из существующих данных
Создать из списка объекты кортежа - array()
np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
object — объект списка или кортежа, обязательный параметр
dtype — тип данных
копировать — объект копируется
порядок — расположить массив в определенном порядке: C — по строкам; F — по столбцу; A — по столбцу, если входной параметр F, иначе — по строкам; K — сохранить расположение строк и столбцов;
subok — Возвращенный массив приводится к массиву базового класса
ndmin — минимальный размер
Чтение из строки — fromstring()
np.fromstring(string, dtype=float, count=-1, sep=”)
Создать многомерный массив определенной формы
Создайте массив «все 1» — ones()
np.ones(shape, dtype=None, order='C')
Создайте массив «всех нулей» — нули().
np.zeros(shape, dtype=float, order='C')
Создать пустой массив — пустой()
np.empty(shape, dtype=float, order='C')
Заполнить массив автономно — full()
np.full(форма, fill_value, dtype=None, order='C')
Создать идентификационную матрицу — глаз()
np.full(n)
Создайте многомерный массив из числового диапазона
Создать массив арифметических последовательностей — arange()
np.arange(start=0, stop, шаг=1, dtype=None)
Создайте массив арифметических прогрессий — linspace()
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
num — количество равных делений
Атрибуты
ндим
Размеры
форма
длина каждого измерения
размер
общее количество элементов
dtype
тип элемента
размер предмета
Размер каждого элемента массива
Индексирование и нарезка
То же, что список
метод
изменить форму(а,б)
Переход к матрице со строкой a и столбцом b
повторить (4, ось = 1)
Скопируйте 4 раза и добавьте справа
numpy.random
np.random.rand(2, 3)
Числовое значение: [0,1], 2 строки и 3 столбца.
np.random.randint(5, размер = (2, 3))
Значение меньше 5, 2 строки и 3 столбца
Матрица NumPy
Является подклассом ndarray
Создать матрицу
Используйте точки с запятой для разделения данных
matr1 = np.mat("1 2 3;4 5 6;7 8 9")
Создайте матрицу, используя списки
matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])
Объединение маленьких матриц в большие матрицы
matr3 = np.bmat("arr1 arr2; arr1 arr2")
свойства матрицы
Матричные операции
функция ufunc
эффект
Функции, которые могут обрабатывать массивы ndarray, можно использовать напрямую.
Общие операции
Арифметика
операция сравнения
логическая операция
Функция np.all(x) означает использование логического И для x.
Функция np.any(x) означает использование логического ИЛИ для x.
механизм вещания
Относится к способу выполнения арифметических операций между массивами различной формы.
в принципе
Пусть все входные массивы выровнены по массиву с самой длинной фигурой, а недостающая часть фигуры восполняется добавлением 1 впереди.
Форма выходного массива — это максимальное значение по каждой оси формы входного массива.
Если ось входного массива имеет ту же длину, что и соответствующая ось выходного массива, или ее длина равна 1, то этот массив можно использовать для расчета, в противном случае возникает ошибка.
Когда длина оси входного массива равна 1, при работе вдоль этой оси используется первый набор значений по этой оси.
Чтение и запись файлов
бинарный файл
numpy.save(file, arr,allow_pickle=True, fix_imports=True)
Примечание. Каталог в пути сохранения должен существовать! Функция сохранения не создает каталоги автоматически.
numpy.load(file, mmap_mode=None,allow_pickle=True, fix_imports=True,coding='ASCII')
текстовый файл
np.savext(fname, X, fmt='%.18e', delimiter=' ', новая строка=' ', заголовок='', нижний колонтитул='', комментарии='# ')
numpy.loadtxt(ИМЯ ФАЙЛА, dtype=int, разделитель=' ')
Простой анализ
Сортировать
прямая сортировка
Относится к сортировке значений напрямую
numpy.sort(a, ось, вид, порядок)
а
массив для сортировки
ось
Ось, по которой сортируется массив, или по последней оси, если массив расширяться не будет.
добрый
По умолчанию используется «Quicksort» (быстрая сортировка).
заказ
Если массив содержит поля, поле для сортировки
непрямая сортировка
Относится к сортировке набора данных на основе одного или нескольких ключей.
numpy.argsort(а)
Функция выполняет косвенную сортировку входного массива вдоль заданной оси и возвращает массив индексов (индексов) данных, используя указанный тип сортировки.
numpy.lexsort(a,b)
Функция выполняет косвенную сортировку, используя последовательность ключей, которую можно рассматривать как столбец в электронной таблице, и возвращает массив индексов (индексов).
Удалить дубликаты
numpy.unique
статистическая функция
матплотлиб
представлять
Предоставляет множество математических функций рисования, с помощью которых можно легко рисовать диаграммы данных.
Другие инструменты визуальной статистики
электронная диаграмма
облако слов
стандартный метод
Основной процесс
Создать холст
<Создавать ли подграф>
Выбранный сюжет
Установить оси X, Y
Добавить легенду (подробнее)
<Завершен ли рисунок>
сохранить отображение
Поэтапный анализ
Создать холст
plt.figure(figsize=(x,y))
Если у вас есть холст, вы можете создать несколько изображений.
plt.subplot(nrows, ncols, индекс)
Параметр nrows указывает, на сколько строк разделена область графика данных.
Параметр ncols указывает, на сколько столбцов разделена область графика данных.
Параметр index указывает, какую область получить
Выбранный сюжет
линейный график
сюжет
График рассеяния
разбрасывать
Гистограмма
уровень
бар
вертикальный
барх
Гистограмма
история
круговая диаграмма
пирог
...
Установить оси X, Y
Топоры
сюжет
plt.plot(x,y)
x и y — два массива. Если вы введете только один, ось X по умолчанию будет индексом массива.
Также есть такие параметры, как цвет, прозрачность, стиль, ширина и т. д.
plt.plot(x, y, color='green',alpha=0.5,linestyle='-',linewidth=3,marker='*')
Добавить легенду (подробнее)
Название, верхняя и нижняя границы интервала, легенда, сегментация, расположение, ось и т. д.
Установить заголовок
plt.xlabel('Время')
plt.ylabel("Темп")
plt.title('Название')
Китайский дисплей
plt.rcParams['font.sans-serif'] = ['SimHei']
Пользовательский масштаб оси X
plt.xticks(диапазон(0,len(x),4),x[::4],вращение=45)
Интервал оси X, а также верхний и нижний пределы
plt.set_xlim([xmin, xmax]) #Устанавливаем интервал по оси X
plt.axis([xmin, xmax, ymin, ymax]) #Интервал оси X, Y
plt.set_ylim(bottom=-10) #Нижний предел оси Y
plt.set_xlim(right=25) #Верхний предел оси X
быстрый метод
импортировать matplotlib.pyplot как plt plt.plot(x,y) plt.show()
Панды
Функции
Он предоставляет простые и эффективные объекты с метками по умолчанию (вы также можете настроить метки).
Возможность быстрой загрузки данных из файлов разных форматов (например, файлов Excel, CSV, SQL) и последующего преобразования их в обрабатываемые объекты;
Возможность группировать данные по меткам строк и столбцов, а также выполнять операции агрегирования и преобразования сгруппированных объектов;
Он может легко реализовать операции нормализации данных и обработку пропущенных значений;
Столбцы данных DataFrame легко добавлять, изменять или удалять;
Возможность обработки наборов данных в различных форматах, таких как матричные данные, таблицы разнородных данных, временные ряды и т. д.;
Предоставляет различные способы обработки наборов данных, такие как создание подмножеств, нарезка, фильтрация, группировка и изменение порядка.
Встроенные структуры данных
Ряд
определение
1 измерение, способное хранить различные типы данных, такие как символы, целые числа, числа с плавающей запятой, объекты Python и т. д. Серия использует атрибуты имени и индекса для описания значений данных.
создавать
s=pd.Series(данные, индекс, dtype, копия)
данные
Входными данными могут быть скаляры, списки, словари, массивы ndarray и т. д.
индекс
Значение индекса должно быть уникальным. Если индекс не передается, по умолчанию используется значение np.arrange(n).
dtype
dtype представляет тип данных. Если он не указан, он будет определен автоматически.
копировать
Указывает на копирование данных, значение по умолчанию — False.
Основные операции
доступ
индекс индекса
Похожий список
индекс тега
Похоже на: словарь
Применимы Numpy-расчеты и операции.
Можно нарезать
Общие свойства
dtype
Возвращает тип данных объекта.
пустой
Возвращает пустой объект Series.
ндим
Возвращает размерность входных данных.
размер
Возвращает количество элементов входных данных.
Разница между size и count: size при подсчете включает значения NaN, но count не включает значения NaN.
ценности
Возвращает объект Series в виде ndarray.
индекс
Возвращает объект RangeIndex, используемый для описания диапазона значений индекса.
Общие методы
описывать()
count: Количественная статистика, сколько допустимых значений в этом столбце? unipue: Сколько существует разных значений? стандартное отклонение: стандартное отклонение мин: минимальное значение 25%: квартиль 50%: половина процентиля 75%: три четверти Макс: максимальное значение имею в виду: имею в виду
head()&tail() для просмотра данных
head(n) возвращает первые n строк данных и по умолчанию отображает первые 5 строк данных.
Tail(n) возвращает последние n строк данных, по умолчанию — последние 5 строк.
isnull()&nonull() обнаруживает пропущенные значения
isnull(): возвращает True, если значение не существует или отсутствует.
notnull(): возвращает False, если значение не существует или отсутствует.
value_counts
Статистическая частота
DataFrame
определение
2 измерения: индекс строки и индекс столбца. Индекс строки — это индекс, а индекс столбца — это столбцы. При создании структуры можно указать соответствующее значение индекса.
Тип данных каждого столбца в таблице может быть разным, например строка, целое число или с плавающей запятой и т. д.
создавать
df =pd.DataFrame(данные, индекс, столбцы, dtype, копия)
данные
Входными данными могут быть список, вложенный список словаря, список вложенного словаря, серия в виде словаря и т.д.
Операции с индексами столбцов
Индекс столбца выбирает столбцы данных
print(df ['один'])
print(df[['слово', 'Китайский иероглиф', 'значение']])
Индекс столбца добавляет столбец данных
df['three']=pd.Series([10,20,30],index=['a','b','c'])
df['четыре']=df['один'] df['три']
df.insert(1,column='score',value=[91,90,75])
Значение 1 представляет позицию индекса, вставленную в список столбцов.
Индекс столбца удалить столбец данных
df.pop('два')
Разделить извлеченные столбцы
df[df['имя_столбца'] == некоторое_значение]
Операции с индексами строк
индекс тега
df1.loc["b": "e", "bx": "ex"]
Сначала ряд, затем очередь
индекс индекса
df1.iloc[2: 6, 2: 4]
Сначала ряд, затем очередь
гибридный индекс
df1.ix[2: 6, «bx»: «ex»]
Сначала ряд, затем очередь
Многострочный выбор операции нарезки
дф[2: 4]
Добавить строку данных
df = df.append(df2)
Удалить строку данных
df = df.drop(0)
Разделить строки выборки
df.loc[df['имя_столбца'] == ул]
Вывод строк, где определенный столбец имеет значение NaN
df[df['слово'].isna()]
Общие свойства
Т
Транспонирование строк и столбцов.
топоры
Возвращает список, членами которого являются только метки осей строк и столбцов.
типы данных
Возвращает тип данных каждого столбца данных.
пустой
Если в DataFrame нет данных или длина любой оси координат равна 0, будет возвращено значение True.
ндим
Количество осей также относится к размерности массива.
форма
Возвращает кортеж (a,b), где a представляет количество строк, а b — количество столбцов.
размер
Количество элементов в DataFrame
Разница между size и count: size при подсчете включает значения NaN, но count не включает значения NaN.
ценности
Используйте массивы numpy для представления значений элементов в DataFrame
Общие методы
описать (включить = 'все')
То же, что и сериал
Без параметров будут учитываться только числовые столбцы.
голова() и хвост()
То же, что и сериал
Информация()
Посмотреть информацию
сдвиг()
Перемещение строк или столбцов на указанную длину шага
вращаться()
Преобразуйте столбцы в фрейме данных так, чтобы определенный столбец стал новым индексом строки, и заполните ячейку, соответствующую этому индексу, значением другого столбца.
параметр
индекс: имя столбца, который станет индексом новой строки.
столбцы: имя столбца, который станет индексом нового столбца.
значения: имена столбцов, которые будут заполнять ячейки между индексом новой строки и индексом нового столбца.
sort_values(by='Имя столбца или значение индекса для сортировки', ось=0, по возрастанию=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
sort_index(ось=0, уровень=Нет, по возрастанию=Истина, на месте=Ложь, вид='быстрая сортировка', na_position='последний', sort_remaining=Истина, ignore_index=Ложь, ключ=Нет)
ось: значение оси по умолчанию равно 0, что означает, что сортировка по индексу строки установлена на 1, что означает сортировку по индексу столбца; уровень: по умолчанию — «Нет», в противном случае он располагается в заданном порядке уровней. по возрастанию: по умолчанию по возрастанию установлено значение True, что соответствует возрастающему порядку, а если установлено значение False, это порядок убывания. inplace: по умолчанию false, иначе отсортированные данные напрямую заменят исходный фрейм данных. вид: метод сортировки, {'быстрая сортировка', 'сортировка слиянием', 'кучная сортировка'}, 'быстрая сортировка' по умолчанию. Пользователи могут выбирать самостоятельно na_position: Отсутствующие значения по умолчанию ранжируются последними {"first", "last"}, параметр "first" помещает NaN в начало, а "last" помещает NaN в конец. ignore_index: логическое значение, по умолчанию — False, если оно равно True, то ось — это метка 0, 1, 2, которая добавляется заново; key: это вызываемая функция, которая выполняет ключевую функцию для значения индекса перед сортировкой. Это чем-то похоже на функцию key во встроенной функции sorted().
Траверс
Перебирать каждую строку
для индекса введите строку в df.iterrows():
Перебирать каждый столбец
для столбца значение в df.iteritems():
Очистка таблицы данных
Заполните пустые значения цифрой 0
df.fillna(значение=0)
Используйте среднее значение принца столбца, чтобы заполнить столбец NA.
df['принц'].fillna(df['принц'].mean())
Освободите места для символов в поле города.
df['city']=df['city'].map(str.strip)
Преобразование корпуса
df['city']=df['city'].str.lower()
Преобразование типов данных
df['цена'].astype(int)
Изменить индекс столбца/строки
Изменить все
Рукописный указатель
df.columns=['a','b','c']
df.index=['a','b','c']
Справочный индекс
df.set_columns("idx",inplace=False)
df.set_index("col",inplace=False)
Частичная модификация
df.rename(columns={'category': 'category-size'},inplace=False)
df.rename(index={'category': 'category-size'},inplace=False)
повторить
Поиск дубликатов: df.duulated() может возвращать логический массив, указывающий, является ли каждая строка дубликатом.
Повторяющиеся значения, которые появляются после удаления
df['city'].drop_duulates()
Удалите повторяющиеся значения, которые появляются первыми
df['city'].drop_duulates(keep='last')
Выберите первичный ключ
subset=['номер студента']
Удалить НЭН
df2=df.dropna(axis=0,how="all",inplace=False)
How="all" означает, что определенная строка (столбец) будет удалена, только если присутствуют все NaN. How="any" означает, что пока существует NaN, он будет удален (по умолчанию).
замена данных
df['город'].replace('ш', 'Шанхай')
Объединение таблицы данных
слить
pd=pd.merge(df,df1,how='inner') #match, слияние, пересечение, по умолчанию df_left=pd.merge(df,df1,how='left') df_right=pd.merge(df,df1,how='right') df_outer=pd.merge(df,df1,how='outer') #Union, эффект такой же, как и у первых двух комбинаций
добавить
Устарело, рекомендуется использовать concat
присоединиться
конкат
pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)
статистика
вар()
дисперсия
ков()
Ковариация
Краткое содержание
Образец 1
df = pd.DataFrame({ 'А': ['а', 'б', 'а', 'в', 'а', 'в', 'б', 'в'], 'Б': [2, 8, 1, 4, 3, 2, 5, 9], 'С': [102, 98, 107, 104, 115, 87, 92, 123]})
метод
Сгруппируйте по столбцу A и получите среднее значение других столбцов.
df.groupby('A').mean()
Удалить определенный столбец
print(df.groupby('key1')['data1'].mean())
Группировать по нескольким столбцам (groupby)
df.groupby(['A','B']).mean()
Образец 2
df = pd.DataFrame({' А': список('XYZXYZXYZX'), 'Б': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2], 'С': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})
метод
Выполнение различных статистических операций при использовании agg() в столбце.
df.groupby('A')['B'].agg({'mean':np.mean, 'стандартное отклонение': np.std})
лямбда-операция
Компенсация баллов меньшинства
df['ExtraScore'] = df['Национальность'].apply (лямбда x : 5, если x != '汉' еще 0)
сдать экзамен
df['pass_reading'] = df['оценка чтения'].apply (лямбда x: «Пройдено», если x >= 60, иначе «Не пройдено»)
Нарисуй картинку
топор = series1.plot(kind='bar')
рис = ax.get_figure() fig.subplots_adjust (дно = 0,4) fig.savefig('output.png')
pd.plot(kind='scatter',x="a",y="b",alpha=0.1)
альфа — это прозрачность
pd.hist(bins=50,figsize=(7,7))
Ввод и вывод данных
входить
читать CSV
df = pd.read_csv("mtcars.csv",coding="utf-8")
Написать в Excel
df = pd.read_excel("mtcars.csv")
выход
Написать в Excel
pd.to_excel('excel_to_python.xlsx',sheet_name='bluewhale_cc')
Написать в CSV
pd.to_csv('excel_to_python.csv')
Разница между Pandas и NumPy
дата и время
Подкласс 1).date может создавать данные дат и временных рядов, подкласс 2).time может создавать данные о часах и минутах, а подкласс 3).datetime может описывать данные о дате, часах и минутах.
импорт даты и времени cur = datetime.datetime(2018,12,30, 15,30,59) напечатать cur,type(cur) d = дата-время.дата(2018,12,30) печать t = datetime.datetime(2018,12,30).now() распечатать т
2018-12-30 15:30:59 <тип 'datetime.datetime'> 2018-12-30 2018-12-16 15:35:42.757826
4). Вы можете использовать модуль timedelta datetime, чтобы указать временной интервал (разницу).
импорт даты и времени cur0 = datetime.datetime(2018,12,30, 15,30,59) напечатать cur0 cur1 = cur0 datetime.timedelta(дни = 1) распечатать cur1 cur2 = cur0 datetime.timedelta(минуты = 10) распечатать cur2 cur3 = cur0 datetime.timedelta(минуты = 29, секунды = 1) распечатать cur3
2018-12-30 15:30:59 #cur0 2018-12-31 15:30:59 #cur1 2018-12-30 15:40:59 #cur2 2018-12-30 16:00:00 #cur3
Создайте данные временных рядов временных рядов с данными datetime. Это означает использование времени создания datetime в качестве индекса.
из даты и времени импорта даты и времени, timedelta импортировать numpy как np импортировать панд как pd б = дата-время (2018,12,16, 17,30,55) vi = np.random.randn(60) инд = [] для x в диапазоне (60): bi = b timedelta (минуты = x) ind.append(би) ts = pd.Series(vi, index = ind) напечатать тс[:5]
2018-12-16 17:30:55 -1,469098 2018-12-16 17:31:55 -0.583046 2018-12-16 17:32:55 -0,775167 2018-12-16 17:33:55 -0.740570 2018-12-16 17:34:55 -0.287118 тип d: float64
Пополнить
добрый
Хист класс
Сопоставляет значение с величиной, представленной целым числом
класс пмф
Сопоставляет значение с вероятностью, выраженной в виде числа с плавающей запятой.
Вышеописанный процесс называется нормализацией, то есть сумма вероятностей равна 1
класс CDF
Недостатки ПМФ
Применимость PMF: Когда данные, подлежащие обработке, относительно малы.
По мере увеличения данных вероятность каждого значения уменьшается, а влияние случайного шума увеличивается.
Решение
Группировка данных: определение размера интервала группировки требует навыков.
Когда интервал группировки достаточно велик для устранения шума, полезная информация может быть отброшена.
CDF
кумулятивная функция распределения
Он может полностью описать распределение вероятностей реальной случайной величины X, которая является интегралом функции плотности вероятности.
процентиль
В качестве примера возьмем результаты тестов: они представлены в двух формах. 1. Общий счет 2. Процентильный ранг: доля людей, чьи первоначальные баллы не выше ваших, среди общего числа участников теста умножается на 100. Например: если кто-то попадает в 90-й процентиль, это означает, что его балл лучше, чем у 90% людей, или, по крайней мере, не хуже, чем у 90% участников теста;
После расчета CDF процентиль и процентильный ранг можно рассчитать легче.
функция
Процентильранг(x)
Для заданного значения x вычислите его процентильный ранг.
100*ВДФ(х)
Процентиль (p): для данного процентильного ранга вычислите соответствующее значение x;
межквартильный размах
квартили
Межквартильный размах — показатель в статистике, описывающий распределение дискретных данных. Он представляет позиции 25-го, 50-го и 75-го процентиля в данных соответственно.
межквартильный размах
Верхний квартиль минус нижний квартиль составляет диапазон в четыре четверти.
эффект
Межквартильный размах представляет степень дисперсии данных. Чем больше диапазон, тем выше степень дисперсии данных.
коробочный сюжет
Зная минимальное значение, нижний квартиль, медиану, верхний квартиль и максимальное значение, мы можем нарисовать ящичковую диаграмму.
Выбросы
Кстати, мы можем ввести способ определения выбросов: если значение чрезвычайно мало, меньше нижнего квартиля минус 1,5 межквартильного диапазона, оно может считаться выбросом, соответственно, если значение чрезвычайно велико, оно считается выбросом; меньше нижнего квартиля минус 1,5 межквартильного размаха. Верхний квартиль плюс 1,5 межквартильного размаха еще больше и также может считаться выбросом.
CCDF(a) = P(X > a)= 1- CDF(a)
концепция
PDF: функция плотности вероятности. В математике функция плотности вероятности непрерывной случайной величины (можно назвать просто функцией плотности, если это не сбивает с толку) — это выходное значение, которое описывает случайную величину при определенной функции правдоподобия. рядом с точкой значения.
PMF: функция массы вероятности. В теории вероятностей функция массы вероятности — это вероятность того, что дискретная случайная величина примет определенное значение.
CDF: Кумулятивная функция распределения (кумулятивная функция распределения), также называемая функцией распределения, представляет собой интеграл функции плотности вероятности, который может полностью описать распределение вероятностей реальной случайной величины X.
Моделирование распределения
распределение индекса
нормальное распределение
Функция плотности вероятности
кумулятивная функция распределения
логнормальное распределение
Если набор значений после логарифмического преобразования подчиняется нормальному распределению, говорят, что он соответствует логнормальному распределению. То есть используйте log(x) для замены x в нормальном распределении.
Распределение Парето Парето
связь между переменными
Ковариация
Ковариацию можно использовать для измерения того, одинаковы ли тенденции изменения связанных переменных, а также для измерения общей ошибки двух переменных.
Поскольку значения и единицы измерения трудно интерпретировать, они, как правило, используются реже.
Дисперсию можно рассматривать как частный случай ковариации, когда две переменные идентичны.
Если тенденции изменения двух переменных последовательны, то есть если одна из них больше, чем ее собственное ожидаемое значение, а другая больше, чем ее собственное ожидаемое значение, то ковариация между двумя переменными положительна;
Если тенденции изменения двух переменных противоположны, то есть одна переменная больше ее собственного ожидаемого значения, а другая меньше ее собственного ожидаемого значения, то ковариация между двумя переменными отрицательна;
Ранг Пирсона Пирсон
Область применения
Распределение двух переменных данных нормальное, и между ними существует линейная зависимость.
Замените стандартную дробь исходным значением и вычислите произведение двух стандартных дробей.
называется коэффициентом корреляции Пирсона, где -1<=p<=1, p=1: указывает на то, что две переменные полностью положительно коррелируют; p=-1: указывает на то, что две переменные полностью отрицательно коррелируют;
Ранг копейщика Копейщик
Область применения
Есть выбросы, и распределение переменных очень асимметрично:
Сначала вычислите ранг значения в последовательности: то есть отсортированную позицию определенного значения в последовательности, а затем вычислите коэффициент корреляции Пирсона ранга.
Образец
Последовательность {7, 1, 2, 5} Отсортируйте последовательность от меньшего к большему, результат: {4, 1, 2, 3} Значит, ранг 5 равен 3.