Описание проекта¶

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.

Шаги для выбора локации:

В избранном регионе ищут месторождения, для каждого определяют значения признаков;
Строят модель и оценивают объём запасов;
Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
Прибыль равна суммарной прибыли отобранных месторождений.

Условия задачи:¶

Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
При разведке региона проводится исследование 500 точек.
Бюджет на разработку месторождений — 10 млрд рублей, стоимость бурения одной скважины — 50 млн рублей.
Один баррель сырья приносит 4500 рублей прибыли.
Не рассматривать регионы, в которых риск убытков выше 2.5%. Из оставшихся выбирается регион с наибольшей средней прибылью.

Проверочный лист проекта

I. Загрузка и подготовка данных

1) Объявляем класс Explorer и наполняем его методами ¶

class Explorer:
    
    def histogram(self, data, n_bins, range_start, range_end, grid, cumulative=False, x_label = "", y_label = "", title = ""):
        """
        data - датасет
        n_bins - количество корзин
        range_start - минимальный икс для корзины
        range_end - максимальный икс для корзины
        grid - рисовать сетку или нет (False / True)
        
        
        histogram(data, n_bins, range_start, range_end, grid, x_label = "", y_label = "", title = "")
        
        Пример:
        histogram(df, 100, 0, 150, True, 'Количество иксов', 'Количество игриков', 'Заголовок')
        """
        # Создаем объект - график
        _, ax = plt.subplots()

        # Задаем параметры
        ax.hist(data, bins = n_bins, range = (range_start, range_end), cumulative = cumulative, color = '#4169E1')

        # Добавляем сетку
        if grid == True:
            ax.grid(color='grey', linestyle='-', linewidth=0.5)
        else:
            pass

        # Добавляем медиану, среднее и квартили
        ax.axvline(data.median(),linestyle = '--', color = '#FF1493', label = 'median')
        ax.axvline(data.mean(),linestyle = '--', color = 'orange', label = 'mean')
        ax.axvline(data.quantile(0.1),linestyle = '--', color = 'yellow', label = '1%')
        ax.axvline(data.quantile(0.99),linestyle = '--', color = 'yellow', label = '99%')
        ax.legend()
        ax.set_ylabel(y_label)
        ax.set_xlabel(x_label)
        ax.set_title(title)
        
    def scatterplot(self, x_data, y_data, x_label="", y_label="", title="", color = "r", yscale_log=False, figsize = (8, 6)):

        # Создаем объект - график
        _, ax = plt.subplots(figsize = (8, 6))

        # Задаем параметры для графика, определяем размер (s), цвет и прозрачность точек на графике
        ax.scatter(x_data, y_data, s = 10, color = color, alpha = 0.75)

        if yscale_log == True:
            ax.set_yscale('log')

        # Создаем описание осей и заголовок для графика
        ax.set_title(title)
        ax.set_xlabel(x_label)
        ax.set_ylabel(y_label)
        
    def overlaid_histogram(self, data1, data2, n_bins = 0, data1_name="", data1_color="#539caf", data2_name="", data2_color="#7663b0", x_label="", y_label="", title=""):
        # Устанавливаем границы для корзин так чтобы оба распределения на графике были соотносимы
        max_nbins = 10
        data_range = [min(min(data1), min(data2)), max(max(data1), max(data2))]
        binwidth = (data_range[1] - data_range[0]) / max_nbins


        if n_bins == 0:
            bins = np.arange(data_range[0], data_range[1] + binwidth, binwidth)
        else: 
            bins = n_bins

        # Рисуем график
        _, ax = plt.subplots(figsize=(10,8))
        ax.hist(data1, bins = bins, color = data1_color, alpha = 0.65, label = data1_name)
        ax.hist(data2, bins = bins, color = data2_color, alpha = 0.65, label = data2_name)
        
        ax.axvline(data1.mean(),linestyle = '--', color = 'lime', label = 'mean for data 1')
                
        ax.axvline(data2.mean(),linestyle = '--', color = 'coral', label = 'mean for data 2')
                
        ax.set_ylabel(y_label)
        ax.set_xlabel(x_label)
        ax.set_title(title)
        ax.legend(loc = 'best')
        
    def corr_diagram(self, x):
        plt.figure(figsize=(12,10), dpi= 80)
        sns.heatmap(x.corr(), xticklabels=x.corr().columns, yticklabels=x.corr().columns, cmap='RdYlGn', center=0, annot=True)
        plt.title('Диаграмма корреляции', fontsize=22)
        plt.xticks(fontsize=12)
        plt.yticks(fontsize=12)
        plt.show()
        
        
    def highlight_max(self, data, color='#00FF00'):
        '''
        highlight the maximum in a Series or DataFrame
        '''
        attr = 'background-color: {}'.format(color)
        #remove % and cast to float
        data = data.replace('%','', regex=True).astype(float)
        data[data == 1] = None
        if data.ndim == 1:  # Series from .apply(axis=0) or axis=1
            is_max = (data == data.abs().max()) & (data !=1) 
            return [attr if v else '' for v in is_max]
        else:  # from .apply(axis=None)
            is_max = (data == data.abs().max()) & (data !=1) 
            return pd.DataFrame(np.where(is_max, attr, ''),
                                index=data.index, columns=data.columns)
    
    
    def highlight_sorted_corr(self, data, color='#00FF00'):
        '''
        highlight the maximum in a Series or DataFrame
        '''
        attr = 'background-color: {}'.format(color)
        #remove % and cast to float
        data = data.replace('%','', regex=True).astype(float)
        data[data == 1] = None
        if data.ndim == 1:  # Series from .apply(axis=0) or axis=1
            is_max = (data > 0.1) & (data !=1) 
            return [attr if v else '' for v in is_max]
        else:  # from .apply(axis=None)
            is_max = (data == data.abs().max()) & (data !=1) 
            return pd.DataFrame(np.where(is_max, attr, ''),
                                index=data.index, columns=data.columns)
        
        
    def lineplot(self, x_data, y_data, x_label="", y_label="", title=""):
        # Создаем объект - график
        _, ax = plt.subplots(figsize=(8, 6))

        # Задаем параметры для линии: ширину (lw), цвет и прозрачность (alpha)
        ax.plot(x_data, y_data, lw = 2, color = '#539caf', alpha = 1)

        # Даем имена осям и заголовок для графика
        ax.set_title(title)
        ax.set_xlabel(x_label)
        ax.set_ylabel(y_label)
        
        
    def double_lineplot(self, x_data_1, y_data_1, x_data_2, y_data_2, x_label="", y_label="", title="", label_one="", label_two=""):
        # Создаем объект - график
        _, ax = plt.subplots(figsize=(8, 6))

        # Задаем параметры для линии: ширину (lw), цвет и прозрачность (alpha)
        ax.plot(x_data_1, y_data_1, lw = 2, color = '#6400e4', alpha = 1, label = label_one)
        ax.plot(x_data_2, y_data_2, lw = 2, color = '#ffc740', alpha = 1, label = label_two)

        # Даем имена осям и заголовок для графика
        ax.set_title(title)
        ax.set_xlabel(x_label)
        ax.set_ylabel(y_label)
        ax.legend(loc = 'best')
    
        
    def hexbin(self, data, x, y):
        data.plot(x = x, y = y, kind='hexbin', gridsize=20, figsize=(15, 10), sharex=False, grid=True)
        
        
    def bar_plotter(self, data):
        data.plot.bar(rot=0, figsize = (16, 5))
        
        
    def categorical_counter_plot(self, data, column, x = '', y = ''):
        if x == '' or y == '':
            plt.rcParams["figure.figsize"] = (15, 10)
        else:
            plt.rcParams["figure.figsize"] = (x, y)
        
        order = data[column].value_counts().index
            
        ax = sns.countplot(data[column], order = order)
        ax.set_xticklabels(ax.get_xticklabels(), fontsize=11)
        
        plt.xticks(rotation=90)
        
       
    def sns_scatterplot(self, data, x="", y="", hue="", size="", palette=""):
        
        sns.set(style="whitegrid")

        f, ax = plt.subplots(figsize=(15, 10))
        
        if palette == True:
            sns.scatterplot(ax = ax, x=x, y=y, palette="ch:r=-.2,d=.3_r", 
                            hue=hue, size=size, sizes=(1, 200), linewidth=0, data=data)
        else:
            sns.scatterplot(ax = ax, x=x, y=y,
                            hue=hue, size=size, 
                            sizes=(1, 200), linewidth=0, data=data)
            
    def sns_catplot(self, data, x="", y="", hue=""):
        sns.set(style='whitegrid')
        
        sns.catplot(x=x, y=y, hue=hue, kind='bar', errwidth=0, 
            data=data, height=5, aspect=3)
        
    def sns_factorplot(self, data, x='', hue=''):
        sns.axes_style('white')
        g = sns.factorplot("exited", data=df, aspect=1, kind='count',
                       hue='hascrcard')
        
    def squared_ratio(self, df, grouper, title=''):
        df = df.groupby(grouper).size().reset_index(name='counts')
        labels = df.apply(lambda x: str(x[0]) + "\n (" + str(x[1]) + ")", axis=1)
        sizes = df['counts'].values.tolist()
        colors = [plt.cm.Spectral(i/float(len(labels))) for i in range(len(labels))]

        plt.figure(figsize=(10,6), dpi= 80)
        squarify.plot(sizes=sizes, label=labels, color=colors, alpha=.8)

        plt.title(title)
        plt.axis('off')
        plt.show()
        
        
    def sorted_corr(self, data, attr):
        correlated = pd.DataFrame(data.corr()[attr].sort_values(ascending = False))
        return correlated    
    
    
    def transformer(self, data, name, grouper, func):
        """
        data - датасет
        name - столбец в котором меняем значения
        grouper - столбец по которому группируем
        func - пременяемая функция mean, median и т.д.
        """
        name = name
        data.loc[data[name].isnull(), name] = data.groupby(grouper)[name].transform(func)
        
    def pr_curve(self, model, features_valid, target_valid):
        probabilities_valid = model.predict_proba(features_valid)
        precision, recall, thresholds = precision_recall_curve(target_valid, probabilities_valid[:, 1])

        plt.figure(figsize=(6, 6))
        plt.step(recall, precision, where='post')
        plt.xlabel('Recall')
        plt.ylabel('Precision')
        plt.ylim([0.0, 1.05])
        plt.xlim([0.0, 1.0])
        plt.title('Кривая Precision-Recall')
        plt.show()
        
    def roc_curve(self, model, features_valid, target_valid):
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        
        fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
        
        plt.figure()
        plt.plot(fpr, tpr)
        
        plt.plot([0, 1], [0, 1], linestyle='--')
        plt.xlim(0,1)
        plt.ylim(0,1)
        
        plt.xlabel('False Positive Rate')
        plt.ylabel('True Positive Rate')
        
        plt.title('ROC-кривая')
        
        plt.show()
        
    
    def metrics_plot(self, model, features_valid, target_valid):
        probabilities_valid = model.predict_proba(features_valid)
        precision, recall, thresholds = precision_recall_curve(target_valid, probabilities_valid[:, 1])
        fpr, tpr, thresholds = roc_curve(target_valid, probabilities_valid[:, 1])
            
        fig, ax = plt.subplots(1, 2, figsize=(15, 6))
        fig.subplots_adjust(hspace=0.4, wspace=0.4)
        
        #fig, ax = plt.subplots(ncols=3)
        #fig.subplots_adjust(hspace=0.4, wspace=0.4)

        sns.lineplot(recall, precision, drawstyle='steps-post', ax=ax[0])
        ax[0].set_xlabel('Recall')
        ax[0].set_ylabel('Precision')
        ax[0].set_ylim([0.0, 1.05])
        ax[0].set_xlim([0.0, 1.0])
        ax[0].set_title('Кривая Precision-Recall')
        
        sns.lineplot(fpr, tpr, ax=ax[1])
        ax[1].plot([0, 1], [0, 1], linestyle='--')
        ax[1].set_xlim(0,1)
        ax[1].set_ylim(0,1)
        ax[1].set_xlabel('False Positive Rate')
        ax[1].set_ylabel('True Positive Rate')
        ax[1].set_title('ROC-кривая')
        
 
    def auc_roc(self, model, features_valid, target_valid):
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
        
        return auc_roc
            
    def upsample(self, features, target, repeat):
        features_zeros = features[target == 0]
        features_ones = features[target == 1]
        target_zeros = target[target == 0]
        target_ones = target[target == 1]

        features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
        target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)

        features_upsampled, target_upsampled = shuffle(features_upsampled, target_upsampled, random_state=42)
        
        return features_upsampled, target_upsampled
        
        
    def downsample(self, features, target, fraction):
        features_zeros = features[target == 0]
        features_ones = features[target == 1]
        target_zeros = target[target == 0]
        target_ones = target[target == 1]
        
        features_downsampled = pd.concat([features_zeros.sample(frac=fraction, random_state=42)] + [features_ones])
        target_downsampled = pd.concat([target_zeros.sample(frac=fraction, random_state=42)] + [target_ones])
        
        features_downsampled, target_downsampled = shuffle(features_downsampled, target_downsampled, random_state=42)
        
        return features_downsampled, target_downsampled
    
    
    def firstsight(self, data):
        head = data.head(5)
        tail = data.tail(5)
        sample = data.tail(5)
        return head, tail, sample
    
    
    def smape(self, y_test, y_predict): 
        y_test, y_predict = np.array(y_test), np.array(y_predict)
        return np.mean((np.abs((y_predict - y_test)) / np.mean(np.abs(y_test) + np.abs(y_predict + 0.1**99))) * 100)
    
    
    def mape(self, y_test, y_predict): 
        y_test, y_predict = np.array(y_test), np.array(y_predict)
        return np.median((np.abs((y_test - y_predict)) / (y_test + 0.1**99)) * 100)
    
    
    def df_split(self, data, features_drop, target, test_size, random_state):
        feature = data.drop(features_drop, axis=1)
        target = data[target]
        x_train, x_test, y_train, y_test  = train_test_split(feature, target, test_size=test_size, random_state = random_state)
        return x_train, x_test, y_train, y_test
    
    
    def grid_search(self, model, param_grid, cv, x, y):
        grid_model = GridSearchCV(model, param_grid=param_grid, cv=cv, verbose=1, n_jobs=-1)
        grid_model.fit(x, y)
        best_estimator = grid_model.best_estimator_
        return best_estimator
              
            
    class Display(object):
        """Выводит HTML представление нескольких объектов"""
        template = """<div style="float: left; padding: 10px;">
        <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
        </div>"""
        def __init__(self, *args):
            self.args = args

        def _repr_html_(self):
            return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                             for a in self.args)

        def __repr__(self):
            return '\n\n'.join(a + '\n' + repr(eval(a))
                               for a in self.args)

explorer = Explorer()

	id	f0	f1	f2	product
0	txEyH	0.705745	-0.497823	1.221170	105.280062
1	2acmU	1.334711	-0.340164	4.365080	73.037750
2	409Wp	1.022732	0.151990	1.419926	85.265647
3	iJLyR	-0.032172	0.139033	2.978566	168.620776
4	Xdl7t	1.988431	0.155413	4.751769	154.036647

	id	f0	f1	f2	product
99995	DLsed	0.971957	0.370953	6.075346	110.744026
99996	QKivN	1.392429	-0.382606	1.273912	122.346843
99997	3rnvd	1.029585	0.018787	-1.348308	64.375443
99998	7kl59	0.998163	-0.528582	1.583869	74.040764
99999	1CWhH	1.764754	-0.266417	5.722849	149.633246

	id	f0	f1	f2	product
0	kBEdx	-15.001348	-8.276000	-0.005876	3.179103
1	62mP7	14.272088	-3.475083	0.999183	26.953261
2	vyE1P	6.263187	-5.948386	5.001160	134.766305
3	KcrkZ	-13.081196	-11.506057	4.999415	137.945408
4	AHL4O	12.702195	-8.147433	5.004363	134.766305

	id	f0	f1	f2	product
99995	QywKC	9.535637	-6.878139	1.998296	53.906522
99996	ptvty	-10.160631	-12.558096	5.005581	137.945408
99997	09gWa	-7.378891	-3.084104	4.998651	137.945408
99998	rqwUm	0.665714	-6.152593	1.000146	30.132364
99999	relB0	-3.426139	-7.794274	-0.003299	3.179103

	id	f0	f1	f2	product
0	fwXo0	-1.146987	0.963328	-0.828965	27.758673
1	WJtFt	0.262778	0.269839	-2.530187	56.069697
2	ovLUW	0.194587	0.289035	-5.586433	62.871910
3	q6cA6	2.236060	-0.553760	0.930038	114.572842
4	WPMUX	-0.515993	1.716266	5.899011	149.600746

	id	f0	f1	f2	product
99995	4GxBu	-1.777037	1.125220	6.263374	172.327046
99996	YKFjq	-1.261523	-0.894828	2.524545	138.748846
99997	tKPY3	-1.199934	-2.957637	5.219411	157.080080
99998	nmxp2	-2.419896	2.417221	-5.548444	51.795253
99999	V9kWn	-2.551421	-2.025625	6.090891	102.775767

	count	mean	std	min	25%	50%	75%	max
f0	100000.0	0.500419	0.871832	-1.408605	-0.072580	0.502360	1.073581	2.362331
f1	100000.0	0.250143	0.504433	-0.848218	-0.200881	0.250252	0.700646	1.343769
f2	100000.0	2.502647	3.248248	-12.088328	0.287748	2.515969	4.715088	16.003790
product	100000.0	92.500000	44.288691	0.000000	56.497507	91.849972	128.564089	185.364347

	count	mean	std	min	25%	50%	75%	max
f0	100000.0	1.141296	8.965932	-31.609576	-6.298551	1.153055	8.621015	29.421755
f1	100000.0	-4.796579	5.119872	-26.358598	-8.267985	-4.813172	-1.332816	18.734063
f2	100000.0	2.494541	1.703572	-0.018144	1.000021	2.011479	3.999904	5.019721
product	100000.0	68.825000	45.944423	0.000000	26.953261	57.085625	107.813044	137.945408

	count	mean	std	min	25%	50%	75%	max
f0	100000.0	0.002023	1.732045	-8.760004	-1.162288	0.009424	1.158535	7.238262
f1	100000.0	-0.002081	1.730417	-7.084020	-1.174820	-0.009482	1.163678	7.844801
f2	100000.0	2.495128	3.473445	-11.970335	0.130359	2.484236	4.858794	16.739402
product	100000.0	95.000000	44.749921	0.000000	59.450441	94.925613	130.595027	190.029838

	product	predicted	region
75721	122.073350	101.901017	1
80184	48.738540	78.217774	1
19864	131.338088	115.266901	1
76699	88.327757	105.618618	1
92991	36.959266	97.980185	1

	product	predicted	region
75721	117.441301	98.301916	3
80184	47.841249	101.592461	3
19864	45.883483	52.449099	3
76699	139.014608	109.922127	3
92991	84.004276	72.411847	3

	model	r2	rmse	mape	predicted_mean_product
0	lr_geo_one	0.272829	37.7566	28.4756	92.3988
1	lr_geo_two	0.999625	0.89028	1.00502	68.7129
2	lr_geo_three	0.196347	40.1459	28.8602	94.771

	predicted	product
region
1	92.398800	92.325956
2	68.712878	68.725381
3	94.771024	95.150999

	region	mean_revenue	2.5%-quantile	95%_conf_int
0	region_1	103.315	101.054	(103.24250737229207, 103.38715880811924)
1	region_2	104.499	100.639	(104.37080944084336, 104.62631630475589)
2	region_3	102.687	100.767	(102.6250747756695, 102.74869359095345)

	product	predicted	region
75721	0.000000	0.844738	2
80184	53.906522	52.921612	2
19864	134.766305	135.110385	2
76699	107.813044	109.494863	2
92991	0.000000	-0.047292	2

Описание проекта¶

Условия задачи:¶

Оглавление¶

I. Загрузка и подготовка данных

4) Выведем первые пять строк каждой из таблиц, общую информацию¶

- регион 1¶

- регион 2¶

- регион 3¶

5) Выведем общую статистку по датасетам, проверим наличие дубликатов и уникальные значения¶

- регион 1¶

- регион 2¶

- регион 3¶

- проверим наличие полных дубликатов¶

- проверим уникальные значения¶

Вывод¶

II. Обучение и проверка модели

1. Инициализируем модель линейной регрессии и создадим словарь для поиска наилучших параметров

2. Регион 1

- проверим форму полученных выборок¶

2) Обучим модель и сделаем предсказания на валидационной выборке¶

- сохраним предсказания в переменной¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке¶

- сохраним предсказания модели по каждому месторождению и пометим регион, для которого сделали предсказание¶

- выведем для проверки первые пять строк¶

- выведем график с сотами, чтобы посмотреть пересечения между предсказаниями и правильными ответами¶

4) Выведем на экране средний запас сырья, RMSE модели и другие метрики¶

- средний запас сырья в регионе, предсказанный моделью¶

- mean squared error (MSE)¶

- root-mean-square error (RMSE)¶

- mean absolute percentage error (MAPE)¶

5) Дополним отчет¶

⚡ Вывод:¶

3. Регион 2

- проверим форму полученных выборок¶

2) Обучим модель и сделаем предсказания на валидационной выборке¶

- сохраним предсказания в переменной¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке¶

- сохраним предсказания модели по каждому месторождению и пометим регион, для которого сделали предсказание¶

- выведем график с сотами, чтобы посмотреть пересечения между предсказаниями и правильными ответами¶

4) Выведем на экране средний запас сырья и RMSE модели¶

5) Дополним отчет¶

⚡ Вывод:¶

4. Регион 3

- проверим форму полученных выборок¶

2) Обучим модель и сделаем предсказания на валидационной выборке¶

- сохраним предсказания в переменной¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке¶

- сохраним предсказания модели по каждому месторождению и пометим регион, для которого сделали предсказание¶

- выведем график с сотами, чтобы посмотреть пересечения между предсказаниями и правильными ответами¶

4) Выведем на экране средний запас сырья и RMSE модели¶

5) Дополним отчет¶

⚡ Вывод:¶

5. Результаты моделей для каждого из регионов¶

6. Сравнение правильного среднего и среднего, предсказанного моделью¶

- построим гистограммы с одинаковыми границами бинов для каждого из регионов¶

1) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 1¶

- сформулируем нулевую гипотезу¶

- примем уровень значимости в 5%.¶

- проведем тест и получим p-значение¶

- cравним p-значение с уровнем значимости¶

2) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 2¶

- сформулируем нулевую гипотезу¶

- примем уровень значимости в 5%.¶

- проведем тест и получим p-значение¶

- cравним p-значение с уровнем значимости¶

3) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 3¶

- сформулируем нулевую гипотезу¶

- примем уровень значимости в 5%.¶

- проведем тест и получим p-значение¶

- cравним p-значение с уровнем значимости¶

Вывод

III. Подготовка к расчёту прибыли

- общий бюджет на разработку месторождений - 10 млрд. рублей¶

- стоимость бурения одной скважины — 50 млн рублей¶

- прибыль от продажи барреля сырья - 4500 рублей¶

2) Подсчитаем минимальный средний объём сырья в месторождениях региона, достаточный для его разработки¶

- подсчитаем предельное число скважин, исходя из общего бюджета¶

- минимальный средний объём сырья на скважину, для этого разделим стоимость разоаботки на стоимость одного барреля¶

3) Подготовим функцию для расчёта прибыли по набору отобранных месторождений и предсказаний модели¶

Вывод

Оглавление ¶

4) Выведем первые пять строк каждой из таблиц, общую информацию ¶

5) Выведем общую статистку по датасетам, проверим наличие дубликатов и уникальные значения ¶

Вывод ¶

2) Обучим модель и сделаем предсказания на валидационной выборке ¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке ¶

4) Выведем на экране средний запас сырья, RMSE модели и другие метрики ¶

5) Дополним отчет ¶

2) Обучим модель и сделаем предсказания на валидационной выборке ¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке ¶

4) Выведем на экране средний запас сырья и RMSE модели ¶

5) Дополним отчет ¶

2) Обучим модель и сделаем предсказания на валидационной выборке ¶

3) Cохраним предсказания модели и правильные ответы на валидационной выборке ¶

4) Выведем на экране средний запас сырья и RMSE модели ¶

5) Дополним отчет ¶

5. Результаты моделей для каждого из регионов ¶

6. Сравнение правильного среднего и среднего, предсказанного моделью ¶

1) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 1 ¶

2) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 2 ¶

3) Проверим гипотезу об однородности распределений по критерию Смирнова в отношении региона 3 ¶

2) Подсчитаем минимальный средний объём сырья в месторождениях региона, достаточный для его разработки ¶

3) Подготовим функцию для расчёта прибыли по набору отобранных месторождений и предсказаний модели ¶