Phase C: Fix data leakage using sklearn pipelines

mtandrita · mtandrita · commit 15e339885446 · 2026-01-01T11:43:26.000+05:30
diff --git a/Diabetes Prediction [END 2 END]/diabetes_pipeline/data_preprocessing.py b/Diabetes Prediction [END 2 END]/diabetes_pipeline/data_preprocessing.py
@@ -4,44 +4,26 @@
 import numpy as np
 from pathlib import Path
 from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import StandardScaler
 
-BASE_DIR = Path(__file__).resolve().parent
-
-def load_and_preprocess(
-    csv_path=BASE_DIR / "dataset" / "kaggle_diabetes.csv",
-    test_size=0.2,
-    random_state=0
-):
-    # Load dataset
+def load_and_preprocess(test_size=0.2, random_state=0):
+    BASE_DIR = Path(__file__).resolve().parent
+    csv_path = BASE_DIR / "dataset" / "kaggle_diabetes.csv"
     df = pd.read_csv(csv_path)
 
-    # Rename column (IMPORTANT: this defines feature names forever)
     df = df.rename(columns={'DiabetesPedigreeFunction': 'DPF'})
 
-    # Replace invalid zeros
     cols_with_zero = ['Glucose','BloodPressure','SkinThickness','Insulin','BMI']
     df[cols_with_zero] = df[cols_with_zero].replace(0, np.nan)
 
-    # Fill NaNs
     df['Glucose'] = df['Glucose'].fillna(df['Glucose'].mean())
     df['BloodPressure'] = df['BloodPressure'].fillna(df['BloodPressure'].mean())
     df['SkinThickness'] = df['SkinThickness'].fillna(df['SkinThickness'].median())
     df['Insulin'] = df['Insulin'].fillna(df['Insulin'].median())
     df['BMI'] = df['BMI'].fillna(df['BMI'].median())
 
-    # Features & target
     X = df.drop(columns='Outcome')
     y = df['Outcome']
 
-    # Split
-    X_train, X_test, y_train, y_test = train_test_split(
+    return train_test_split(
         X, y, test_size=test_size, random_state=random_state
     )
-
-    # Scaling
-    scaler = StandardScaler()
-    X_train_scaled = scaler.fit_transform(X_train)
-    X_test_scaled = scaler.transform(X_test)
-
-    return X_train_scaled, X_test_scaled, y_train, y_test, scaler
diff --git a/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/__init__.py b/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/__init__.py
diff --git a/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/experiment_runner.py b/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/experiment_runner.py
@@ -0,0 +1,43 @@
+# diabetes_pipeline/experiments/experiment_runner.py
+
+import pandas as pd
+from sklearn.pipeline import Pipeline
+from sklearn.preprocessing import StandardScaler
+from sklearn.linear_model import LogisticRegression
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.svm import SVC
+from sklearn.metrics import accuracy_score, f1_score
+
+from diabetes_pipeline.data_preprocessing import load_and_preprocess
+
+X_train, X_test, y_train, y_test = load_and_preprocess()
+
+models = {
+	"LogisticRegression": LogisticRegression(max_iter=1000),
+	"DecisionTree": DecisionTreeClassifier(random_state=0),
+	"RandomForest": RandomForestClassifier(n_estimators=50, random_state=0),
+	"SVM": SVC()
+}
+
+results = []
+
+for name, model in models.items():
+	pipeline = Pipeline([
+		("scaler", StandardScaler()),
+		("model", model)
+	])
+
+	pipeline.fit(X_train, y_train)
+	preds = pipeline.predict(X_test)
+
+	results.append({
+		"Model": name,
+		"Accuracy": accuracy_score(y_test, preds),
+		"F1 Score": f1_score(y_test, preds)
+	})
+
+df = pd.DataFrame(results)
+print(df)
+
+df.to_csv("diabetes_pipeline/experiments/results.csv", index=False)
diff --git a/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/results.csv b/Diabetes Prediction [END 2 END]/diabetes_pipeline/experiments/results.csv
@@ -0,0 +1,5 @@
+Model,Accuracy,F1 Score
+LogisticRegression,0.7875,0.6320346320346321
+DecisionTree,0.9875,0.980544747081712
+RandomForest,0.995,0.9921259842519685
+SVM,0.845,0.7327586206896551