### Global Imports
### BEGIN HIDDEN TESTS
%load_ext autoreload
%autoreload 2

if False: # set to True to set up
    REGENERATE_OUTPUTS = False

    import dill
    import hashlib
    def hash_check(f1, f2, verbose=True):
        with open(f1, 'rb') as f:
            h1 = hashlib.md5(f.read()).hexdigest()
        with open(f2, 'rb') as f:
            h2 = hashlib.md5(f.read()).hexdigest()
        if verbose:
            print(h1)
            print(h2)
        assert h1 == h2, f'The file "{f1}" has been modified'
    with open('resource/asnlib/public/hash_check.pkl', 'wb') as f:
        dill.dump(hash_check, f)
    del hash_check
    with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
        hash_check = dill.load(f)
    for fname in ['testers.py', '__init__.py', 'test_utils.py']:
        hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
    for fname in ['__init__.py', 'utils.py']:
        hash_check(f'cse6040/{fname}', f'resource/asnlib/public/cse6040/{fname}')
    del hash_check
### END HIDDEN TESTS

# Modules you may find useful:
import pandas as pd
import numpy as np

# Some extra functions that this notebook needs:
import cse6040.utils
from pprint import pprint # Pretty-printer

# Load the dataset:
print("\n==> Loading the dataset...")
from cse6040.examdata import load_dataset
grades_by_exid, times_by_exid = load_dataset()
print("\n==> Done executing the setup and ready for take-off!")


list(grades_by_exid.keys())


grades_by_exid['exam1']


### test_cell_ex0 ###
print('This exercise is free. To get the points, please run this cell _and_ submit.')

def remove_invalid_grades(gdf):
    ...


### Define demo inputs ###
demo_gdf_ex1 = grades_by_exid['exam1'].loc[[0, 1, 2, 683, 3, 957, 4, 1546]].reset_index(drop=True)
demo_gdf_ex1


### Exercise 1 solution
def remove_invalid_grades(gdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    from numpy import nan
    gdf = gdf.replace(to_replace='--------', value=nan)
    problem_cols = gdf.filter(regex=r'problem\d+').columns
    gdf = gdf.dropna(how='all', subset=problem_cols)
    gdf[problem_cols] = gdf[problem_cols].astype(float)
    gdf = gdf.reset_index(drop=True)
    return gdf
    ### END SOLUTION

### demo function call ###
demo_result_ex1 = remove_invalid_grades(demo_gdf_ex1)
display(demo_result_ex1)
demo_result_ex1.info()


### test_cell_ex1
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_1', 
    'func': remove_invalid_grades, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'gdf':{
            'dtype': 'df', # data type of param.
            'check_modified': True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


valid_grades_by_exid = cse6040.utils.load_obj_from_file('valid_grades.dill')

# Example:
display(valid_grades_by_exid['exam1'].iloc[:4])
valid_grades_by_exid['exam1'].info()

def calc_earned_points(valid_gdf):
    ...


### Define demo inputs ###
demo_valid_gdf_ex2 = valid_grades_by_exid['exam1'].sample(6, random_state=3_456_789_012).reset_index(drop=True)
demo_valid_gdf_ex2


### Exercise 2 solution ###
def calc_earned_points(valid_gdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    gdf = valid_gdf.copy()
    gdf['Earned'] = gdf.filter(regex=r'problem\d+').sum(axis='columns')
    return gdf.reset_index(drop=True)
    ### END SOLUTION

### demo function call ###
calc_earned_points(demo_valid_gdf_ex2)


### test_cell_ex2 ###
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_2', 
    'func': calc_earned_points, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'valid_gdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


earned_by_exid = cse6040.utils.load_obj_from_file('earned_grades.dill')

# Example:
display(earned_by_exid['exam1'].iloc[:4])
earned_by_exid['exam1'].info()


demo_times3_ex3 = times_by_exid['exam3']
demo_times3_ex3


(demo_times3_ex3['submit date-time'] > demo_times3_ex3['start date-time']).head()


(demo_times3_ex3['submit date-time'] - demo_times3_ex3['start date-time']).head()


(demo_times3_ex3['submit date-time'].iloc[0] - demo_times3_ex3['start date-time'].iloc[0]).total_seconds()


demo_times3_ex3_messy = demo_times3_ex3.loc[[206, 1111, 1780, 2511, 3375]]
demo_times3_ex3_messy


demo_times3_ex3_messy['submit date-time'] > demo_times3_ex3_messy['start date-time']


### test_cell_ex3 ###
print('This exercise is free. To get the points, please run this cell _and_ submit.')

def remove_causality_violators(tdf):
    ...


### Define demo inputs ###
demo_tdf_ex4 = times_by_exid['exam3'].loc[[206, 279, 439, 1111, 1344, 1780, 2511, 3224, 3375]].reset_index(drop=True)
demo_tdf_ex4


### Exercise 4 solution ###
def remove_causality_violators(tdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    tdf = tdf.copy()
    violation = tdf['submit date-time'] < tdf['start date-time']
    violators = set(tdf[violation]['email'].unique())
    tdf = tdf[~tdf['email'].isin(violators)]
    tdf = tdf.reset_index(drop=True)
    return tdf
    
# Example of an incorrect solution
def remove_causality_violators__ERROR(tdf):
    df = tdf.copy()
    return df[df["submit date-time"] > df["start date-time"]]
    ### END SOLUTION

### demo function call ###
remove_causality_violators(demo_tdf_ex4)


### test_cell_ex4
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_4', 
    'func': remove_causality_violators, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'tdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


valid_times_by_exid = cse6040.utils.load_obj_from_file('valid_times.dill')

# Example:
assert (valid_times_by_exid['exam3']['submit date-time'] >= valid_times_by_exid['exam3']['start date-time']).all()
display(valid_times_by_exid['exam1'].iloc[:4])
valid_times_by_exid['exam1'].info()

def clean_times_colnames(tdf):
    ...


### define demo inputs ###
demo_tdf_ex5 = valid_times_by_exid['exam2'].sample(5, random_state=567_890_123, replace=False).reset_index(drop=True)
demo_tdf_ex5


### Exercise 5 solution
def clean_times_colnames(tdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    return tdf.rename(columns={'email': 'Email',
                               'milestone': 'Milestone',
                               'start date-time': 'Start',
                               'submit date-time': 'Submit',
                               'dt': 'Dt'})
    ### END SOLUTION

### demo function call ###
clean_times_colnames(demo_tdf_ex5)


### test_cell_ex5
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_5', 
    'func': clean_times_colnames, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'tdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


clean_times_by_exid = cse6040.utils.load_obj_from_file('clean_times.dill')

# Example:
display(clean_times_by_exid['exam1'].head())
clean_times_by_exid['exam1'].info()


demo_ex6_tdf = clean_times_by_exid['exam3'].loc[[34, 593, 1624, 2189, 2344, 3122]]
demo_ex6_tdf


demo_ex6_tdf['Submit'].iloc[0] - demo_ex6_tdf['Start'].iloc[0]


### test_cell_ex6 ###
print('This exercise is free. To get the points, please run this cell _and_ submit.')

def sequence_submissions(tdf):
    ...


### Define demo inputs ###
demo_tdf_ex7 = cse6040.utils.load_df_from_file('demo_tdf_ex7.df')
demo_tdf_ex7


### Exercise 7 solution
def sequence_submissions(tdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    tdf = tdf.sort_values(['Email', 'Submit']).reset_index(drop=True)
    tf = tdf.groupby('Email').apply(calc_hours_one).reset_index(drop=True)
    tdf['Hours'] = tf 
    return tdf
    
def calc_hours_one(tdf): # `tdf` for **one** student; assume sorted by `'Submit'`
    def to_hours(e, d=3):
        return round(e.total_seconds() / 3600, 3)
    
    dt = (tdf['Submit'] - tdf['Start']).apply(to_hours)
    t0 = dt.iloc[0]
    tf = dt.diff().fillna(t0)
    return tf

def sequence_submissions__waldron(tdf):
    def calc_hours(group):
        group = group.sort_values('Submit').reset_index(drop=True)
        seq = pd.Series([group['Start'].iloc[0], *group['Submit']])
        group['Hours'] = seq.diff().dropna()\
            .apply(lambda td: td.total_seconds()/3600)\
            .round(3)\
            .reset_index(drop=True)
        return group
    return tdf.groupby('Email', as_index=False).apply(calc_hours).reset_index(drop=True)
    ### END SOLUTION
    
### demo function call ###
sequence_submissions(demo_tdf_ex7)


### test_cell_ex7
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_7', 
    'func': sequence_submissions, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'tdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': True, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 2*10 ** (-3)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


hours_by_exid = cse6040.utils.load_obj_from_file('hours.dill')

# Example:
display(hours_by_exid['exam1'].head())
hours_by_exid['exam1'].info()

def merge_gt(pointsdf, hoursdf):
    ...


### Define demo inputs ###
demo_pointsdf_ex8 = cse6040.utils.load_obj_from_file('demo_xdf_ex8.dill')['pointsdf']
demo_hoursdf_ex8 = cse6040.utils.load_obj_from_file('demo_xdf_ex8.dill')['hoursdf']

print("* `demo_pointsdf_ex8`:")
display(demo_pointsdf_ex8)

print("* `demo_hoursdf_ex8`:")
display(demo_hoursdf_ex8)


### Exercise 8 solution
def merge_gt(pointsdf, hoursdf):
    pass # Can be removed
    ### BEGIN SOLUTION
    df = pointsdf.melt(id_vars=['Email', 'Earned'], var_name='Milestone', value_name='Points')
    df = df.merge(hoursdf, on=['Email', 'Milestone'], how='inner')
    df = df.sort_values(['Email', 'Submit']).reset_index(drop=True)
    return df
    ### END SOLUTION
    
### demo function call ###
merge_gt(demo_pointsdf_ex8, demo_hoursdf_ex8)


### test_cell_ex8
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_8', 
    'func': merge_gt, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'pointsdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        },
        'hoursdf':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': True, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


merged_by_exid = cse6040.utils.load_obj_from_file('merged.dill')

# Example:
display(merged_by_exid['exam1'].head())
merged_by_exid['exam1'].info()

def concat_exams(df_by_exid):
    ...


### Define demo inputs ###
demo_df_by_exid_ex9 = cse6040.utils.load_obj_from_file('demo_df_by_exid_ex9.dill')

for exid, df in demo_df_by_exid_ex9.items():
    print(f"\n*** exid = '{exid}' ***")
    display(demo_df_by_exid_ex9[exid])


### Exercise 9 solution
def concat_exams(df_by_exid):
    pass # Can be removed
    ### BEGIN SOLUTION
    from pandas import concat
    dfs = []
    for exid, df in df_by_exid.items():
        dfs.append(df.copy())
        dfs[-1]['Exam'] = exid
    return concat(dfs, ignore_index=True)
    ### END SOLUTION
    
### demo function call ###
concat_exams(demo_df_by_exid_ex9)


### test_cell_ex9
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_9', 
    'func': concat_exams, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'df_by_exid':{
            'dtype':'dict', # data type of param.
            'check_modified':False, # @TODO: FIXME
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


concatdf = cse6040.utils.load_obj_from_file('concat.dill')
concatdf

def summarize_exams(df):
    ...


### Define demo inputs ###

demo_df_ex10 = cse6040.utils.load_obj_from_file('demo_df_ex10.dill')
demo_df_ex10


### Exercise 10 solution
def summarize_exams(df):
    pass # Can be removed
    ### BEGIN SOLUTION
    df = sum_by_student_exam(df)
    df = avg_by_student(df)
    return df

def sum_by_student_exam(df):
    return df.groupby(['Exam', 'Email'])[['Points', 'Hours']].sum().reset_index()

def avg_by_student(df_stats_by_student_exam):
    df = df_stats_by_student_exam
    df = df.groupby('Exam')[['Points', 'Hours']].mean().reset_index()
    return df
    ### END SOLUTION
    
### demo function call ###
summarize_exams(demo_df_ex10)


### test_cell_ex10
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_10', 
    'func': summarize_exams, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'df':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


exam_summary = cse6040.utils.load_obj_from_file('exam_summary.dill')
exam_summary

def form_data_table(df):
    ...


### Define demo inputs ###
demo_df_ex11 = cse6040.utils.load_obj_from_file('demo_df_ex10.dill')
demo_df_ex11


### Exercise 11 solution
def form_data_table(df):
    pass # Can be removed
    ### BEGIN SOLUTION
    def clean_colname(t):
        assert isinstance(t, tuple)
        return t[0] + t[1].replace('exam', '')

    df = df.pivot_table(index='Email', values=['Points', 'Hours'], columns='Exam', aggfunc='sum')
    df = df.reset_index()
    df.columns = [clean_colname(c) for c in df.columns.to_flat_index()]
    return df.dropna()
    ### END SOLUTION
    
### demo function call ###
form_data_table(demo_df_ex11)


### test_cell_ex11
### BEGIN HIDDEN TESTS
import dill
import hashlib
with open('resource/asnlib/public/hash_check.pkl', 'rb') as f:
    hash_check = dill.load(f)
for fname in ['testers.py', '__init__.py', 'test_utils.py']:
    hash_check(f'tester_fw/{fname}', f'resource/asnlib/public/{fname}')
del hash_check
del dill
del hashlib
### END HIDDEN TESTS
from tester_fw.testers import Tester

conf = {
    'case_file':'tc_11', 
    'func': form_data_table, # replace this with the function defined above
    'inputs':{ # input config dict. keys are parameter names
        'df':{
            'dtype':'df', # data type of param.
            'check_modified':True,
        }
    },
    'outputs':{
        'output_0':{
            'index':0,
            'dtype':'df',
            'check_dtype': True,
            'check_col_dtypes': True, # Ignored if dtype is not df
            'check_col_order': False, # Ignored if dtype is not df
            'check_row_order': False, # Ignored if dtype is not df
            'check_column_type': True, # Ignored if dtype is not df
            'float_tolerance': 10 ** (-6)
        }
    }
}
tester = Tester(conf, key=b'It2jBzT52UbvyXCvc19bZBXTaLtU-OurcEtWwuHet8M=', path='resource/asnlib/publicdata/')
for _ in range(70):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(conf, key=b'dRaQLzH9Dx27yR5MBt5Iy3HBuRaSpg1bXvN8NFqZ8j4=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(20):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS
print('Passed! Please submit.')


data_table = cse6040.utils.load_obj_from_file('data_table.dill')
data_table


# Predictors:
data_cols = data_table[['Points1', 'Hours1', 'Points2', 'Hours2']]
X = data_cols.values
X /= X.max(axis=0) # Normalize columns

# Response:
resp_col = 'Points3'
y = data_table[resp_col].values
y /= y.max()

from sklearn.linear_model import LinearRegression
model_type = LinearRegression(fit_intercept=True, positive=True)
model = model_type.fit(X, y)

print("* Predictors:", data_cols)
print("* Response:", resp_col)
print("* Model coefficients:", model.coef_)
print("* Model intercept:", model.intercept_)

y_pred = model.predict(X)
print(f"* Mean relative error: {abs((y_pred - y)/y).mean()*100:.1f}%")

	email	milestone	start date-time	submit date-time
0	daniel.tashera@gmail.com	problem0	2018-12-09 01:12:56	2018-12-09 02:29:33
1	barbara.wilhemina@gatech.edu	problem0	2018-12-10 02:43:28	2018-12-10 06:21:30
2	barbara.wilhemina@gatech.edu	problem2	2018-12-10 02:43:28	2018-12-10 09:09:43
3	barbara.wilhemina@gatech.edu	problem5	2018-12-10 02:43:28	2018-12-10 09:04:35

	Email	Milestone	Start	Submit
0	jazlyn.florin@gmail.com	problem4	2018-11-04 12:45:10	2018-11-05 20:50:41
1	christian.miyisha@yahoo.com	problem2	2018-11-03 07:38:00	2018-11-04 12:21:12
2	taryn.raneshia@yahoo.co.id	problem0	2018-11-04 08:25:24	2018-11-05 17:59:02
3	joseph.sherburne@gmail.com	problem1	2018-11-02 16:45:06	2018-11-03 01:47:58
4	thomas.dyanni@gmail.com	problem3	2018-11-03 14:20:56	2018-11-04 23:31:18

	Email	Milestone	Start	Submit
34	sherry.ayleigh@aol.com	problem0	2018-12-06 08:32:21	2018-12-06 09:07:16
593	sherry.ayleigh@aol.com	problem1	2018-12-06 08:32:21	2018-12-06 10:04:10
1624	sherry.ayleigh@aol.com	problem2	2018-12-06 08:32:21	2018-12-06 11:30:28
3122	sherry.ayleigh@aol.com	problem5	2018-12-06 08:32:21	2018-12-06 13:34:13
2344	sherry.ayleigh@aol.com	problem4	2018-12-06 08:32:21	2018-12-06 17:53:48
2189	sherry.ayleigh@aol.com	problem3	2018-12-06 08:32:21	2018-12-06 20:19:21

	Email	Milestone	Start	Submit	Hours
0	chelsea.jaretzi@utexas.edu	problem1	2018-12-11 09:50:18	2018-12-12 02:34:35	16.738
1	chelsea.jaretzi@utexas.edu	problem0	2018-12-11 09:50:18	2018-12-12 02:40:16	0.095
2	chelsea.jaretzi@utexas.edu	problem5	2018-12-11 09:50:18	2018-12-12 03:45:49	1.092
3	chelsea.jaretzi@utexas.edu	problem3	2018-12-11 09:50:18	2018-12-12 05:49:20	2.059
4	chelsea.jaretzi@utexas.edu	problem2	2018-12-11 09:50:18	2018-12-12 06:17:25	0.468
5	jessica.rinda@gatech.edu	problem1	2018-12-07 12:05:41	2018-12-07 18:04:19	5.977
6	jessica.rinda@gatech.edu	problem5	2018-12-07 12:05:41	2018-12-07 18:11:47	0.125
7	jessica.rinda@gatech.edu	problem2	2018-12-07 12:05:41	2018-12-07 18:21:51	0.167
8	sherry.ayleigh@aol.com	problem0	2018-12-06 08:32:21	2018-12-06 09:07:16	0.582
9	sherry.ayleigh@aol.com	problem1	2018-12-06 08:32:21	2018-12-06 10:04:10	0.948
10	sherry.ayleigh@aol.com	problem2	2018-12-06 08:32:21	2018-12-06 11:30:28	1.439
11	sherry.ayleigh@aol.com	problem5	2018-12-06 08:32:21	2018-12-06 13:34:13	2.062
12	sherry.ayleigh@aol.com	problem4	2018-12-06 08:32:21	2018-12-06 17:53:48	4.326
13	sherry.ayleigh@aol.com	problem3	2018-12-06 08:32:21	2018-12-06 20:19:21	2.426

	Email	Earned	Milestone	Points	Start	Submit	Hours
0	justin.jernee@gatech.edu	40	problem2	2	2018-12-08 10:53:50	2018-12-08 15:12:42	4.314
1	justin.jernee@gatech.edu	40	problem0	10	2018-12-08 10:53:50	2018-12-08 19:21:39	4.15
2	justin.jernee@gatech.edu	40	problem1	10	2018-12-08 10:53:50	2018-12-08 20:16:38	0.916
3	justin.jernee@gatech.edu	40	problem5	5	2018-12-08 10:53:50	2018-12-09 13:53:43	17.618
4	justin.jernee@gatech.edu	40	problem3	10	2018-12-08 10:53:50	2018-12-09 20:06:24	6.211
5	justin.jernee@gatech.edu	40	problem4	3	2018-12-08 10:53:50	2018-12-09 22:08:52	2.042

	Email	problem0	problem1	problem2	problem3	problem4
0	sammie.jaydaa@gmail.com	7	10	10	10	10
1	juan.quay@aol.com	10	10	6.5	0	nan
2	gino.branston@gatech.edu	10	5	10	10	10
3	danny.jameriah@gmail.com	7	nan	nan	nan	nan
4	robert.gioanna@gatech.edu	10	10	10	10	10
5	adam.evemarie@gmail.com	10	10	10	10	10

	Email	problem0	problem1	problem2	problem3	problem4	Earned
0	rene.amritpal@gmail.com	10	10	10	10	10	50
1	albert.averley@gmail.com	10	2	8	10	10	40
2	mary.yahshua@gatech.edu	7	2	6.5	5	nan	20.5
3	jillian.myler@gmail.com	10	10	10	10	1	41
4	raina.sheehan@gmail.com	10	10	10	5	10	45
5	allison.link@yahoo.com	7	2	nan	nan	nan	9

	Start	Points	Earned	Email	Submit	Milestone	Hours	Exam
0	2018-12-09 08:55:36	2	38	chelsea.dilann@gatech.edu	2018-12-10 11:17:14	problem2	8.557	exam3
1	2018-12-08 12:27:33	5.5	25.5	kristopher.erandi@gmail.com	2018-12-09 16:09:17	problem0	2.831	exam3
2	2018-09-30 01:05:14	10	45	meredith.rakyla@hotmail.com	2018-09-30 19:11:33	problem2	3.386	exam1
3	2018-09-28 16:21:04	10	45	stacy.loneta@gmail.com	2018-09-28 17:51:52	problem0	1.513	exam1
4	2018-11-03 20:05:45	2	22	leta.kartier@gmail.com	2018-11-05 05:16:51	problem1	2.097	exam2
5	2018-11-04 20:02:24	5	16	christopher.jullianne@gatech.edu	2018-11-05 10:51:45	problem0	14.822	exam2
6	2018-11-03 06:59:28	10	50	lola.fysher@gmail.com	2018-11-03 08:06:09	problem1	1.111	exam2
7	2018-11-03 10:19:14	10	39	susan.tedrina@gatech.edu	2018-11-04 18:28:46	problem3	1.337	exam2

Final Exam, Fall 2023: Exam Analysis¶

Overview: Exam Examination¶

Setup¶

Ex. 0 (1 pt; FREE): Understanding the grades dataframe¶

Ex. 0 test (FREEBIE)¶

Ex. 1 (2 pt): remove_invalid_grades¶

Ex. 1 demo input¶

Ex. 1 your code¶

Ex. 1 test¶

Ex. 1 RUNME (precomputed solutions)¶

Ex. 2 (1 pt): calc_earned_points¶

Ex. 2 demo input¶

Ex. 2 your code¶

Ex. 2 test¶

Ex. 2 RUNME (precomputed solutions)¶

Ex. 3 (1 FREE pt): Understanding the timings dataset¶

Ex. 3 test (FREEBIE)¶

Ex. 4 (2 pts): remove_causality_violators¶

Ex. 4 demo input¶

Ex. 4 your code¶

Ex. 4 test¶

Ex. 4 RUNME (precomputed solutions)¶

Ex. 5 (1 pt): clean_times_colnames¶

Ex. 5 demo input¶

Ex. 5 your code¶

Ex. 5 test¶

Ex. 5 RUNME (precomputed solutions)¶

Ex. 6 (1 pt; FREE): Submission sequences¶

Ex. 6 test (FREEBIE)¶

Ex. 7 (3 pts): sequence_submissions¶

Ex. 7 demo input¶

Ex. 7 your code¶

Ex. 7 test¶

Ex. 7 RUNME (precomputed solutions)¶

Ex. 8 (3 pts): merge_gt¶

Ex. 8 demo input¶

Ex. 8 your code¶

Ex. 8 test¶

Ex. 8 RUNME (precomputed solutions)¶

Ex. 9 (2 pts): concat_exams¶

Ex. 9 demo input¶

Ex. 9 your code¶

Ex. 9 test¶

Ex. 9 RUNME (precomputed solutions)¶

Ex. 10 (2 pts): summarize_exams¶

Ex. 10 demo input¶

Ex. 10 your code¶

Ex. 10 test¶

Ex. 10 RUNME (precomputed solutions)¶

Final task: A simple regression¶

Ex. 11 (3 pts): form_data_table¶

Ex. 11 demo input¶

Ex. 11 your code¶

Ex. 11 test¶

Ex. 11 RUNME (precomputed solutions)¶

Fin (+ postscript)¶

Ex. 0 (1 pt; FREE): Understanding the `grades` dataframe¶

Ex. 1 (2 pt): `remove_invalid_grades`¶

Ex. 2 (1 pt): `calc_earned_points`¶

Ex. 3 (1 FREE pt): Understanding the `timings` dataset¶

Ex. 4 (2 pts): `remove_causality_violators`¶

Ex. 5 (1 pt): `clean_times_colnames`¶

Ex. 7 (3 pts): `sequence_submissions`¶

Ex. 8 (3 pts): `merge_gt`¶

Ex. 9 (2 pts): `concat_exams`¶

Ex. 10 (2 pts): `summarize_exams`¶

Ex. 11 (3 pts): `form_data_table`¶