%load_ext autoreload
%autoreload 2

import numpy as np
import scipy as sp
import pandas as pd

import dill
from pprint import pprint


with open('resource/asnlib/publicdata/acm-v9-sample-100k.dill', 'rb') as fp:
    raw_records = dill.load(fp)

print(f"=== Success: Loaded {len(raw_records):,} raw records. ===")
print(f"\nExample: Records 0, 7, and 15:\n")
pprint([raw_records[k] for k in [0, 7, 15]])


with open('resource/asnlib/publicdata/STOPWORDS.dill', 'rb') as fp:
    STOPWORDS = dill.load(fp)

print("A sample of stopwords:")
sorted(list(STOPWORDS))[:7]

{'authors': ['Mordechai Ben-Ari'],
 'id': ['269'],
 'refs': ['2135000', '317992', '320265', '320491', '598024'],
 'title': ['Algorithms for on-the-fly garbage collection'],
 'venue': ['ACM Transactions on Programming Languages and Systems (TOPLAS)'],
 'year': ['1984']}


### Solution - Exercise 0  

def get_record(lines: list) -> dict:
    
    ### BEGIN SOLUTION
    def get_attribute(line):
        assert len(line) > 0
        attributes = {'#*': 'title',
                      '#@': 'authors',
                      '#t': 'year',
                      '#c': 'venue',
                      '#index': 'id',
                      '#%': 'refs',
                      '#!': 'abstract'
                     }
        line = line.strip()
        for key, translation in attributes.items():
            i = len(key)
            if line[:i] == key:
                return (translation, line[i:])
        return None

    from collections import defaultdict
    record = defaultdict(list)
    for line in lines:
        attribute = get_attribute(line)
        if attribute is not None:
            key, value = attribute
            record[key].append(value)
    for key, value in record.items():
        record[key] = sorted(value)
    return dict(record)
    ### END SOLUTION

### Demo function call

pprint(get_record(raw_records[15]))


### Test Cell - Exercise 0  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['get_record']['config']

ex_conf['func'] = get_record

tester = Tester(ex_conf, key=b'4oTuD3jYU_dfQvrxIzSmKJQBDeiWMaODi2nmk0sQk1o=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'PdjlQ97Vu4Me81fv-vIhBhmfwQcZj3v526wMAW1DGW0=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/records.dill', 'rb') as fp:
    records = dill.load(fp)

print(f"Sample post-processed records:")
for k in [0, 7, 15]:
    print(f"\n=== get_record(raw_records[{k}]) ===")
    pprint(records[k])

None
{'abstract': 'A mathematical model for communicating sequential processes '
             'isgiven, and a number of its interesting and useful properties '
             'arestated and proved. The possibilities of nondetermimsm are '
             'fullytaken into account.',
 'authors': 'S. D. Brookes, C. A. R. Hoare, A. W. Roscoe',
 'id': 319,
 'refs': [2135000, 318212, 320203, 374129, 408527, 547420, 555361, 565837,
          566544, 566549, 680046, 689430],
 'title': 'A Theory of Communicating Sequential Processes',
 'venue': 'Journal of the ACM (JACM)',
 'year': 1984}


### Solution - Exercise 1  

def clean_record(record: dict) -> dict:
    
    ### BEGIN SOLUTION
    if any(e not in record for e in ['id', 'title', 'year', 'venue', 'abstract']):
        return None
    
    cleaned = {}
    for key, value in record.items():
        if key in ['id', 'year']:
            cleaned[key] = int(value[0])
        elif key in ['refs']:
            cleaned[key] = [int(e) for e in value]
        else:
            cleaned[key] = value[0]
    return cleaned
    ### END SOLUTION

### Demo function call

pprint(clean_record(records[0])) # None!
pprint(clean_record(records[17])) # Valid


### Test Cell - Exercise 1  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['clean_record']['config']

ex_conf['func'] = clean_record

tester = Tester(ex_conf, key=b'BhZT_oWZZqOjWxKNFXA5A7uL44XtRE6X7vsh1IcmmOs=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'YOrz4qxU6x7xlwO1Og0kri7NEs5HYMq8xZTiABfDJbI=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/papers.dill', 'rb') as fp:
    cleaned_records = dill.load(fp)

print("Examples of cleaned records:")
for k in [0, len(cleaned_records)//2, len(cleaned_records)-1]:
    record = cleaned_records[k]
    print(f"\n=== Record {k} ===")
    pprint(record)


### Solution - Exercise 2  

def records_to_metadf(records: list) -> pd.DataFrame:
    
    ### BEGIN SOLUTION
    from pandas import DataFrame
    def field(key):
        return [p[key] for p in records]
    return DataFrame({key: field(key) for key in ['id', 'title', 'year', 'venue', 'abstract']})
    ### END SOLUTION

### Demo function call

demo_cleaned_records = [cleaned_records[k] for k in [11222, 11239, 12329]]
demo_metadf = records_to_metadf(demo_cleaned_records)
display(demo_metadf)


### Test Cell - Exercise 2  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['records_to_metadf']['config']

ex_conf['func'] = records_to_metadf

tester = Tester(ex_conf, key=b'hgW1Cvvo9Kg4sTImuGlhMic09mEdkjjQQFPMCiw5gaE=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'PxlZbQ419XW52LK6hmgQ1r7wJLbd7ccXKu0WEfFYqes=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/metadf.dill', 'rb') as fp:
    metadf = dill.load(fp)

# For Ex. 3, break dependence with a working Ex. 2
demo_metadf = metadf.loc[[11222, 11239, 12329]].reset_index(drop=True)

print("Examples of metadata records:")
display(metadf.sample(5))


### Solution - Exercise 3  

def gen_corpus(metadf, stopwords):
    
    ### BEGIN SOLUTION
    def gen_pseudodoc(s):
        from re import findall
        pattern = r'[a-zA-Z]+'
        s = s.lower()
        initial_tokens = set(findall(pattern, s))
        final_tokens = initial_tokens - stopwords
        return ' '.join(sorted(final_tokens))

    df = metadf[['id', 'title', 'venue', 'abstract']].copy()
    df['rawdoc'] = df['title'] + ' ' + df['venue'] + ' ' + df['abstract']
    df['pseudodoc'] = df['rawdoc'].apply(gen_pseudodoc)
    df = df[['id', 'title', 'pseudodoc']]
    return df
    ### END SOLUTION

### Demo function call
demo_corpus = gen_corpus(demo_metadf, STOPWORDS)
display(demo_corpus)


### Test Cell - Exercise 3  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['gen_corpus']['config']

ex_conf['func'] = gen_corpus

tester = Tester(ex_conf, key=b'o0kicBPd2HinEbuciVMQHNjfCLJj4eVAWPBqKCfSeNw=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'8BhPU2TJmMG5oymGh3XrC6PJOblGSLgiioDFIwm6DlY=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/corpus.dill', 'rb') as fp:
    corpusdf = dill.load(fp)

print(f"A sample of the pseudo-document corpus:")
display(corpusdf.sample(4))


with open('resource/asnlib/publicdata/X.dill', 'rb') as fp:
    X = dill.load(fp)
    
print(f"The shape of `X`: {X.shape}")
print(f"- Smallest value: {X.min()}")
print(f"- Largest value: {X.max()}")
print(f"- Mean value: {X.mean()}")


with open('resource/asnlib/publicdata/kmeans.dill', 'rb') as fp:
    _, km_sizes, km_centers, km_labels = dill.load(fp)

print(f"- Cluster sizes:", km_sizes)
print(f"- Cluster labels:", km_labels)
print(f"- Cluster centers, {km_centers.shape[0]:,} x {km_centers.shape[1]}, where each column is a centroid:")
pprint(km_centers)

build_cluster_matrix(np.array([1, 2, 0, 0, 2, 2, 2, 3, 0, 3]), 4)


### Solution - Exercise 4  

def build_cluster_matrix(labels: np.ndarray, max_label: int) -> sp.sparse.coo_matrix:
    
    ### BEGIN SOLUTION
    from numpy import arange, ones
    from scipy.sparse import coo_matrix
    rows = arange(len(labels))
    cols = labels
    values = ones(len(labels))
    R = coo_matrix((values, (rows, cols)), shape=(len(labels), max_label))
    return R
    ### END SOLUTION

### Demo function call
demo_R = build_cluster_matrix(np.array([1, 2, 0, 0, 2, 2, 2, 3, 0, 3]), 4)
print(demo_R)


### Test Cell - Exercise 4  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['build_cluster_matrix']['config']

ex_conf['func'] = build_cluster_matrix

tester = Tester(ex_conf, key=b'cub7HYh_bdtYjSXeD5UPThVliqosSf9XWu4LLxZjlOs=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'BKfhxGRI75Oq_URP32o-YjtSQ_Mv26tftdG9sBADV9E=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/R.dill', 'rb') as fp:
    R_km = dill.load(fp)
    
R_km

{'page', 'reviews', 'academic', 'book'}


### Solution - Exercise 5  

def get_top_tokens(cid: int, labels: np.ndarray, corpusdf: pd.DataFrame, k=10) -> set:
    
    ### BEGIN SOLUTION
    from collections import Counter
    ids = np.where(labels == cid)[0]
    pseudodocs = corpusdf['pseudodoc'].loc[ids]
    token_counts = Counter()
    for doc in pseudodocs:
        tokens = doc.split()
        token_counts += Counter(tokens)
    return {token for token, _ in sorted(token_counts.items(), key=lambda e: (-e[1], e[0]), reverse=False)[:k]}
    ### END SOLUTION

### Demo function call
with open('resource/asnlib/publicdata/demo_args_get_top_tokens.dill', 'rb') as fp:
    demo_cid, demo_labels, demo_corpusdf, demo_k = dill.load(fp)
print(get_top_tokens(demo_cid, demo_labels, demo_corpusdf, demo_k))


### Test Cell - Exercise 5  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['get_top_tokens']['config']

ex_conf['func'] = get_top_tokens

tester = Tester(ex_conf, key=b'BBpXHA04_pc-q0tx10aYqwXtRUfiJeKp90vRPTLzC5k=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'maX0d15NB21kw4V42TlZ6oXjqEj3f5X8ZozVib7fX7Q=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


with open('resource/asnlib/publicdata/top_tokens.dill', 'rb') as fp:
    km_top_tokens = dill.load(fp)
    
km_top_tokens

{0: {'analysis', 'simulation', 'control'}, 4: {'processing', 'images', 'image', 'analysis', 'recognition'}, 6: {'analysis', 'methods'}, 2: {'network', 'nodes', 'networks', 'simulation', 'wireless', 'mobile'}, 1: {'network', 'distributed', 'service', 'computing', 'services', 'applications'}, 3: {'parallel', 'applications', 'design', 'high'}, 9: {'engineering', 'programming', 'language', 'software', 'applications', 'design', 'development'}, 8: {'work', 'technology', 'study', 'research', 'design', 'development'}, 5: {'artificial', 'intelligence', 'learning', 'volume'}, 7: {'problems', 'algorithms', 'number', 'linear', 'theory', 'set'}}


### Solution - Exercise 6  

def find_distinctive_tokens(token_sets: dict, max_occur=3) -> dict:
    
    ### BEGIN SOLUTION
    from collections import defaultdict
    token_assignments = defaultdict(set) # token -> set of cluster ids
    for cid, tokens in token_sets.items():
        for token in tokens:
            token_assignments[token] |= {cid}
            
    distinctive = defaultdict(set)
    for token, clusters in token_assignments.items():
        if len(clusters) <= max_occur:
            for cid in clusters:
                distinctive[cid] |= {token}
    return dict(distinctive)
    ### END SOLUTION

### Demo function call
print(find_distinctive_tokens(km_top_tokens))


### Test Cell - Exercise 6  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['find_distinctive_tokens']['config']

ex_conf['func'] = find_distinctive_tokens

tester = Tester(ex_conf, key=b'5VeeLsiYTK9AUwJ8sN5jiO4xU3sWzBJooV29Q6R7Erk=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'xHxaKp16PVuNpfH6M55Dlq-glrOFNJaW1f7hc08KUFw=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')


### Solution - Exercise 7  

def lsa_svd_cluster__FREE(X: np.ndarray, num_clusters=10, num_components=10):
    """**FREE EXERCISE**: Use the SVD and K-means to compute a clustering.
This method is sometimes referred to as _latent semantic analysis_ (LSA).

**Background**: In the data-matrix factorization view of K-means, we compute $X \sim R C^T$ and use $R$ to identify clusters.
That suggests we could try _other_ factorization methods, including the singular value decomposition (SVD) from Notebook 15.

In this strategy, we compute an $d$-truncated SVD, $X \\approx U_d \Sigma_d V_d^T$, where we choose $d$ to be "small" compared to the number of columns of $X$.
In so doing, the matrix $Y \equiv U_d \Sigma_d$ acts as lower-dimensional representation of $X$, where each row of $Y$ is a $d$-dimensional version of the corresponding row of $X$.
We can then run K-means on $Y$.

Here, we are giving you some code to carry out this analysis.
This code uses scikit-learn's [TruncatedSVD](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html#) and [K-means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#) implementations.
Inspect the results and then move on to the next (and last) part and exercise.

**Inputs**:
- `X`: An `n`-by-`m` data matrix where rows are data points.
- `num_clusters`: The desired number of clusters to identify.
- `num_components`: The truncated dimension, $d$.

**Return:** `labels`, an array of cluster labels.
The `i`-th row of `X` is "assigned" to a cluster whose ID is `labels[i]`.
These labels will lie in the range 0 to `num_clusters-1`.
    """
    # Step 1: Compute the (truncated) SVD of X: X ~ U S V^T
    from sklearn.decomposition import TruncatedSVD
    svd = TruncatedSVD(n_components=num_components, n_iter=20, random_state=1_234)
    Y = svd.fit_transform(X)
    
    # Step 2: Run K-means on U
    from sklearn.cluster import KMeans
    kmeans = KMeans(n_clusters=num_clusters, max_iter=100, n_init=1, random_state=5_678).fit(Y)
    labels = kmeans.predict(Y)
    return labels

### Demo function call
pass # bug? this line gets omitted in the output
with open('resource/asnlib/publicdata/X.dill', 'rb') as fp:
    X = dill.load(fp)
    print(f"Data matrix (`X`) shape: {X.shape[0]:,} x {X.shape[1]:,}")
lsa_labels = lsa_svd_cluster__FREE(X, num_clusters=10)
print(f"Cluster assignments: {lsa_labels}")

print(f"\nDistinctive top tokens for LSA:")
with open('resource/asnlib/publicdata/lsa_tokens.dill', 'rb') as fp:
    lsa_top_tokens, lsa_distinctive = dill.load(fp)
pprint(lsa_distinctive)


### Test Cell - Exercise 7  


print('Passed! Please submit.')

def calc_nmf_W(X, num_clusters=10):
    from sklearn.decomposition import NMF
    model = NMF(n_components=num_clusters, init='random', random_state=8_917)
    W = model.fit_transform(X)
    return W


with open('resource/asnlib/publicdata/W.dill', 'rb') as fp:
    W = dill.load(fp)
    
print(W.shape)

(array([1, 0, 2, 0, 2, 1, 3, 0, 0]), array([0, 1, 2, 3]), array([4, 2, 2, 1]))


### Solution - Exercise 8  

def get_nmf_clusters(W: np.ndarray) -> (np.ndarray, np.ndarray, np.ndarray):
    
    ### BEGIN SOLUTION
    from numpy import argmax, unique
    labels = argmax(W, axis=1)
    ids, sizes = unique(labels, return_counts=True)
    return labels, ids, sizes
    ### END SOLUTION

### Demo function call
with open('resource/asnlib/publicdata/demo_get_nmf_clusters_W.dill', 'rb') as fp:
    demo_W = dill.load(fp)
print("Demo input W:")
pprint(demo_W)
print("\nYour output:")
print(get_nmf_clusters(demo_W))


### Test Cell - Exercise 8  

from cse6040_devkit.tester_fw.testers import Tester
from yaml import safe_load

with open('resource/asnlib/publicdata/assignment_config.yaml') as f:
    ex_conf = safe_load(f)['exercises']['get_nmf_clusters']['config']

ex_conf['func'] = get_nmf_clusters

tester = Tester(ex_conf, key=b'SGeoIKLnOAbhAQCj3ymEM2J0nfjbk6CylhmBcXTw3s4=', path='resource/asnlib/publicdata/')
for _ in range(75):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise

### BEGIN HIDDEN TESTS
tester = Tester(ex_conf, key=b'ETV_Hxn4mu4ICrtvJKw5uxbm6vUVwsQ4KpojWA3GIHo=', path='resource/asnlib/publicdata/encrypted/')
for _ in range(25):
    try:
        tester.run_test()
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
    except:
        (input_vars, original_input_vars, returned_output_vars, true_output_vars) = tester.get_test_vars()
        raise
### END HIDDEN TESTS

print('Passed! Please submit.')

Prefix	Meaning
`#*`	Title of the work
`#@`	Author names
`#t`	Year of publication
`#c`	Where the work was published
`#index`	ID number of this work
`#%`	ID number of a work that this work cites
`#!`	Abstract (short description of the work)

id	title	year	venue	abstract
648046	A Tutorial for CC++	1994	A Tutorial for CC++	No abstract available.
648461	Logics of Programs	1989	Logics of Programs	None Available
673426	Codes and Number Theory	1997	Codes and Number Theory	Codes and Number Theory

id	title	pseudodoc
648046	A Tutorial for CC++	abstract available cc tutorial
648461	Logics of Programs	available logics none programs
673426	Codes and Number Theory	codes number theory

Final Exam, Spring 2024: Topic identification¶

Environment setup¶

The problem: Mining a computer-document corpus for "topics"¶

Ex. 0 (2pts): `get_record`¶

Run me!¶

Ex. 1 (1pts): `clean_record`¶

Run me!¶

Ex. 2 (1pts): `records_to_metadf`¶

Run me!¶

Ex. 3 (2pts): `gen_corpus`¶

Run me!¶

Mini-tutorial (read & run me!): k-means clustering + matrix factorization¶

Ex. 4 (2pts): `build_cluster_matrix`¶

Run me!¶

Ex. 5 (2pts): `get_top_tokens`¶

Run me!¶

Ex. 6 (3pts): `find_distinctive_tokens`¶

Ex. 7 (1pts): `lsa_svd_cluster__FREE`¶

Nonnegative Matrix Factorization¶

Ex. 8 (2pts): `get_nmf_clusters`¶

Fin¶

Final Exam, Spring 2024: Topic identification¶

Environment setup¶

The problem: Mining a computer-document corpus for "topics"¶

Ex. 0 (2pts): get_record¶

Run me!¶

Ex. 1 (1pts): clean_record¶

Run me!¶

Ex. 2 (1pts): records_to_metadf¶

Run me!¶

Ex. 3 (2pts): gen_corpus¶

Run me!¶

Mini-tutorial (read & run me!): k-means clustering + matrix factorization¶

Ex. 4 (2pts): build_cluster_matrix¶

Run me!¶

Ex. 5 (2pts): get_top_tokens¶

Run me!¶

Ex. 6 (3pts): find_distinctive_tokens¶

Ex. 7 (1pts): lsa_svd_cluster__FREE¶

Nonnegative Matrix Factorization¶

Ex. 8 (2pts): get_nmf_clusters¶

Fin¶

Ex. 0 (2pts): `get_record`¶

Ex. 1 (1pts): `clean_record`¶

Ex. 2 (1pts): `records_to_metadf`¶

Ex. 3 (2pts): `gen_corpus`¶

Ex. 4 (2pts): `build_cluster_matrix`¶

Ex. 5 (2pts): `get_top_tokens`¶

Ex. 6 (3pts): `find_distinctive_tokens`¶

Ex. 7 (1pts): `lsa_svd_cluster__FREE`¶

Ex. 8 (2pts): `get_nmf_clusters`¶