Simple Text Inference Model

[ARCHIVED] Intermediate experiment (~6.8K parameters, PyTorch bigram model). Current project: nn-v4 — 1.5B-parameter GPT transformer.

A minimal character-level bigram language model using PyTorch. Part of a learning progression: nn-v1 → nn-v2 → nn-v4.

Version	Params	Architecture	Notes
nn-v1	~1.4K	Embedding + MLP (NumPy)	Ultra-lightweight starter
nn-v2 (this)	~6.8K	Bigram + transformer block	8-char context window
nn-v4	~1.45B	GPT decoder, 24 layers	Mixed precision, Flash Attention 2

Usage

pip install -r requirements.txt
python train.py    # 5000 iterations on Shakespeare
python generate.py # interactive generation

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
__pycache__		__pycache__
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
TRAINING_EFFECT.md		TRAINING_EFFECT.md
bigram_model.pth		bigram_model.pth
data.txt		data.txt
generate.py		generate.py
model.py		model.py
requirements.txt		requirements.txt
test_generate.py		test_generate.py
test_untrained.py		test_untrained.py
train.py		train.py