TAAC 2026 Experiment Workspace

迈向统一序列建模与特征交互的大规模推荐系统

Competition · Quick Start · Experiments · Docs

Note

这是 TAAC 2026 其中一个参赛队伍的代码仓库，不代表官方文档。我们的目标是提供一个开箱即用、便于扩展和回归验证的实验工作区，以促进社区在统一序列建模与特征交互方向上的研究和创新。

Important

本项目会继续维护，但仍有几条边界需要提前说明：

我们无法保证 API 长期稳定。
我们可能会按需要整理或压缩 commit 历史。(预定在比赛正式开始后进行一次)
各子模型的研究与复现状态并不等于 100% 官方还原。

当前仓库更擅长的事情是：

提供开箱可用的训练与评估框架。
支持大算力场景下的超参数搜索和实验管理。
持续同步最新论文、公开方案和可复核实验包。

这是一个面向 TAAC 2026 的实验工作区。我们把共享训练底座、目录式实验包、统一输出产物和回归测试放进同一套工程里，让新实验可以更快接入、训练、评估和复核。

项目简介

推荐系统作为大规模内容平台（信息流、短视频等）与数字广告（点击率/转化率预估等）的核心引擎，直接决定了用户体验、参与度及平台商业收益。面对海量并发请求与严苛的实时响应约束，现代推荐系统每日需完成数十亿次在线决策，支撑起规模庞大的数字广告生态。过去二十年间，推荐技术主要沿两条路径演进：一是特征交互模型，专注于高维稀疏多域特征与上下文信号的深度交叉；二是序列模型，借助 Embedding 检索与 Transformer 架构捕捉用户行为的时序动态。尽管两条路线各自成果丰硕，但长期以来的割裂发展导致工业界系统面临结构性瓶颈：跨范式交互浅层化、优化目标不一致、扩展能力受限，以及日益攀升的硬件与工程复杂度。随着序列长度与模型参数的持续增长，这种碎片化架构的效率瓶颈愈发凸显。

近年来，学界与工业界开始探索融合这两大传统分支的统一建模范式 [1–3]。为加速该方向的突破，我们发起"迈向统一序列建模与特征交互的大规模推荐系统"挑战赛。我们鼓励参赛者设计统一的 Tokenization 方案与同质化、可堆叠的骨干网络，在单一架构内同时建模用户行为序列与非序列多域特征，完成转化率预估任务。参赛队伍将依据 ROC 曲线下面积（AUC）进行统一排名。除排行榜外，本次大赛特设两项创新奖——统一模块创新奖（45,000 美元）与Scaling Law 创新奖（45,000 美元），分别表彰在统一架构设计与系统性缩放规律探索方面的杰出工作。创新奖与排行榜名次独立评审，研讨会论文录用将重点考察方法在上述两个方向的新颖性与洞察力，而非单纯追求 AUC 指标。

我们的工作

我们的目标很简单：在一套统一的 parquet batch 上，能快速接进来、跑起来、评估掉、还有回归保障。

src/taac2026：共享底座，提供 FolderExperiment 加载、训练入口、评估入口、基础指标，以及 checkpoint / summary 的读写能力。
config/gen/<name>：目录式实验包。每个包自己管理 data.py、model.py、utils.py、__init__.py，配套说明统一收口到 docs/packages/<name>.md，并直接导出 EXPERIMENT。

快速开始

uv python install 3.14
uv sync --locked

# 训练 starter baseline
uv run taac-train --experiment config/gen/baseline

# 用 optuna 搜索 baseline，默认会按当前可见 GPU 空闲显存自动并行派发 trial
# 默认约束仍然是参数量 <= 3 GiB、验证集端到端推理总时长 <= 180 秒
uv run taac-search --experiment config/gen/baseline --trials 20

# 评估默认输出目录中的 best.pt；single 模式始终只评估一个实验/一个 checkpoint
uv run taac-evaluate single --experiment config/gen/baseline

# 跑完整训练栈回归
uv run pytest tests -q

当前独立实验包

实验包	目录	公开来源	默认输出目录	可复核状态
Baseline	config/gen/baseline	本仓库维护的 starter/reference package，强调可扩展性、注释与二次开发体验	`outputs/gen/baseline`	可直接运行，待新一轮 smoke 记录
Grok	config/gen/grok	从旧 `baseline` 中拆分出来的本地 grok 方案	`outputs/gen/grok`	历史产物仍保留在 legacy baseline 路径
CTR Baseline	config/gen/ctr_baseline	creatorwyx/TAAC2026-CTR-Baseline	`outputs/gen/ctr_baseline`	forward regression + smoke summary
DeepContextNet	config/gen/deepcontextnet	suyanli220/TAAC-2026-Baseline-Tencent-Advertisement-Contest	`outputs/gen/deepcontextnet`	forward regression + smoke summary
InterFormer	config/gen/interformer	InterFormer paper	`outputs/gen/interformer`	forward regression + smoke summary
OneTrans	config/gen/onetrans	OneTrans paper	`outputs/gen/onetrans`	forward regression + smoke summary
HyFormer	config/gen/hyformer	HyFormer paper	`outputs/gen/hyformer`	forward regression + smoke summary
UniRec	config/gen/unirec	hojiahao/TAAC2026	`outputs/gen/unirec`	forward regression + smoke summary
UniScaleFormer	config/gen/uniscaleformer	twx145/Unirec	`outputs/gen/uniscaleformer`	forward regression + smoke summary
O_o	config/gen/oo	salmon1802/O_o	`outputs/gen/oo`	forward regression + smoke summary

更详细的训练命令、输出文件说明、当前 smoke 记录和各实验包说明，可以看 docs/dev.md、docs/experiments.md 和 docs/packages/index.md。

Timeline

Competition Begins - Mar.15, 2026 - 23:59:59 AOE - Releasing demo dataset
Global Registration - Mar.19 ~ Apr.23 - 23:59:59 AOE
First-round Competition - Apr.24 ~ May 23 - 23:59:59 AOE
Second-round Competition - May 25 ~ Jun.24 - 23:59:59 AOE
Winners Announcement - Jul.15, 2026 Winner Notification - Aug. 9, 2026 - Winner Public Announcement

Our Eligibility

Academic Track

Dataset&Task

https://huggingface.co/datasets/TAAC2026/data_sample_1000

本次比赛发布的数据集经过完全匿名化处理，不反映腾讯广告平台的实际生产特性。

我们的数据集是一个基于真实广告日志构建的大规模工业级数据集，包含两个主要组成部分：(1) 用户行为序列和 (2) 非序列多字段特征。

用户行为序列包含用户与物品之间的交互事件（如曝光、点击、转化），每个事件都附带时间戳和行为类型等附加信息。多字段特征包括用户属性、物品属性、上下文信号以及交叉特征。

为确保公平性和保护隐私，所有稀疏特征均以匿名整数ID表示，稠密特征则以固定长度的浮点向量提供。不发布任何原始内容（如文本、图像、URL）或个人身份信息。

此外，我们提供了一些示例样本供参考：

当前示例样本以JSON格式提供，但正式比赛所用数据可能基于此初步版本进行调整，包括格式和实际内容的可能变更。

Sequential Data (e.g. one user behavior sequence)

{"user_id": "1", "seq": [{"item_id": 16612, "action_type": 1, "timestamp": 1770564000}, {"item_id": 49638, "action_type": 1, "timestamp": 1770564000}, ..., {"item_id": 173346, "action_type": 3, "timestamp": 1766960100}, ..., {"item_id": 49495, "action_type": 2, "timestamp": 1766576760}, ..., {"item_id": 1753, "action_type": 4, "timestamp": 1766399880}], ...}

User Features (e.g. one specific user)

[{"feature_id": 10, "feature_value_type": "int_array", "int_array": [1]},      // Marital Status
 {"feature_id": 8, "feature_value_type": "int_value", "int_value": 1},       // Gender
 {"feature_id": 7, "feature_value_type": "int_value", "int_value": 44}, ...] // Age

Item Features (e.g. one specific item)

[{"feature_id": 70, "feature_value_type": "int_value", "int_value": 2},      // Type
 {"feature_id": 60, "feature_value_type": "int_value", "int_value": 3},      // Category
 {"feature_id": 72, "feature_value_type": "int_value", "int_value": 2}, ...] // Advertiser Type

Context Features (e.g. one specific session)

[{"feature_id": 17, "feature_value_type": "int_value", "int_value": 3},      // Device Brand
 {"feature_id": 21, "feature_value_type": "int_value", "int_value": 3}, ...] // OS Type

Cross Features

[{"feature_id": 25, "feature_value_type": "float_array", "float_array": [0.111, 0.057, 0.121, 0.043, -0.066, 0.081, 0.038, 0.105, -0.026, ...]}, ...] // User Embedding

Evaluation

我们将使用单一的ROC曲线下面积（AUC）指标对所有团队进行排名（越高越好）。为确保实用性，每次提交还必须在官方评估环境和协议下满足特定于赛道和轮次的推理延迟限制；超出延迟预算的提交将被视为无效，因此不予排名，无论AUC分数如何。

为鼓励与我们主题一致的创新——构建一个统一模块，弥合序列建模与多字段特征交互之间的鸿沟，并探索推荐系统的缩放规律——我们还将提供两项创新奖：统一模块创新奖（45,000美元）和缩放规律创新奖（45,000美元）。这些奖项与排行榜排名无关。最终获奖决定将由委员会根据提交的技术报告、代码以及所提方法的新颖性和洞察力进行综合评审，特别是围绕本次比赛强调的两个方向，而非仅关注最终AUC分数。

Rules

评分标准 比赛设有两条平行赛道，分别拥有独立的排行榜。
学术赛道仅限团队成员全部隶属于大学或学院的队伍参加（如本科生、硕士生或博士生；需提供学术 affiliation 证明）。工业赛道则无资格限制，向所有参与者开放。为更好地反映部署约束，工业赛道将执行更严格的推理延迟限制。
为强调方法论的清晰性并实现公平比较，我们禁止在整个比赛中使用模型集成。

比赛采用两阶段评估框架，逐步强调预测准确性、可扩展性、效率和可复现性。在第一轮（开放初赛阶段），所有团队将在隐藏测试集上根据官方评估指标进行排名，同时实施严格的防过拟合控制（如提交限制和延迟反馈）。如有必要，将实施容量感知滚动准入机制（支持多达5,000支并发团队），以确保公平的资源访问。第一轮结束时，排行榜将被冻结，前50名学术团队和前20名工业团队将仅根据官方指标表现晋级第二轮。第二轮在约10倍更大规模的数据集上评估模型的鲁棒性和大规模建模能力，同时设置严格的推理延迟限制，以鼓励采用GPU高效统一架构。每支决赛团队将获得相当的计算资源，且所有提交必须通过官方环境中的可复现性和规则合规性验证。

References

InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction. CIKM, 2025.
https://arxiv.org/abs/2411.09852
OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender. arXiv preprint, 2025.
https://arxiv.org/abs/2510.26104
HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction. arXiv preprint, 2026.
https://arxiv.org/abs/2601.12681

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.agents/skills		.agents/skills
.github/workflows		.github/workflows
config		config
docs		docs
figures		figures
src/taac2026		src/taac2026
tests		tests
.gitattributes		.gitattributes
.gitignore		.gitignore
.python-version		.python-version
LICENSE		LICENSE
README.md		README.md
mkdocs.yml		mkdocs.yml
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TAAC 2026 Experiment Workspace

项目简介

我们的工作

快速开始

当前独立实验包

Timeline

Our Eligibility

Dataset&Task

Evaluation

Rules

相关工作

References

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

TAAC 2026 Experiment Workspace

项目简介

我们的工作

快速开始

当前独立实验包

Timeline

Our Eligibility

Dataset&Task

Evaluation

Rules

相关工作

References

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages