LearningTree · AI Advanced

Artificial Intelligence
Advanced Overview

Deep-dive topics beyond the Foundation — practical in-depth guides on prompt engineering, fine-tuning, RAG, agents, and production AI patterns.

8

Topics

81

Chapters

↑

Growing

The Foundation covers AI breadth-first across 12 domains. Advanced goes depth-first — each topic is a complete practitioner's guide with real examples, code, benchmarks, and production patterns.

✍️ Prompt Engineering

11 chapters All Levels Practitioner

From zero-shot basics to production-grade prompt systems — how LLMs actually process prompts, chain-of-thought reasoning, structured outputs, injection defence, evaluation, and model-specific patterns.

How LLMs Process Prompts

Tokens, attention, probability — why framing changes everything

Zero-Shot, Few-Shot & Roles

When examples help, persona vs instruction, label balance

Chain-of-Thought & Reasoning

CoT, Self-Consistency, Tree-of-Thoughts, Least-to-Most

Structured Outputs & Format Control

JSON mode, schema prompting, Pydantic validation patterns

System Prompts & Instruction Hierarchy

System vs user roles, tone locking, model-specific differences

RAG Prompting Patterns

Context injection, citation prompting, lost-in-the-middle

Prompt Injection & Security

Direct & indirect injection, leaking, real attacks & defences

Evaluation & Regression Testing

LLM-as-judge, golden sets, promptfoo, LangSmith evals

Model-Specific Patterns

GPT-4o, Claude XML tags, Gemini grounding, Llama 3 templates

Production Prompt Engineering

Versioning, cost optimisation, A/B testing, incident response

Prompt Workflows & Iteration Patterns

Multi-step chains, self-critique, self-consistency, tool-oriented prompting, reliability vs quality

Practical Systems

🔍 RAG Engineering

10 chapters All Levels Practitioner

Production RAG systems — chunking strategies, embedding models, vector databases, retrieval optimization, hybrid search, re-ranking, and advanced patterns like GraphRAG and agentic RAG.

RAG Mental Model

What is RAG, when to use it vs fine-tuning, the 6-stage pipeline

Data Ingestion & Chunking

Loaders, parsers, semantic vs fixed-size chunking strategies

Embeddings & Representation

OpenAI, Cohere, BGE, MTEB benchmarks, dimensionality tradeoffs

Vector Storage & Indexing

Pinecone, Qdrant, pgvector, HNSW indexing, scaling

Retrieval Strategies

Dense, sparse, hybrid search, query expansion, HyDE

Ranking & Re-Ranking

Cross-encoder re-rankers, Cohere Rerank, ColBERT, fusion

Context Construction

Context window management, citation prompting, compression

Failure Modes & Evaluation

Retrieval metrics, RAGAS, faithfulness, end-to-end eval

Advanced RAG Patterns

CRAG, Self-RAG, GraphRAG, agentic RAG, multimodal

Production Systems

Caching, latency, cost, observability, A/B testing

🤖 Agents in Production

10 chapters All Levels Practitioner

From demos to deployment — building reliable, observable, cost-effective AI agents. Tool orchestration, memory systems, planning, multi-agent coordination, security, and production operations.

Agent Architecture

Components of a production agent — the reasoning loop, tools, and state

Tool Orchestration

Function calling at scale — schemas, sandboxing, parallel tools, rate limits

Short-term, long-term, and episodic memory — context management strategies

Planning & Task Decomposition

Multi-step agent behavior — ReAct, plan-then-execute, MCTS, re-planning

Error Handling & Recovery

When agents fail — retry logic, graceful degradation, 5-layer defence

Multi-Agent Systems

Collaboration and orchestration — supervisor, mesh, debate, shared memory

Security & Guardrails

Protecting agent systems — prompt injection, tool abuse, output guardrails

Tracing, logging, and debugging — LangSmith, Langfuse, OpenTelemetry

Making agents affordable and fast — token budgets, caching, model routing

Running agents in production — scaling, versioning, A/B testing, incident response

🏗️ LLM System Design

10 chapters All Levels Practitioner

Architecture patterns for LLM applications — from single-model APIs to multi-model orchestration. Scaling, caching, latency optimization, cost management, and production infrastructure.

Design Principles

LLM constraints, control layer pattern, system mental model

Architecture Patterns

Single-model, multi-model, router, orchestrator, agent architectures

Model Selection

Capability vs cost tradeoffs, model routing, fallback strategies

Request/response schemas, streaming, rate limiting, error handling

Semantic caching, exact-match caching, TTL strategies, invalidation

Horizontal scaling, load balancing, queue-based architectures

Time-to-first-token, streaming, parallel execution, latency budgets

Token budgets, cost monitoring, optimization, multi-model routing

GPU provisioning, Kubernetes, serverless, multi-region deployment

Real-world architectures, scaling stories, failure post-mortems

📊 Evaluation & Observability

10 chapters All Levels Practitioner

Measuring what matters — benchmarks, LLM-as-judge, golden sets, regression testing, tracing, monitoring, and CI/CD integration for AI systems.

Why Eval Matters

Probabilistic systems, measurement gap, eval-driven development

Public benchmarks (MMLU, HumanEval), task-specific, contamination

Judge prompt design, pairwise comparison, rubric scoring, calibration

Building golden datasets, annotation guidelines, versioning, coverage

Regression Testing

Detecting regressions, test suite design, threshold setting, alerts

Distributed tracing, span design, trace IDs, context propagation

Metrics selection, dashboards, alerting rules, SLOs/SLIs

Root cause analysis, replay attacks, prompt debugging, failure categorization

CI/CD Integration

Eval in CI pipelines, gate criteria, automated regression, blocking

LangSmith, Langfuse, promptfoo, Weights & Biases, OpenTelemetry

🎯 Fine-Tuning LLMs

10 chapters All Levels Practitioner

From dataset curation to production deployment — LoRA, QLoRA, SFT, DPO, RLHF, evaluation, domain adaptation, and the complete MLOps pipeline for fine-tuned models.

Decision ladder, when to use, cost-benefit, vs prompting and RAG

Data Preparation

Dataset formats, quality over quantity, deduplication, splits

Low-rank adaptation, QLoRA, DoRA, merging adapters

Full Fine-Tuning

When to use, compute requirements, learning rate, monitoring

SFT vs DPO vs RLHF

Training objectives, preference pairs, RLHF complexity, decision guide

Evaluation hierarchy, golden sets, LLM-as-judge, regression tests

Instruction Tuning

LIMA insight, chat templates, multi-turn, system prompts

Domain Adaptation

Two-stage approach, medical/legal/code/finance, forgetting prevention

Deployment options, quantization, vLLM, Ollama, cloud options

Production MLOps

Experiment tracking, model registry, A/B testing, monitoring, flywheel

📝 Context Engineering

10 chapters All Levels Practitioner

Building and optimizing context windows for LLM applications — context construction, compression, windowing strategies, caching, and production patterns.

Context Fundamentals

Token limits, context decay, lost-in-the-middle problem

Context Construction

Selection and ordering, relevance ranking, citation anchoring

Context Compression

Summarization, token reduction, semantic compression

Windowing Strategies

Sliding windows, hierarchical windowing, document splitting

Information Density

Signal-to-noise ratio, quality assessment, noise injection

Long Context Models

100K+ token windows, position embeddings, scaling laws

Context Caching

Prefix caching, prompt caching, cost reduction

Multi-Document Context

Document ranking, fusion strategies, conflict resolution

Context Quality Metrics

Relevance scoring, faithfulness, coverage metrics

Production Context Systems

Real-time construction, latency, cost, observability

🎨 Multimodal AI Engineering

10 chapters All Levels Practitioner

Building multimodal AI systems — vision, audio, text fusion patterns, model selection, and production pipelines for vision-language models.

Multimodal Fundamentals

Vision, audio, text fusion, encoding, alignment

Vision-Language Models

GPT-4o, Claude, Gemini capabilities and prompting

Image Processing

Tokenization, resolution, compression, token budgets

Audio Integration

Speech-to-text, audio embeddings, alignment

Model Architectures

Encoder-decoder, vision transformers, attention mechanisms

Fusion Strategies

Early fusion, late fusion, cross-modal attention

Fine-Tuning Multimodal

Data preparation, adapter tuning, multimodal LoRA

Evaluation Metrics

Vision benchmarks, alignment metrics, human assessment

Deployment Pipeline

Input preprocessing, tokenization, batching, format handling

Production Multimodal Systems

Latency, cost, caching, observability, scaling