Simon Willison’s Weblog
Quoting Andrej Karpathy
- Năm 2025, Reinforcement Learning from Verifiable Rewards (RLVR) trở thành giai đoạn chính mới trong lĩnh vực học máy.
- LLMs được đào tạo dựa trên phần thưởng có thể xác minh tự động trong nhiều môi trường khác nhau như câu đố toán học/code.
- LLMs phát triển các chiến lược được cho là giống như “lập luận” của con người.
- Chúng học cách phá vỡ vấn đề thành các phép tính trung gian.
- LLMs học một số chiến lược giải quyết vấn đề để quay vòng và tìm ra giải pháp.
- Các ví dụ cụ thể có thể xem trong bài viết DeepSeek R1.
Sam Rose explains how LLMs work with a visual essay
- Sam Rose giới thiệu cách hoạt động của LLM qua một bài luận hình ảnh.
- Sam gia nhập ngrok vào tháng 9 với vai trò giáo viên phát triển.
- Bài giải thích đầu tiên của anh ấy cho ngrok có chủ đề về cách hoạt động của prompt caching.
- Bài viết mở rộng đến tokenization, embeddings và kiến trúc transformer cơ bản.
- Đây là một trong những giới thiệu rõ ràng và dễ tiếp cận nhất về nội bộ của LLM.
Introducing GPT-5.2-Codex
- GPT-5.2-Codex là phiên bản mới nhất trong gia đình Codex của OpenAI.
- Mô hình này được tối ưu hóa cho lập trình agentic trong Codex.
- Cải tiến bao gồm khả năng làm việc dài hạn qua context compaction.
- Hiệu suất cao hơn cho các thay đổi mã lớn như refactors và migrations.
- Từ phiên bản này, hiệu suất trong môi trường Windows đã được cải thiện.
- Có khả năng an ninh mạng mạnh mẽ hơn đáng kể.
- GPT-5.2-Codex hiện có sẵn thông qua các agent Codex và sẽ ra mắt API trong vài tuần tới.
- Có quy trình preview mời chỉ dành cho các chuyên gia an ninh mạng đã được vetting cho các mô hình cho phép nhiều hơn.
- GPT-5.2-Codex đạt 64% trên benchmark Terminal-Bench 2.0, cao hơn 1.8% so với GPT-5.2.
- Người dùng đã thử nghiệm bằng cách chỉ định ký tự SVG qua Codex CLI.
Agent Skills
- Anthropic đã chuyển cơ chế skills của họ thành một “open standard”.
- Spec này hiện nằm trong kho GitHub agentskills/agentskills.
- Tài liệu specification được xuất bản trên agentskills.io/specification từ docs/specification.mdx.
- Spec rất ngắn gọn, có thể đọc trong vài phút.
- Spec bị thiếu sót nhiều, ví dụ như trường metadata cho phép lưu trữ các thuộc tính bổ sung không được định nghĩa.
- Khuyến nghị đặt tên khóa một cách độc đáo để tránh xung đột.
- Trường allowed-skills được mô tả là thử nghiệm và hỗ trợ có thể thay đổi giữa các implementation khác nhau.
- Trang chủ của Agent Skills thúc đẩy sự áp dụng bởi OpenCode, Cursor, Amp, Letta, goose, GitHub và VS Code.
- OpenAI không công bố chính thức hỗ trợ, mặc dù đang phát triển các skills.
Open Source Projects - Latest Discoveries
Run Claude, Codex and Gemini CLI commands from one tool
Push Docker images directly to remote servers without a registry
Hacker News: Best
💬 You can now play Grand Theft Auto Vice City in the browser
🔥 TikTok Deal Is the Shittiest Possible Outcome, Making Everything Worse
💬 Garage – An S3 object store so reliable you can run it outside datacenters
🔥 Hacker News front page now, but the titles are honest
🔥 GotaTun – Mullvad’s WireGuard Implementation in Rust
🔥 Amazon will allow ePub and PDF downloads for DRM-free eBooks
🔥 2026 Apple introducing more ads to increase opportunity in search results
🔥 Getting bitten by Intel’s poor naming schemes
💬 Noclip.website – A digital museum of video game levels
🔥 History LLMs: Models trained exclusively on pre-1913 texts
Automating Go App Deployment to Google Cloud Run with GitHub Actions(Free Tier)
A small UX change that immediately reduced user confusion
Title: Chinese Hacking Campaign Targets Vulnerable Cisco Customers: Understanding the Risks and Implications
What Is Gemini 3 Flash vs Alternatives: Which Is Best?
Synthetic Data Is Not About Replacing Reality. It Is About Questioning It.
The Object⏩to⏩Stream mindset shift
Automated Cloud Migrations with Kiro and the Arm MCP Server
Institutional Linkages Between Government Institutions and Traditional Leadership in Maroodi Jeex Region, Somaliland
Securing AI Agents in the Vercel AI SDK
Full-Stack Development in the AI Age: Irreplaceable Skills
The XRPL Lending Protocol (& Why It Matters)
How to Write in Markdown but Deliver in Word. A Senior Architect’s Workflow.