daily-digest

Năm 2025, Reinforcement Learning from Verifiable Rewards (RLVR) trở thành giai đoạn chính mới trong lĩnh vực học máy.
LLMs được đào tạo dựa trên phần thưởng có thể xác minh tự động trong nhiều môi trường khác nhau như câu đố toán học/code.
LLMs phát triển các chiến lược được cho là giống như “lập luận” của con người.
Chúng học cách phá vỡ vấn đề thành các phép tính trung gian.
LLMs học một số chiến lược giải quyết vấn đề để quay vòng và tìm ra giải pháp.
Các ví dụ cụ thể có thể xem trong bài viết DeepSeek R1.

Sam Rose giới thiệu cách hoạt động của LLM qua một bài luận hình ảnh.
Sam gia nhập ngrok vào tháng 9 với vai trò giáo viên phát triển.
Bài giải thích đầu tiên của anh ấy cho ngrok có chủ đề về cách hoạt động của prompt caching.
Bài viết mở rộng đến tokenization, embeddings và kiến trúc transformer cơ bản.
Đây là một trong những giới thiệu rõ ràng và dễ tiếp cận nhất về nội bộ của LLM.

GPT-5.2-Codex là phiên bản mới nhất trong gia đình Codex của OpenAI.
Mô hình này được tối ưu hóa cho lập trình agentic trong Codex.
Cải tiến bao gồm khả năng làm việc dài hạn qua context compaction.
Hiệu suất cao hơn cho các thay đổi mã lớn như refactors và migrations.
Từ phiên bản này, hiệu suất trong môi trường Windows đã được cải thiện.
Có khả năng an ninh mạng mạnh mẽ hơn đáng kể.
GPT-5.2-Codex hiện có sẵn thông qua các agent Codex và sẽ ra mắt API trong vài tuần tới.
Có quy trình preview mời chỉ dành cho các chuyên gia an ninh mạng đã được vetting cho các mô hình cho phép nhiều hơn.
GPT-5.2-Codex đạt 64% trên benchmark Terminal-Bench 2.0, cao hơn 1.8% so với GPT-5.2.
Người dùng đã thử nghiệm bằng cách chỉ định ký tự SVG qua Codex CLI.

Anthropic đã chuyển cơ chế skills của họ thành một “open standard”.
Spec này hiện nằm trong kho GitHub agentskills/agentskills.
Tài liệu specification được xuất bản trên agentskills.io/specification từ docs/specification.mdx.
Spec rất ngắn gọn, có thể đọc trong vài phút.
Spec bị thiếu sót nhiều, ví dụ như trường metadata cho phép lưu trữ các thuộc tính bổ sung không được định nghĩa.
Khuyến nghị đặt tên khóa một cách độc đáo để tránh xung đột.
Trường allowed-skills được mô tả là thử nghiệm và hỗ trợ có thể thay đổi giữa các implementation khác nhau.
Trang chủ của Agent Skills thúc đẩy sự áp dụng bởi OpenCode, Cursor, Amp, Letta, goose, GitHub và VS Code.
OpenAI không công bố chính thức hỗ trợ, mặc dù đang phát triển các skills.