Simon Willison’s Weblog
Introducing Claude Sonnet 4.6
- Claude Sonnet 4.6 ra mắt hôm nay, giá là $3/million input và $15/million output tokens (so với Opus $5/$25).
- Sonnet 4.6 có “reliable knowledge cutoff” vào tháng 8 năm 2025, hơn Opus 4.6 (tháng 5) và Haiku 4.5 (tháng 2).
- Cả Opus và Sonnet đều có max input tokens mặc định là 200,000, có thể mở rộng đến 1 triệu ở chế độ beta với chi phí cao hơn.
- Phiên bản llm-anthropic 0.24 hỗ trợ cả Sonnet 4.6 và Opus 4.6.
- Sonnet 4.6 yêu thích tạo một chiếc mũ cao bồi cho hình ảnh pelican khi yêu cầu vẽ với lệnh cụ thể.
- Opus 4.5 và Opus 4.6 cũng được so sánh về chất lượng hình ảnh pelican, với Opus 4.6 được đánh giá cao hơn về chi tiết mỏ.
Rodney v0.4.0
- Phiên bản Rodney v0.4.0 vừa phát hành có nhiều tính năng mới và sửa lỗi.
- Mã thoát lỗi hiện sử dụng mã 2, trong khi mã 1 chỉ dành cho các thất bại kiểm tra (#15).
- Thêm lệnh “rodney assert” để chạy các bài kiểm tra JavaScript và trả về mã thoát 1 nếu kiểm tra thất bại (#19).
- Hỗ trợ phiên làm việc theo thư mục với các cờ –local/–global (#14).
- Các lệnh “reload –hard” và “clear-cache” được thêm vào (#17).
- Lệnh “rodney start –show” cho phép hiển thị cửa sổ trình duyệt (#13).
- Lệnh “rodney connect PORT” hỗ trợ gỡ lỗi một phiên bản Chrome đang chạy (#12).
- Thêm biến môi trường “RODNEY_HOME” cho phép tùy chỉnh thư mục trạng thái (#11).
- Cờ “–insecure” được thêm vào để bỏ qua lỗi chứng chỉ (#10).
- Hỗ trợ Windows cải thiện bằng cách tránh Setsid thông qua thẻ build-helper (#18).
- Các bài kiểm tra hiện chạy trên windows-latest và macos-latest bên cạnh Linux.
Quoting ROUGH DRAFT 8/2/66
- United Space Ship Enterprise thực hiện nhiệm vụ tuần tra 5 năm trong thiên hà.
- Tàu vũ trụ thăm các thuộc địa trên Trái Đất và quản lý thương mại.
- Tàu khám phá các thế giới và nền văn minh mới lạ.
First kākāpō chick in four years hatches on Valentine’s Day
- Chim kākāpō đầu tiên trong bốn năm đã nở vào Ngày Lễ Tình Nhân, mang tên Yasmine.
- Yasmine là con đầu tiên của mùa sinh sản kākāpō năm 2026, nâng tổng số kākāpō lên 237.
- Chim con sẽ chỉ chính thức được tính vào số lượng khi rời tổ.
- Trứng được chuyển giao cho Yasmine vì mẹ sinh học Tīwhiri đã có bốn trứng, không thích hợp nuôi nhiều con.
- Khoa học gia bảo tồn Andrew Digby thông báo thêm một chim kākāpō thứ hai đã nở sáng nay, tên là Hine Taumai-A1-2026.
- Hine Taumai-A1-2026 nở từ tổ của Ako, là chim con đầu tiên của Ako.
Quoting Dimitris Papailiopoulos
- Tôi có một “hộp ma thuật” để đưa ra câu hỏi và nhận câu trả lời gần như ngay lập tức.
- Thay vì tự làm hoặc yêu cầu sinh viên giúp đỡ, tôi giờ có thể khám phá ý tưởng mới một cách độc lập.
- Bước đầu tiên để kiểm tra một câu hỏi hiện đơn giản hơn, chỉ cần tôi, Claude Code và một vài ngày thời gian GPU.
- Sự thay đổi này có thể ảnh hưởng đến cách thức nghiên cứu trong tương lai, mặc dù chưa ai biết chắc chắn điều đó.
- Khoảng cách giữa câu hỏi và câu trả lời đầu tiên đã rút ngắn đáng kể.
Nano Banana Pro diff to webcomic
- Nathan Baschez chia sẻ cách giảm “cognitive debt” bằng cách yêu cầu LLM viết hai phiên bản kế hoạch: một cho máy (chi tiết kỹ thuật) và một cho người (bài viết giải trí).
- Baschez thử nghiệm tạo diff giữa phiên bản 0.5.0 và 0.6.0 của dự án Showboat, thêm tính năng xuất bản từ xa.
- Ông sử dụng Nano Banana Pro với yêu cầu tạo một webcomic giải thích tính năng mới rõ ràng và hấp dẫn.
- Sản phẩm từ Nano Banana Pro không đủ để công bố cùng ghi chú phát hành, nhưng thể hiện ý tưởng khám phá cách giải thích tính năng mới.
Qwen3.5: Towards Native Multimodal Agents
- Qwen3.5 vừa phát hành hai mô hình đầu tiên trong series Qwen 3.5: một mô hình với trọng số mở và một mô hình độc quyền.
- Mô hình mở trọng số là Qwen3.5-397B-A17B, sử dụng kiến trúc Mixture of Experts cho đầu vào đa phương thức với khả năng xử lý hình ảnh.
- Mô hình này có tổng cộng 397 tỷ tham số, nhưng chỉ kích hoạt 17 tỷ tham số cho mỗi lần truyền qua, tối ưu hóa tốc độ và chi phí (không làm giảm khả năng).
- Kích thước mô hình là 807GB trên Hugging Face, với bộ sưu tập GGUF nhỏ hơn từ Unsloth dao động từ 94.2GB đến 462GB.
- Mô hình độc quyền Qwen3.5 Plus được công nhận vào ngày 15 tháng 2 năm 2026, hỗ trợ tối đa 1 triệu token trong ngữ cảnh.
- Qwen3.5-Plus có khả năng tìm kiếm và diễn giải mã, sử dụng trong Qwen Chat với chế độ Tự động.
- Chất lượng của mô hình độc quyền tương tự như mô hình trọng số mở.
The Pragmatic Engineer
How Codex is built
- Hơn một triệu lập trình viên sử dụng Codex, trợ lý lập trình đa tác nhân của OpenAI, mỗi tuần.
- Sử dụng Codex đã tăng gấp 5 lần từ đầu tháng Giêng 2024.
- OpenAI ra mắt ứng dụng Codex trên desktop cho macOS vào đầu tháng Hai 2024.
- GPT-5.3-Codex được phát hành ngay sau đó, được mô tả là mô hình đầu tiên giúp tự tạo ra bản thân.
- Codex viết hơn 90% mã nguồn của ứng dụng, theo ước lượng của đội ngũ phát triển.
- Đội ngũ dữ liệu của OpenAI xây dựng “data agent” nội bộ trong hai tháng, thay vì một năm như trước đây.
- Có sự thay đổi trong quy trình kỹ thuật phần mềm, với quy tắc “30/70” và một số kỹ sư trở lại sử dụng tab-complete.
- Chuyển đổi cách OpenAI phát triển phần mềm bắt đầu từ những cuộc thử nghiệm vào cuối năm 2024.
- Cпhương thức phát triển chia làm hai nhóm: Codex Web cho giải pháp dựa trên đám mây và Codex CLI cho phát triển địa phương.
- Mục tiêu xây dựng Autonomous Software Engineer (aSWE) trở thành ưu tiên hàng đầu vào năm 2025.
- OpenAI tin rằng họ cần một kỹ sư phần mềm tự động làm việc bên cạnh các nhóm.
The Pragmatic Summit recordings and summaries
- Tất cả nội dung tại The Pragmatic Summit được tải lên từng phiên.
- Trên sân khấu chính của The Pragmatic Summit, các buổi diễn thuyết diễn ra.
- Người đăng ký trả phí có thể xem tất cả các phiên đã được tải lên tại đây.
- Bài viết này chỉ dành cho người đăng ký trả phí.
Manager.dev
The Unreachable Engineering Managers
- Logan, một EM của đội khác, không trả lời tin nhắn khi được hỏi về một vấn đề dự án.
- Thời gian trả lời tin nhắn của Logan mất vài ngày, khiến kỹ sư trong nhóm gặp khó khăn trong việc ra quyết định.
- Các EM bận rộn có thể trở thành nút thắt trong quy trình làm việc.
- Những EM kỹ thuật giỏi thường chiếm nhiều thời gian và có nhiều thông tin trong đầu nhưng lại khó tiếp cận.
- Các EM nên có trách nhiệm “giải phóng” cho người khác bằng cách trả lời nhanh chóng và không để tin nhắn tích tụ.
- Tiêu chí SLA của một EM có thể đặt ra là trả lời tin nhắn cá nhân trong vòng một giờ và kiểm tra các kênh ít nhất hai lần mỗi ngày.
- Việc phân loại kênh và điều chỉnh cách tiếp cận để giảm tải công việc cũng là cần thiết.
- EM cần xem xét xem họ có phải là người nên trả lời tin nhắn không và nếu không, ai có thể làm thay.
- Tìm kiếm cơ hội để giao quyền cho kỹ sư có thể giúp cải thiện hiệu suất làm việc của cả nhóm.
Martin Fowler
Bliki: Agentic Email
- Nhiều người đang thiết lập LLM agents để quản lý email và giao tiếp.
- LLM có quyền truy cập vào tài khoản email của người dùng, quyết định email nào cần bỏ qua, soạn thảo và phản hồi email tự động.
- Email chứa nhiều thông tin nhạy cảm, và LLM đang phải đối mặt với rủi ro an ninh lớn.
- Quy trình khôi phục mật khẩu thường dựa vào email, tạo ra khả năng cho kẻ tấn công chiếm quyền kiểm soát tài khoản.
- Một phương án an toàn hơn là đặt LLM trong môi trường giới hạn, chỉ cho phép quyền truy cập đọc email, không kết nối internet.
- LLM có thể soạn thảo email nhưng phải gửi cho con người xem xét, giảm thiểu rủi ro.
- Doanh nghiệp cần hiểu rõ rủi ro khi sử dụng LLM agents cho email và chịu trách nhiệm về hậu quả.
Harness Engineering
- OpenAI phát triển “Harness engineering” với hơn 1 triệu dòng mã sử dụng AI agents mà không cần gõ mã tay (cho thấy sự sáng tạo trong phát triển sản phẩm).
- Các thành phần trong harness gồm:
- Context engineering: Nâng cao cơ sở kiến thức và cho agents truy cập vào ngữ cảnh động.
- Architectural constraints: Được giám sát bằng agents LLM và các công cụ kiểm tra tùy chỉnh.
- Garbage collection: Agents kiểm tra định kỳ để phát hiện không nhất quán và vi phạm quy tắc kiến trúc.
- Khi agent gặp khó khăn, nhóm phát triển sử dụng tín hiệu này để cải tiến mã nguồn bằng Codex.
- Mặc dù tập trung vào chất lượng và khả năng duy trì, bài viết thiếu thông tin về việc xác minh chức năng và hành vi.
- Khả năng harness có thể trở thành mẫu dịch vụ trong tương lai giúp đội ngũ phát triển khởi đầu nhanh chóng (dựa trên các mẫu dịch vụ hiện tại).
- Sự tự động hóa AI có thể hạn chế lựa chọn công nghệ, vì độ tin cậy đòi hỏi không gian giải pháp phải được kiểm soát.
- Mô hình kiến trúc ổn định và quy tắc phản ánh tầm quan trọng trong việc duy trì khả năng kiểm soát của AI.
- Có thể các cấu trúc đơn giản hơn sẽ được ưa chuộng để dễ dàng duy trì bằng AI.
- Hai thế giới tương lai: Bảo trì ứng dụng trước và sau AI, với sự chuyển dịch về cách giữ cho mã nguồn hoạt động ổn định.
Open Source Projects - Latest Discoveries
One fluent Laravel API for OpenAI Anthropic Gemini and more
The open-source messaging platform for friends groups and communities
Day 16 of #100DaysOfCode — Routing in React
Exciting New Features and Enhancements in Our Latest Update
Accelerating Multimodal Vector DB with Hugging Face + LanceDB
Day 5 — Intentionally Building and Breaking an SSTI Vulnerability (Flask + Jinja2)
“Own the Stack” - The Right Platform is Key
Leetcode 693 Easy Explanation
🎮 Gamified Recertification: My Experience with AWS Cloud Quest
⚡ Beginner-Friendly Guide ‘Binary Number with Alternating Bits’ - Leetcode 693 (C++, Python, JavaScript)
Mohamed Farah Tahar Analyzes the Crippling Impact of Tribalism on Africa’s Development
Building a Modern Portfolio with Tailwind CSS v4, React, and Vite
You Don’t Need a Mac mini to Run OpenClaw: VPS‑First Agent Ops for Everyday Devs
Your MCP Tools Are a Backdoor
Hacker News: Launches
💬 Launch HN: Sonarly (YC W26) – AI agent to triage and fix your production alerts
Hacker News: Best
💬 Show HN: AsteroidOS 2.0 – Nobody asked, we shipped anyway
🔥 Tesla ‘Robotaxi’ adds 5 more crashes in Austin in a month – 4x worse than humans
🔥 Claude Sonnet 4.6
💬 Gentoo on Codeberg
💬 Thank HN: You helped save 33k lives
🔥 HackMyClaw
💬 Using go fix to modernize Go code
🔥 CBS didn’t air Rep. James Talarico interview out of fear of FCC
🔥 Semantic ablation: Why AI writing is generic and boring
🔥 Is Show HN dead? No, but it’s drowning
LLM-generated skills work, if you generate them afterwards
Daring Fireball
Apple Invites Media to Special ‘Experience’ in New York, London, and Shanghai on March 4
★ Apple Releases iOS 26 Adoption Rates, and They’re Pretty Much in Line With the Last Few Years
How to Force Restart an iPhone
Pluralistic: Daily links from Cory Doctorow
Pluralistic: What’s a “gig work minimum wage” (17 Feb 2026)
Terence Eden’s Blog
Gadget Review: Epomaker Split 70 Mechanical Keyboard ★★★★⯪
The Old New Thing
Microspeak: Escrow
It rather involved being on the other side of the airtight hatchway: Tricking(?) a program into reading files
Andrew Nesbitt
Platform Strings
Entropic Thoughts
Learning KeyBee
The Silicon Underground
First BBS goes online Feb. 16, 1978
Bert Hubert’s writings
De digitale coalitieplannen: gaat het ook echt gebeuren?
Dr Paris Buttfield-Addison
The New Try Yarn Spinner
Troy Hunt
Weekly Update 491
Experimental History
I swear the UFO is coming any minute