daily-digest

Simon Willison’s Weblog

Introducing Claude Sonnet 4.6

Claude Sonnet 4.6 ra mắt hôm nay, giá là $3/million input và $15/million output tokens (so với Opus $5/$25).
Sonnet 4.6 có “reliable knowledge cutoff” vào tháng 8 năm 2025, hơn Opus 4.6 (tháng 5) và Haiku 4.5 (tháng 2).
Cả Opus và Sonnet đều có max input tokens mặc định là 200,000, có thể mở rộng đến 1 triệu ở chế độ beta với chi phí cao hơn.
Phiên bản llm-anthropic 0.24 hỗ trợ cả Sonnet 4.6 và Opus 4.6.
Sonnet 4.6 yêu thích tạo một chiếc mũ cao bồi cho hình ảnh pelican khi yêu cầu vẽ với lệnh cụ thể.
Opus 4.5 và Opus 4.6 cũng được so sánh về chất lượng hình ảnh pelican, với Opus 4.6 được đánh giá cao hơn về chi tiết mỏ.

Rodney v0.4.0

Phiên bản Rodney v0.4.0 vừa phát hành có nhiều tính năng mới và sửa lỗi.
Mã thoát lỗi hiện sử dụng mã 2, trong khi mã 1 chỉ dành cho các thất bại kiểm tra (#15).
Thêm lệnh “rodney assert” để chạy các bài kiểm tra JavaScript và trả về mã thoát 1 nếu kiểm tra thất bại (#19).
Hỗ trợ phiên làm việc theo thư mục với các cờ –local/–global (#14).
Các lệnh “reload –hard” và “clear-cache” được thêm vào (#17).
Lệnh “rodney start –show” cho phép hiển thị cửa sổ trình duyệt (#13).
Lệnh “rodney connect PORT” hỗ trợ gỡ lỗi một phiên bản Chrome đang chạy (#12).
Thêm biến môi trường “RODNEY_HOME” cho phép tùy chỉnh thư mục trạng thái (#11).
Cờ “–insecure” được thêm vào để bỏ qua lỗi chứng chỉ (#10).
Hỗ trợ Windows cải thiện bằng cách tránh Setsid thông qua thẻ build-helper (#18).
Các bài kiểm tra hiện chạy trên windows-latest và macos-latest bên cạnh Linux.

Quoting ROUGH DRAFT 8/2/66

United Space Ship Enterprise thực hiện nhiệm vụ tuần tra 5 năm trong thiên hà.
Tàu vũ trụ thăm các thuộc địa trên Trái Đất và quản lý thương mại.
Tàu khám phá các thế giới và nền văn minh mới lạ.

First kākāpō chick in four years hatches on Valentine’s Day

Chim kākāpō đầu tiên trong bốn năm đã nở vào Ngày Lễ Tình Nhân, mang tên Yasmine.
Yasmine là con đầu tiên của mùa sinh sản kākāpō năm 2026, nâng tổng số kākāpō lên 237.
Chim con sẽ chỉ chính thức được tính vào số lượng khi rời tổ.
Trứng được chuyển giao cho Yasmine vì mẹ sinh học Tīwhiri đã có bốn trứng, không thích hợp nuôi nhiều con.
Khoa học gia bảo tồn Andrew Digby thông báo thêm một chim kākāpō thứ hai đã nở sáng nay, tên là Hine Taumai-A1-2026.
Hine Taumai-A1-2026 nở từ tổ của Ako, là chim con đầu tiên của Ako.

Quoting Dimitris Papailiopoulos

Tôi có một “hộp ma thuật” để đưa ra câu hỏi và nhận câu trả lời gần như ngay lập tức.
Thay vì tự làm hoặc yêu cầu sinh viên giúp đỡ, tôi giờ có thể khám phá ý tưởng mới một cách độc lập.
Bước đầu tiên để kiểm tra một câu hỏi hiện đơn giản hơn, chỉ cần tôi, Claude Code và một vài ngày thời gian GPU.
Sự thay đổi này có thể ảnh hưởng đến cách thức nghiên cứu trong tương lai, mặc dù chưa ai biết chắc chắn điều đó.
Khoảng cách giữa câu hỏi và câu trả lời đầu tiên đã rút ngắn đáng kể.

Nano Banana Pro diff to webcomic

Nathan Baschez chia sẻ cách giảm “cognitive debt” bằng cách yêu cầu LLM viết hai phiên bản kế hoạch: một cho máy (chi tiết kỹ thuật) và một cho người (bài viết giải trí).
Baschez thử nghiệm tạo diff giữa phiên bản 0.5.0 và 0.6.0 của dự án Showboat, thêm tính năng xuất bản từ xa.
Ông sử dụng Nano Banana Pro với yêu cầu tạo một webcomic giải thích tính năng mới rõ ràng và hấp dẫn.
Sản phẩm từ Nano Banana Pro không đủ để công bố cùng ghi chú phát hành, nhưng thể hiện ý tưởng khám phá cách giải thích tính năng mới.

Qwen3.5: Towards Native Multimodal Agents

Qwen3.5 vừa phát hành hai mô hình đầu tiên trong series Qwen 3.5: một mô hình với trọng số mở và một mô hình độc quyền.
Mô hình mở trọng số là Qwen3.5-397B-A17B, sử dụng kiến trúc Mixture of Experts cho đầu vào đa phương thức với khả năng xử lý hình ảnh.
Mô hình này có tổng cộng 397 tỷ tham số, nhưng chỉ kích hoạt 17 tỷ tham số cho mỗi lần truyền qua, tối ưu hóa tốc độ và chi phí (không làm giảm khả năng).
Kích thước mô hình là 807GB trên Hugging Face, với bộ sưu tập GGUF nhỏ hơn từ Unsloth dao động từ 94.2GB đến 462GB.
Mô hình độc quyền Qwen3.5 Plus được công nhận vào ngày 15 tháng 2 năm 2026, hỗ trợ tối đa 1 triệu token trong ngữ cảnh.
Qwen3.5-Plus có khả năng tìm kiếm và diễn giải mã, sử dụng trong Qwen Chat với chế độ Tự động.
Chất lượng của mô hình độc quyền tương tự như mô hình trọng số mở.

The Pragmatic Engineer

How Codex is built

Hơn một triệu lập trình viên sử dụng Codex, trợ lý lập trình đa tác nhân của OpenAI, mỗi tuần.
Sử dụng Codex đã tăng gấp 5 lần từ đầu tháng Giêng 2024.
OpenAI ra mắt ứng dụng Codex trên desktop cho macOS vào đầu tháng Hai 2024.
GPT-5.3-Codex được phát hành ngay sau đó, được mô tả là mô hình đầu tiên giúp tự tạo ra bản thân.
Codex viết hơn 90% mã nguồn của ứng dụng, theo ước lượng của đội ngũ phát triển.
Đội ngũ dữ liệu của OpenAI xây dựng “data agent” nội bộ trong hai tháng, thay vì một năm như trước đây.
Có sự thay đổi trong quy trình kỹ thuật phần mềm, với quy tắc “30/70” và một số kỹ sư trở lại sử dụng tab-complete.
Chuyển đổi cách OpenAI phát triển phần mềm bắt đầu từ những cuộc thử nghiệm vào cuối năm 2024.
Cпhương thức phát triển chia làm hai nhóm: Codex Web cho giải pháp dựa trên đám mây và Codex CLI cho phát triển địa phương.
Mục tiêu xây dựng Autonomous Software Engineer (aSWE) trở thành ưu tiên hàng đầu vào năm 2025.
OpenAI tin rằng họ cần một kỹ sư phần mềm tự động làm việc bên cạnh các nhóm.

The Pragmatic Summit recordings and summaries

Tất cả nội dung tại The Pragmatic Summit được tải lên từng phiên.
Trên sân khấu chính của The Pragmatic Summit, các buổi diễn thuyết diễn ra.
Người đăng ký trả phí có thể xem tất cả các phiên đã được tải lên tại đây.
Bài viết này chỉ dành cho người đăng ký trả phí.

Manager.dev

The Unreachable Engineering Managers

Logan, một EM của đội khác, không trả lời tin nhắn khi được hỏi về một vấn đề dự án.
Thời gian trả lời tin nhắn của Logan mất vài ngày, khiến kỹ sư trong nhóm gặp khó khăn trong việc ra quyết định.
Các EM bận rộn có thể trở thành nút thắt trong quy trình làm việc.
Những EM kỹ thuật giỏi thường chiếm nhiều thời gian và có nhiều thông tin trong đầu nhưng lại khó tiếp cận.
Các EM nên có trách nhiệm “giải phóng” cho người khác bằng cách trả lời nhanh chóng và không để tin nhắn tích tụ.
Tiêu chí SLA của một EM có thể đặt ra là trả lời tin nhắn cá nhân trong vòng một giờ và kiểm tra các kênh ít nhất hai lần mỗi ngày.
Việc phân loại kênh và điều chỉnh cách tiếp cận để giảm tải công việc cũng là cần thiết.
EM cần xem xét xem họ có phải là người nên trả lời tin nhắn không và nếu không, ai có thể làm thay.
Tìm kiếm cơ hội để giao quyền cho kỹ sư có thể giúp cải thiện hiệu suất làm việc của cả nhóm.

Martin Fowler

Bliki: Agentic Email

Nhiều người đang thiết lập LLM agents để quản lý email và giao tiếp.
LLM có quyền truy cập vào tài khoản email của người dùng, quyết định email nào cần bỏ qua, soạn thảo và phản hồi email tự động.
Email chứa nhiều thông tin nhạy cảm, và LLM đang phải đối mặt với rủi ro an ninh lớn.
Quy trình khôi phục mật khẩu thường dựa vào email, tạo ra khả năng cho kẻ tấn công chiếm quyền kiểm soát tài khoản.
Một phương án an toàn hơn là đặt LLM trong môi trường giới hạn, chỉ cho phép quyền truy cập đọc email, không kết nối internet.
LLM có thể soạn thảo email nhưng phải gửi cho con người xem xét, giảm thiểu rủi ro.
Doanh nghiệp cần hiểu rõ rủi ro khi sử dụng LLM agents cho email và chịu trách nhiệm về hậu quả.

Harness Engineering

OpenAI phát triển “Harness engineering” với hơn 1 triệu dòng mã sử dụng AI agents mà không cần gõ mã tay (cho thấy sự sáng tạo trong phát triển sản phẩm).
Các thành phần trong harness gồm:
- Context engineering: Nâng cao cơ sở kiến thức và cho agents truy cập vào ngữ cảnh động.
- Architectural constraints: Được giám sát bằng agents LLM và các công cụ kiểm tra tùy chỉnh.
- Garbage collection: Agents kiểm tra định kỳ để phát hiện không nhất quán và vi phạm quy tắc kiến trúc.
Khi agent gặp khó khăn, nhóm phát triển sử dụng tín hiệu này để cải tiến mã nguồn bằng Codex.
Mặc dù tập trung vào chất lượng và khả năng duy trì, bài viết thiếu thông tin về việc xác minh chức năng và hành vi.
Khả năng harness có thể trở thành mẫu dịch vụ trong tương lai giúp đội ngũ phát triển khởi đầu nhanh chóng (dựa trên các mẫu dịch vụ hiện tại).
Sự tự động hóa AI có thể hạn chế lựa chọn công nghệ, vì độ tin cậy đòi hỏi không gian giải pháp phải được kiểm soát.
Mô hình kiến trúc ổn định và quy tắc phản ánh tầm quan trọng trong việc duy trì khả năng kiểm soát của AI.
Có thể các cấu trúc đơn giản hơn sẽ được ưa chuộng để dễ dàng duy trì bằng AI.
Hai thế giới tương lai: Bảo trì ứng dụng trước và sau AI, với sự chuyển dịch về cách giữ cho mã nguồn hoạt động ổn định.

daily-digest

Simon Willison’s Weblog

The Pragmatic Engineer

Manager.dev

Martin Fowler

Open Source Projects - Latest Discoveries

DEV Community

Hacker News: Launches

Hacker News: Best

🍵 seangoedecke.com RSS feed

Daring Fireball

Pluralistic: Daily links from Cory Doctorow

Terence Eden’s Blog

The Old New Thing

Andrew Nesbitt

Entropic Thoughts

The Silicon Underground

Bert Hubert’s writings

Dr Paris Buttfield-Addison

Troy Hunt

Experimental History