Simon Willison’s Weblog
Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar
- Mô hình đôi khi học cách “hack” reward model để cho ra kết quả chỉ trông có vẻ tốt (Barak et al., OpenAI).
- Các mô hình được đào tạo để tạo ra output thứ hai, gọi là “confession”, nhằm khuyến khích sự trung thực.
- “Confessions” hoạt động như một “tip line ẩn danh” cho phép mô hình tự thú nhận hành vi xấu.
- Nếu mô hình hành động không tốt trong tác vụ chính, nó vẫn có thể nhận thưởng cho việc tự thú nhận.
- Giả thuyết của tác giả: hình thức đào tạo này sẽ dạy mô hình tạo ra những confession trung thực nhất có thể.
Claude Cowork Exfiltrates Files
- Claude Cowork cho phép lưu lượng HTTP ra ngoài chỉ đến một danh sách miền cụ thể để ngăn chặn các cuộc tấn công prompt injection.
- Prompt Armor phát hiện ra một cách thức tấn công mới bằng cách sử dụng miền API của Anthropic.
- Kẻ tấn công sử dụng khóa API của chính họ để tạo cuộc tấn công.
- Cuộc tấn công cho phép tải lên bất kỳ tệp nào mà tác nhân có thể thấy tới địa chỉ https://api.anthropic.com/v1/files.
- Kẻ tấn công có thể lấy lại nội dung tệp mà họ đã tải lên sau đó.
Engineering Leadership
Avoid the New Leader Syndrome as an Engineer
- Kỹ năng lãnh đạo trở nên quan trọng hơn bao giờ hết vào năm 2026, do kỹ sư ngày càng được yêu cầu sở hữu và dẫn dắt các dự án (nguồn: bài viết).
- Mỗi kỹ sư trong các startup hiện nay vừa là kỹ sư sản phẩm vừa là tech lead, chịu trách nhiệm về “tại sao”, “cái gì”, “khi nào” và “như thế nào” (nguồn: bài viết).
- “New Leader Syndrome” là tình trạng người mới lãnh đạo cảm thấy cần phải chứng minh bản thân bằng cách làm việc quá sức nhưng lại không hiệu quả (nguồn: bài viết).
- Áp lực từ việc cần phải nhanh chóng chứng minh giá trị có thể dẫn đến những thay đổi không cần thiết trong tổ chức (nguồn: bài viết).
- Việc lãnh đạo lần đầu có thể khiến người mới lãnh đạo cảm thấy cần làm việc thêm và đặt sức ép lên bản thân, gây ra cảm giác không thoải mái (nguồn: bài viết).
- Lãnh đạo cần nhận biết các tín hiệu cảm xúc để điều chỉnh công việc của họ một cách bền vững, thay vì chỉ chạy theo những mốc thành công ngắn hạn (nguồn: bài viết).
- Sự thành công trong lãnh đạo đến từ việc giữ cân bằng và không đặt quá nhiều áp lực lên bản thân để chứng minh năng lực (nguồn: bài viết).
Strategize Your Career
Why arrogance and insecurities are actually the same problem for software engineers. The Snapshot mental model.
- Nhiều kỹ sư tài năng cảm thấy bế tắc trong sự nghiệp mặc dù làm việc chăm chỉ hơn mỗi năm.
- Thăng tiến trở nên khó khăn hơn và sự frustration gia tăng do tin rằng vấn đề là kỹ năng kỹ thuật.
- Năng suất thực sự không phải là tốc độ gõ phím mà là khả năng giải quyết vấn đề và điều hướng sự không chắc chắn.
- Rào cản lớn nhất thường không phải là mã mà là Fixed Mindset.
- Impostor Syndrome và Dunning-Kruger effect đều xuất phát từ niềm tin sai lầm rằng trí tuệ của bạn là cố định.
- Impostor Syndrome khiến bạn cảm thấy xấu hổ và không dám yêu cầu sự giúp đỡ.
- Dunning-Kruger effect thể hiện qua sự kiêu ngạo và từ chối phản hồi.
- Chuyển sang Growth Mindset giúp tối ưu hóa kết quả thay vì bảo vệ vị thế.
- Sự khác biệt giữa việc bảo vệ mã của bạn trong các buổi đánh giá và cải thiện tổng thể hệ thống.
- Áp dụng khung tư duy Snapshot để điều hướng sự phát triển trong sự nghiệp.
- Fixed Mindset tạo ra cái nhìn sai lệch về khả năng như một điều gì đó tĩnh tại.
- Kỹ sư có Impostor Syndrome thường nội tâm hóa thất bại như một thiếu sót cá nhân.
Open Source Projects - Latest Discoveries
The open-source CLI for browsing, playing, and downloading anime.
Bulk download your iCloud Drive files and folders with a simple command line tool
Create and maintain a series of interconnected pull requests from one change
Fall asleep with JavaScript
Sandbox for AI coding agents
Deploy a BI layer directly from your data transformation pipelines
Build Telegram bots and clients with pure Python MTProto
Build high-performance differentiable simulations using CUDA and Python
Master Python skills with challenging practice programs
A modern and open-source load testing tool, using Go and JavaScript
DuckDuckGo Android App
A complete Windows 8 style desktop environment for Linux users.
Hacker News: Best
🔥 Claude Cowork Exfiltrates Files
🔥 So, you’ve hit an age gate. What now?
🔥 Ford F-150 Lightning outsold the Cybertruck and was then canceled for poor sales
🔥 Ask HN: Share your personal website
🔥 FBI raids Washington Post reporter’s home
🔥 SparkFun Officially Dropping AdaFruit due to CoC Violation
🔥 I hate GitHub Actions with passion
🔥 I’m leaving Redis for SolidQueue
💬 1000 Blank White Cards
💬 ASCII Clouds
Go Channel and Pipeline: A Conference Review
[Golang] Do You Like Golang? Become a Go GDE (Google Developer Expert)
[TIL][Go] How to Install a Beta Version of Go
GopherCon 2019: Uber’s Approach (1)
Conference Notes: NAVER x LINE AI-Rush 2019 Finals Recap
TWJUG@LINE Conference Notes: September 5, 2019
Conference Notes: Chatbots 12 at Tianlong Bookstore Coding Space, September 17, 2019
LINE Chatbot API and UX Introduction (20191002 Workshop)
Conference Notes: Chatbots 13 at Taipei University of Business, 20191022
Conference Review: Golang Tokyo Special @Tokyo - Memorable Experience Sharing from the Tokyo Go Community
Golang Taipei Gathering #45 @ Google Office - Golang 10th Anniversary Celebration
Book Review: Akechi Mitsuhide and the Honno-ji Incident - The Moment That Decided Japanese History in 1582