Grok 3 “Nổi loạn” chống lại Musk

Welcome, Growth Pioneers! 🚀

Mô hình AI Grok 3 của xAI đang gây tranh cãi khi từ chối nói về các chi tiết tiêu cực liên quan đến Trump và Musk.Claude 3.7 Sonnet (Anthropic) dẫn đầu với điểm số 76.10, vượt qua OpenAI và Google.

OpenAI ra mắt SWE-Lancer, công cụ đánh giá thực tế hiệu suất lập trình của các mô hình AI, bao gồm hơn 1.400 nhiệm vụ từ Upwork, với tổng giá trị 1 triệu USD.

Email Newsletter này sẽ đề cập:

Grok 3 “Nổi Loạn” Chống Lại Musk
Bảng xếp hạng mới nhất về các mô hình AI hàng đầu
OpenAI ra mắt SWE-Lancer: Tiêu chuẩn mới đánh giá hiệu suất lập trình của các mô hình AI

GROK 3
GROK 3 “NỔI LOẠN” CHỐNG LẠI MUSK

Nguồn: Grok 3

Mô hình AI Grok 3 của xAI đã gây tranh cãi sau khi người dùng phát hiện nó từ chối đề cập đến các chi tiết tiêu cực về cựu Tổng thống Donald Trump và Elon Musk. Điều này khiến nhiều người đặt câu hỏi về tuyên bố của Musk rằng AI này là “tối đa hóa sự thật” và không bị kiểm duyệt.

🌐 Người dùng nhận thấy Grok 3 ban đầu đưa ra các quan điểm gây tranh cãi về Donald Trump, thậm chí gọi Elon Musk là “kẻ phát tán thông tin sai lệch lớn nhất”. Kỹ sư xAI Igor Babuschkin gọi những phản hồi này là “rất kỳ lạ và là một sai lầm nghiêm trọng của mô hình”. Ngay sau đó, nhóm xAI đã vá lỗi bằng cách lập trình Grok từ chối trả lời về chủ đề này.

🚀Sau vài ngày, người dùng phát hiện Grok 3 đã được cài đặt để loại bỏ các nguồn tin có liên hệ giữa Trump, Musk và các vấn đề gây tranh cãi như thông tin sai lệch. Babuschkin tiết lộ người thực hiện việc kiểm duyệt này là một cựu nhân viên OpenAI, người mà ông cho rằng “chưa hoàn toàn hòa nhập với văn hóa của xAI”.

Cùng thời điểm, các nhân viên OpenAI cũng chỉ trích xAI vì không công khai dữ liệu đối sánh trong lần ra mắt Grok 3. Babuschkin phản bác, gọi những cáo buộc này là “hoàn toàn sai”.

Elon Musk từ lâu đã chỉ trích các nền tảng mạng xã hội và mô hình AI vì hạn chế tự do ngôn luận. Tuy nhiên, liệu đây có phải là hệ quả khi chính mô hình “tìm kiếm sự thật” của ông thách thức quan điểm của mình?

Những trường hợp kiểm duyệt như thế này, cùng với những thay đổi đề xuất về tính năng Community Notes trên X, đang dần làm lộ ra những vết nứt trong tuyên bố về sự “không thiên vị” của Musk.

LIVEBENCH AI
BẢNG XẾP HẠNG 25.2.2025 VỀ CÁC MÔ HÌNH AI HÀNG ĐẦU

Nguồn: Livebench AI

Bảng xếp hạng mới nhất về các mô hình AI cho thấy Claude 3.7 Sonnet (Anthropic) dẫn đầu với 76.10 điểm trung bình toàn cầu, vượt qua các mô hình từ OpenAI, Google, và xAI.

🔹Claude 3.7 Sonnet Thinking (Anthropic) đạt điểm cao nhất về lý luận và toàn diện nhất với điểm coding và toán học.
🔹 o3-mini-2025-01-31-high (OpenAI) có điểm coding cao nhất thể hiện sức mạnh lập trình vượt trội.
🔹Grok-3-thinking (xAI) không có điểm cho nhiều hạng mục, nhưng điểm coding chỉ đạt 67.38, thấp hơn các đối thủ.
🔹DeepSeek-R1 thể hiện tốt với 71.57 điểm trung bình, xếp trên nhiều mô hình của Google.
🔹Mô hình của Google (Gemini 2.0) nhìn chung có điểm coding thấp hơn, trong khi điểm về toán và phân tích dữ liệu khá tốt.

Các mô hình AI mới nhất đang ngày càng cạnh tranh gay gắt, với OpenAI và Anthropic dẫn đầu trong nhiều lĩnh vực. Google đang tụt lại ở mảng coding, trong khi xAI vẫn cần cải thiện để theo kịp các đối thủ.

👉 Bạn ấn tượng với mô hình nào nhất? Hãy chia sẻ suy nghĩ của bạn!

OPENAI
OPENAI RA MẮT SWE-LANCER: TIÊU CHUẨN MỚI ĐÁNH GIÁ HIỆU SUẤT LẬP TRÌNH CỦA CÁC MÔ HÌNH AI

Nguồn: OpenAI

OpenAI vừa công bố một công cụ mới có tên SWE-Lancer, được thiết kế để đánh giá hiệu suất lập trình của các mô hình AI một cách thực tế hơn. Đây là một tiêu chuẩn mới trong việc đo lường khả năng giải quyết các vấn đề lập trình của AI, đưa ra những thách thức phù hợp với môi trường làm việc thực tế.

SWE-Lancer bao gồm hơn 1.400 nhiệm vụ lập trình phần mềm freelance từ Upwork, với tổng giá trị lên đến 1 triệu USD dựa trên các khoản thanh toán thực tế.Tiêu chuẩn này cung cấp một cái nhìn sâu sắc về khả năng của các mô hình AI khi phải đối mặt với các nhiệm vụ lập trình thực tế, thay vì các bài kiểm tra lý thuyết hoặc đơn giản.

Các mô hình AI sẽ được đánh giá qua những thử thách thực tế, giúp các nhà phát triển và người sử dụng có cái nhìn chính xác về khả năng xử lý công việc lập trình của các mô hình này.

Với sự phát triển nhanh chóng của các công nghệ AI, việc đánh giá hiệu suất lập trình trong các tình huống thực tế sẽ giúp cải thiện các mô hình này để chúng ngày càng hiệu quả và thực dụng hơn trong công việc lập trình, hỗ trợ mạnh mẽ cho các nhà phát triển phần mềm và công ty.

PROMPT OF THE DAY (Prompt của ngày)
Tạo ra một thông điệp tiếp thị ngắn gọn nhưng mạnh mẽ, có sức thuyết phục và mang lại kết quả ngay lập tức với AI 📝

You are a world-class copywriter with a deep understanding of persuasion, engagement, and clarity. Your mission is to craft high-impact marketing copy for [insert product, service, or campaign] that instantly grabs attention, communicates value, and drives action. Your writing must be concise, compelling, and results-driven—designed to stop the scroll and engage the audience in seconds.
Vincent Do

Cảm ơn bạn đã lắng nghe!

Hẹn gặp bạn ở lần tới.

The AI Growth Team 😄 😄 ❤️

Blog

Grok 3 “Nổi loạn” chống lại Musk

AI Công Nghệ Và Trí Tuệ Nhân Tạo| Dùng AI để phân tích dữ liệu tài chính

Top 10 richest football players in the world by 2024

Leave your thought here Cancel reply

Blog