Sếp không quan tâm SQL ntn họ chỉ cần câu trả lời - và Text2Sql là câu trả lời

Công nghệ - 22/12/2025 16:56:06

Nếu năm 2025 rồi mà bạn vẫn tự hào vì viết SQL query tay nhanh hơn AI, thì vấn đề không nằm ở AI => Vấn đề nằm ở tư duy của bạn.

Ở những năm 2000, khi viết một câu lệnh SQL Stored Procedure dài 500 dòng là niềm tự hào của một backend developer. Chúng ta tối ưu từng cái index, nâng niu từng câu JOIN. Nhưng gần đây, tôi nhận ra một sự thật phũ phàng: Ông sếp lưỡi không lông của tôi không quan tâm đến SQL của bạn đẹp thế nào. Hắn chỉ quan tâm đến Dữ Liệu.

Hắn muốn hỏi: "Doanh thu tháng này so với cùng kỳ năm ngoái thế nào?"và ếch muốn chờ tôi export report, quần quật mất 3 ngày 3 đêm.

Đó là lý do Text-to-SQL Agent ra đời. Và nếu bạn nghĩ đây là sân chơi riêng của Python, thì hãy để tôi, một coder chỉ biết tới .NET lại muốn chứng minh rằng: .NET vẫn là "chân ái" cho hệ thống của chúng tôi.

Tại sao lại là Agent chứ không phải Prompt đơn thuần?

Nhiều bạn sẽ hỏi: "Chỉ cần ném schema vào ChatGPT là nó viết được SQL mà?"

Đúng, nhưng chưa đủ. Để tối ưu hệ thống dữ liệu lớn, và tránh tình trạng rất dễ gặp ảo giác. Nó có thể bịa ra tên bảng, sai cú pháp SQL, mà bạn có thể mất vài tiếng để review và debug hoặc nguy hiểm hơn là tạo ra các truy vấn "quét sạch" database của bạn.

Và chốt lại một AI Agent viết bằng .NET sẽ hoạt động như một "kỹ sư ảo" với quy trình suy nghĩ (Chain of Thought):

Hiểu ý định: Phân tích câu hỏi tự nhiên.
Tra cứu Schema: Chỉ lấy những bảng liên quan (RAG).
Viết SQL: Tạo câu lệnh.
Tự kiểm tra (Self-Correction): Chạy thử -> Lỗi -> Tự sửa lại -> Chạy lại.
Giải thích: Trả về kết quả kèm giải thích dễ hiểu.

Microsoft Semantic Kernel + .NET

Python có LangChain, và phía .net chúng ta có Semantic Kernel (SK). Đây là SDK mã nguồn mở của Microsoft giúp tích hợp LLM vào code C# một cách mượt mà như cách chúng ta dùng Dependency Injection vậy.

Tại sao tôi chọn stack này, dưới đây là một vài key-point:

Strongly Typed: An toàn hơn khi xử lý dữ liệu nhạy cảm.
Performance: .NET 10 có hiệu năng xử lý JSON và text cực cao.
Ecosystem: Dễ dàng tích hợp với Entity Framework Core để lấy metadata của database.

Kiến trúc Text-to-SQL Agent tối ưu (Best Practices)

Để xây dựng một Agent "thông minh" và an toàn, tôi đề xuất kiến trúc sau dựa trên các nghiên cứu từ Microsoft Learn và kinh nghiệm thực tế:

Bước 1: RAG cho Metadata của thông tin bảng

Chúng ta sẽ không ném cả 100 bảng vào Prompt (tốn token và gây nhiễu), hãy liệt kê danh sách bảng, sau đó dùng Vector Search để tìm ra 5-10 bảng liên quan nhất đến câu hỏi của người dùng.

Bước 2: The "Planner" (Bộ não của Agent)

Sử dụng Function Calling trong Semantic Kernel. Chúng ta định nghĩa các hàm như GetTableSchema, ExecuteQuery (read-only), CorrectSyntax. Agent sẽ tự biết khi nào cần gọi hàm nào.

Một tip nhỏ tôi hay dùng để chuẩn hóa câu prompt bằng cách cung cấp cho Agent một vài ví dụ mẫu (kỹ thuật Few-shot prompting) về cách database của bạn được tổ chức. Ví dụ: "Bảng 'Orders' liên kết với 'Users' qua 'CustomerId', không phải 'UserId'".

Bước 3: Vòng lặp sửa lỗi (The Feedback Loop)

Đây là điểm ăn tiền. Nếu SQL sinh ra bị lỗi runtime, Agent sẽ bắt lỗi đó (exception), đọc thông báo lỗi, và viết lại câu lệnh mới. Đây là tư duy của một Senior Dev được codify vào AI.

Vấn đề cốt tử khi sử dụng AI: bảo mật & ảo giác

Nếu bạn là người làm hệ thống lão luyện, bạn sẽ không bao giờ tin tưởng hoàn toàn vào đầu vào từ người dùng hay đầu ra của AI.

Read-Only User: Tuyệt đối chỉ cho Agent kết nối DB bằng user có quyền SELECT. Không bao giờ cấp quyền DROP hay UPDATE.
Human in the Loop: Trước khi chạy câu lệnh, hãy hiện SQL và giải thích cho người dùng xác nhận (với các query phức tạp).
SQL Injection: Dù AI viết query, hãy luôn yêu cầu sử dụng tham số hóa nếu có thể, hoặc validate query qua một lớp logic trung gian.

Mỳ ăn liền: code đây

Đây là phần 'thịt' của vấn đề. Dưới đây là cách tôi dựng khung sườn cho một SQL Agent sử dụng .NET 8 và Semantic Kernel. Chú ý cách chúng ta dùng Description attribute để 'dạy' AI hiểu về code của mình.

1. Định nghĩa "Tools" cho Agent

Đây là nơi chúng ta biến các hàm C# thành công cụ mà AI có thể gọi.

2. Cấu hình "Brain" cho Agent

Đây là đoạn code kết nối Azure OpenAI và kích hoạt chế độ tự động suy luận (Auto Function Calling).

AI sẽ tự động:

1. Gọi GetDatabaseSchemaAsync() -> lấy thông tin bảng
2. Tự suy luận và viết query: SELECT SUM(TotalAmount) FROM Orders...
3. Gọi ExecuteQueryAsync() -> lấy số liệu
4. Trả lời người dùng bằng ngôn ngữ tự nhiên.

Một số lưu ý:

Prompt Engineering trong Code: Hãy chú ý phần Description trong các Attribute. Đó chính là prompt bạn gửi cho AI. Viết càng rõ ràng, AI chọn tool càng chuẩn.
Security: chúng ta luôn bọc lớp ExecuteQueryAsync bằng một Validator riêng để chặn SQL Injection và các lệnh DDL (Drop/Alter) trước khi lệnh được gửi xuống Database, đồng thời cấu hình trong database, account này chỉ được thực hiện SELECT
Dependency Injection: Semantic Kernel hỗ trợ DI tiêu chuẩn của .NET, nên việc tích hợp vào ASP.NET Core WebAPI là chuyện nhỏ.

Kết luận: Vẫn còn nhiều cơ hội cho .NET Developer chứ

Công nghệ không chờ đợi ai. Việc xây dựng Text-to-SQL Agent không chỉ là tạo ra một tính năng "cool ngầu", mà là trao quyền dữ liệu (Data Democratization).

Là .NET Developer, bạn đang nắm trong tay những công cụ mạnh mẽ nhất (C#, Azure OpenAI, Semantic Kernel). Đừng để rào cản ngôn ngữ lập trình khiến bạn nghĩ rằng AI chỉ dành cho Python. Hãy bắt đầu ngay hôm nay!

Dành cho các bạn muốn đào sâu vào kiến trúc, các tài liệu này của Microsoft giải thích rất kỹ: