1. Machine Learning
Machine Learning (viết tắt là ML): hiểu đơn giản là kỹ thuật giúp máy học một thứ gì đó từ dữ liệu nó được cung cấp. Cách tốt nhất để hiểu một vấn đề là đi thẳng vào ví dụ thực tế như sau:
Ví dụ hãy viết 1 chương trình dự đoán giá bất động sản dựa trên tập dữ liệu thực tế giả sử như sau:
Diện tích | Giá |
---|---|
1 tỷ | |
2.5 tỷ | |
4 tỷ | |
6 tỷ |
Cách tiếp cận truyền thống
Thì bằng cách nào đó bạn phải có công thức trước rồi mới lập trình cho máy tính toán ví dụ:
- Phải xác định trước tham số a, b
- Khó áp dụng vì có nhiều yếu tố ảnh hưởng:
- Loại nhà (mặt đất/chung cư)
- Vị trí (gần trường học, bệnh viện, chợ)
- Các tiện ích xung quanh
Cách tiếp cận ML
Sử dụng công thức phức tạp hơn:
Trong đó:
- y: giá nhà
- x₁, x₂, ...: các yếu tố ảnh hưởng
- a₀, a₁, ...: các tham số cần tìm qua hồi quy tuyến tính
AI Models hiện đại
Các mô hình AI nổi tiếng:
- GPT (OpenAI)
- Claude (Anthropic)
- Gemini (Google)
Đặc điểm:
- Được huấn luyện trên dữ liệu khổng lồ từ internet
- Chỉ các công ty lớn mới có đủ:
- Nguồn dữ liệu
- Sức mạnh phần cứng
- Khả năng huấn luyện và triển khai
Neural Networks (Mạng nơ Ron)
Mạng nơ-ron này bao gồm các lớp cụ thể chia thành 3 loại:
- Lớp đầu vào: Input layer ở lớp này thì dữ liệu đầu vào được biến đổi thành dạng số mỗi nốt xanh biểu thị cho một số tương ứng hay còn gọi là các tokens (mã hoá)
- Các Hidden layers (các lớp ẩn), các nốt (Neurons) ở lớp này
- Lớp đầu ra Output layer tạo ra kết quả, Các đầu ra ở giai đoạn này thường được gọi là logits, (điểm số thô, được chuyển đổi thành xác suất, có giá trị nằm trong khoảng 0-1). Logits là kết quả thô mà mạng nơ-ron tạo ra ở lớp đầu ra, chưa được chuyển thành xác suất.
Tại sao phải chuyển logits thành xác suất?
- Logits không dễ hiểu với con người, vì chúng không ở dạng xác suất.
- Để chuyển logits thành xác suất, một hàm softmax thường được sử dụng
- Biến các logits thành giá trị trong khoảng [0, 1],
- Đảm bảo tổng tất cả các xác suất bằng 1.
Công thức của softmax:
- : Giá trị điểm thô của một từ.
- : Xác suất của từ đó.
Kết quả là gì?
Sau khi logits được chuyển thành xác suất, mô hình sẽ:
- Chọn từ có xác suất cao nhất làm dự đoán (dự đoán “từ tiếp theo”)
- Hoặc sử dụng xác suất này để thực hiện các lựa chọn ngẫu nhiên có trọng số (weighted random sampling) để đa dạng hóa kết quả.
Ví dụ
Giả sử bạn đang dự đoán từ tiếp theo trong câu "I Love", và từ điển gồm các từ: cats, dogs, apples.
Logits từ lớp đầu ra: Logits là: [2.0, 1.0, 0.5] (một danh sách điểm số thô).
Áp dụng hàm softmax chuyển logits thành xác suất:
Kết quả dự đoán: Mô hình chọn từ cats vì nó có xác suất cao nhất 0.63.
Tóm lại: ML cơ bản là sự kết hợp của các phép toán:
Đại số tuyến tính, Giải tích, và Xác suất thống kê