Cùng VEFA tìm hiểu các thông tin cơ bản về Model Training của ChatGPT
1. Transformers?
Transformers – phát kiến vĩ đại nhất trong ứng dụng vào cách language model (mô hình ngôn ngữ) hoạt động. Cách hoạt động của transformers không khác gì phép thuật . OpenAI đã tạo ra 1 số phép thuật như thế như: Generative Pre-trained Transformer Model, được biết rộng rãi dưới cái tên GPT.
GPT được phát triển theo cách tự giám sát (self-supervised fashion) . Mô hình được đào tạo trên một tập dữ liệu lớn để dự đoán từ tiếp theo trong chuỗi. Điều này được gọi là mô hình hóa ngôn ngữ ngẫu nhiên (casual language modeling) . Sau đó, mô hình ngôn ngữ này được điều chỉnh trên một tập dữ liệu được giám sát cho các tác vụ hạ nguồn (downstream tasks)
2. Các phiên bản ChatGPT
OpenAI đã phát hành ba phiên bản khác nhau của GPT, đó là GPT-1, GPT-2 và GPT-3, để tạo ra các cuộc hội thoại giống người thật. Ba phiên bản của GPT khác nhau về kích thước. Mỗi phiên bản mới được đào tạo bằng cách tăng quy mô dữ liệu và thông số (parameters)
GPT-3 được gọi là mô hình tự hồi quy được đào tạo để đưa ra dự đoán chỉ bằng cách xem xét các giá trị trước đó. GPT-3 có thể được sử dụng để phát triển các ứng dụng lớn như công cụ tìm kiếm, tạo nội dung và nhiều hơn nữa.
3. InstructGPT là gì?
InstructGPT là một mô hình ngôn ngữ tạo ra phản hồi theo người dùng (user-preferred)/ Do đó, nó được gọi là Mô hình ngôn ngữ tuân theo các hướng dẫn. Nó sử dụng thuật toán học được gọi là Reinforcement Learning from Human Feedback (RLHF) để tạo ra các phản hồi hợp với người dùng hơn.
Là một kỹ thuật học tập củng cố sâu (deep reinforcement learning technique) có tính đến phản hồi của con người để học hỏi. Các chuyên gia con người điều khiển thuật toán học bằng cách cung cấp các phản hồi của con người có khả năng xảy ra cao nhất từ danh sách các phản hồi do mô hình tạo ra. Bằng cách này, tác nhân tạo ra các phản hồi chính xác nhất.
Nhưng tại sao lại là Reinforcement Learning from Human Feedback, tại sao không phải phương pháp Reinforcement Learning systems truyền thống?
Traditional Reinforcement Learning systems yêu cầu phải xác định hàm để hiểu liệu AI có đang di chuyển đúng hướng hay không và cố gắng tối đa hóa kết quả tích lũy. Tuy nhiên, việc truyền đạt hàm cho tác nhân trong các môi trường Reinforcement Learning hiện đại là rất khó khăn. Do đó, thay vì xác định hàm cho AI, openAI đã huấn luyện cách nhận biết hàm dựa trên phản hồi của con người. Bằng cách này, AI có thể học được hàm và hiểu được các hành vi phức tạp của câu lệnh.
Trong phần tiếp theo, chúng ta sẽ tìm hiểu về một trong những chủ đề đang là xu hướng nhất trong lĩnh vực AI – ChatGPT. Đọc thêm: Series “ChatGPT trong phân tích dữ liệu“
4. ChatGPT được built như thế nào?
Trong bước tiếp theo, chúng tôi sẽ học hàm thưởng giúp tác nhân quyết định điều gì đúng sai và sau đó di chuyển theo hướng đúng của mục tiêu. Hàm được học thông qua phản hồi của con người, do đó đảm bảo mô hình tạo ra phản hồi chính xác.
Dưới đây là danh sách các bước liên quan trong tác vụ lập mô hình:
- Tạo nhiều phản hồi cho gợi ý đã cho
- Người gắn nhãn con người so sánh danh sách các gợi ý do mô hình tạo ra và xếp hạng từ tốt nhất đến tệ nhất.
- Dữ liệu này sau đó được sử dụng để huấn luyện mô hình.
Trong bước cuối cùng, chúng tôi sẽ học chính sách tối ưu so với hàm bằng cách sử dụng thuật toán Proximal Policy Optimization (PPO). Ý tưởng đằng sau PPO là ổn định việc huấn luyện AI bằng cách tránh các cập nhật chính sách quá lớn.
Trong bài viết này, chúng ta đã thảo luận về ChatGPT và cách nó được huấn luyện bằng các kỹ thuật Deep Reinforcement Learning. Chúng tôi cũng đã đề cập đến lịch sử tóm tắt về các biến thể của GPT và cách sử dụng trong ChatGPT.
Nguồn: Shreya, G. (2023) Understanding ChatGPT and Model Training in Simple Terms, Analytics Vidhya. Available at: https://www.analyticsvidhya.com/blog/2022/12/chatgpt-unlocking-the-potential-of-artificial-intelligence-for-human-like-conversation/ (Accessed: 9 November 2023).