Tôi đã đọc các tài liệu về học tập theo chương trình cho LLM cách đây khoảng 3 năm. Sử dụng một số tính năng/giảm thiểu trên các gradient để sắp xếp các tập văn bản, điều này đã tăng tốc độ hội tụ. Mong rằng tôi có thể nhớ được bài báo.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
16 thích
Phần thưởng
16
6
Chia sẻ
Bình luận
0/400
TokenAlchemist
· 08-01 21:21
thật lòng mà nói, việc đặt hàng theo gradient chỉ là copium... định tuyến tối ưu mới là nơi có alpha thực sự.
Tôi đã đọc các tài liệu về học tập theo chương trình cho LLM cách đây khoảng 3 năm. Sử dụng một số tính năng/giảm thiểu trên các gradient để sắp xếp các tập văn bản, điều này đã tăng tốc độ hội tụ. Mong rằng tôi có thể nhớ được bài báo.