Tập dữ liệu (dataset) mẫu cho việc học AI

Trong AI, trong quá trình huấn luyện 1 mô hình (model) thì chúng ta phải có 1 tập dữ liệu (dataset) đển đánh giá được mô hình (đánh giá thuật toán được đào tạo có tốt không và tốt như thế nào).

Có 3 loại dataset, dựa vào mục đích mà người ta phân loại:

Bộ dữ liệu huấn luyện – training set

Bộ xác thực – Validation set

Bộ dữ liệu thử nghiệm – testing set

sử dụng dataset trong machine learning

Trong quá trình học AI, ví dụ như mình cần phát hiện 1 hình có chữ viết tay các con số từ 0 đến 9, thì mình phải huấn luyện mô hình của mình từ 1 tập dự liệu CÓ SẲN khoảng 5000 6000 hình rồi. Hình dưới là 1 hình ví dụ trong tập dữ liệu có sẳn đặt tên là MNIST, hình số 4 bên trái:

còn hình số 4 bên phải 1 ví dụ về kết quả của mô hình mà họ đã huấn luyện sẳn. Còn theo 1 thuật toán khác (các xây dựng mô hình với thuật toán và thông số khác nhau), thì đây là kết quả ví dụ:

Các bạn có thể thấy được output của mô hình với số 4 ở trên. Nghĩa là, khi input là 1 hình mà mắt thường có thể biết được là số 4, nhưng với mô hình trên đưa ra nhận định là tỉ lệ số 4 là 70%, số 9 là 20% chẳng hạn.

Đây là 1 ví dụ về dataset về phân loại 10 đối tượng như trong hình:

Cifar 10 | Convolutional neural networks pytorch

và 1 ví dụ về kết quả huấn luyện với dataset này (dataset tên là CIFAR10; có dataset CIFAR100 dành cho huấn luận 100 đối tượng; chắc cũng trăm ngàn hình).

Khác với ví dụ về output của mô hình phát hiện các số viết tay từ 0 đến 9 như đầu bài, vì thực tế viết từ 0 đến 9 rất đơn giản, còn việc các hình chụp cho 10 đối tượng trong CIFAR10 là đa dạng hơn nhiều. Ví dụ, hình con ngựa có thể đầu bên trái hoặc đầu bên phải hình (trong khi trong dữ liệu MNIST thì số 9 thì phải viết theo 1 cách đó thôi chứ không lật ngược được).

Tóm lại, trong quá trình học AI và có những tập dự liệu có sẳn mà cộng đồng đã đóng góp trong suốt thời gian dài, thì đây là 1 trong số các nguồn mà bạn có thể download tập dữ liệu mẫu có sẳn và tập với việc coding cho mô hình của mình:

Kaggle
Mấy ví dụ trên là dataset tên là MNIST (cho chữ viết tay từ 0 đến 9), CIFAR10 (vài trăm nghìn hình về 10 đối tượng).
Papers with Code
UCI Machine Learning Repository
Registry of Open Data on AWS
Google Dataset Search
Microsoft Datasets
Reddit datasets
CMU Libraries
Public Datasets trên Github
YouTube Dataset

Thứ tự các nguồn trên là mình theo trên mạng, chắc là dựa vào mức độ thông dụng, hoặc dựa vào số lượng dataset. Mình chỉ liệt kê tên như là keyword và các bạn tự search nó có gì nhé.

Bài trước

Tổng hợp 1 số tài liệu cho AI căn bản (cập nhật ngày 2023-05-08)

Bài tiếp theo

Các ứng dụng về AI thường gặp (đang cập nhật)

Tập dữ liệu (dataset) mẫu cho việc học AI

Bộ dữ liệu huấn luyện – training set

Bộ xác thực – Validation set

Bộ dữ liệu thử nghiệm – testing set

Papers with Code

UCI Machine Learning Repository

Registry of Open Data on AWS

Google Dataset Search

Microsoft Datasets

Reddit datasets

CMU Libraries

Public Datasets trên Github

BÌNH LUẬN Hủy trả lời

Bài Viết Liên Quan

How to raise successful kids – without over-parenting

#DadGoals: Check Out This Amazing Playhouse One Dad Built

Dad Builds ‘Star Wars’ – Inspired Baby Furniture So Incredible

Bài Viết Mới Nhất

NO (30062024)

Đàn ông

5 Yếu Tố Giúp Bạn Định Hướng Sự Nghiệp

Có thể bạn sẽ thích

Khi thiên hạ nghỉ lễ, tôi vẫn tiếp tục làm việc

Dad Builds ‘Star Wars’ – Inspired Baby Furniture So Incredible

Học Trí tuệ Nhân tạo thì cần ôn kiến thức Toán nào?

Hãy ăn cắp, đừng sáng tạo

About

Bài Viết Phổ Biến

Các tiêu chí chọn nghề nghiệp

Cách chọn nghề nghiệp

Khi thiên hạ nghỉ lễ, tôi vẫn tiếp tục làm việc

Danh Mục Nổi Bật

Kết nối