Cách lấy dữ liệu từ kaggle cho colab

Xin chào ae hôm nay mình sẽ giới thiệu cho ae một cách để lấy data từ kaggle về colab một cách rất đơn giản nhé. Colab thì chắc hẳn ae nào học về deeplearning thì chắc hẳn phải biết, nó cung cấp cho mình GPU để huấn luyện mô hình rất hiệu quả so với chỉ dùng CPU thông thường. Còn kaggle cũng tương tự như colab cũng cung cấp GPU cho mình  sử dụng một tuần 30h và điểm nổi bật của kaggle so với colab là kaggle người ta tổ chức rất nhiều các cuộc thi về các lĩnh vực như machine learning, deeplearning, data science và đặc biệt là nó có rất nhiều datasets phổ biến cho mình dùng. Nếu mình sử dụng colab thì một điều đầu tiên mình phải làm và cũng rất chán đó là chờ data được tải lên google drive. Nếu data nhỏ thì cũng ko vấn đề gì nhưng data mà lớn tầm vài G là đợi dài cổ rồi 😅. Thực ra mình thường xuyên dùng kaggle hơn colab lý do là kaggle như đã nói data có sẵn rồi khi nào làm data của mình thì mới cần tải lên. Thứ 2 là trên đấy có nhiều code có sẵn của rất nhiều người vip pro nên mình thường đọc để tham khảo và quan trọng nhất là GPU của kaggle là P100 ngon hơn so với GPU của colab bản free chỉ có K80 train đọi tụt quần 😅😅. Nhưng có thể một lý do nào đó như hết 30h một tuần mà mình vẫn cần dùng GPU thì colab là lựa chọn dự phòng hữu ích hoặc ae có điều kiện mua tài khoản colab pro thì GPU ngon khỏi bản rồi. Nên hôm nay mình sẽ giới thiệu ae cách lấy data từ kaggle về colab mà ko cần tải về máy gì cả, rất nhanh và thuận lợi nhé. Lét sì gâu ....



B1: Đầu tiên là tải về thông tin đăng nhập API từ kaggle như sau.


B2: Tải file.json vừa tải về lên colab



B3: Tiếp theo là các bạn thực hiện các bước cài cắm các công cụ cần thiết. Mình sẽ để nó ở đây các bạn chỉ cần copy nó vào colab là đk.

! pip install kaggle
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json



B4: Bây giờ mình sẽ tải những datasets mình muốn từ kaggle về colab thôi.

Các bạn vào datasets mà mình muốn trên kaggle rồi tìm mục copy API command của nó như hình dưới rồi copy nó thôi.


Sau đó các bạn paste nó vào colab và chạy thôi.

và bây giờ bạn đã thấy dataset của bạn đã được tải xuống colab thành công rồi. Bây giờ thì bạn có thể mount nó trong google drive của mình như bình thường rồi. 
B1: Đầu tiên thì các bạn dịch chuyển vào folder mà mình muốn copy dataset trong google drive của mình. 
B2: Sau đó các bạn copy file zip từ bên ngoài vào vị trí bạn đang đứng. 
B3: Cuối cùng là các bạn sẽ giải nén file đó là xong.


Chúc các bạn thành công.








Nhận xét

Bài đăng phổ biến