EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan
Courtesy of TechCrunch

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Menghadirkan dataset terbuka dan berlisensi yang legal untuk pengembangan model AI berkualitas tinggi sekaligus meningkatkan transparansi di industri AI.

07 Jun 2025, 00.39 WIB
202 dibaca
Share
Ikhtisar 15 Detik
  • EleutherAI merilis Common Pile v0.1 untuk mendukung penelitian AI yang transparan.
  • Model Comma v0.1-1T dan Comma v0.1-2T menunjukkan bahwa data berlisensi dapat menghasilkan model AI yang berkualitas.
  • Tuntutan hukum terhadap penggunaan data berhak cipta telah mempengaruhi transparansi dalam pengembangan model AI.
tidak disebutkan , Amerika Serikat - EleutherAI baru saja merilis The Common Pile v0.1, sebuah kumpulan data teks terbuka dan berlisensi yang besar dan legal untuk melatih model AI. Dataset ini merupakan hasil kolaborasi dengan berbagai startup dan institusi selama dua tahun dan berukuran sekitar 8 terabyte.
Tujuan berdirinya dataset ini adalah untuk menjawab tantangan hukum yang dialami industri AI terkait penggunaan data berhak cipta yang masih dipermasalahkan dalam pengadilan. EleutherAI ingin mendorong transparansi dan penelitian yang lebih terbuka dengan menyediakan data yang aman dari masalah hukum.
Model AI terbaru EleutherAI, Comma v0.1-1T dan Comma v0.1-2T, dilatih hanya menggunakan sebagian kecil dari dataset ini dan menunjukkan performa yang setara dengan model komersial populer seperti Meta Llama dalam pengujian di bidang coding, pengenalan gambar, dan matematika.
Dataset ini dibuat dengan sumber utama buku domain publik dari Library of Congress dan Internet Archive serta menggunakan teknologi OpenAI Whisper untuk transkripsi audio. Pendekatan ini memastikan data yang digunakan mematuhi peraturan hak cipta dan tetap berkualitas tinggi.
EleutherAI percaya bahwa masa depan pengembangan AI yang terbuka dan bertanggung jawab bisa didukung dengan data berlisensi terbuka dan domain publik. Mereka berkomitmen untuk terus merilis dataset seperti ini lebih sering agar komunitas riset mendapatkan akses data yang legal dan membantu kemajuan AI.

Pertanyaan Terkait

Q
Apa itu Common Pile v0.1?
A
Common Pile v0.1 adalah kumpulan data berlisensi dan domain terbuka berukuran 8 terabyte yang digunakan untuk melatih model AI.
Q
Siapa yang terlibat dalam pengembangan Common Pile v0.1?
A
Common Pile v0.1 dikembangkan oleh EleutherAI bekerja sama dengan startup AI seperti Poolside dan Hugging Face serta beberapa institusi akademis.
Q
Apa tujuan EleutherAI dalam merilis dataset ini?
A
Tujuan EleutherAI adalah untuk menciptakan dataset yang transparan dan dapat diakses untuk penelitian dan pengembangan model AI tanpa melanggar hak cipta.
Q
Mengapa EleutherAI berpendapat bahwa model yang dilatih dengan data berlisensi dapat bersaing dengan model berhak cipta?
A
EleutherAI percaya bahwa kualitas data yang berlisensi dan domain publik cukup untuk menghasilkan model AI yang kompetitif dengan yang menggunakan data berhak cipta.
Q
Apa dampak dari tuntutan hukum terhadap transparansi dalam penelitian AI?
A
Tuntutan hukum telah mengurangi transparansi dalam praktik pengumpulan data oleh perusahaan AI, membuat sulit bagi peneliti untuk memahami cara kerja model.

Artikel Serupa

Dokumen pengadilan menunjukkan bahwa Meta menghentikan upaya untuk melisensikan buku untuk pelatihan AI.TechCrunch
Teknologi
4 bulan lalu
114 dibaca

Dokumen pengadilan menunjukkan bahwa Meta menghentikan upaya untuk melisensikan buku untuk pelatihan AI.

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.TechCrunch
Teknologi
4 bulan lalu
71 dibaca

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.

MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.TechCrunch
Teknologi
4 bulan lalu
96 dibaca

MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
5 bulan lalu
148 dibaca

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
6 bulan lalu
162 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Tulu 3 sumber terbuka dari AI2 memungkinkan siapa saja untuk memainkan permainan pasca-pelatihan AI.TechCrunch
Teknologi
6 bulan lalu
119 dibaca

Tulu 3 sumber terbuka dari AI2 memungkinkan siapa saja untuk memainkan permainan pasca-pelatihan AI.