Courtesy of TechCrunch

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Menghadirkan dataset terbuka dan berlisensi yang legal untuk pengembangan model AI berkualitas tinggi sekaligus meningkatkan transparansi di industri AI.

07 Jun 2025, 00.39 WIB

284 dibaca

Ikhtisar 15 Detik

EleutherAI merilis Common Pile v0.1 untuk mendukung penelitian AI yang transparan.
Model Comma v0.1-1T dan Comma v0.1-2T menunjukkan bahwa data berlisensi dapat menghasilkan model AI yang berkualitas.
Tuntutan hukum terhadap penggunaan data berhak cipta telah mempengaruhi transparansi dalam pengembangan model AI.

tidak disebutkan , Amerika Serikat - EleutherAI baru saja merilis The Common Pile v0.1, sebuah kumpulan data teks terbuka dan berlisensi yang besar dan legal untuk melatih model AI. Dataset ini merupakan hasil kolaborasi dengan berbagai startup dan institusi selama dua tahun dan berukuran sekitar 8 terabyte.

Tujuan berdirinya dataset ini adalah untuk menjawab tantangan hukum yang dialami industri AI terkait penggunaan data berhak cipta yang masih dipermasalahkan dalam pengadilan. EleutherAI ingin mendorong transparansi dan penelitian yang lebih terbuka dengan menyediakan data yang aman dari masalah hukum.

Model AI terbaru EleutherAI, Comma v0.1-1T dan Comma v0.1-2T, dilatih hanya menggunakan sebagian kecil dari dataset ini dan menunjukkan performa yang setara dengan model komersial populer seperti Meta Llama dalam pengujian di bidang coding, pengenalan gambar, dan matematika.

Dataset ini dibuat dengan sumber utama buku domain publik dari Library of Congress dan Internet Archive serta menggunakan teknologi OpenAI Whisper untuk transkripsi audio. Pendekatan ini memastikan data yang digunakan mematuhi peraturan hak cipta dan tetap berkualitas tinggi.

EleutherAI percaya bahwa masa depan pengembangan AI yang terbuka dan bertanggung jawab bisa didukung dengan data berlisensi terbuka dan domain publik. Mereka berkomitmen untuk terus merilis dataset seperti ini lebih sering agar komunitas riset mendapatkan akses data yang legal dan membantu kemajuan AI.

Referensi:
[1] https://techcrunch.com/2025/06/06/eleutherai-releases-massive-ai-training-dataset-of-licensed-and-open-domain-text/

Analisis Ahli

Analisis Kami

"null"

Prediksi Kami

Pertanyaan Terkait

Apa itu Common Pile v0.1?

Common Pile v0.1 adalah kumpulan data berlisensi dan domain terbuka berukuran 8 terabyte yang digunakan untuk melatih model AI.

Siapa yang terlibat dalam pengembangan Common Pile v0.1?

Common Pile v0.1 dikembangkan oleh EleutherAI bekerja sama dengan startup AI seperti Poolside dan Hugging Face serta beberapa institusi akademis.

Apa tujuan EleutherAI dalam merilis dataset ini?

Tujuan EleutherAI adalah untuk menciptakan dataset yang transparan dan dapat diakses untuk penelitian dan pengembangan model AI tanpa melanggar hak cipta.

Mengapa EleutherAI berpendapat bahwa model yang dilatih dengan data berlisensi dapat bersaing dengan model berhak cipta?

EleutherAI percaya bahwa kualitas data yang berlisensi dan domain publik cukup untuk menghasilkan model AI yang kompetitif dengan yang menggunakan data berhak cipta.

Apa dampak dari tuntutan hukum terhadap transparansi dalam penelitian AI?

Tuntutan hukum telah mengurangi transparansi dalam praktik pengumpulan data oleh perusahaan AI, membuat sulit bagi peneliti untuk memahami cara kerja model.