Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Courtesy of Wired

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Wired
DariĀ Wired
12 Des 2024, 21.06 WIB
161 dibaca
Share
Universitas Harvard baru saja mengumumkan bahwa mereka akan merilis dataset berkualitas tinggi yang berisi hampir 1 juta buku domain publik. Dataset ini dibuat oleh Inisiatif Data Institusional Harvard dengan dukungan dari Microsoft dan OpenAI. Buku-buku ini merupakan hasil pemindaian dari proyek Google Books yang sudah tidak dilindungi hak cipta. Dataset ini mencakup berbagai genre dan bahasa, termasuk karya klasik dari penulis terkenal seperti Shakespeare dan Charles Dickens, serta buku-buku yang lebih jarang dikenal. Tujuan dari proyek ini adalah untuk memberikan akses kepada publik dan peneliti kecil untuk menggunakan konten berkualitas tinggi yang biasanya hanya dimiliki oleh perusahaan teknologi besar.
Selain buku, Inisiatif Data Institusional juga bekerja sama dengan Perpustakaan Umum Boston untuk memindai artikel-artikel dari berbagai surat kabar yang kini juga berada di domain publik. Meskipun ada banyak gugatan hukum terkait penggunaan data berhak cipta untuk melatih AI, proyek seperti ini menunjukkan bahwa ada kebutuhan untuk dataset publik yang dapat digunakan tanpa masalah hak cipta. Beberapa perusahaan dan inisiatif lain juga sedang mengembangkan dataset publik serupa, yang menunjukkan bahwa tidak perlu mencuri materi berhak cipta untuk membangun model AI yang berkualitas.

Pertanyaan Terkait

Q
Apa tujuan dari dataset yang dirilis oleh Harvard University?
A
Tujuan dari dataset yang dirilis oleh Harvard University adalah untuk memberikan akses kepada publik dan peneliti untuk melatih model kecerdasan buatan dengan konten berkualitas tinggi.
Q
Siapa yang mendanai Inisiatif Data Institusional?
A
Inisiatif Data Institusional didanai oleh Microsoft dan OpenAI.
Q
Apa yang dimaksud dengan data publik dalam konteks artikel ini?
A
Data publik dalam konteks artikel ini merujuk pada dataset buku yang tidak lagi dilindungi oleh hak cipta dan dapat diakses oleh siapa saja.
Q
Mengapa Microsoft dan OpenAI terlibat dalam proyek ini?
A
Microsoft dan OpenAI terlibat dalam proyek ini untuk mendukung pengembangan akses data yang dikelola demi kepentingan publik dan untuk membantu industri AI yang lebih kecil.
Q
Apa dampak dari dataset publik terhadap industri kecerdasan buatan?
A
Dataset publik dapat mengurangi ketergantungan pada materi berhak cipta dan memberikan alternatif yang sah untuk melatih model kecerdasan buatan.

Artikel Serupa

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.TechCrunch
Teknologi
2 bulan lalu
89 dibaca

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.TechCrunch
Teknologi
2 bulan lalu
136 dibaca

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Perusahaan AI mendorong untuk menggunakan konten yang dilindungi hak cipta secara bebas.Axios
Teknologi
2 bulan lalu
169 dibaca

Perusahaan AI mendorong untuk menggunakan konten yang dilindungi hak cipta secara bebas.

OpenAI dan Google meminta pemerintah untuk membiarkan mereka melatih AI pada konten yang tidak mereka miliki.TheVerge
Teknologi
3 bulan lalu
94 dibaca

OpenAI dan Google meminta pemerintah untuk membiarkan mereka melatih AI pada konten yang tidak mereka miliki.

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
5 bulan lalu
148 dibaca

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.

Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.TechCrunch
Teknologi
6 bulan lalu
71 dibaca

Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.