Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.
Courtesy of TechCrunch

Rangkuman Berita: Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.

TechCrunch
DariĀ TechCrunch
12 Desember 2024 pukul 20.04 WIB
56 dibaca
Share
Harvard University berencana untuk merilis dataset yang berisi sekitar 1 juta buku domain publik dari berbagai genre, bahasa, dan penulis terkenal seperti Dickens, Dante, dan Shakespeare. Buku-buku ini tidak lagi dilindungi hak cipta karena sudah cukup tua. Meskipun dataset ini belum tersedia dan belum ada kepastian kapan akan dirilis, Harvard mengungkapkan bahwa buku-buku tersebut berasal dari proyek pemindaian buku Google, yaitu Google Books, dan Google akan terlibat dalam penyebarannya.
Inisiatif ini, yang disebut Institutional Data Initiative (IDI), bertujuan untuk memberikan akses kepada berbagai pihak, termasuk laboratorium penelitian dan startup AI, untuk menggunakan dataset besar ini dalam melatih model bahasa mereka. Dengan dukungan finansial dari Microsoft dan OpenAI, IDI diharapkan dapat menciptakan kesempatan yang lebih adil bagi semua orang dalam mengembangkan teknologi AI.

Pertanyaan Terkait

Q
Apa tujuan dari Inisiatif Data Institusional yang diluncurkan oleh Harvard?
A
Tujuan dari Inisiatif Data Institusional adalah untuk menyediakan akses data legal bagi pengembangan AI dan mendukung penelitian.
Q
Berapa banyak buku yang akan disertakan dalam dataset yang direncanakan oleh Harvard?
A
Dataset yang direncanakan oleh Harvard akan mencakup sekitar 1 juta buku publik yang tidak lagi dilindungi hak cipta.
Q
Siapa yang terlibat dalam peluncuran dataset ini?
A
Peluncuran dataset ini melibatkan Google, serta dukungan finansial dari Microsoft dan OpenAI.
Q
Apa yang dimaksud dengan Google Books?
A
Google Books adalah program yang memindai dan mendigitalkan buku dari seluruh dunia untuk diakses secara online.
Q
Mengapa dataset ini penting bagi pengembangan AI?
A
Dataset ini penting bagi pengembangan AI karena menyediakan sumber daya yang besar untuk melatih model bahasa besar.

Rangkuman Berita Serupa

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AIForbes
Teknologi
3 bulan lalu
34 dibaca

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.TechCrunch
Teknologi
4 bulan lalu
150 dibaca

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.Forbes
Teknologi
4 bulan lalu
97 dibaca

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
4 bulan lalu
125 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.InterestingEngineering
Teknologi
4 bulan lalu
103 dibaca

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.

Rangkuman Open AI: Peristiwa di Akhir Tahun AIForbes
Teknologi
5 bulan lalu
89 dibaca

Rangkuman Open AI: Peristiwa di Akhir Tahun AI