Courtesy of TechCrunch
Harvard University berencana untuk merilis dataset yang berisi sekitar 1 juta buku domain publik dari berbagai genre, bahasa, dan penulis terkenal seperti Dickens, Dante, dan Shakespeare. Buku-buku ini tidak lagi dilindungi hak cipta karena sudah cukup tua. Meskipun dataset ini belum tersedia dan belum ada kepastian kapan akan dirilis, Harvard mengungkapkan bahwa buku-buku tersebut berasal dari proyek pemindaian buku Google, yaitu Google Books, dan Google akan terlibat dalam penyebarannya.
Inisiatif ini, yang disebut Institutional Data Initiative (IDI), bertujuan untuk memberikan akses kepada berbagai pihak, termasuk laboratorium penelitian dan startup AI, untuk menggunakan dataset besar ini dalam melatih model bahasa mereka. Dengan dukungan finansial dari Microsoft dan OpenAI, IDI diharapkan dapat menciptakan kesempatan yang lebih adil bagi semua orang dalam mengembangkan teknologi AI.
Pertanyaan Terkait
Q
Apa tujuan dari Inisiatif Data Institusional yang diluncurkan oleh Harvard?A
Tujuan dari Inisiatif Data Institusional adalah untuk menyediakan akses data legal bagi pengembangan AI dan mendukung penelitian.Q
Berapa banyak buku yang akan disertakan dalam dataset yang direncanakan oleh Harvard?A
Dataset yang direncanakan oleh Harvard akan mencakup sekitar 1 juta buku publik yang tidak lagi dilindungi hak cipta.Q
Siapa yang terlibat dalam peluncuran dataset ini?A
Peluncuran dataset ini melibatkan Google, serta dukungan finansial dari Microsoft dan OpenAI.Q
Apa yang dimaksud dengan Google Books?A
Google Books adalah program yang memindai dan mendigitalkan buku dari seluruh dunia untuk diakses secara online.Q
Mengapa dataset ini penting bagi pengembangan AI?A
Dataset ini penting bagi pengembangan AI karena menyediakan sumber daya yang besar untuk melatih model bahasa besar.