Courtesy of TechCrunch

Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.

12 Des 2024, 20.04 WIB

80 dibaca

Harvard University berencana untuk merilis dataset yang berisi sekitar 1 juta buku domain publik dari berbagai genre, bahasa, dan penulis terkenal seperti Dickens, Dante, dan Shakespeare. Buku-buku ini tidak lagi dilindungi hak cipta karena sudah cukup tua. Meskipun dataset ini belum tersedia dan belum ada kepastian kapan akan dirilis, Harvard mengungkapkan bahwa buku-buku tersebut berasal dari proyek pemindaian buku Google, yaitu Google Books, dan Google akan terlibat dalam penyebarannya.

Inisiatif ini, yang disebut Institutional Data Initiative (IDI), bertujuan untuk memberikan akses kepada berbagai pihak, termasuk laboratorium penelitian dan startup AI, untuk menggunakan dataset besar ini dalam melatih model bahasa mereka. Dengan dukungan finansial dari Microsoft dan OpenAI, IDI diharapkan dapat menciptakan kesempatan yang lebih adil bagi semua orang dalam mengembangkan teknologi AI.

Sumber: https://techcrunch.com/2024/12/12/harvard-and-google-to-release-1-million-public-domain-books-as-ai-training-dataset/

Pertanyaan Terkait

Apa tujuan dari Inisiatif Data Institusional yang diluncurkan oleh Harvard?

Tujuan dari Inisiatif Data Institusional adalah untuk menyediakan akses data legal bagi pengembangan AI dan mendukung penelitian.

Berapa banyak buku yang akan disertakan dalam dataset yang direncanakan oleh Harvard?

Dataset yang direncanakan oleh Harvard akan mencakup sekitar 1 juta buku publik yang tidak lagi dilindungi hak cipta.

Siapa yang terlibat dalam peluncuran dataset ini?

Peluncuran dataset ini melibatkan Google, serta dukungan finansial dari Microsoft dan OpenAI.

Apa yang dimaksud dengan Google Books?

Google Books adalah program yang memindai dan mendigitalkan buku dari seluruh dunia untuk diakses secara online.

Mengapa dataset ini penting bagi pengembangan AI?

Dataset ini penting bagi pengembangan AI karena menyediakan sumber daya yang besar untuk melatih model bahasa besar.

Artikel Serupa

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.

Teknologi

4 bulan lalu

97 dibaca

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Teknologi

4 bulan lalu

147 dibaca

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI

Teknologi

7 bulan lalu

67 dibaca

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.

Teknologi

7 bulan lalu

251 dibaca

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.

Teknologi

7 bulan lalu

170 dibaca

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Teknologi

7 bulan lalu

178 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.

Teknologi

7 bulan lalu

116 dibaca

Pertanyaan Terkait

Artikel Serupa

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.