Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.

12 Des 2024, 20.04 WIB
80 dibaca
Share
Harvard University berencana untuk merilis dataset yang berisi sekitar 1 juta buku domain publik dari berbagai genre, bahasa, dan penulis terkenal seperti Dickens, Dante, dan Shakespeare. Buku-buku ini tidak lagi dilindungi hak cipta karena sudah cukup tua. Meskipun dataset ini belum tersedia dan belum ada kepastian kapan akan dirilis, Harvard mengungkapkan bahwa buku-buku tersebut berasal dari proyek pemindaian buku Google, yaitu Google Books, dan Google akan terlibat dalam penyebarannya.
Baca juga: EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan
Inisiatif ini, yang disebut Institutional Data Initiative (IDI), bertujuan untuk memberikan akses kepada berbagai pihak, termasuk laboratorium penelitian dan startup AI, untuk menggunakan dataset besar ini dalam melatih model bahasa mereka. Dengan dukungan finansial dari Microsoft dan OpenAI, IDI diharapkan dapat menciptakan kesempatan yang lebih adil bagi semua orang dalam mengembangkan teknologi AI.
Sumber: https://techcrunch.com/2024/12/12/harvard-and-google-to-release-1-million-public-domain-books-as-ai-training-dataset/

Pertanyaan Terkait

Q
Apa tujuan dari Inisiatif Data Institusional yang diluncurkan oleh Harvard?
A
Tujuan dari Inisiatif Data Institusional adalah untuk menyediakan akses data legal bagi pengembangan AI dan mendukung penelitian.
Q
Berapa banyak buku yang akan disertakan dalam dataset yang direncanakan oleh Harvard?
A
Dataset yang direncanakan oleh Harvard akan mencakup sekitar 1 juta buku publik yang tidak lagi dilindungi hak cipta.
Q
Siapa yang terlibat dalam peluncuran dataset ini?
A
Peluncuran dataset ini melibatkan Google, serta dukungan finansial dari Microsoft dan OpenAI.
Q
Apa yang dimaksud dengan Google Books?
A
Google Books adalah program yang memindai dan mendigitalkan buku dari seluruh dunia untuk diakses secara online.
Q
Mengapa dataset ini penting bagi pengembangan AI?
A
Dataset ini penting bagi pengembangan AI karena menyediakan sumber daya yang besar untuk melatih model bahasa besar.

Artikel Serupa

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.
Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.
Dari TechCrunch
Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.
Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.
Dari TechCrunch
Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI
Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI
Dari Forbes
Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.
Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.
Dari TechCrunch
Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.
Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.
Dari Forbes
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Dari Wired
Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.
Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.
Dari InterestingEngineering
Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.TechCrunch
Teknologi
4 bulan lalu
97 dibaca

Peneliti menyarankan OpenAI melatih model AI pada buku O'Reilly yang terbayar.

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.TechCrunch
Teknologi
4 bulan lalu
147 dibaca

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AIForbes
Teknologi
7 bulan lalu
67 dibaca

Kekuatan Kolaborasi Terbuka: Bagaimana Sumber Terbuka Membentuk Masa Depan AI

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.TechCrunch
Teknologi
7 bulan lalu
251 dibaca

Model AI baru dari DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik hingga saat ini.

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.Forbes
Teknologi
7 bulan lalu
170 dibaca

Satu Prediksi Besar Saya yang Didorong Teknologi untuk 2025: Data Besar Kembali.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
7 bulan lalu
178 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.InterestingEngineering
Teknologi
7 bulan lalu
116 dibaca

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.