Inisiatif baru membuat data Wikipedia lebih mudah diakses oleh model AI dengan pencarian semantik.
Pada hari Rabu, Wikimedia Deutschland mengumumkan peluncuran database baru yang membuat kekayaan pengetahuan Wikipedia lebih mudah diakses oleh model AI. Proyek ini dinamakan Wikidata Embedding Project, yang menerapkan pencarian semantik berbasis vektor. Teknik ini membantu komputer memahami makna dan hubungan antara kata-kata dalam data yang ada di Wikipedia dan platform saudaranya, yang terdiri dari hampir 120 juta entri.
Dengan dukungan baru untuk Model Context Protocol (MCP), sebuah standar yang membantu sistem AI berkomunikasi dengan sumber data, proyek ini membuat data lebih mudah diakses oleh pertanyaan bahasa alami dari model bahasa besar (LLM). Proyek ini dilakukan oleh cabang Jerman Wikimedia bekerja sama dengan perusahaan pencarian neural Jina.AI dan DataStax, perusahaan data pelatihan real-time yang dimiliki oleh IBM.
Peningkatan Aksesibilitas Data
Wikidata telah menawarkan data yang dapat dibaca mesin dari properti Wikimedia selama bertahun-tahun, tetapi alat yang sudah ada sebelumnya hanya memungkinkan pencarian kata kunci dan kueri SPARQL, bahasa kueri khusus. Sistem baru ini akan bekerja lebih baik dengan sistem retrieval-augmented generation (RAG) yang memungkinkan model AI menarik informasi eksternal, memberikan pengembang kesempatan untuk mendasarkan model mereka pada pengetahuan yang diverifikasi oleh editor Wikipedia.
Data juga disusun untuk memberikan konteks semantik yang penting. Misalnya, ketika menanyakan database untuk kata 'ilmuwan', akan menghasilkan daftar ilmuwan nuklir terkemuka serta ilmuwan yang bekerja di Bell Labs. Ada juga terjemahan kata 'ilmuwan' ke dalam berbagai bahasa, gambar ilmuwan yang sedang bekerja yang telah disetujui Wikimedia, dan ekstrapolasi ke konsep terkait seperti 'peneliti' dan 'sarjana'.
Manfaat Bagi Pengembang AI
Database ini dapat diakses publik di Toolforge. Wikidata juga mengadakan webinar untuk pengembang yang tertarik pada tanggal 9 Oktober. Proyek baru ini muncul saat pengembang AI berlomba mencari sumber data berkualitas tinggi yang dapat digunakan untuk menyempurnakan model. Sistem pelatihan itu sendiri telah menjadi lebih canggih—sering kali dirakit sebagai lingkungan pelatihan yang kompleks daripada sekadar kumpulan data sederhana—tetapi mereka masih memerlukan data yang dikurasi dengan cermat untuk berfungsi dengan baik.
Untuk penerapan yang memerlukan akurasi tinggi, kebutuhan akan data yang andal sangat mendesak, dan meskipun beberapa orang mungkin meremehkan Wikipedia, datanya jauh lebih berorientasi fakta dibandingkan dengan kumpulan data umum seperti Common Crawl, yang merupakan kumpulan besar halaman web yang diambil dari seluruh internet.
Dalam beberapa kasus, dorongan untuk data berkualitas tinggi dapat memiliki konsekuensi mahal bagi laboratorium AI. Pada bulan Agustus, Anthropic menawarkan untuk menyelesaikan gugatan dengan sekelompok penulis yang karya-karyanya telah digunakan sebagai bahan pelatihan, dengan menyetujui untuk membayar $1,5 miliar untuk mengakhiri klaim pelanggaran.
Dalam pernyataan kepada pers, manajer proyek AI Wikidata Philippe Saadé menekankan independensi proyeknya dari laboratorium AI besar atau perusahaan teknologi besar. 'Peluncuran Proyek Embedding ini menunjukkan bahwa AI yang kuat tidak harus dikendalikan oleh segelintir perusahaan,' kata Saadé kepada wartawan. 'Ini bisa terbuka, kolaboratif, dan dibangun untuk melayani semua orang.'