terunik teraneh terselubung blogspot.com terlucu menarik di dunia tapi nyata dan terlangka aneh22 video gambar ajaib bin ajaib kau tuhan sungguh penuh kuasa unik77.tk unik4u unic77.tk gokil extreme medis kriminal arkeologi antariksa UFO dinosaurus kita flora fauna misteri bumi militer hiburan ekonomi bahasa teknologi sejarah politik tokoh hukum mumi rumor motivasi moral hewan tumbuhan tips trick kuliner otomotif pendidikan galleri musik sms hantu wallpaper artis indonesia foto hot syur panas download

>10.000 artikel menarik ada disini,silahkan cari:

Cara DeepSeek Bikin AI-nya Lebih Murah dari LLM Raksasa Teknologi Lain - my blog

kumparan - #kumparanAdalahJawaban
 
Cara DeepSeek Bikin AI-nya Lebih Murah dari LLM Raksasa Teknologi Lain
Jan 28th 2025, 15:50, by Kevin S Kurnianto, kumparanTECH

Ilustrasi DeepSeek. Foto: Dado Ruvic/REUTERS
Ilustrasi DeepSeek. Foto: Dado Ruvic/REUTERS

DeepSeek menjadi topik hangat dalam perbincangan. Produk AI large language model (LLM) dari startup asal China ini mampu menciptakan LLM hebat yang bahkan mampu bersanding dengan OpenAI dengan harga murah.

Asisten artificial intelligence (AI) DeepSeek sempat menjadi salah satu dari jajaran teratas aplikasi populer di Apple App Store. Hadirnya DeepSeek juga membuat saham-saham raksasa teknologi AS 'jungkir balik'

Tim riset DeepSeek-AI melalui paper laporan teknisnya menyebut bahwa mereka melakukan sejumlah pendekatan, serangkaian uji coba dan benchmark dalam melatih model AI mereka, apa saja?

DeepSeek melakukan training model AI pada hal-hal penting saja. Metode ini memangkas proses training konvensional yang biasanya melalui proses update parts model AI secara keseluruhan, bahkan pada bagian yang kecil dan tak berkontribusi banyak.

Mereka menggunakan teknik Auxiliary-Load Free Load Balancing. Pakar AI sekaligus Manager - Content and Growth Analytics Vidhya dalam analisisnya mengatakan bahwa, DeepSeek hanya melatih 5 persen dari parameter modelnya per token.

Teknik ini mampu mengurangi kinerja GPU sebanyak 95 persen, tanpa mengurangi akurasi model AI. Cara ini lebih efisien dibandingkan apa yang dilakukan perusahaan seperti Meta. Minimnya load GPU tentu berkontribusi pada hemat pemakaian daya listrik.

Tak perlu GPU AI mahal

Kemunculan DeepSeek terjadi di tengah upaya AS membatasi penjualan chip canggih yang mendukung AI ke China. AS khawatir, startup China bakal tumbuh lebih hebat dibandingkan perusahaan asal AS dalam hal pengembangan AI global.

Para pendiri startup AI China telah berbagi tugas satu sama lain dan bereksperimen dengan pendekatan baru terhadap teknologi termasuk menghasilkan model AI yang membutuhkan daya komputasi jauh lebih sedikit daripada sebelumnya.

DeepSeek R1, yang dirilis minggu lalu, 20 hingga 50 kali lebih murah untuk digunakan daripada model o1 milik OpenAI, tergantung pada tugasnya.

Kantor perusahaan Nvidiadi Taiwan. Foto: AlmondYue/Shutterstock
Kantor perusahaan Nvidiadi Taiwan. Foto: AlmondYue/Shutterstock

DeepSeek AI merupakan LLM hasil optimasi menggunakan GPU terjangkau. Mereka tidak bergantung pada GPU AI kelas dewa seperti NVIDIA H100.

DeepSeek menggunakan NVIDIA H800. Ini merupakan H100 versi China dengan berbagai pengurangan spesifikasi karena regulasi ekspor. GPU ini punya chip-to-chip data transfer rate 300 GBps, separuh dari H100 yang punya kecepatan 600 GBps.

Menjalankan Model AI terutama inferensi butuh banyak memori dan sangat mahal. Ketimbang cara konvensional, mereka melakukan metode Low-Rank Key-Value (KV) Joint Compression yaitu mengkompresi key-value vectors menggunakan down-projection matrix.

Cara ini mampu mengurangi penggunaan memori, mempercepat proses inferens serta memotong biaya operasional karena hardware yang digunakan tidak perlu spesifikasi mahal.

DeepSeek juga meningkatkan efisiensi pembelajaran model melalui metode reinforcement learning. Alih-alih hanya mengandalkan metode training tradisional, mereka berfokus pada tugas-tugas yang memiliki jawaban yang jelas dan dapat diverifikasi, seperti soal matematika dan coding.

AI diberi tugas-tugas kompleks yang mudah diverifikasi (misalnya, tantangan coding). Saat model menghasilkan hasil yang benar, ia diberi reward dan akan belajar lagi untuk memperkuat pola tersebut.

Jika terjadi kesalahan, penyesuaian akan dilakukan untuk meningkatkan kinerja pada iterasi berikutnya. Metode ini memungkinkan DeepSeek meningkatkan akurasi dengan sumber daya terbatas.

Perusahaan yang mengembangkan DeepSeek didirikan oleh Liang Wenfeng di Hangzhou, China pada tahun 2023. Pria berusia 40 tahun itu merupakan lulusan teknik informasi dan elektronik. Wenfeng juga mendirikan dana lindung nilai yang mendukung DeepSeek.

You are receiving this email because you subscribed to this feed at blogtrottr.com. By using Blogtrottr, you agree to our policies, terms and conditions.

If you no longer wish to receive these emails, you can unsubscribe from this feed, or manage all your subscriptions.

Tidak ada komentar: