Kernel GPU Umum

Julia memiliki perpustakaan bernama CUDAnative, yang meretas kompiler untuk menjalankan kode Anda di GPU.

menggunakan CuArrays, CUDanatif xs, ys, zs = CuArray(rand( 1024))), CuArray(rand(1024)),  CuArray(nol(1024))  fungsi kernel_vadd(keluar, A,  B) Saya = (blockIdx() .x-1) * blockDim(). x + threadIdx().x keluar = A + B  kembali akhir @cuda (1, panjang(xs )))  kernel_vadd(zs, xs, ys) @ tegaskan zs == xs + ys

Apakah ini lebih baik daripada menulis CUDA C? Pada awalnya, mudah untuk salah mengira ini sebagai kenyamanan sintaksis sederhana, tetapi saya yakin bahwa ini membawa sesuatu yang baru secara fundamental ke meja. Abstraksi array Julia yang kuat ternyata sangat cocok untuk pemrograman GPU, dan harus menarik bagi peretas GPGPU terlepas dari apakah mereka sudah menggunakan bahasa tersebut. Dimensi Baru Bagi para ahli numerik, salah satu fitur pembunuh Julia adalah dukungan array N-dimensinya yang kuat. Ini meluas tidak hanya ke operasi “vektorisasi” tingkat tinggi seperti aritmatika penyiaran, tetapi juga ke loop dalam di kernel level terendah. Misalnya, ambil kernel CPU yang menambahkan dua larik 2D:

[:, :, 1, 1, 1]fungsi Menambahkan!(keluar, A , B) untuk Saya = 1: ukuran(A, 1) untuk J = 1: ukuran(A, 2) keluar[i,j] = A[i,j] + b[i,j] akhir akhir akhir

Kernel ini cepat, tetapi sulit untuk digeneralisasikan di berbagai jumlah dimensi. Perubahan yang diperlukan untuk mendukung array 3D, misalnya, kecil dan mekanis (tambahkan loop dalam ekstra), tetapi kami tidak dapat menulisnya menggunakan fungsi normal. Pembuatan kode Julia memungkinkan solusi elegan, jika sedikit misterius:

menggunakan Basis.Cartesian @generated fungsi Menambahkan!(keluar, A, B) N = ndims(keluar) mengutip @nloops $N Saya keluar mulai @nref($N, keluar, Saya) =   @nref($N, A, Saya) + @nref($N, B, Saya)  akhir akhir akhir

NS @generated memungkinkan kita untuk menghubungkan ke spesialisasi kode Julia; ketika fungsi menerima matriks sebagai input, pembuatan kode kustom kami akan membuat dan menjalankan loop bersarang dua kali. Ini akan berperilaku sama dengan


 kami tambahkan!

fungsi di atas, tetapi untuk array dimensi apa pun. Jika Anda menghapus @generated Anda dapat melihat internal.

julia> menggunakan MakroTools julia> Menambahkan!(zs, xs, ys) |> perluas makro |> MakroTools.cantik kutipan untuk i_2 = indeks (keluar, 2) Tidak ada apa-apa untuk i_1 = indeks (keluar, 1) Tidak ada apa-apa keluar[i_1, i_2] = A[i_1, i_2] + b[i_1, i_2] Tidak ada apa-apa akhir Tidak ada apa-apa akhir akhir Jika Anda mencobanya dengan, katakanlah, input tujuh dimensi, Anda akan senang Anda tidak perlu menulis kode sendiri.

[:, :, 1, 1, 1] untuk i_7 = indeks (keluar, 7) untuk i_6 = indeks(keluar, 6) untuk i_5 = indeks

(keluar, 5) untuk i_4 = indeks( keluar, 4) untuk i_3 = indeks (keluar, 3 ) untuk i_2 = indeks (keluar, 2) untuk i_1 = indeks (keluar, 1) keluar[i_1, i_2, i_3, i_4, i_5, i_6, i_7] = A[i_1, i_2, i_3, i_4, i_5, i_6, i_7] + b[i_1, i_2, i_3, i_4, i_5, i_6, i_7] # Beberapa keluaran dihilangkan

Base.Cartesian adalah kerangka kerja yang kuat dan memiliki banyak alat yang lebih elegan, tetapi itu menggambarkan poin inti t.

Ini bonusnya. Penambahan jelas masuk akal atas sejumlah array input. Alat yang sama yang kami gunakan untuk dimensi generik dapat digunakan untuk menggeneralisasi jumlah input, juga:

@dihasilkan fungsi tambahan!(keluar, xs :: Vararg{Setiap,N}) di mana N  kutipan untuk Saya = 1 : panjang(keluar) keluar = @ncall $N (+) J -> xs[1]  akhir akhir akhir

Sekali lagi, hapus @generated untuk melihat apa yang terjadi:

julia> tambahkan!(zs, xs, xs , ys, ys) |> perluas makro |> Alat Makro.mendandani mengutip untuk Saya = 1: panjang(keluar) keluar = (xs[1]) + (xs[2]) + (xs[4]) + (xs[4])  akhir akhir

Jika kita menggabungkan ini, kita dapat membuat versi N-dimensi, argumen-N dari

kernel_vadd

pada GPU (di mana @cuindex menyembunyikan pengindeksan ND yang berantakan):

[:, :, 1, 1, 1]@dihasilkan fungsi kernel_vadd(keluar, xs:: NTupple{N}) di mana N mengutip SAYA = @cuindex(keluar) keluar[I…] = @ncall $N (+) J -> xs[1][I…] kembali akhir akhir @cuda (1, panjang( xs)) kernel_vadd(zs, (xs, ys ))

Kernel pendek ini sekarang dapat menambahkan sejumlah array dari dimensi apa pun; apakah itu masih hanya “CUDA dengan sintaks Julia”, atau itu sesuatu yang lebih?

Daftar Isi

Fungsi untuk Apa-apa

Julia memiliki lebih banyak trik. Ini secara otomatis mengkhususkan fungsi tingkat tinggi, yang berarti bahwa jika kita menulis:

fungsi kernel_zip2(F, keluar, A, B) Saya = (blockIdx().x-1) * blockDim().x + threadIdx().x keluar = F(A, B ) kembali akhir @cuda (1, panjang(xs)) kernel_zip2(+, zs, xs,  ys)

Berperilaku dan melakukan persis suka kernel_vadd; tetapi kita dapat menggunakan fungsi biner apa pun tanpa kode tambahan. Sebagai contoh, sekarang kita dapat mengurangi dua array:

[:, :, 1, 1, 1]@cuda (1 , panjang(xs)) kernel_zip2(–, zs, xs, ys)

Menggabungkan ini dengan yang di atas, kami memiliki semua alat yang kami butuhkan untuk menulis generik

broadcast

kernel (jika Anda tidak terbiasa dengan penyiaran array, anggap saja sebagai peta yang sedikit lebih umum ). Ini diimplementasikan dalam paket CuArrays yang dimuat sebelumnya, sehingga Anda dapat segera menulis:

[:, :, 1, 1, 1] julia> σ(x) = 1 / (1 + exp(– x)) julia> σ.(xs) 1024–elemen CuArray {Float64,1}: 0,547526 0,6911 ⋮

(Yang, jika kita menggeneralisasi kernel_vadd dengan cara yang diuraikan a di atas, hanyalah sebuah “tambahan” menggunakan

fungsi dan satu input.) Tidak ada petunjuk dalam kode kami , tetapi Julia akan mengompilasi kernel GPU khusus untuk menjalankan ekspresi tingkat tinggi ini. Julia juga akan menggabungkan beberapa siaran bersama-sama, jadi jika kita menulis ekspresi seperti Ini membuat panggilan kernel tunggal, tanpa alokasi memori atau array sementara yang diperlukan. Cukup keren – dan jauh dari jangkauan sistem lain yang saya tahu.

& Turunan Gratis

Jika Anda melihat yang asli kernel_vadd di atas, Anda akan melihat bahwa tidak ada jenis yang disebutkan. Julia adalah tipe bebek, bahkan pada GPU, dan kernel ini akan bekerja untuk apa pun yang mendukung operasi yang tepat.

Misalnya, input tidak memiliki menjadi CuArrays, asalkan terlihat seperti array dan dapat ditransfer ke GPU. Jika kita menambahkan rentang angka ke CuArray seperti ini:

@cuda (1, panjang(xs)) kernel_vadd(xs, xs, 1: 1024)

Rentang 1:1024 tidak pernah benar-benar dialokasikan dalam memori; elemen-elemen [1, 2, ..., 1024] dihitung secara on-the-fly sesuai kebutuhan pada GPU. Tipe elemen array juga generik, dan hanya perlu mendukung +; jadi Int + Float64 berfungsi, seperti di atas, tapi kita juga bisa menggunakan tipe angka yang ditentukan pengguna. Contoh yang kuat adalah dual nomor. Bilangan ganda sebenarnya adalah sepasang bilangan, seperti bilangan kompleks; itu adalah nilai yang membawa turunannya sendiri.

[:, :, 1, 1, 1]julia> menggunakan ForwardDiff julia> F( x) = x^2 + 2x + 3 julia> x = ForwardDiff.Dua(5 , 1) Dua{Ruang kosong}(5,1 ) julia> F(x) Dua{Ruang kosong }(38,12)

Akhir

Dual

membawa nilai yang kami harapkan dari F (5^2 + 2*x + 3==38), tapi juga turunan (2x + 2==12) . Angka ganda memiliki rasio daya:kesederhanaan yang luar biasa tinggi dan sangat cepat , tetapi sama sekali tidak praktis di sebagian besar bahasa. Julia membuatnya sederhana, dan terlebih lagi, vektor angka ganda akan secara transparan melakukan perhitungan turunan pada GPU.




julia> xs = CuArray(ForwardDiff
.Dua.(1: 1024, 1) ) julia> F.(xs) 1024-elemen CuArray {ForwardDiff.Dua{Ruang kosong, Int64,1},1}:   Ganda { Ruang kosong}(6,4) Dua{Ruang kosong}(11,6)  Ganda {Ruang kosong}(18,8) ⋮ julia> σ.(xs)  1024 -elemen CuArray{ForwardDiff.Dua{Ruang kosong, Float64,1},1}:   Ganda { Ruang kosong}(0.731059,0.196612)  Ganda {Ruang kosong}(0.880797 ,0,104994) Dua{Ruang kosong}(0,952574, 0.0451767) ⋮ 
 Tidak hanya tidak ada overhead dibandingkan dengan tulisan tangan yang diperlukan  kernel cuda untuk ini;  tidak ada overhead sama sekali!  Dalam tolok ukur saya, mengambil turunan menggunakan angka ganda adalah  sama cepatnya dengan menghitung hanya nilainya  dengan pelampung mentah.  Cukup mengesankan. Dalam kerangka kerja pembelajaran mesin, biasanya membutuhkan "lapisan" untuk setiap kemungkinan fungsi aktivasi: sigmoid, 
relu, tanh
 dll. Memiliki trik ini di toolkit kami berarti backpropagation melalui setiap fungsi skalar akan bekerja secara gratis. Secara keseluruhan, kernel GPU di Julia adalah luar biasa generik, di seluruh jenis, dimensi dan arity.  Ingin menyiarkan rentang bilangan bulat, matriks angka ganda, dan larik pelampung 6D?  Silakan, dan satu kernel GPU yang sangat cepat akan memberi Anda hasilnya. 


xs = CuArray(ForwardDiff.Dua.(randn (100,100), 1)) ys = CuArray(randn (1, 100, 5, 5, 5))  (1: 100) .* xs . / ys 100×100×5×5×5 Himpunan{ForwardDiff. Dua{Ruang kosong,Float64,1},5} :  [:, :, 1, 1, 1] =  Ganda {Ruang kosong}(0.0127874,-0.427122)  …
 Ganda{ Ruang kosong}(- 0.908558,-0.891798) Dua{Ruang kosong}(0.97554,-2,56273 ) …  Ganda {Ruang kosong}(-8.22101,-5.35079)  Dua{Ruang kosong}(-7.13571, -4.27122) Dua{Ruang kosong}(2.14025,-8.91798)   ⋱ 



 Mesin penyiaran lengkap di CuArrays adalah 60 baris .  Meskipun tidak sepenuhnya sepele, ini adalah jumlah fungsionalitas yang luar biasa untuk didapatkan dari kode sebanyak ini.  CuArrays sendiri berada di bawah 400 baris sumber, sambil menyediakan hampir semua operasi larik umum (pengindeksan, penggabungan, permutedim, dll.) dengan cara umum yang serupa. 
Kemampuan Julia untuk mengeluarkan kode khusus belum pernah terjadi sebelumnya, dan saya senang melihat ke mana arahnya di masa depan.  Misalnya, akan relatif mudah untuk membangun kerangka kerja mirip Theano di Julia, dan membuat kernel khusus untuk komputasi yang lebih besar.  Either way, saya pikir kita akan mendengar lebih banyak tentang Julia dan GPU seiring berjalannya waktu.
Kredit penuh untuk pekerjaan di balik ini kepada Tim Besard dan Jarrett Revels, masing-masing penulis yang luar biasa CUDAnative dan ForwardDiff.

Baca selengkapnya

Rekomendasi:

Apa saja lima bahasa cinta? Ada banyak cinta di tahun 90an. Kate dan Leo masuk Raksasa. Pemeran teman-teman. Spice Girls (Kekuatan Gadis!). Tahun 90an juga memperkenalkan cara baru dalam memandang cinta. Buku self-help konselor pernikahan…
Microsoft akan mendorong aplikasi Pemeriksaan… Dunia PC Microsoft mengatakan minggu lalu bahwa mereka akan segera mulai mendorong aplikasi Pemeriksaan Kesehatan PC yang kontroversial ke semua PC, sebagian untuk mempersiapkan mereka untuk transisi Windows 11, tetapi…
Foto dapat berubah dari membosankan menjadi… StackCommerce Mereka mengatakan bahwa sebuah gambar bernilai seribu kata. Kata-kata itu, bagaimanapun, dapat disalahpahami — terutama jika sebuah foto terlihat sedikit keruh. Ingin cerita foto Anda terlihat jelas? Kemudian Bundel…
Hemat 20% untuk MyDraw seumur hidup dengan kode… StackCommerce Ada beberapa manfaat untuk membuat diagram ide. Tetapi menggambar diagram alur dengan tangan itu rumit dan, jika artisnya tidak terlalu berbakat, itu bisa menjadi penghalang daripada bantuan. Namun, dengan…
Mesin waktu: Solaris 2.6 di QEMU Sebagian besar karir profesional saya di tahun 1990-an dihabiskan dengan Sparcstation di meja saya. Sebelum itu 68000 Sun2 dan Sun3 melayang melewati jari-jari saya yang lengket tetapi mesin Sparc dengan…
Orang dengan Kecerdasan Emosional Menggunakan Trik… Ben dan Amy tidak saling mengenal, tetapi mereka berdua baru saja kehilangan pekerjaan. Awalnya, mereka berdua hancur. "Apa yang akan saya lakukan sekarang?" mereka berdua bertanya. Mereka masing-masing tertidur, berenang…
Meja konsep Razer radikal ini langsung keluar dari… Razer Razer suka merayu penggemar PC dengan produk yang dibuat-buat, seolah-olah mereka melompat langsung dari alam semesta Matrix—saksikan Proyek tiga layar Laptop Valerie, desktop Project Christine modular radikal, dan proyektor…
Israel Adesanya, Robert Whittaker binatang yang sama… 10 Februari 2022 10:00 malam ET HOUSTON – Israel Adesanya dan Robert Whittaker tampaknya tidak terlalu menyukai satu sama lain, tetapi pada konferensi pers UFC 271 Kamis , Javier Mendez:…
Di mana membeli CPU 'Alder Lake' generasi… Gordon Mah Ung Pengecer mulai mengungkapkan harga jalanan dan ketersediaan untuk prosesor Intel Core "Alder Lake" generasi ke-12 yang baru, dan meskipun tidak aneh, mereka 'tidak terlalu cantik baik. CPU…
Monitor layar sentuh 4K portabel seharga $700 ini… StackCommerce Sejauh produktivitas berjalan, dua layar komputer lebih baik dari satu. Tapi itu tidak selalu menjadi solusi praktis, terutama jika Anda menggunakan perangkat seluler. Itulah sebabnya kami dengan senang hati…
Beralih dari Adobe CC pemula menjadi ahli hanya… StackCommerce Profesional kreatif yang bercita-cita tinggi membutuhkan keahlian dengan produk Adobe CC. Bagaimanapun, mereka adalah standar emas di sebagian besar industri kreatif. Itulah sebabnya kami menawarkan paket e-training Learn Adobe…
Persiapkan diri Anda untuk menghasilkan lebih banyak… StackCommerce Hampir semua orang dapat memulai karir di bidang TI. Namun, untuk tetap menjadi yang terdepan dan mendapatkan dolar tertinggi, Anda harus menjaga keterampilan Anda tetap tajam. Dan untuk itu,…
Masalah tahun 2038 masih hidup dan sehat Masalah tahun 2038? Bukankah itu seharusnya diselesaikan sekali dan untuk semua tahun yang lalu? Tidak cukup. Apa itu masalah Tahun 2038 ? Wikipedia menjelaskannya dengan baik, tetapi TL;DR bermuara pada,…
Pelajari cara mengelola, menganalisis, dan… StackCommerce Data sangat penting untuk keberhasilan bisnis apa pun. Meskipun demikian, hanya sedikit bisnis yang benar-benar menggunakan informasi yang mereka kumpulkan secara maksimal, yang menyebabkan hilangnya peluang. Tidak yakin bagaimana…
Mengapa rasa ingin tahu lebih baik daripada menjadi pintar? Banyak orang berkata kepada saya: “Ivaylo! Kamu sangat cerdas. Buletin Anda penuh dengan wawasan. Buku-buku yang Anda rangkum disajikan dengan begitu elegan dengan begitu banyak perhatian dan perhatian. Orang tuamu…
Pena Chromebook generasi berikutnya akan memiliki… Pena USI akhirnya mencapai tanah yang dijanjikan. Omong-omong, USI adalah singkatan dari Universal Stylus Initiative. Spesifikasi 2.0 sekarang akan menambahkan dukungan untuk pengisian nirkabel NFC. Itu menghilangkan salah satu hambatan…
Microsoft menawarkan perbaikan beta untuk masalah… Pada hari Jumat, Microsoft mulai menguji perbaikan untuk menghilangkan masalah latensi cache yang telah mengganggu PC yang ditenagai oleh prosesor AMD Ryzen yang menjalankan Windows 11. Namun, tambalan, bagian dari…
Persiapkan diri Anda untuk mendapatkan sertifikasi… StackCommerce Pasar kerja tetap kompetitif seperti biasanya. Dan itu sangat berbeda dari apa yang pernah kami alami sebelumnya, terutama di sektor teknologi. Itu berarti, jika Anda bekerja di bidang TI,…
FEED MINGGUAN: LAFFERTY DRAGGIN' GRIP • PROMO… Mike Lafferty akan tercatat dalam sejarah off-road AS sebagai salah satu pembalap terhebat di dunia kita. 'Junior' memenangkan delapan gelar National Enduro dalam karir yang dimulai di tingkat nasional pada…
Brave menyematkan dompet cryptocurrency tepat di browser Brave, pembuat browser yang mempelopori Brave Attention Token (BAT) sebagai cara untuk membayar perhatian Anda, telah mengambil langkah unik lainnya: Versi terbaru dari browser memiliki dompet cryptocurrency yang terpasang langsung…
Semua yang Perlu Anda Ketahui Tentang Menulis Buku,… Hai, saya Jay Steinfeld, dan saya adalah penulis pemula. Saya juga mengumumkan pensiun saya dari menulis buku.Saya akan menjelaskan sedikit tentang pensiun.Tapi mari kita mulai dengan hal-hal menarik , pertama.Saya…
Intro ramah pemula untuk pemrograman Java ini hanya… StackCommerce Kami mengunduh lebih banyak aplikasi pada tahun 2021 daripada sebelumnya. Dan tren menunjukkan bahwa kami akan mengunduh lebih banyak lagi tahun ini. Inti nya? Jika Anda mencari karier yang…
Bundel sertifikasi Cisco ini hanya $14,70 dengan… StackCommerce Rekanan Jaringan Bersertifikat Cisco memperoleh, rata-rata, sekitar $147k per tahun. Sudah bekerja di IT? Maka ini adalah kredensial yang baik untuk dimiliki. Dan, kabar baiknya, Anda bahkan tidak perlu…
Laporan: 69% karyawan fintech mengatakan mereka akan… 15 Januari 2022 16:40 Kredit Gambar: Getty Images Apakah Anda melewatkan sesi dari Future of Work Summit? Kunjungi perpustakaan sesuai permintaan Future of Work Summit kami untuk streaming. Di tengah…
Pelajari cara mengembangkan game menggunakan mesin… StackCommerce Industri video game bernilai lebih dari $300 miliar secara global. Dan jumlah yang sangat besar itu diperkirakan akan terus meningkat setiap tahun. Bawa pulang? Jika Anda menginginkan karier dengan…
Mencelupkan bola ke dalam titanium tetraklorida… Orang ini membeli beberapa titanium tetraklorida yang pada dasarnya berubah menjadi asap putih saat terkena udara dan memutuskan untuk merendam bola di dalamnya untuk membuat bola paling berasap di dunia.…
Istirahatkan Otak Anda dan Mulai 2022 Tanpa… Ini adalah musim resolusi, yang berarti banyak orang mencari tujuan perbaikan diri, tantangan yang mengubah hidup, dan mantra baru yang sehat untuk diadopsi di tahun mendatang. Apa pun yang mereka…
Hemat 62% dari penyedot debu portabel yang dapat… StackCommerce Penyedot debu ukuran penuh mungkin cukup bagus untuk mengangkat kotoran yang ada di tengah lantai. Tetapi jika kotorannya terselip di sudut atau area yang sulit dijangkau, maka kami yakin…
Pam Sorenson mengharapkan pertarungan keluar melawan… Setelah absen hampir dua tahun, kelas bulu Pam Sorenson terlihat memiliki pertarungan comeback yang solid ketika dia menghadapi Roberta Paim Samad di Bellator 264 Agustus lalu. Sementara Sorenson tidak melakukannya.…
Transfer data antar PC, buat cadangan, dan hapus… StackCommerce Meningkatkan ke komputer baru? Kedengarannya menarik. Hingga, Anda harus memigrasikan semua file Anda dari PC lama Anda, yang jarang berfungsi sebagaimana mestinya. Dan itulah mengapa setiap orang membutuhkan PC…