Pääsääntöisesti EU:n pyrkimyksiin suhtaudutaan positiivisesti niin yritysmaailmassa kuin tutkijoiden keskuudessa. Se, millä tavalla sääntelyä nyt luodaan, saa kuitenkin kritiikkiä.
Oon jonkun verran seurannut tuota ihan sillä mielenkiinnolla kun avosorsaa koodaan vapaa-ajalla huvin vuoksi.
Jotain tuommoista sääntelyä tarttetaan tolle kentälle kyllä aivan varmasti. Omakohtaisesti ei esim. oo hirveän jees et jos mun koodia käytetään AI:n köh copilotin köh opettamiseen, niin lisenssejä ei tarvi noudattaa. Meikän ohjelmistolisenssit ei kuitenkaan vaadi paljoo muuta kuin että meikän kirjottaman koodin yhteyteen lätkäisee sen huomion et se on mun kirjoittamaa. Tää samahan se kuvataiteilijoita yms. kans hiertää.
Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä. Tuossa tekoälyasetuksessa oli jotain tämän suuntaista lähtökohtaisesti.
Kätevinhä se ois ku ois joku tyyliin spotifyn/kirjastontapainen systeemi tjsp., et jos käyttää noita AI-koulutettuja algoritmia tuottamaan omia teoksiaan niin se ois kohtuullisen helppoa ja noi korvaukset jakaantuis järkevästi tekijöille siitä.
Itelle iso osa motivaattoria miks tehä avosorsakoodia oli nähdä muitten käyttävän sitä, ja toi lisensointi teki siitä helppoa. AI:n kans ei oikein oo ees sitä motivoimassa enää siinä ja kun mikkisofta päätti käyttää githubia harjoitteludatan lähteenä kysymättä keltään niin on sen jälkeen jäänyt viime vuonna aika vähälle meikän julkiset kontribuutiot.
Eikös Githubille ole myös vaihtoehtoja? Ainakin Bitbucketista olen kuullut, mutta ei ole mitään kokemuksia. Tietty jos haluaa kontribuoida jonkun toisen Githubissa olevaan projektiin, niin se ei taida onnistua ilman tiliä siellä.
Onhan noita vaikka kuinka. Ite oon käyttäny vaan omaa kotiserveriä isommalta osin nyt gittirepoilleni, ja codeberg.org:ia käytän nykyään jos haluun julkaista jotain, siellä tosin ei paljoo tällä hetkellä ole. sourcehut (sr.ht) on asia, Gitlab ja Bitbucket vähän isompia taas, ja gittihostausta o helppo tehä itekki esim. gitean (jota toi codebergiki käyttää) kans jos tuntuu siltä. Ja käytän mää edelleen Githubia sivussa jos haluun johonkin patcheja nakata. Enemmä tossa se motivaation murhaamine ton tekemisee sattuu ku se ettei ois paikkaa mihin laittaa.
Jos koodaamisesta tykkää niin suosittelen kyl mikäli sattuu jotain kohalle. Sanoisin et keskimäärin oppii nopeemmin paremmaks ku ns. oikeissa töissä. Saattaa kans aiheuttaa tunnetta siltä et tulee tehtyä paljon hyödyllisempää työtä.
Se on toki yks (yleensä enemmän pääsee ku joutuu), mut siin on kans paljon sitä et ei oo oikeita deadlinejä sinänsä ja vapaaehtoista hommaa, niin on aikaa tehä asiat kunnolla ja upstreami yleensä kans haluaa et asiat on tehty kunnolla, koska ne todennäkösesti joutuu maintainaan sitä ite. Siihen vielä se et noi on aika kroonisen alimiehitettyjä yleensä, niin jos näyttää siltä et on saamassa jotain aikaan niin yleensä auttavia käsiä löytyy kans kun kontribuutioita arvostetaan eikä oteta itsestäänselvyytenä.
Ja code reviewit ja tämmöset on ollu lähes jokaisessa avosorsaprojektissa mihin oon kontribuoinu aivan eri tasolla ku koskaan töissä. Nopeesti oppi hoksaan omia huonoja tapoja mitkä ois työelämässä jääny vaan pyöriin.
Toki näissäki o parempia ja huonompia yhteisöjä jotka noita väsää. Molempia on tullu vastaan et aina ei oo ihan yhtä ruusuista.
Lista ois aika pitkä ku on tullu tehtyy näitä pitkää (oon muumio), mut pääasiassa C++:aa, C:tä ja Rustia Linuxiympäristössä tai suoraa rauan päälle väännän. Siinä o sit sivussa tullu tutuks vähän kaikkee protokollastäkeistä ja ikkunoinnista sensorianalyysiin näyttiksillä.
Rust mainittu. Tulee heti tietty mielikuva postaajasta. :)
Itseä kiinnostaisi osallistua joskus johonkin avoimen koodin proggiksen kehitykseen, mutta vastaantulleet työkalut tuntuvat täsmäävän sen verta huonosti omaan osaamiseen, että kynnys lähteä tekemään on suht korkea. Uusia työkaluja/tekniikoita tulee sitten opiskeltua pääosin omien pikkuprojektien parissa.
Heh, mää oon vähän vähemmän "rewrite it in rust" -tyyppi ku useimmat Rustin käyttäjät. Muutaman kerran tullu puhuttua Rustiheebojen kans tuosta et plz älkää tuoko tätä joka paikkaan ja heiluko ku norsu posliinikaupas, mut se o hyvä kieli joihinki hommiin vaikken ehkä hirveesti sen fanikerhosta välitäkkää.
Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.
Tässä vaan käy helposti niin että tuo kaatuu mahdottomuuteensa ja koko teknologian kehitys tyssää. Vaihtoehtoisesti vain isoilla pelaajilla on varaa luoda datasettejä ja nykyiset avoimet AI kehitys-/datan haalimisprojektit kuolee.
Tämä on juuri sellainen sääntelijän kaappaus mitä isot toimijat toivovat. Googlella/Microsoftilla tms. ei data tule koskaan loppumaan. Heidän suurin uhkansa on että joku avoimen lähdekoodin jamppa muutamalla näyttiksellä rikkoo monopolin tekemällä avoimen kopion heidän ylihintaisesta API:staan. Algoritmit/menetelmät itsessään kun ovat jo täysin avoimia.
Eipä kirjastot oo kaatanu kirjoja tai striimaus musiikkiakaa, vaikka samalla lailla kauhukuvia maalailtiin. Samaan tapaan systeemi pitää olla et tekijöiden on mahollista saada irti jottain siitä luomastaan datasta. FOSS-lisenssit on olemassa syystä eikä se et laitat sen kielimallin läpi oo mikään oikeutus sille et voit vaan unohtaa lisenssit.
Tohon tulee pakosta sääntelyä viimeistään siinä vaiheessa ku joku opettaa kielimallin reverse-engineeraan suljettua koodia ja laittaa ne julkiseks. Mikä on tällä hetkellä enemmän laillista kuin avosorsan jakaminen ilman lisenssiä.
edittinä:
Ja siis, eihän tää estä mitenkään avoimien datasettien luomista. Se vaan estäis sitä että niihin saa napata mitä vaan koodia miettimättä mitä tekee. Ei mua haittais tarkoituksellisesti viedä koodia semmoiseen.
Eipä kirjastot oo kaatanu kirjoja tai striimaus musiikkiakaa
Kuvittele jos meillä olisi kansallisen kirjastojärjestelmän kokoinen pulju ihan vaan jotta saat luoda avointa softaa. Ja musiikin lisesointi on juuri kuvaamani monopolihirvitys, jossa artisteja ja kuuntelijoita riistetään ja isot toimijat vetävät rahat välistä. Ei ihme että suuretkin ammattimuusikot joutuvat tienaamaan elantonsa lähinnä keikkailemalla.
Ja siis, eihän tää estä mitenkään avoimien datasettien luomista.
Kuvaile toki miten esim. Common Crawlin tapainen yleishyöhyllinen ja avoin datasetti -projekti voisi toimia, jos jokainen tekstin pätkä vaatisi lisenssitiedoston.
Reddit yms. voi aina heittää TOS:in pätkän, jossa annat luvan datan käyttöön. Tuollainen lisenssihelvetti käytännössä tuhoaisi vain kaiken avoimen ja vapaan kehityksen.
Tämän ajaminen menee käytännössä samaan luokkaan salauksen kieltämisen / sääntelyn kanssa.
Kuvittele jos meillä olisi kansallisen kirjastojärjestelmän kokoinen pulju ihan vaan jotta saat luoda avointa softaa. Ja musiikin lisesointi on juuri kuvaamani monopolihirvitys, jossa artisteja ja kuuntelijoita riistetään ja isot toimijat vetävät rahat välistä. Ei ihme että suuretkin ammattimuusikot joutuvat tienaamaan elantonsa lähinnä keikkailemalla.
Öh, mää en nyt seuraa. En tajuu miksi tää vaatis mitenkää "kansallisen kirjastojärjestelmän kokoista puljua ihan vaan että voisi luoda avointa softaa". Jos luot avointa softaa niin noudatat sitä tiukinta avosorsalisenssiä minkä ehdoilla datasettiä o harjoitettu ja oot tyytyväinen.
Ja miten susta ois parempi se et muusikot ei sais mitään, eikä kukaan edes tietäis mitä ne on tehnyt? En määkää ny oo striimauksesta tienannu ku muutaman euron, ja se systeemi ei nyt mitenkää erityisen hyvä oo, mut ainakin se on jotain. Se ettei noissa oo sääntelyä tarkottaa sitä ettei oo mitään suojaa avosorsakoodareille.
Kuvaile toki miten esim. Common Crawlin tapainen yleishyöhyllinen ja avoin datasetti -projekti voisi toimia, jos jokainen tekstin pätkä vaatisi lisenssitiedoston. Reddit yms. voi aina heittää TOS:in pätkän, jossa annat luvan datan käyttöön. Tuollainen lisenssihelvetti käytännössä tuhoaisi vain kaiken avoimen ja vapaan kehityksen.
Häh, jos selaat tommosella esim. githubii, niin pahimmillaan jouvut lukeen sen LICENCE.*:n, minkä pystyy parsiin hyvin simppelisti. Kasaat siitä dataa listaa nimistä, repoista ja lisensseistä, ja liität sen datasettis yhteyteen että ihmiset tietää miten ne saa sen AI:n luomaa koodia käyttää? Jos sun datasetissä on AGPL-koodia, niin joudut avaan koodis AGPL:n mukaan. Käytät koodia, noudatat sen lisenssiä. Suurin osa avoimesta koodista menee about viidellä eri lisenssillä joten toi ei oo ees erityisen teknisesti haastavaa.
Mää en nyt oikein ymmärrä sun pointtias muutenkaa, nuo lisenssit on tällä hetkellä se, mikä mahdollistaa avoimen ja vapaan kehityksen.
Tämän ajaminen menee käytännössä samaan luokkaan salauksen kieltämisen / sääntelyn kanssa.
Jos ei nyt veettäis mutkia suoriksi, mulla ei oo mitään havaintoo miten ees kuvittelet et tää pitää ees etäisesti paikkaansa.
Mää en nyt oo ihan varma puhutaanko me ristiin vai mitä, koska meikällä o nyt kummallinen mielikuva et haluut että avosorsakoodarien oikeuksia ei puolusteta sillä niiden puolustaminen johtaa avosorsakehityksen kuolemiseen, ja en oikein usko et se on sunkaan pohjimmainen ajatus.
Koska itse käytit kirjastojärjestelmää hyvänä, toimivana esimerkkinä, kun puhuttiin globaalista kaiken datan lisessoinnista avoimeen AI kehitykseen.
Ja miten susta ois parempi se et muusikot ei sais mitään
Vaihtoehdot eivät ole nykyinen tai ei mitään. Ja itse toit musiikkilisesoinnin tähän. Itse en näe kaupallista musiikintuottamista ja random nettiin kirjoittelua mitenkään rinnasteisina.
Pointti oli osoittaa kuinka esimerkkinä antamasi lisenssijärjestelmät ovat raskaita/huonoja ja tukahdutavia, ja kuinka niiden "kauhukuvat" ovat pitkälti todellisuutta. Sanoit itsekin että samantapainen systeemi (olet pakotettu ostamaan kalliit oikeudet monikansalliselta oikeuksien haltijalta) pitäisi olla yleisesti datan kanssa.
Häh, jos selaat tommosella esim. githubii
Suurin osa datasta netissä ei sisällä määrämuotoista lisenssiä. Suuria kielimalleja kehitetään myös moneen muuhun asiaan kuin vain koodin generointiin. Nyt puhutaan siitä kuinka mielestäsi kaiken datan tulisi vaatia lisenssin, jotta sitä saa käyttää edes välillisesti mihinkään. Tämä tappaisivat yllämainitun tapaiset projektit, kun ne joutuvat pyytämään luvan muutamalta biljoonalta lisenssinhaltijalta. Vai oliko tässä idea että koodaajat ovat jotenkin erityisoikeutettuja omaan tuotokseensa muihin tekstin tuottajiin verrattuna?
Jos ei nyt veettäis mutkia suoriksi
Pointti oli kuinka teknologiaa heikosti ymmärtävät maallikot ajavat sääntelyä, jonka todellisia vaikutuksia ja haittoja he eivät ymmärrä.
sillä niiden puolustaminen johtaa avosorsakehityksen kuolemiseen
Tässä menee softakehitys ja koneoppimismallienkehitys (=tekoäly/AI) sekaisin. Puhun juurikin avoimesta koneoppimismallien kehityksestä avoimella datalla, joka tulee tukahtumaan jos jokainen tekstinpätkä tms. pitää lisensoida ja siitä maksaa rojalteja. Eli siis tuo mitä aiemmin kirjoitit:
Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.
Ylipäätään idea että jos jonkun harrastelijakoodarin viikonloppuprokkiksesta päätyy neljäsosabittiä informaatiota jonkun kielimallin painokertoimiin, niin siitä pitäisi saada rojalteja on naurettava. Vielä naurettavampi, jos sen vuoksi vaaditaan tekoälykehityksen tukahduttamista ja kansainvälisen lisensointijärjestelmän pystytystä.
Koska itse käytit kirjastojärjestelmää hyvänä, toimivana esimerkkinä, kun puhuttiin globaalista kaiken datan lisessoinnista avoimeen AI kehitykseen.
Sanoin jo ekassa postauksessa et puhun avosorsakehittäjän näkökulmasta. Vähän turha väitellä asiasta kun ei käsitellä ees samaa kontekstia. Tosin oon samaa mieltä myös muusikon, kuvataiteilijan tai kirjailijan näkökulmasta. En oikein usko et tää nyt on enää hyvässä hengessä keskustelua, kun tuntuu et yrität lukee mun tekstiä mahollisimman typerällä tavalla sen sijaan et yritettäis tajuta toistemme pointteja. Ja no, ei auta kun sulla on tuossa vastaukessa tämmösiä hienouksia
Nyt puhutaan siitä kuinka mielestäsi kaiken datan tulisi vaatia lisenssin, jotta sitä saa käyttää edes välillisesti mihinkään
mikä on ehkä vähän enemmän sää väittelemässä omaa mielikuvitusversioas meikästä vastaan ku mun argumentteja vastaan, niin ei tää oikein tästä etene. Eikä
Pointti oli kuinka teknologiaa heikosti ymmärtävät maallikot ajavat sääntelyä, jonka todellisia vaikutuksia ja haittoja he eivät ymmärrä.
tämmöset oikein oo kunnon argumentteja. Kunnolliset argumentit ottais kantaa siihen tekstiin, ei siihen ketkä sitä tekee, ja mulla ei oikein usko meinaa riittää et oisit oikeesti tutustunu siihen enää tässä vaiheessa.
Mun pointti on et tehdystä työstä tulee saada korvaus, eikä kielimallit saa olla keino ohittaa sitä. En usko et nää on hirveen mullistavia ideoita. Ja tää vaatii välttämättä jonkun sortin sääntelyy, ja jonkun sitä pitää viiä eteenpäin. En tiiä millaseks tuo kaikki loppujen lopuks muodotuu, mut siinä on aika monta eturyhmää vastakkain, enkä haluu uhrata useempaa eturyhmää yhden eestä. Nää kielimallit tulee joka tapauksessa oleen aika merkittävii tulevaisuudes, niin niiden pelisäännöt o hyvä olla kaikilla selvillä.