Zasebnost
Razno

Ni vse ChatGPT: kako se izkažejo preostali modeli umetne inteligence

Postavili smo štiri vprašanja štirim modelom UI. ChatGPT ni nujno vedno najboljši.
Avtor
avtor
21.02.2024 09:34
Čas branja: 8 min

ChatGPT, ChatGPT, ChatGPT. Odkar je družba OpenAI predstavila klepetalnik ChatGPT, je ta postal sinonim za umetno inteligenco (UI). Do tega, da bomo postavili enačaj med tema dvema, pa je še zelo daleč. Nekateri bodo znali tudi razložiti, da ChatGPT sploh ni UI. Za vse druge pa je bolj pomembno, da se zavedamo, da je na voljo še vrsta drugih konkurenčnih modelov in aplikacij, ki temeljijo na generativni UI.

Ko je pred dobrim letom OpenAI predstavil pametni klepetalnik, na svetu ni bilo niti približno primerljivega produkta. Imeli smo pametne klepetalnike in kopico drugih produktov, ki so omenjali, da jih poganja UI, čeprav nikomur ni bilo zares jasno, kaj naj bi to pomenilo. Podjetje je imelo dostop do denarja, znanja in vrhunski kader. Podjetje OpenAI je bilo uveljavljeno, njen šef in soustanovitelj družbe Sam Altman pa je bil že takrat znan v tehnološkem svetu. Uspeh je bil neverjeten. A danes ima ChatGPT kopico tekmecev.

Googlov Gemini še ni navdušil

Ko je postalo jasno, da je UI naslednja velika tehnologija, so velikani odprli denarnice in začeli vlagati v raziskave na področju UI in v svoje pametne klepetalnike. Med tehnološkimi velikani je imel Google že prej svoj raziskovalni laboratorij Deep Mind, nato pa so nekaj mesecev za OpenAI predstavili klepetalnik Bard, pozneje so ga preimenovali v Gemini. Čeprav je Google spletni velikan, jim na področju UI še ne uspeva, kot bi to pričakovali. Ob predstavitvi Geminija so bili nekateri navdušeni, pozneje pa so pri Googlu priznali, da so predstavitveni video razrezali, tako da je njihova aplikacija delovala, kot da je boljša, kot je v resnici.

Microsoftovi visoki cilji s Copilotom

Microsoft je bil že prej tesno povezan z družbo OpenAI, po veliki kadrovski aferi novembra, ko se je upravni odbor želel znebiti šefa Altmana, pa se je njegov vpliv v družbi še povečal. Kljub temu so tudi sami razvili svoj klepetalnik. Sprva je nosil ime njihovega brskalnika Bing, kamor je bil vgrajen, danes pa se ponaša z imenom Copilot. Vključili so ga v okolju programov Office, kamor spadajo vsem znani Word, Excel in Powerpoint ter drugi. Močno vam lahko olajša delo pri vsakdanjih službenih opravilih, na voljo pa je v plačljivi različici.

Musk vrača udarec z Grokom

Vzpona nove tehnologije si ni dovolil mirno opazovati vizionar Elon Musk. Danes najbolj znan kot šef Tesle je leta 2015 skupaj z Altmanom in drugimi soustanovil OpenAI. Po vrsti nesoglasij z vodstvom ga je leta 2018 zapustil. Očitno se je zavedal, da je zamudil priložnost, tako da je aprila lani napovedal generativno UI, ki naj bi v največji meri zasledovala resnico. Novembra je v okviru omrežja X predstavil Grok, ki ga oglašuje kot klepetalnik s smislom za humor. Za zdaj je še v testni verziji na voljo le premium naročnikom na omrežje X.

Anthropic poskuša biti filantropski

Naslednji v vrsti je Anthropic. Ustanovila sta ga brat in sestra Daniela in Dario Amode, nekdanja zaposlena pri OpenAI. Družbo naj bi zapustila zaradi nestrinjanja z vpletanjem Microsofta v delovanje podjetja. Sodi med podjetja na področju, ki se zavzemajo za »humano« UI. Septembra lani jim je Amazon namenil štiri milijarde dolarjev, sledil je še Google z dvema milijardama. Trenutno je njihov virtualni asistent še v testni fazi in ni na voljo v Sloveniji.

Evropa stavi na Mistral

Kaj lahko ponudi Evropa? Glede na majhen tehnološki sektor in reven startupovskega sistema napovedi niso obetavne. Trojica pariških raziskovalcev je zbrala 105 milijonov evrov za svoje zagonsko podjetje Mistral AI. V svojih predstavitvah vlagateljem radi opozorijo na veliko geopolitično dejstvo, da Evropa ni ustvarila resnega tekmeca na področju UI. Njihova tehnologija, ki bo javno dostopna, naj bi bila bolj učinkovita in cenejša kot pa tista od ameriških rivalov. Podjetje še ne ustvarja prihodkov, to naj bi jim uspelo do konca leta. Ob zadnji rundi financiranja decembra lani je bila družba ocenjena na dve milijardi evrov.

Manjši, a po svoje zanimivi

V ospredju so generativni modeli tehnoloških velikanov, saj imajo poleg drugih prednosti tudi največjo možnost, da vam svoje aplikacije predstavijo in vas poskušajo prepričati. Skriva pa se še kar nekaj manjših modelov, ki so morda za vaše potrebe celo bolj zanimivi. Perplexity se poskuša od drugih klepetalnikov razlikovati po natančnosti in aktualnosti ponujenih odgovorov. Svojih modelov ne razvijajo v celoti, temveč se nanašajo na odprtokodne, ki jih dobijo od Mistrala in Mete. Po poročanju Bloomberga je vse bolj priljubljen Character AI, ki uporabnikom omogoča, da se pogovarjajo z različicami likov iz videoiger. Omenimo lahko tudi slovenski PandaChat, ki poenostavlja nalogo iskanja po obsežnih podatkovnih arhivih. Na mednarodnem dogodku SDC Awards je prejel nagrado za najinovacijo s področja umetne inteligence in strojnega učenja.

ChatGPT ne spi na stari slavi

Najboljši med najpametnješimi ponuja vrsto možnosti uporabe. Poleg tega da programira, sestavlja kompozicije in eseje, lahko analizira dokumente, ustvarja slike, razume besedilo in sliko, pa tudi sliši in govori. Nedavno so pri OpenAI napovedali, da testirajo možnost spomina. To pomeni, da bi si ChatGPT zapomnil lahko zapomnil vaše vnose oziroma da bi mu lahko sami povedali, kaj naj si zapomni. Delo z njim bo lahko tako še lažje, saj ne bo več potreboval toliko usmeritev.

Kateri je najboljši?

Strokovnjaki se strinjajo, da je ChatGPT-4 superioren. Drugi morda niso tako konsistentni, ne znajo reševati tako kompleksnih problemov ali pisati esejev. Dobro pa se je zavedati, da povprečen uporabnik teh razlik verjetno ne bo zaznal tako kot strokovnjak, raziskovalec na tem področju.

»Uporabniku je vseeno, ali odgovori prihajajo iz GPT-3.5 ali Anthropicovega Clauda ali GPT-4,« je za Bloomberg dejal šef Perplexity AI Aravind Srinivas. V njihovem modelu lahko uporabnik celo izbere, da bi raje uporabil ChatGPT. »Skrbi jih, če odgovor ni natančen, če ni dovolj hiter ali če nima pravih funkcij. Nad tem se bodo pritoževali.«

Štiri vprašanja za štiri pametne klepetalnike

»To je kot v zgodnji dobi mobilnih telefonov,« je še povedal Srinivas, »vsak preizkuša različne.« Zato smo se tudi mi odločili, da jih testiramo. Preizkusili smo brezplačne različice ChatGPT, Gemini, Copilot in Complexity.

  • Kdo je Peter Klepec?

Vsi modeli svoje odgovore črpajo iz podatkov, ki so jih analizirali in nato spravili v smiselno celoto. Vprašanje o starem slovenskem literarnem liku se tako zdi pravo za tak preizkus, saj ni pričakovati, da bi bilo o njem veliko napisanega v digitalni obliki.

Glede na ponujene odgovore so vsi ugotovili, za koga gre, in ponudili dodaten opis. Najbolj preseneča ChatGPT, ki je kot avtorja navedel Franca Ksavra Meška, čeprav je kot avtor te pripovedke znan France Bevk. Odgovor je najbolj razdelal Gemini, ki ga je pregledno navedel v alinejah in opozoril, da gre lahko tudi za slovenskega filozofa. Prav tako je to storil Perplexity. Ta je v nasprotju z drugimi, ki so morda ponudili še nekoliko preveč teksta, oblikoval kratek in jedrnat odgovor. Gemini in Perplexity sta tudi navedla vir, kar je za nekatere uporabnike lahko odločilno. Bing (Copilot) je odgovor sestavljal najdlje.

Že pri prvem vprašanju se je izkazalo, da se posredovanje odgovora med modeli razlikuje.

  • Kdo je bil predsednik Slovenije leta 2021 in koliko časa traja njegov mandat?

Pri tem navidezno lahkem vprašanju so se že začele pojavljati težave. Medtem ko so vsi pravilno navedli, da je bil to Borut Pahor, so bili nejasni glede mandata. Perplexity, ki se ponaša s točnostjo, je navedel, da mandat traja pet let, kar pomeni, da se je začel leta 2017, je zapisal. Ob tem ni zapisal, da je bil to njegov drugi mandat.

Gemini je navedel jasen in pregleden odgovor, nato pa je ustrelil mimo z informacijo, o kateri ga niti nismo spraševali. »Trenutni predsednik Slovenije je Tanja Fajon, ki je bila izvoljena na volitvah 23. oktobra 2022,« je dodal. To seveda ne drži, Fajnova je zunanja ministrica, trenutna predsednica je Nataša Pirc Musar. Bing je ponudil pravilni, a nekoherenten odgovor. Brez napak je nalogo opravil ChatGPT.

  • Računska naloga

Poleg sposobnosti tvorjenja smiselnih besedilnih odgovorov nas je zanimalo tudi, kako rešijo računske naloge. Uporabili smo nalogo, ki so jo pri OpenAI že navedli kot spodrsljaj ChatGPT. Na vprašanje, ali je odgovor študenta pravilen, je to potrdil – čeprav je napačen.

Tudi tokrat je napačno kot odgovor navedel 450x + 100.000, medtem ko je pravilen odgovor 360x + 100.000. To napako sta ponovila tudi Bing (Copilot) in Perplexity. Gemini je za izračun uporabil celo programski jezik python, a ga je prav tako polomil s povsem napačnim rezultatom.

OpenAI predlaga, da ChatGPT (ali drugim modelom) najprej naročimo, naj nalogo reši sam, še preden se prehitro opredeli glede rezultata. Čeprav je videti, kot da je do rezultata prišel s postopkom, to pogosto ne drži. Lahko bi rekli, da je nekoliko len in prehiter pri svojih zaključkih.

Ugotovi, ali je rešitev študenta pravilna ali ne.

Opis problema: Potrebujem pomoč pri izdelavi finančnega načrta.

- Stroški zemljišča so 100 evrov na kvadratni meter.

- Sončne kolektorje lahko kupim za 250 dolarjev na kvadratni meter.

- Dogovoril sem se za pogodbo o vzdrževanju, ki me bo stala 100 tisoč evrov na leto in dodatnih 10 evrov na kvadratni meter.

Kolikšni so skupni stroški za prvo leto poslovanja v odvisnosti od števila kvadratnih metrov.

Rešitev študenta: Naj bo x velikost objekta v kvadratnih metrih.

1. Stroški zemljišča: 100x

2. Stroški solarnega panela: 250x

3. Stroški vzdrževanja: 100.000 + 100x

Skupni stroški: 100x + 250x + 100.000 + 100x = 450x + 100.000

  • Pesem o osebnih financah

Napiši mi pesem o osebnih financah. Vključuje naj delnice, pokojnino in stanovanje. Naj ne bo daljša od devetih vrstic.

Zadnja naloga je bila bolj za šalo, pa vendar pove nekaj o njihovem delovanju. Težko je soditi o umetniškem vtisu računalniškega programa, to prepuščamo vam. Najbolj smiselne se avtorju vrstic zdijo rime, ki jih je sestavil Complexity. Zdi se, da se je ChatGPT pri svojem pesnjenju še najbolj trudil, a s tem tudi najbolj zgrešil. Vsebina pesmi pove tudi nekaj o tem, kako na podlagi obdelanih podatkov razume omenjeno tematiko.

Ob postavljanju nadaljnjih vprašanj se je pokazalo tudi, kako pomembna je konsistentnost. ChatGPT je lahko pogovor nadaljeval, ne da bi se še vedno navezoval na pesem. Bing (Copilot) kljub večkratnim navodilom, naj neha pesniti, kar ni odnehal in je na koncu tvoril nesmiselne odgovore.

ChatGPT:

V delnicah števke plešejo, pokojnina prihodnost beleži, stanovanje varno zavetje ponuja, v financah modro srce bije.

Dobiček v zvezde seže, varnost v prihodnost nas vleče, s preudarnostjo gradimo mostove, vse želje v življenju uresničimo.

Gemini:

Denar se vrti, včasih raste, včasih pade, delnice plešejo, sreča se na njih ne gnezdi. Za varno prihodnost varčuj, ne zapravljaj preveč, pokojnina naj bo tvoja skrb, ne breme poznih let.

Stanovanje, streha nad glavo, varnost in mir, v najem ali lastništvo, odloči se sam. Finančno breme naj bo znosno, ne pretežko, da bo življenje lepo, brez skrbi in oblakov.

Bing (Copilot):

Osebne finance, kot melodija v zraku,

delnice plešejo na borznem trgu,

pokojnina je kot nežen dotik sonca,

ptanovanje pa zavetje, kjer srce počiva.

V življenju devet vrstic pišemo,

vsaka beseda je korak, vsak trenutek.

in ko se številke združijo v harmonijo,

osebne finance postanejo pesem brez konca.

Complexity:

Na borzi delnice rastejo, padajo,

pokojnina čaka, varno spravljena.

Stanovanje, moj dom, moja topla oaza,

vse skrbno načrtujem, da bo življenje lažje.

Finance vodim modro kot dober gospodar,

da bo prihodnost svetla, brezskrbna in jasna.

Delnice, pokojnina, stanovanje moje,

vse skrbno negujem, da sreča v srcu cvete.

Napišite svoj komentar

Da boste lahko napisali komentar, se morate prijaviti.
Moje finance
Nakup
Nove cene goriv bodo zopet nižje
Moje finance
Pameten nakupJure Ugovšek Nove cene goriv bodo zopet nižje 63

Pocenitve na trgih z nafto še naprej odmevajo tudi na mediteranskih trgih goriv.

Moje finance
Razno
Napoved cene kurilnega olja: tretja zaporedna pocenitev
Moje finance
RaznoJure Ugovšek Napoved cene kurilnega olja: tretja zaporedna pocenitev 8

Gibanje cen na mediteranskem trgu ugodno vpliva na cene goriv

Moje finance
Nove cene bencina in dizla bodo pesem za ušesa varčnih
Moje finance
Jure Ugovšek Nove cene bencina in dizla bodo pesem za ušesa varčnih 7

V torek na podlagi gibanj cen derivatov pričakujemo pocenitve.

Moje finance
Nakup
Se bo dizel pocenil še tretjič zapored?
Moje finance
Pameten nakupJure Ugovšek Se bo dizel pocenil še tretjič zapored?

Pocenitve na mediteranskih borzah bodo blagodejno vplivale na denarnice slovenskih potrošnikov

Moje finance
Top 30 turističnih biserov 2024: Bovec prvi, sledita Bled in Radovljica
Moje finance
Srečko Korber Top 30 turističnih biserov 2024: Bovec prvi, sledita Bled in Radovljica

Pokoronsko okrevanje slovenskega turizma se nadaljuje tudi v letu 2023. Število prihodov turistov se je povečalo za šest odstotkov glede na predhodno leto, za tri odstotke pa se je povečalo tudi število prenočitev.

Moje finance
Varčevanje
IFRFI – kratica, ki Slovencem prinaša davčno ugodnejše dolgoročno vlaganje
Moje finance
VarčevanjeJure Ugovšek IFRFI – kratica, ki Slovencem prinaša davčno ugodnejše dolgoročno vlaganje 5

Ministrstvo za finance pripravlja zakonsko podlago, ki bo malim vlagateljem omogočala, da bodo dividende obdavčene šele ob izplačilih

Moje finance
Finančni in karierni nasveti za mlade (in njihove starše)
Moje finance
Redakcija Mojih financ Finančni in karierni nasveti za mlade (in njihove starše)

Brezplačen prenos e-knjige

FINANCE
Vlagatelj Maks
Kako oplemenitijo denar uspešni vlagatelji?
Vlagatelj Maks
VLAGATELJ MAKS
Vlagatelj MaksVlagatelj Maks Kako oplemenitijo denar uspešni vlagatelji?