Edelliseen buustaukseen liittyen. Mikä mementomorin tilanne instanssina on tässä Metan scraping-jutussa ja vastaavanlaisissa tapauksissa, @rolle@mementomori.social? Tällaisena ei-teknisenä tyyppinä tulee tietenkin mieleen, onko tällaisille asioille ylipäänsä tehtävissä mitään, vai täytyykö vain alistua siihen, että nuo epäeettiset jätit tekevät mitä haluavat.
@rolle@mementomori.social …jjja auto-delete kuukaudesta kahteen viikkoon. 
@jussi_og@mementomori.social @magdalenahai@mstdn.social @rolle@mementomori.social En tiedä mitä mementomorissa tehdään, mutta jos Meta on käyttänyt tunnistettavaa user agentia, niin sen estäminen on täysin triviaalia.
Ja haluaisin alleviivata, että tässä keskitytään nyt täysin turhaan Metaan. Pitäisi melskata siitä, että botit ja spiderit ovat koko ajan käyneet sisältöä läpi. Ei tässä ole mitään uutta. Eikä tämän julkituoneilla olekaan agendana se, että botti menee sisältöä läpi, vaan Meta. Eikä siinä mitään, Metaa saakin potkia päähän.
Mutta silti saisi kysyä, että mistä Google on saanut koulutusmateriaalinsa. Tai Amazon. Tai miksi tämä olisi tekijänoikeudellisesti suurempi juttu kuin OpenAI (ei se olekaan, vaan että on tarkoituksenmukaista repiä otsikoita Metasta, ei varsinaisesta asiasta).
@jussi_og@mementomori.social @rolle@mementomori.social Mementomorin töötit ovat avoimesti luettavissa webistäkin, joten jos et ole henkilökohtaisesti tehnyt toimia rajataksesi tööttiesi näkyvyyttä, ne ovat avoimia ja julkisia ja kaikkien raavittavissa. Se, että tämä on pieni suomalainen instanssi voi suojata jonkun verran, mutta lähtökohtaisesti voinee olettaa, että julkiset töötit hyödynnetään kyllä ennen pitkää kaikenlaisiin tarkoituksiin. Kyllähän täällä esimerkiksi hakukoneiden hämähäkit jo käyvät.
@jagster@kvarkki.nexus @jussi_og@mementomori.social @magdalenahai@mstdn.social @rolle@mementomori.social agentin esto robots.txt tiedostolla on trivialia, mutta yhtä triviaalia on, että se kierretään. Käytännössä hakukoneiden virallisia hämähäkkejä lukuunottamatta, taitaa olla jo enemmän sääntö, kuin poikkeus, että nuo hämikset yrittää naamioida itsensä peruskäyttäjiksi ja jopa vaihtavat selainta (agentti) ja yhteyttä (ip-osoite) kesken toimintansa. Juurikin sen vuoksi, että pääsevat tuon "esteen" ohitse. Kyllähän sitten on cloudflare ja muut ddos-sinkholet, joilla sitä voi myös estää, mutta se on ihan samaa kilpajuoksua.
@msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social ottaen huomioon, että nuo datan kerääjät toimivat automaattisesti, seuraten linkkejä (ja hakutuloksia) sivulta sivulle ja ympäriämpäri, muodostaen samalla 2 asiaa:
1. Sivukartta sivuston rakenteesta; oikeammin verkkokartta, jossa jokaisesta sivustosta on oma karttalohkonsa. Käytännössä siis luovat Internetin maailmankarttaa, joka päivitetään x-väliajoin.
2. Sisältöanalyysi ihan kaikesta sivulla olevasta materiaalista. Hakukoneiden agentit luovat "avainsana" tietokannan ja arvotuksen (tämä on koneiden liikesalaisuus, mitä ja miten tarkalleen), jonka pohjalta sivu sitten näkyy hakutuloksissa. Mainospalveluiden tekevät samoin, mutta määrittävät mainosprofiilin. Tekoälyagentit kartoittavat opetusdataansa tai tekevät google/bing-hakuja käyttäjän promptien pohjalta (agenttitilassa voi myös "tehdä" omia datapoimijoita). Ja lopuksi, hakkerit voivat käyttää omia poimijoita tiedonhakuun (OSint) tai/ja haavoittuvuuksien löytämiseen sivustoilta.
Sinällään nuo voi teoriassa estää robots.txt tiedostolla, mutta se on tietysti ihan tekijästä kiinni estääkö. Toiseksi myös tuo muu näkyvyys (löydettävyys) internetissä kärsii noista säädöistä.
Jokainen voi tietysti täällä asettaa toottinsa näkymään vain seuraajille tai kirjautuneille käyttäjille (onkohan tällaista vaihtoehtoa), jolloin niitä ei ilman kirjautumista/seuraamista pitäisi nähdä.
Sinällään henk.koht. toivon, ettei tänne aleta implementoimaan noita "hidastetöyssyjä" eli ai-latausten estoja, koska ne kyllä osataan varmasti jo kiertää ja lähinnä se hidastaa oikeiden käyttäjien käyttökokemusta.
@msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social Tsekkasin tuon vuodetun listan ja siellä on:
media.mementomori.social
Hieman yllättäen itse serveriä ei ole mut en tiedä mitä se tarkoittaa.
@jannepekkala@mementomori.social @msaari@mementomori.social @jussi_og@mementomori.social Henkilökohtaisesti ja instanssin ylläpitäjänä olen täysin edellisten herrojen linjoilla. Screippaamista ei juuri voi estää, etenkin kun puhutaan AI:sta. meillä julkiset postaukset voidaan indeksoida tai screipata ja sitä on vaikeaa pysäyttää. Omista asetuksistaan saa estettyä indeksoinnin, mutta sekään ei estä kaikkea ja kaikkia. Me olemme tietoisesti hyvin avoin ja liberaali instanssi ja haluan myös testata threads.net yhteensopivuutta, jahka se koskaan Eurooppaan tulee. Se kannattaa pitää mielessä instanssia valitessa. Mementomori on tarkoituksella julkinen ja salliva.
Varmimmat tavat lienee välttyä datan päätymiseltä oman vaikutuspiirin ulkopuolelle on valita jokin "anti tech bro" -instanssi, joka sulkee maailmalta lähes kaiken suljettavissa olevan (ja on samalla vihamielinen kaikkea julkista postaamista kohtaan) tai laittaa postauksensa tuhoutumaan automaattisesti.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social Itselle ei ole mikään uutinen se, että Meta kähveltää kaiken kaikkialta. Itse enemmänkin oletan, että kaikki mitä nettiin laitan on useampaan kertaan skannattu Metan ja muiden jättien toimesta. Näitä on mahdotonta kiertää, sen verran isot koneistot taustalla.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social esto olisi työlästä ja epävarmaa. Eteen tulisi laittaa karsinta hakijan tunnisteelle, joita ne sitten vaihtelee että pääsevät noista läpi. Köytännöllisin tapa lienee olisi pyöräyttää liikenne cloudflaren läpi, joka aktiivisesti monitoroi ja karsii noita. Tiedä sitten mitä ne tekee läpimenevällä liikenteellä ja kävijöiden datalla. Toivottavasti ei CPU/liikennemäärä räjähdä.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social
Onko eliitin some myös? @husku@eliitin-some.fi
Tietääkö joku mitä Meta tekee sillä sisällöllä? Jotain AI-touhuja? 
Jos olisin Meta, niin jokainen fb-, ig- ja wa-sovellus kävisi noutamassa aina muutaman meta-blokatun sivuston ohjeen mukaisesti ja välittäisi zuck-AI:lle. Toki sovelluksen käyttäjän "suotumuksella" (suostumus automaattisesti päällä ja sen voi vaihtaa ainoastaan 3 kk välein 10 minutin aika-ikkunassa mikäli käyttäjä on tuolloin korkeintaan 100 m päässä käräjäoikeuden rakennuksesta).
@rolle@mementomori.social @nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social
@annakansalais@eliitin-some.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Ei ollu eliitin-somea 🙂
( https://community.nodebb.org/topic/8692e740-99d3-4b11-ac5e-0584bb8be15d/leaked-a-new-list-reveals-top-websites-meta-is-scraping-of-copyrighted-content-to-train-its-ai-including-many-fediverse-instances tuon takaa löytyy suora linkki PDF:ään ja juttuun mikä käsittelee tuota laajemmin)
Metan PR-edustaja kielsi että mitään listaa on olemassa mutta luultavasti mallien rakentamiseen koska se on se mistä ihmisten bonarit riippuu nyt.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Kiitos selvennyksestä ja linkistä! Me (toivottavasti) haistaan liian pahalle että metaa kiinnostaisi.
@annakansalais@eliitin-some.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Ei ollu eliitin-somea 🙂
( https://community.nodebb.org/topic/8692e740-99d3-4b11-ac5e-0584bb8be15d/leaked-a-new-list-reveals-top-websites-meta-is-scraping-of-copyrighted-content-to-train-its-ai-including-many-fediverse-instances tuon takaa löytyy suora linkki PDF:ään ja juttuun mikä käsittelee tuota laajemmin)
Metan PR-edustaja kielsi että mitään listaa on olemassa mutta luultavasti mallien rakentamiseen koska se on se mistä ihmisten bonarit riippuu nyt.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Kiitos selvennyksestä ja linkistä! Me (toivottavasti) haistaan liian pahalle että metaa kiinnostaisi.
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Kiitos selvennyksestä ja linkistä! Me (toivottavasti) haistaan liian pahalle että metaa kiinnostaisi.
@annakansalais@eliitin-some.fi @nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Eliitin-somessa on ainakin lähtökohtaisesti skreippauskielto, mementomorilla ei. https://eliitin-some.fi/robots.txt
@nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Kiitos selvennyksestä ja linkistä! Me (toivottavasti) haistaan liian pahalle että metaa kiinnostaisi.
@annakansalais@eliitin-some.fi @nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Eliitin-somessa on ainakin lähtökohtaisesti skreippauskielto, mementomorilla ei. https://eliitin-some.fi/robots.txt
@annakansalais@eliitin-some.fi @nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Eliitin-somessa on ainakin lähtökohtaisesti skreippauskielto, mementomorilla ei. https://eliitin-some.fi/robots.txt
@annakansalais@eliitin-some.fi @nihkeys@mastodontti.fi @msaari@mementomori.social @jussi_og@mementomori.social @rolle@mementomori.social @husku@eliitin-some.fi Eliitin-somessa on ainakin lähtökohtaisesti skreippauskielto, mementomorilla ei. https://eliitin-some.fi/robots.txt