_______________________________________________________
« Je comprends donc pourquoi l’exploration Web, les «robots Web», etc., ont la réputation qu’ils ont – d’envahisseurs extraterrestres, ici pour détruire.Parce que parfois ils le sont. Et je ne suis pas une personne dont «l’information veut être libre» – au contraire, j’ai souvent le sentiment que nous pourrions faire un pas en arrière, vers le pseudonymat, vers la vie privée, même si je reconnais que c’est probablement impossible. »
Eleanor Amaranth Lockhart, Ph.D.
_______________________________________________________
Alors, ce soir, un gros gros article, assez novateur, par une spécialiste des recherches sur Internet. Non seulement l’article est enrichissant et éclairant sur certains outils d’Internet, et la parallèle avec la vie extraterrestre est très pertinent.
Armez vous de courage, l’article le mérite !
Lien vers l’article :
_______________________________________________________
Proposition de traduction :
L’une de mes premières expositions à la recherche en science des données, ou vraiment à n’importe quelle recherche, quand je grandissais était SETI @ Home, qui quand j’avais 11 ans promettait une possibilité alléchante: et si vous pouviez potentiellement être la personne pour (avoir votre ordinateur) découvrir un signal de la vie extraterrestre. SETI @ Home, la première exposition de nombreuses personnes au type de traitement distribué qui constitue aujourd’hui, entre autres, l’extraction de crypto-monnaie, est un projet de reconnaissance de formes et en 1999, lorsqu’il a été lancé et que je l’ai installé avec enthousiasme sur mon PC Windows 98 de 233 mégahertz, c’était ma première exposition au type de recherche de modèles dans les données que je fais maintenant en tant que chercheur de données. Alerte spoiler: mon HP Pavilion n’a jamais trouvé de signal extraterrestre. Décevant, mais pas surprenant à distance. (Il s’agit d’un article sur la science des données, mais il s’agit également de récits de premier contact extraterrestres – ils ne sont pas aussi indépendants que vous le pensez, et je vous demande de supporter mes couches de métaphores ici.
Pour tous ceux qui ont toujours voulu rencontrer des extraterrestres, le paradoxe de Fermi est un sombre problème: ne devrions-nous pas avoir, maintenant? Les humains recherchent les étoiles avec SETI depuis près d’une demi-décennie et n’ont trouvé aucune preuve crédible de vie extraterrestre. Un s suggéré dans Sky & Telescope par SETI astronome Seth Shostak retour en 2006, une des raisons pour la recherche de SETI pour l’ intelligence extraterrestre peut sembler, et finalement prouver, futile, est en raison des progrès de la technologie. C’est-à-dire: si l’intelligence extraterrestre hypothétique a une histoire qui imite la nôtre, elle aura une durée de vie très courte où elle sera détectable par des balayages de radiotélescope comme ceux traditionnellement menés par SETI.
Pendant des millions d’années avant la radio, les êtres humains n’avaient pas d’impact appréciable du signal radio sur l’univers. Au moment où SETI a été conçu, nous en avions beaucoup – menant à la célèbre scène du drame de 1997 Jodi Foster SETI Contact où l’un des membres les moins admirables de notre histoire collective est devenu le représentant de toute l’humanitéen ayant (prétendument, dans l’histoire) présenté dans l’un des premiers signaux radio haute puissance. Ce sur quoi le contact finalement optimiste compte et met en évidence dans le générique d’ouverture du film, qui présente un voyage stellaire à la vitesse de la lumière d’un signal renvoyé en réponse au Fuhrer du système Vega, c’est que nous continuerons à transmettre – donc même si Adolf l’ouverture d’Hitler aux Jeux Olympiques 1933 étaient la première transmission qu’une civilisation extraterrestre ait jamais vue de nous, ce ne serait pas la dernière, car ils commenceraient à recevoir de plus en plus d’informations sous la forme de signaux de télévision et de radio de haute puissance, leur permettant peut-être de nous comprendre.
Mais selon Shostak, le laps de temps pendant lequel notre civilisation est visible de cette manière peut en fait se terminer quelques décennies après le moment où Contact est censé se dérouler (1997) – et comme l’article de Shostak est sorti en 2006, nous sommes peut-être déjà passés. . Nous publions des rames et des rames de données – comme je le sais bien, étant un chercheur érudit et une science des données – dont certaines que nous aimerions probablement que les extraterrestres voient, et beaucoup desquelles nous ne le ferions vraiment pas. Mais il y a de fortes chances que des extraterrestres minuscules voient notre civilisation aujourd’hui, dans sa grandeur ( la musique d’Evanescence ), son horrible (les discours de tant de dirigeants autoritaires actuels), voire sa médiocrité ( Avengers: Fin de partie)), est minuscule, car nous déplaçons toutes ces données sur des câbles à fibre optique, ou tout au plus, des satellites dirigés vers la Terre dont les liaisons de données ne rebondissent pas dans l’espace.
Je ne suis pas un extraterrestre, mais je suis un chercheur en données travaillant à la création d’un portefeuille de projets basés sur des données Web avec des résultats exploitables pour répondre aux questions qui m’intéressent – des questions qui peuvent se rapporter à ces grands médias, médiocres ou horribles de notre époque, ou au sujet de ma thèse de doctorat, harcèlement en ligne de masse lié à la culture «nerd». Et en ce sens, le Web d’aujourd’hui est de plus en plus hostile et, oui, étranger – pas nécessairement ou seulement en termes de ses habitants et de ce qu’ils y mettent, mais en termes de son architecture et de sa structure. C’est un problème complexe avec des aspects positifs et négatifs, et je veux creuser un peu ces problèmes, en utilisant le concept de contact extraterrestre comme métaphore, tout en discutant de certains des défis auxquels j’ai été confronté dans la recherche en science des données, comment j’ai surmonté eux lorsque j’étais chercheur universitaire à l’université, et comment je les surmonte en tant que chercheur indépendant maintenant. En substance, cependant,Je suis préoccupé par le fait qu’en termes de diffusion d’informations sur le Web, nous entrons dans la fin de «l’ère de la diffusion» de données facilement disponibles pour la recherche, en passant à un certain nombre de nouvelles normes de communication qui présentent de grands avantages pour la performance, la confidentialité, et d’autres préoccupations, mais qui risquent de rendre une énorme quantité de connaissances humaines qui devraient probablement être publiques et effectivement invisibles aux chercheurs, tout comme notre civilisation peut maintenant l’être pour tous les programmes SETI extraterrestres qui existent.
Web X.0 et collecte de données
Lorsque SETI @ Home a commencé et que j’étais un préadolescent enthousiaste à jouer avec les outils de programmation que je pouvais trouver sur mon bureau Intel Celeron 233 mégahertz susmentionné avec un CRT (capable d’une résolution d’affichage jusqu’à 1024×768!) J’avais, bien sûr, un Géocités. Et un Angelfire , et un FortuneCity , et au moins une demi-douzaine d’autres sites sur des fournisseurs d’hébergement Web gratuits depuis longtemps perdus à cause du désabonnement de l’histoire (mais probablement archivés quelque part sur Internet Archive, dont je parlerai plus en détail dans un instant). HTML 3.0 puis 4.0 ont été les langages dans lesquels j’ai créé mon premier contenu Web public, même si j’avais utilisé BASIC pour Mac et Microsoft QBASIC pour écrire des jeux rudimentaires avant cela, comme cela semble être l ‘«histoire d’origine» de la programmation pour la plupart des ma génération de codeurs. La plupart de ces outils de site Web gratuits offraient une interface de conception WYSIWYG (Ce que vous voyez est ce que vous obtenez), mais elle était limitée par le manque de ce que nous appellerions maintenant des fonctionnalités réactives dans les navigateurs, donc ceux d’entre nous qui étaient enthousiasmés par notre Star Wars les pages de fans ont appris le HTML. C’était Web 1.0, et à son stade plus «mature», Web 1.0 offrait un aperçu assez organisé, digne et structuré du contenu qui aurait autrefois été hébergé sur des mainframes et des serveurs non basés sur le Web.
Les institutions académiques et gouvernementales ont partagé des découvertes scientifiques – l’un de mes favoris à l’époque était bien sûr le Jet Propulsion Laboratory de la NASA, qui partageait et continue de partagersous les nouveaux paradigmes Web, des images de l’espace lointain collectées par Hubble et d’autres observatoires. À l’époque, accéder à JPL pour obtenir un nouvel arrière-plan de bureau space-y était assez simple: vous accédiez au site Web, probablement à partir d’un signet (nous les avons toujours, mais est-ce que quelqu’un les utilise vraiment? Soyez honnête …), puis sélectionnez le type d’image que vous recherchiez (photos de planètes dans notre système solaire, imagerie extrasolaire, etc.), et éventuellement vous arriviez soit à une page qui intégrait l’image que vous recherchiez avec une balise <img> standard, ou vous obtiendrez une description avec un lien vers un répertoire FTP auquel vous pourriez accéder dans votre navigateur (en quittant techniquement le «Web» complètement) pour télécharger diverses résolutions et formats de l’image.
Bien que la norme HTML4 ait été techniquement publiée en 1997, juste un an après avoir commencé à utiliser Internet et environ un an avant d’apprendre à écrire en HTML, la plupart des concepteurs Web amateurs et de nombreux concepteurs Web professionnels continueraient pendant des années – certains à ce jour, par nostalgie ou pour des raisons idéologiques – utiliser plus ou moins HTML pour décrire visuellement ce que l’utilisateur allait voir, dans le cadre du lourd ensemble de contraintes que Netscape Navigator et Internet Explorer offraient à l’époque. Alors qu’il ne fait aucun doute que de nombreux sites gouvernementaux et universitaires ont adopté la norme croissante d’utilisation des balises <div> pour rendre le code de balisage lisible, mon examen de la copie de Internet Archive de la page d’accueil de JPL de septembre 2000trouve que très peu d’informations utiles sont contenues dans ce que nous appelons maintenant le DOM (Document Object Model) de la page. La page d’accueil contient un texte de présentation sur un article lié à la découverte d’un nouvel astéroïde «en os de chien», et s’il s’agissait du site Web JPL moderne, les balises <div> définiraient le titre, le texte, le lien, l’auteur et d’autres contenus et le méta-contenu de cet article mis à part de manière à ce que je puisse écrire un script automatisé pour, par exemple, vérifier JPL quotidiennement et enregistrer de nouveaux articles dans une base de données locale. En 2000, tout ce que j’aurais pu faire était de sauvegarder la page – il est peu probable que même étudier la structure exacte de la page m’aurait permis de créer un «grattoir» fiable qui persistait sur plusieurs itérations de la page elle-même.
(Je sais que le «grattage» est quelque chose au sujet duquel les gens ont des préoccupations éthiques – moi aussi, et j’en parlerai plus tard, mais à mon avis, ils sont essentiels à la pratique de nombreux types de recherche de données, et JPL, en tant que gouvernement Le site Web destiné à diffuser des informations est un excellent exemple de page sur laquelle il devrait y avoir un minimum de préoccupations éthiques concernant le grattage.) Ce que je veux dire ici, c’est que même les sites Web conçus pour diffuser des données «à l’époque» étaient encore pour la plupart accessible uniquement aux parcoureurs manuels du Web, ce qui n’aurait pas été formidable pour quelqu’un qui essaie de faire le genre de recherche que je fais maintenant à l’époque. L’une des choses qui a incité les développeurs Web à adopter une structure HTML plus compréhensible par ordinateur était l’optimisation des moteurs de recherche (SEO):
Si le «Web 1.0», dans la mesure où c’est une chose que nous pouvons définir, était le Web avant son «ère de diffusion» où les chercheurs pouvaient trouver et rassembler des données, comme des intelligences extraterrestres qui regardaient des transmissions à partir d’une grande différence, le «Web 2.0» était / est que l’époque elle-même, pour le meilleur et pour le pire. En raison de mes intérêts de recherche, je me concentre sur le meilleur, mais j’ai l’intention de reconnaître le pire aussi. Au fur et à mesure que les pages Web côté serveur générées dynamiquement devenaient plus omniprésentes, il devenait plus facile de prédire où se trouveraient exactement dans le code de la page Web – le DOM – des informations particulières. La prolifération des systèmes de gestion de contenu (CMS) signifie que vous pouvez consulter un blog écrit dans WordPress et trouver des signes révélateurs que le code peut identifier de manière algorithmique reflétant tout le contenu et les métadonnées du blog. Dans les années 2010, gérer des sites entiers et même des entreprises dans WordPress est devenu une chose assez normale et populaire, et ce n’était qu’un exemple. Parce que les ordinateurs généraient la structure de la page, il était très facile de faire de l’ingénierie inverse, et c’était cet environnement lorsque des outils de grattage bien-aimés commeBeautiful Soup et Scrapy ont été développés pour. Les API RESTful , qui existaient dans une sorte de forme brute non définie dans le Web 1.0 dans le sens où vous pouviez souvent procéder à l’ingénierie inverse des requêtes CGI qui utilisaient des URL pour communiquer avec le serveur, ont été formalisées dans les années 2000 et signifiaient que les requêtes de données à un serveur étaient envoyées par un humain ne pouvait pas être facilement distingué des requêtes envoyées par un bot (ou un extraterrestre!)
Cette époque n’est pas révolue et elle ne le sera probablement jamais entièrement. Mais quelque chose que j’ai trouvé assez déroutant pendant que je faisais des recherches pour cet article (après avoir heurté un mur avec ma collection de données) était de nombreux articles sur l’idée que le Web 3.0 serait un Web «plus ouvert» . En tant que data scientist qui a besoin de données, je ne peux tout simplement pas collecter manuellement, je ne peux pas être d’accord avec cela, et ce n’est pas la direction dans laquelle je vois les choses. À l’heure actuelle, il existe des pages et des sites sur Internet à partir desquels je peux obtenir des informations utiles, et des pages et des sites dont je ne peux pas. Un exemple de site Web qui fonctionne toujours selon le paradigme généré par machine et lisible par machine pour le moment est le site d’examen des médias de masse Metacritic., qui couvre les films et la télévision mais traite en grande partie des jeux vidéo. En ce moment, je travaille sur un certain nombre de projets dans lesquels j’essaie de répondre à des questions de recherche sur l’opinion publique et le succès financier des propriétés médiatiques qui incluent des personnages minoritaires (en particulier les personnes LGBT et les femmes) dans des rôles de premier plan, et d’accéder à l’opinion brute du public en ligne est un facteur important à cet égard. Parce que Metacritic est le lieu dominant dans le jeu pour à la fois rassembler des critiques formelles et que les utilisateurs publient leurs propres opinions (souvent de manière notoirement toxique), j’ai accès à ce genre d’opinions brutes en ce qui concerne les jeux – mais pas pour les films, où Rotten Tomatoes, dont je parlerai dans un instant, remplit à peu près le même rôle. (Les gens publient des critiques de films sur Metacritic,The Last of Us Part II , un jeu controversé qui a produit une grande diversité d’opinions, j’ai écrit un script Python pour obtenir les URL de toutes ces critiques (dont j’ai plus tard pu obtenir le texte et les métadonnées de très simplement avec la bibliothèque Newspaper3k , qui cible spécifiquement les sites d’actualité et de type news pour trouver le contenu et les auteurs / titres des articles).
C’est une solution très simple, et j’ai pu ajouter du code de base de données et modifier les éléments spécifiques que je recherchais et extraire plus de 25000 avis d’utilisateurs (très en colère!) Du même titre de la section des avis d’utilisateurs, et les placer dans une base de données PostgreSQL locale. (Tout cela a été fait de manière cohérente avec le fichier robots.txt du site, pour les personnes concernées par l’éthique.)
Vous ne pouvez pas faire cela pour RottenTomatoes. Vous ne pouvez pas non plus le faire de manière fiable avec le site d’examen de jeux Polygon. RottenTomatoes est particulièrement flagrant avec ses critiques d’utilisateurs, et sa méthode «Web 3.0» pour faire les choses est pourquoi. (Polygon est explorable dans une certaine mesure, il ne prend tout simplement pas en charge les plongées profondes dans les archives, même pour les humains, ce qui est en quelque sorte un problème distinct.) RottenTomatoes charge 8 à 12 avis d’utilisateurs d’un film donné à la fois, et vous ne peut accéder à l’ensemble suivant qu’en cliquant, à quel point une demande d’API utilisant JavaScript est envoyée au serveur (je travaille actuellement sur le reverse-engineering pour déterminer exactement de quel type de demande il s’agit) et vous devez conserver en cliquant, manuellement. La bibliothèque de tests Seleniumpeut simuler ce genre de chose en essayant de tromper le serveur en lui faisant croire que c’est un humain (c’est le genre de chose que les Captcha sont conçus pour empêcher, bien sûr, mais pour autant que je sache, RottenTomatoes ne les utilise pas, ni ne le fait en fait interdire le grattage – cela le rend juste vraiment difficile), mais Selenium n’est pas vraiment pour le grattage. Le but de la bibliothèque est de faire du développement basé sur des tests sur des sites JavaScript, et sa capacité à aider au scraping est en quelque sorte un bonus. Ce n’est pas fiable, ce n’est pas ce pour quoi il est conçu, et les modifications apportées au site qui interrompent les scripts de scraping seront beaucoup plus difficiles à corriger de manière fiable lorsque Selenium doit être mis dans le mix. Les données ne sont pas inaccessibles, mais il est extrêmement difficile d’y accéder – et cela devient une tendance.
J’étudie également le développement Web, et quelque chose que je réagis dans mon texte JavaScript m’a fait me sentir très déprimé et a inspiré cet article: c’était simplement une description de base de l’origine et du but de GraphQL , qui est en partie conçu pour supplanter les API RESTful. GraphQL est un moyen d’envoyer directement des requêtes au backend du serveur, développé par Facebook pour permettre les types de requêtes très complexes que le client Facebook doit effectuer, dont beaucoup seraient difficiles à exécuter avec un processus RESTful. (Le «graphique» dans le nom peut sembler déroutant jusqu’à ce que vous vous rendiez compte qu’il fait référence au graphique social de Facebook.) Medium, par ailleurs, utilise GraphQL.
Ce qui m’a déconcerté à propos de GraphQL, c’est qu’il nous ramène presque dans le temps. À l’époque où j’avais mon Celeron 233Mhz, il y avait le Web et il y avait des applications, ou, vous savez, des «programmes» comme nous les appelions. De nos jours, les jeux vidéo et les logiciels spécialisés sont proches des seuls «programmes» que nous exécutons localement – même des éléments comme Atom Text Editorsont essentiellement des pages Web JavaScript exécutées dans une couche de virtualisation légère. Ce qui est étrange, c’est que l’exécution de programmes localement ne les a pas utilisés pour les rendre nécessairement compréhensibles pour l’utilisateur – ils étaient généralement du code compilé dans un langage de bas niveau comme C, donc à moins que vous ne puissiez lire le style binaire Matrix ou que vous soyez l’un de ces super- haxxorz qui pouvait déterminer les emplacements de mémoire qui étaient référencés comme les gens le faisaient pour tricher aux jeux, vous saviez à peu près ce que l’interface utilisateur du programme vous disait. Le Web était quelque peu unique en ce sens que vous pouviez toujours «afficher la source» et déchiffrer souvent les demandes d’API envoyées à partir de types traditionnels de pages Web et même de certaines «applications Web».
Aujourd’hui, je pense que la domination de l’application Web nous ramène à cette époque où les données sont obscurcies et où nous ne voyons que ce que les développeurs veulent que nous voyions.C’est tout à fait justifiable dans de nombreux cas – évidemment, si le cabinet de votre médecin ou votre université maintient un site contenant des informations sur votre santé ou vos notes, vous ne voulez probablement pas que cela soit facilement rétro-ingénierie. Infosec est bon! Mais en tant que principes de conception pour le publicles sites Web – comme RottenTomatoes – se mêlent à une conception Web «réactive» qui dépend fortement de requêtes difficiles, voire impossibles à imiter, des quantités massives d’informations publiques, telles que les sentiments des gens à propos d’un film, disparaissent d’un point de recherche de vue. Nous, les extraterrestres, nous les chercheurs, ne pouvons pas y accéder – et honnêtement, quelle est son utilité pour le spectateur moyen non plus? Il est peu probable que 12 critiques d’utilisateurs aléatoires d’un film vous indiquent de manière fiable si vous voulez le voir ou non, non sans un moyen de le trier et de le filtrer.
Le premier contact du chercheur: éthique et sondes destructrices par rapport à la quête du savoir
J’ai mentionné que j’allais parler de l’éthique du grattage. Comme je l’ai noté, les deux sites Web auxquels je fais référence ci-dessus, RottenTomatoes et Metacritic, n’interdisent pas le grattage, et Metacritic n’a eu aucun problème avec le téléchargement de 25000 critiques d’un jeu – deux fois, même, une fois dans des fichiers texte bruts et une fois dans une table SQL. Il est clair que RottenTomatoes est hostile au grattage, mais ils ne disent pas que vous ne pouvez pas le faire. Et cela m’amène à la question de ce qui devrait être gratté, et à deux autres histoires de premier contact sur de vrais extraterrestres, qui jettent toutes deux un regard beaucoup plus sombre sur la perspective de rencontrer la vie sensible. Lorsque nous considérons les préjudices potentiels et existants du grattage Web, mais aussi les conséquences de la désactivation de l’échange de données Web pour la recherche, je pense que ceux-ci fournissent matière à réflexion.
Dans le roman Blindsight de Peter Watts (hébergé dans un format HTML trèsWeb 1.0), l’explication de «l’ère de la diffusion» de l’échec de SETI croise une autre explication populaire: le scénario des sondes mortelles ou destructrices , connu probablement aujourd’hui comme l’inspiration de les Reapers dans la série de jeux vidéo Mass Effect de Bioware , qui ont finalement été inspirés par le cycle Berserker de Fred Saberhagen . Dans Blindsight,une intelligence extraterrestre que le narrateur appelle Rorschach, un vaisseau spatial sensible, arrive dans notre système solaire et commence à tracer notre destin, car elle considère la vie sensible et consciente comme une menace. L’histoire se déroule dans notre avenir et Siri, le narrateur, en déduit que Rorschach a commencé à voyager pour nous détruire à la suite de notre ère de diffusion – il détecte des signaux indiquant la sensibilité et la conscience, et il les cherche pour les détruire. Blindsight , une sorte de roman d’horreur de science-fiction et une inversion de nombreux tropes positifs de premier contact trouvés dans Contact ou Interstellar , postule que rendre l’information visible et intelligible peut être une menace existentielle.
Et c’est tout à fait correct, si l’on regarde comment la communication humaine a été remodelée depuis la fondation de Facebook en 2004. (Ne pas mettre tout cela aux pieds de Facebook, pour être clair; je soupçonne que cette tendance se serait produite malgré tout, et Facebook n’est pas « Ce n’est même pas actuellement la force motrice dans de nombreux éléments dangereux de la communication ouverte.) Bien qu’il y ait eu beaucoup de paranoïa étrange qui, pour être honnête, n’était pas vraiment fondée sur quelque chose de réel quand j’étais enfant sur la façon dont vous ne devriez pas ‘ t partager votre vrai nom en ligne parce que vous pourriez être kidnappé par des kidnappeurs, la réalité a rattrapé le fantasme paranoïaque. Les réseaux sociaux ont exposé une grande partie de nos vies, et même les gens qui pensent faire attention, pensent qu’ils ne se révèlent pas, dérapent.
Nous savons que les sociétés de marketing ont des tonnes de données sur nous (et je ne suis pas contre cela, pour être clair! Les spécialistes du marketing veulent vous vendre des choses ou vous persuader – ne pas vous nuire!) Malheureusement, des sites comme Internet Archive – que j’utilise, et dont les archives de JPL je lient dans cet article lui-même – rendent également pratiquement impossible d’effacer une empreinte numérique. L’Internet Archive s’appuie sur le web scraping, d’ailleurs, et il est fort probable que son robot d’exploration soit contrarié par les types de conception réactive qui contrarient également mes robots de recherche – ce qui signifie que si vous créez un site Web personnel avec des données dont vous ne voulez pas pour persister éternellement, peut-être devriez-vous construire avec des composants React complexes et GraphQL et tout le reste! Mais bien sûr, nous ne faisonssites Web personnels plus, sauf en tant que cartes de visite essentiellement numériques que nous n’avons vraiment aucun problème à archiver pour toujours. Tout ce que nous pourrions souhaiter disparaîtrait, qui pourrait être utilisé pour nous détruire comme Rorschach veut détruire l’humanité, vit dans les médias sociaux – dans des choses comme Internet Archive archivant des tweets supprimés, par exemple. Véritable définition d’une épée à double tranchant, l’archivage des tweets nous permet de responsabiliser les dirigeants politiques, mais aussi, comme je le documente abondamment dans ma thèse de doctorat, fomente le harcèlement contre les groupes et les personnes marginalisés. Si les informations personnelles ou les secrets de quelqu’un sont exposés sur le Web social, il est quasiment impossible d’effacer ces données des archives amorales qui, comme le vaisseau spatial Rorschach, fonctionnent sans véritable conscience ou conscience de ce qu’ils font.
Je comprends donc pourquoi l’exploration Web, les «robots Web», etc., ont la réputation qu’ils ont – d’envahisseurs extraterrestres, ici pour détruire.Parce que parfois ils le sont. Et je ne suis pas une personne dont «l’information veut être libre» – au contraire, j’ai souvent le sentiment que nous pourrions faire un pas en arrière, vers le pseudonymat, vers la vie privée, même si je reconnais que c’est probablement impossible. Mais la recherche est la recherche, et les exemples jumeaux de Metacritic et RottenTomatoes fournissent un exemple d’information et les réponses aux questions, rendues totalement inaccessibles – «annihilées», si vous voulez – par les paradigmes de conception Web modernes.Une question de recherche que je souhaite compléter dans le cadre de mon portfolio de recherche en science des données est de comparer les réactions du public au jeu vidéo The Last of Us Part II avec le film Atomic Blonde . C’est à la fois parce que je suis fan de ces deux éléments, et parce qu’il s’agit d’entités tout aussi rares – des médias sur une femme lesbienne ou bisexuelle qui s’engage dans de nombreux combats et combats, ce qui est généralement réservé aux hommes hétérosexuels dans les médias. Je veux comparer la façon dont les gens y réagissent. Mais je ne peux pas , car je ne peux obtenir que des informations sur The Last of Us Part IIles avis des utilisateurs provenant d’une source significative. J’ai besoin de ces données RottenTomatoes, et j’ai beaucoup de travail à faire pour y accéder, si je peux même le faire. La vie privée de personne n’est protégée par cela – les gens publient ces avis publiquement, ils apparaissent dans les résultats de recherche publics avec le nom d’utilisateur qu’ils ont entré, et dans tous les cas, je n’ai pas besoin d’identifier des utilisateurs spécifiques, donc dans le cas de mon Metacritic script de grattage d’avis d’utilisateur, j’ai simplement gratté uniquement le texte de l’avis, car je m’intéresse au traitement du langage naturel et à l’analyse des sentiments, et je n’ai besoin que du texte.
Dans le thriller de premier contact Annihilation de 2018 , une intelligence extraterrestre se retrouve apparemment par accident dans le sud des États-Unis, et le personnage de Natalie Portman est envoyé pour enquêter sur la disparition de son mari, joué par Oscar Isaac, lors d’une expédition antérieure. Comme Blindsight , Annihilation a l’horreur au premier contact avec la vie extraterrestre, plutôt que la merveille de Contact.

Le météore qui a impacté un phare de la côte du golfe est apparemment une menace existentielle pour la vie sur Terre, élargissant une zone de plus en plus large où son ADN se mélange à l’ADN de la vie terrestre. C’est une menace. Il essaie également de comprendre – c’est pourquoi il renvoie ce qui semble être une version dupliquée du mari de Portman, et la fin implique que Portman elle-même a été remplacée par un clone quelconque, malgré sa destruction réussie du phare dans le film. Climax. Ce que je vois comme la vraie tragédie dans Annihilation, ce n’est pas que les personnages meurent, mais que l’hostilité entre les humains et la vie / intelligence portée par le météore pourrait bien résulter d’une incapacité du météore à rechercher.les humains et leur culture. «L’ère de la diffusion» mise à part, il s’est écrasé sur Terre (apparemment) par erreur, c’est juste ici – il n’aurait probablement pas écouté les transmissions jusqu’à ce qu’il soit arrivé de toute façon. Et pourtant, il est ici maintenant, et la seule façon dont il peut comprendre est par une hostilité apparente. Ainsi, il crée des simulacres d’humains pour entrer dans notre culture et comprendre.
Le web scraping nous place quelque part entre les extraterrestres de Contactet une version moins homicide des «extraterrestres» d’ Annihilation . Nous sommes obligés d’utiliser la tromperie – agents utilisateurs de navigateur, «navigateurs sans tête» comme Selenium, etc. – pour accéder à un vaste volume de données. Sans ces données, nous ne comprendrons pas et nous ferons des erreurs comme les êtres en contact , qui ont renvoyé des images d’Adolf Hitler sans comprendre que les humains trouveraient cela assez menaçant. Ils n’ont pas compris le contexte.Les sites qui reflètent les idées, les désirs et les émotions communs des humains doivent être accessibles et ne devraient certainement pas être rendus inaccessibles au grattage simplement en raison des tendances de conception (plutôt que d’une décision intentionnelle de protéger les données qui devraient être protégées).La protection de la vie privée contre les menaces de type Rorschach doit être distinguée de la dissimulation de données à des data scientists légitimes. L ‘«annihilation» de l’information publique par l’utilisation analytique est une marée que je crains profondément en tant que chercheur.