Entrevue Dell Technologies : Wirth Research parle (et marche) du HPC pour réduire les empreintes carbone

[Sponsored Content] Dans cette interview, une partie de notre série menée pour le compte de Dell Technologies, la société d’ingénierie basée au Royaume-Uni Wirth Research parle de l’utilisation du HPC pour réduire l’empreinte carbone de ses clients, en particulier les entreprises de supermarchés.

Mais comme l’explique Rob Rowsell de Wirth, Wirth suit également la marche de l’efficacité énergétique. Il y a deux ans, lorsque l’entreprise a décidé de remanier son infrastructure informatique d’ingénierie, Wirth a décidé d’héberger son équipement HPC basé sur Dell Technologies (ou «kit», comme le dit Rowsell) dans Verne Global à énergie géothermique (source d’énergie zéro carbone), qui se trouve en Islande. Les résultats de réduction des gaz à effet de serre que Wirth fournit à ses clients et à lui-même sont impressionnants.


Doug Black :
Aujourd’hui, au nom de Dell Technologies, nous parlons avec Rob Rowsell, il est directeur de l’ingénierie chez Wirth Research – Wirth est une société britannique spécialisée dans la dynamique des fluides computationnelle axée sur l’efficacité énergétique dans la conception des bâtiments. Rob, bienvenue.

Rob Rowsell : Merci beaucoup de m’avoir invité.

Le noir: Parlez-nous donc de Wirth Research – une entreprise intéressante, une histoire d’entreprise intéressante. Si je comprends bien, l’entreprise a commencé à utiliser la CFD pour la conception de voitures de course de Formule 1, mais est passée à la conception de bâtiments écologiques, est-ce fondamentalement l’évolution ?

Vente en ligne : En gros, ouais. Nous avons donc commencé en 2004 pour aider principalement Honda dans le championnat IndyCar aux États-Unis, en nous concentrant sur l’aérodynamique et la conception du châssis pour les aider à améliorer les performances des voitures que leurs équipes utilisaient. À l’époque, le principal outil aérodynamique était les essais en soufflerie. Et j’ai rejoint l’entreprise à la fin de 2004 pour démarrer le département CFD parce qu’il arrivait juste au point où nous pouvions commencer à produire des résultats utiles. Et depuis lors, j’ai piloté la capacité CFD d’un ordinateur dans le coin de ma chambre à des milliers de cœurs au cours de la décennie suivante. Et nous sommes passés des voitures Indy aux courses à la demande, à la fois en Amérique et en Europe, ainsi qu’à la Formule 1.

Alors vers 2010, nous avons commencé à nous diversifier en dehors du sport automobile, où nous avions pris les différentes technologies, nous avons développé et affiné et affiné et affiné. Nous avons commencé à prendre ces technologies et à les diriger vers d’autres industries qui n’avaient pas connu cette évolution de raffinement des technologies. Et nous avons réalisé que nous pouvions utiliser des technologies d’ingénierie visant à rendre une voiture très rapide pour une quantité de carburant fixe et que nous pouvions faire en sorte que d’autres choses fonctionnent aussi bien, mais pour moins de carburant ou moins d’énergie.

Ainsi, l’une des premières industries que nous avons examinées était le transport, le carburant pour le déplacement, puis les camions. Nous avons donc développé un kit aérodynamique pour réduire la consommation de carburant… Et puis nous avons commencé à parler aux supermarchés au départ de leurs camions, ils ont dit : ‘Eh bien, en fait, l’un de nos principaux problèmes, c’est la réfrigération.’ Nous nous sommes donc lancés dans le développement de kits de rénovation pour aider à maintenir la température des produits dans les réfrigérateurs à façade ouverte, à la température cible, mais en utilisant beaucoup moins, beaucoup moins d’électricité pour garder ces réfrigérateurs froids. En arrière-plan, nous avions également commencé à travailler avec des architectes pour rendre leurs bâtiments plus efficaces sur le plan aérodynamique. Et puis ces deux flux se sont combinés, et nous avons commencé à aider les supermarchés à rendre les allées des supermarchés plus confortables et plus efficaces.

Le noir: Parlez-nous du côté logiciel, juste comme point d’intérêt, certains des packages CFD que vous utilisez.

Vente en ligne : Au cours de notre histoire, nous avons utilisé ANSYS Fluent comme l’un de nos principaux solveurs CFD et également OpenFOAM, nous utilisons beaucoup plus d’OpenFOAM ces jours-ci pour les deux principaux solveurs que nous utilisons Fluent et un OpenFOAM sont les packages que nous utilisons pour prendre en charge ce processus. Du côté du maillage, nous utilisons des choses comme ANSA et…, puis nous les post-traitons pour transformer les données en images attrayantes et en visuels intuitifs informatifs à l’aide de vecteurs comme Insight et Power View.

Le noir: En ce qui concerne le matériel, je comprends que l’entreprise a appliqué son éthique d’efficacité énergétique à votre infrastructure et que vous vous êtes associé à Verne Global, qui est bien sûr la colo géothermique basée en Islande. Quand est-ce arrivé? Et comment ça marche ?

Vente en ligne : Jusqu’en 2020, il était sur notre liste de choses à faire de commencer à envisager de revoir toute notre infrastructure de toute façon, car elle devait être renouvelée. Puis, lorsque la pandémie a frappé et que nous avons dû déplacer les gens vers le travail à distance, nous avons réalisé que les gens pouvaient travailler à distance et faire le type de travail que nous faisions. Nous ne savions pas ce que l’avenir nous réservait. Ainsi, lorsque j’ai commencé à spécifier le nouveau matériel pour notre centre de données, cette connaissance combinée au fait que l’analyse comparative que nous faisions sur les nouveaux processeurs AMD EPYC, l’analyse comparative avec Dell, nous avons réalisé que l’empreinte de la nouvelle installation serait beaucoup plus petite, la consommation d’énergie de la nouvelle installation serait beaucoup plus petite, et la capacité de nos ingénieurs à pouvoir effectuer leur travail à distance – tous ces éléments allaient de pair. J’ai décidé de commencer à chercher à le localiser à distance plutôt que dans notre centre de données dans notre parc de bureaux vieillissant. J’ai donc contacté quelqu’un que je connaissais lors de conversations précédentes avec Verne Global, nous avons commencé à reconstituer le puzzle et nous nous sommes retrouvés avec un système remarquablement efficace en termes de productivité, de fonctionnement et d’énergie.

Le noir: Verne Global, bien sûr, est un partenaire titane de Dell Technologies, c’est aussi un fournisseur HPC-as-a-service, parlez-nous des capacités de classe HPC de Verne que Wirth utilise.

Vente en ligne : Notre matériel situé à Verne Global est exclusivement le nôtre et notre conception. Nous avons conçu l’installation avec Dell. Donc, en ce qui concerne l’offre HPC-as-a-service de Verne Global, nous n’exploitons pas cela actuellement. Mais leur connaissance de la façon d’héberger le kit et de l’entretenir et de l’infrastructure, de la connectivité et de la sécurité – pas seulement la sécurité en termes de cybersécurité, mais sachant que le courant sera toujours allumé, il n’y aura pas toutes les coupures de courant et ainsi de suite – tout cela en fait un endroit idéal pour héberger le kit. Mais cela signifie également que si, grâce à la croissance, nous arrivons à un point où nous devons exploser et utiliser plus de capacité HPC que celle dont nous disposons actuellement sur notre morceau de kit, nous savons que nous pourrions exploser sur leur HPC-as-a -service.

Le noir: Il s’agit donc presque d’une capacité de type cloud privé. Avez-vous tous mesuré les économies d’énergie réalisées en vous rendant à Verne avec son data center géothermique ?

Vente en ligne : Notre nouveau matériel, qui remplace toute notre infrastructure Windows, messagerie, serveurs, etc., tous nos ordinateurs de bureau, a été virtualisé dessus, ainsi que nos clusters HPC et le stockage de données. Tout ce nouveau kit utilise environ, je pense que c’est 25% de l’électricité que notre ancienne infrastructure utilisait. Ce serait donc le cas, qu’il soit situé en Islande ou au Royaume-Uni. Mais ensuite, les 25 % restants que nous utilisons encore sont 100 % renouvelables, donc non seulement nous réduisons le nombre de kilowattheures que nous utilisons, mais c’est zéro carbone.

Le noir: Alors partagez avec nous un peu de certains du matériel Dell

Rosell : Nous nous appuyons principalement sur des serveurs Dell PowerEdge équipés de processeurs AMD EPYC de deuxième génération. Le cluster HPC – le cluster précédent que nous avions comptait plus de quatre racks, je pense – le nouveau kit a été compressé dans un seul rack. Il est composé de 18 serveurs avec 64 cœurs chacun. Et puis nous avons 300 téraoctets de stockage de données en utilisant InfiniBand. Et c’est dans une configuration. Nous avons des postes de travail et des postes de travail virtualisés auxquels nos ingénieurs peuvent se connecter depuis chez eux. Ainsi, par exemple, une partie du travail que nous effectuons nécessite des graphiques très lourds et une très grande mémoire sur les postes de travail, et nos ingénieurs avec juste un ordinateur portable à la maison VPN vers des serveurs en Islande, lancent une machine virtualisée pour répliquer une tranche de Nvidia Tesla T4 dans la… machine qui est aussi puissante ou plus puissante que celle qui était assise à côté d’eux en train de faire du racket.

Le noir: Parlez-nous des gains d’efficacité énergétique que Wirth a apportés à certains clients, peut-être sur une base anecdotique, des réductions quantifiables de l’empreinte carbone.

Rowsell: Du côté de la réfrigération, notre expérience vient du sport automobile – nous avions l’habitude d’aller dans des essais en soufflerie et des essais sur piste, puis de prouver nos conceptions sur la piste, finalement dans une course. Nous avons donc appliqué ce processus de corrélation et de validation dans le travail que nous effectuons maintenant, ce qui signifie que lorsque nous parlons de notre produit, si vous le clipsez sur le devant de votre réfrigérateur, il organise le flux d’air et cela vous permettra d’économiser. Ce n’est pas seulement une estimation approximative de l’économie, cela a été testé et prouvé lors de plusieurs essais de plusieurs mois dans des magasins et dans des conditions de laboratoire de test. Ainsi, notre ensemble de lames écologiques de rénovation qui peut être fixé à l’avant des étagères et des supermarchés, qui permet d’économiser 20 à 25 % de la consommation d’électricité de la réfrigération. En termes réels, cela signifie que pour un morceau de réfrigérateur typique de quatre pieds de large – donc une étagère de supermarché typique mesure environ quatre pieds de large – pour cette pièce, nous économisons environ 1000 kilowattheures d’électricité par an. Ainsi, sur une vitrine ou une armoire réfrigérée à façade ouverte de taille moyenne de 200 pieds, vous envisagez d’économiser environ 50 000 kilowattheures par an.

Le noir: Super truc. Eh bien Rob, ce fut un plaisir de parler avec vous aujourd’hui. Nous avons été avec Robert Rowsell chez Wirth Research. Merci beaucoup d’avoir passé du temps avec nous.

Vente en ligne : Merci beaucoup.

Entretien avec Dell Technologies : Comment Anvil Cluster prend en charge les chercheurs Purdue et NSF XSEDE, y compris les utilisateurs HPC non traditionnels

Dans cette interview menée pour le compte de Dell Technologies, insideHPC s’est entretenu avec Carol Song, qui dirige le groupe de solutions scientifiques au Rosen Center for Advanced Computing de l’Université Purdue et est chercheuse scientifique principale pour les technologies de l’information à Purdue (ITaP) Research Computing.

Song est le chercheur principal (PI) et directeur de projet pour le cluster de superinformatique Anvil de Purdue, construit en partenariat avec Dell. Anvil se compose de 1 000 nœuds de serveur Dell PowerEdge avec deux processeurs AMD EPYC « Milan » 64 cœurs chacun et fournira chaque année plus d’un milliard d’heures de cœur de processeur au programme XSEDE (Extreme Science and Engineering Discovery Environment) de la National Science Foundation (NSF), avec une performance de pointe de 5,3 pétaflops. Les nœuds d’Anvil seront interconnectés avec 100 Gbps Mellanox HDR InfiniBand et comprendront 32 grands nœuds de mémoire, chacun avec 1 To de RAM. Il comprend également 16 nœuds de serveur PowerEdge, chacun avec quatre GPU NVIDIA A100 Tensor Core fournissant 1,5 PF de performances en simple précision pour prendre en charge les applications d’apprentissage automatique et d’intelligence artificielle.

Anvil, financé par un prix NSF de 10 millions de dollars, tirera parti d’un ensemble diversifié de technologies de stockage ancrées par un système de fichiers parallèles de plus de 10 Po renforcé par plus de 3 Po de disque flash.

Ici, Song discute de son parcours, de son expérience de leadership chez Purdue, des objectifs qui guident le développement d’Anvil et de la place du système dans l’infrastructure HPC de Purdue.

Doug Black : Pourriez-vous nous parler un peu de votre parcours et de certains des faits saillants de votre mandat à la direction de Purdue.

Chanson de Carol : Définitivement. Je suis diplômé de l’Université de l’Illinois à Champaign Urbana avec mon doctorat en informatique. Et après cela, j’ai fait tout un tas de choses, travaillant dans l’industrie de l’imagerie médicale et aussi dans des sociétés de communication en réseau — toutes les startups et les grandes entreprises. En 2005, j’ai rejoint Purdue, et la raison pour laquelle j’ai rejoint Purdue était qu’à cette époque, Purdue était vraiment en train de décoller dans le calcul haute performance.

Maintenant, Purdue a une longue histoire de calcul haute performance, même avant cela, mais en 2005, c’était à peu près à l’époque où le programme TeraGrid a commencé, donc j’étais au bon endroit au bon moment. J’ai donc rejoint Purdue et je dirige depuis lors le programme Purdue HPC. Grâce à TeraGrid, je suis également l’IP du programme actuel de la NSF XSEDE, qui dirige notre personnel au service de la communauté scientifique nationale. Et mon travail couvre également la création de cadres de données et de passerelles scientifiques, qui sont des éléments qui relient ces ressources avancées de cyber-infrastructure aux utilisateurs finaux – les utilisateurs finaux étant des chercheurs. Et Anvil est vraiment le point culminant de l’informatique de recherche Purdue dans ma propre carrière.

Noir: D’accord, merci pour ça. Nous sommes intéressés aujourd’hui à entendre parler du nouveau cluster de supercalculateur Anvil en cours de développement à Purdue en partenariat avec Dell, veuillez nous parler de l’échelle du système, du nombre de serveurs qu’il comprendra et du débit de calcul attendu qu’il fournira.

Chanson: Absolument. Ainsi, Anvil est financé par la National Science Foundation dans le cadre de son programme de systèmes et de services informatiques avancés. Il est financé en tant que système de capacité de catégorie 1, donc il y a quelques points sur lesquels nous nous sommes concentrés. L’un est la capacité, à la fois en termes de quantité d’heures de calcul que nous pouvons fournir et aussi en termes de technologies HPC avancées de pointe qui sont dans le système.

La deuxième chose est la convivialité. La NSF souhaite donc que ces systèmes soient hautement accessibles et utilisables par un large éventail de chercheurs à travers le pays. En termes d’échelle, Anvil dispose de 1 000 nœuds de calcul, chacun d’eux étant doté de processeurs AMD de troisième génération (EPYC CPU) et d’une performance maximale de 5,3 pétaflops. Accompagnant les nœuds de calcul, nous avons un système de stockage de 10 pétaoctets et trois pétaoctets de mémoire flash pour accélérer le mouvement des données au sein du système.

Anvil est un système complet. J’entends par là qu’il a également d’autres composants – par exemple, 32 grands nœuds de mémoire – pour prendre en charge les applications qui doivent charger un grand nombre de données en même temps. Il comporte également 16 nœuds GPU, ce sont les derniers nœuds GPU de NVIDIA, fournissant 1,5 pétaflops supplémentaires de puissance de calcul en simple précision.

Noir: Comment Anvil s’intègre-t-il dans l’infrastructure HPC globale de Purdue ?

Chanson: J’adore cette question. Tout d’abord, c’est le plus grand système que nous ayons jamais construit à Purdue. Depuis 2005, nous construisons à peu près un gros cluster chaque année. Nous avons donc construit 15 ou 16 clusters, j’ai perdu le compte. Anvil a 1000 nœuds, c’est donc évidemment le plus grand et il dispose également du matériel HPC de pointe. Là où il s’adapte — c’est le système de plus grande capacité que nous ayons jamais construit, c’est aussi le plus diversifié. Il comprend divers composants qui sont tous intégrés au même endroit, comme je l’ai mentionné, les grands nœuds de mémoire, les nœuds GPU, ainsi que les grands nœuds de calcul.

Nous avons également un système composable dans le cadre d’Anvil, essentiellement un système cloud sur site orchestré par Kubernetes. Et cela nous donne la capacité de prendre en charge non seulement les tâches de calcul HPC traditionnelles, mais également les flux de travail plus récents et plus hétérogènes auxquels les chercheurs sont confrontés chaque jour de nos jours. Cela pourrait inclure à la fois des simulations et des analyses de données, ainsi que des moyens pour eux de partager leurs logiciels, leurs données et leurs flux de travail avec d’autres chercheurs.

Pour préciser un peu où cela correspond à Purdue – donc pour ces systèmes financés par la NSF, il y a 10 pour cent de cycles discrétionnaires qui sont disponibles pour Purdue. Et avec cela, nous prévoyons de vraiment tirer parti de cette capacité pour établir et soutenir des initiatives importantes, telles que des partenariats industriels et des collaborations dans de grands programmes importants qui, sans un système aussi vaste, seraient impossibles à soutenir.

Noir: Nous comprenons qu’Anvil jouera un rôle dans le programme XSEDE de la National Science Foundation. Veuillez nous parler de l’impact que le système devrait avoir pour la découverte de la recherche et XSEDE.

Chanson: Anvil est intégré à XSEDE. Cela signifie qu’il est alloué via le processus d’allocation XSEDE. C’est un processus d’examen par les pairs, les chercheurs de tout le pays peuvent soumettre leurs propositions pendant les heures dont ils ont besoin pour les utiliser sur les systèmes XSEDE, donc Anvil est affecté à travers ce processus. Anvil fournit chaque année 1 milliard d’heures de cœur de processeur aux utilisateurs de XSEDE, et fournit également un accès aux GPU et aux grands nœuds de mémoire dans notre sous-système cloud. Et il est également intégré à XSEDE via l’assistance et la formation des utilisateurs de première ligne. XSEDE dispose d’une multitude de supports de formation déjà disponibles. Nous allons contribuer à ce programme de formation et nos utilisateurs pourraient bénéficier du matériel actuel.

Et dans le cadre de XSEDE, je pense que cela nous aidera également à élargir nos partenariats avec une communauté plus large. À titre d’exemple, Anvil fait désormais partie de l’actuel Consortium COVID-19, qui fournit une puissance de calcul aux chercheurs qui étudient les problèmes associés à la pandémie de COVID 19.

Noir: Quels autres défis espérez-vous relever en général avec Anvil ? Parlez-nous des charges de travail que vous attendez d’Anvil ?

Chanson: Oui. Lorsque nous avons proposé Anvil, l’un des problèmes majeurs pour la communauté de recherche nationale est qu’il n’y a pas assez de cycles. Il y avait donc un manque de capacité, et les systèmes XSEDE à l’époque sont toujours sursouscrits, sur-demandés. L’introduction d’un système d’une si grande capacité aidera certainement à résoudre ce problème. Ainsi, Anvil cible les tâches de calcul de taille modérée, qui constituent également l’essentiel des charges de travail XSEDE.

Certains des défis que nous nous concentrons sur l’amélioration – par exemple, l’accessibilité est l’un de nos objectifs – est que nous fournissons des environnements informatiques interactifs qui aideraient les utilisateurs à passer à l’informatique haute performance. Parce que beaucoup de communautés avec lesquelles nous nous engageons maintenant, elles n’utilisent pas traditionnellement le CHP, par exemple, les arts libéraux, les chercheurs en psychologie, en géographie. Leurs applications (ne correspondent pas) au type de mode de fonctionnement HPC traditionnel. Nous fournissons donc les environnements et les outils logiciels pour les aider à accéder plus rapidement au HPC et à rendre le HPC plus facile à utiliser.

L’autre défi est que la science est de plus en plus axée sur les données. Et les charges de travail sont très souvent des workflows, c’est donc une séquence d’étapes que les chercheurs doivent franchir. Cela peut inclure des simulations à forte intensité de calcul et des analyses basées sur les données. Et aussi, dans le cadre de leur processus de recherche, ils souhaitent partager leurs logiciels, outils et données avec d’autres chercheurs, et éventuellement aussi avec le grand public. Ainsi (en) disposant d’un écosystème complet qui inclut différentes capacités dans Anvil sous un même système, nous espérons répondre à ces flux de travail de plus en plus complexes.

Noir: Carol, merci pour cette mise à jour de l’Université Purdue. Nous avons été avec Carol Song, chercheuse scientifique principale à Purdue au Rosen Center for Advanced Computing. Au nom d’insideHPC et de Dell Technologies, ce fut un plaisir d’être avec vous aujourd’hui.

Chanson: Merci beaucoup de m’avoir reçu.