Komentarze
Komentarzy na stronę
1 2
Borat1 (2018.05.17, 15:53)
Ocena: 21
#1

0%
A meltdown już załatali?
iwanme (2018.05.17, 15:54)
Ocena: 22
#2

0%
Ciekawe czy wszystkie dziury załatane...

Raczej ciekawostka, bo póki co nawet AVX2 nie jest jakieś wybitnie popularne w konsumenckim sofcie.
Putout (2018.05.17, 16:06)
Ocena: 13
#3

0%
Borat1 @ 2018.05.17 15:53  Post: 1144246
A meltdown już załatali?


wątpie. raczxej obstawiam że wszystkie procesory będą załatane już w mikrokodzie ale luka wciąż pozostanie. chyba by musiały pójść większe zmiany w archi aby błąd zlikwidaoć a nie tylko go załatać
tomcug (2018.05.17, 16:11)
Ocena: 1
#4

0%
Putout @ 2018.05.17 16:06  Post: 1144256
raczxej obstawiam że wszystkie procesory będą załatane już w mikrokodzie ale luka wciąż pozostanie.

Przecież tak się nie da. Wszystkie fixy polegają na kombinacji zmian w systemach operacyjnych oraz (ewentualnie) mikrokodzie. Łatanie Meltdown z mikrokodem nie ma w ogóle nic wspólnego, więc takie rozwiązanie jest niemożliwe do wykonania.

EDIT:

Można się dowiedzieć, za co minusy i raport?
Edytowane przez autora (2018.05.17, 21:04)
Ryzen (2018.05.17, 18:53)
Ocena: 8
#5

0%
AVX-512 to jedyne co Intel wymyślił, aby zaistnieć w obliczu nadciągających 7nm u AMD? Z tego AVX-512 99% użytkowników nigdy nie skorzysta.
Atak_Snajpera (2018.05.17, 18:59)
Ocena: 3
#6

0%
AVX-512 tak mocno 'throtluje' CPU że różnica w x265 jest prawie żadna
https://forum.doom9.org/showthread.php?t=168814&page=302
Edytowane przez autora (2018.05.17, 19:00)
Ryzen (2018.05.17, 19:22)
Ocena: 0
#7

0%
Dr. Murthy (Intel):
'We found tremendous intra-node capability within our 14-nanometer process. In fact from the very first generation of our 14-nanometer to the latest generation of 14-nanometer product, we’ve been able to deliver over 70% performance improvement as a result of those intra-node modifications and desirable changes. And that’s quite frankly Harlan has given us the ability to make sure that we get 10-nanometer yields right before we go into mainstream production. And so, therefore we’re comfortable with the 14-nanometer roadmap that will give us leadership products in the next 12 to 18 months, as we seek to optimize the cost structure and yields of our 10-nanometer portfolio.'
https://www.extremetech.com/computing/2693...e-14nm-products
Wnioski (next 12 to 18 months) każdy niech sam wyciągnie.
Edytowane przez autora (2018.05.17, 22:11)
sevae (2018.05.17, 20:00)
Ocena: 7
#8

0%
Rozumiem, że testy temperatur i poboru energii będą robione w AVX512 dla procesorów Intela? :)
deton24 (2018.05.18, 04:17)
Ocena: -1
#9

0%
@tomcug
bo niby czemu producenci łatali BIOSy?
zwiska (2018.05.18, 07:12)
Ocena: -1
#10

67%
A to podkręci wydajność w PEWNYCH aplikacjach o kilka kilkanaście procent.
Ale to tylko w pewnych zastosowaniach ...
zwiska (2018.05.18, 07:16)
Ocena: 0
#11

67%
Ryzen @ 2018.05.17 19:22  Post: 1144293
Dr. Murthy (Intel):
'We found tremendous intra-node capability within our 14-nanometer process. In fact from the very first generation of our 14-nanometer to the latest generation of 14-nanometer product, we’ve been able to deliver over 70% performance improvement as a result of those intra-node modifications and desirable changes. And that’s quite frankly Harlan has given us the ability to make sure that we get 10-nanometer yields right before we go into mainstream production. And so, therefore we’re comfortable with the 14-nanometer roadmap that will give us leadership products in the next 12 to 18 months, as we seek to optimize the cost structure and yields of our 10-nanometer portfolio.'
https://www.extremetech.com/computing/2693...e-14nm-products
Wnioski (next 12 to 18 months) każdy niech sam wyciągnie.


No się zgadza intel już dawno temu oficjalnie odszczekał 10nm na ten i przyszły (zasadniczo) rok.
Te wypustki z nielicznymi procesorakmi niby w 10nm (to w sumie nie potwierdzone) gdyż na oficjalnych listach ich nie ma. To prawdopodobnie odpady produkcyjne z produkcji testowej.
Próbują na waflu jak najmniejsze chipy robić aby mieć w miare duzy uzysk oczywiście nawet im to nie wychodzi ale po przeszło 2 latach testowania zrobiła się im góra śmieci a w tej górze są jako tako pracująco styrta IC.
To czemu ich nie sprzedać szekle nie śmierdzą a w gównianych laptopach się odnajdą.
Jak nawet zdechną to na rynku chińskim ta informacja zginie w tłumie.
beznazwie (2018.05.18, 08:31)
Ocena: -1
#12

0%
Ryzen @ 2018.05.17 18:53  Post: 1144287
AVX-512 to jedyne co Intel wymyślił, aby zaistnieć w obliczu nadciągających 7nm u AMD? Z tego AVX-512 99% użytkowników nigdy nie skorzysta.


Nie do końca. Visual Studio 2015 przy .NET 4.6 kompiluje kod z wykorzystaniem instrukcji AVX. Jednak jedynie tych skalarnych. Wektorowe trzeba 'obsłużyć' ręcznie.
beznazwie (2018.05.18, 08:37)
Ocena: -1
#13

0%
To nie jest tak, że mało kto korzysta z AVX. Rozkazy z tego zbioru są używane częściej, niż myślicie :). Np programy kompilowane pod VS2015 i .NET 4.6 mają takie instrukcje. Jednak nie wszystkie - tylko te skalarne. Bo trzeba pamiętać, że AVX zawiera instrukcje nie tylko do obslugi wektorów, ale również liczb skalarnych. I to te ostatnie są wykorzystywane automatycznie przez kompilator. Wektorowe trzeba niestety obsłużyć ręcznie. Co ciekawe, nadają się nie tylko do grafiki :P. Ja np. zrobiłem jakiś czas temu porównywanie dwóch łańcuchów tekstowych z wykorzystaniem instrukcji AVX-256.
Makavcio2 (2018.05.18, 09:01)
Ocena: 0
#14

0%
Byłbym wdzięczny za krótkie info, czym właściwie są te instrukcje, do czego mi są potrzebne i jak się to ma realnie do potrzeb normalnego użytkownika chociażby wskazanej jednostki i3.
Wiem, że mogę sobie wygooglać, ale w pracy jestem i mam poblokowane :E No i taki footnote w artykułach z dużą ilością kwestii technicznych byłby mile widziany jako zasada ogólna.
Emler (2018.05.18, 09:04)
Ocena: -1
#15

0%
Borat1 @ 2018.05.17 15:53  Post: 1144246
A meltdown już załatali?


Oczywiście że nie załatali, bo nowa archi od intela wolna od tych dziur ma się pojawić dopiero w przyszłym roku, i nawet nie wiadomo czy to będzie jeszcze Ice Lake czy coś zupełnie innego. W końcu nie codziennie kupuje się legendę doliny krzemowej, który przepracował u konkurencyjnego AMD pół życia - Jima Kellera :)

Intel tak już się boi utraty rynku na korzyść AMD, że teraz będzie chciał kupić każdego kto nie zasili szeregów swojego czerwonego (a w zasadzie zielonego) konkurenta ;-) Tylko że takie zabiegi są już bezcelowe, ponieważ konsumenci nie wybaczą intelowi tych luk bezpieczeństwa. A DAJ BÓG aby w końcu hakerzy uruchomili swoje exploity Meltdown oraz Spectre, to intel zniknie z rynku szybciej niż Nokia :D
Edytowane przez autora (2018.05.18, 11:12)
Stanley (2018.05.18, 10:35)
Ocena: 0
#16

0%
beznazwie @ 2018.05.18 08:37  Post: 1144373
Ja np. zrobiłem jakiś czas temu porównywanie dwóch łańcuchów tekstowych z wykorzystaniem instrukcji AVX-256.


A to ciekawe. Porównywanie w jakim sensie. Najdłuższych wspólnych wzorców? (obustronne) Czy po prostu poszukiwanie jednego tekstu w drugim? knuth moris prat? hash chain? drzewo binarne? Zaintrygowany. http://0x80.pl/articles/simd-strfind.html Czy chodzi o jakieś krótkie porównywania?
Sleepy (2018.05.18, 11:06)
Ocena: 2
#17

0%
beznazwie @ 2018.05.18 08:31  Post: 1144371

Nie do końca. Visual Studio 2015 przy .NET 4.6 kompiluje kod z wykorzystaniem instrukcji AVX. Jednak jedynie tych skalarnych. Wektorowe trzeba 'obsłużyć' ręcznie.

Czyli jakie to te skalarne a nie wektorowe instrukcje ? Bo jak sama nazwa mowi to Advanced Vector eXxtensions ale moze o czyms nie wiem.
Juz nawet VS2010 o ile dobrze pamietam potrafilo korzystac z AVX.

Makavcio2 @ 2018.05.18 09:01  Post: 1144379
Byłbym wdzięczny za krótkie info, czym właściwie są te instrukcje, do czego mi są potrzebne i jak się to ma realnie do potrzeb normalnego użytkownika chociażby wskazanej jednostki i3.

To pewne uproszczenie ale nie najgorsze. Wyobraz sobie ze chcesz pomnozyc dwie liczby zmiennoprzecinkowe pojedynczej precyzji (float 32bitowy), czyli A x B. Kazda taka operacja dla procesora to jedna instrukcja do wykonania. A teraz masz do zrobienia nie 1 a 1024 takie niezalezne operacje mnozenia, czyli twoj procesor musi wykonac 1024 instrukcje. AVX (a wczesniej SSE) wprowadza taka innowacje ze skoro masz wykonac wiele dokladnie takich samych operacji tylko na roznych zestawach danych mozna to zrobic czesciowo jednoczesnie. W przypadku AVX do rejestru 256bitowego zmiesci sie 8 x 32bitowych liczb. I teraz wykonujac 1 instrukcje procesora mamy na raz wykonanych 8 operacji mnozenia (dla SSE bylo to 4 bo rejest byl 128bitowy, dla AVX 512 to 16 bo rejestr 512bitowy). Czyli jesli chcesz wykonac te 1024 mnozenia procesor nie wykona 1024 a tylko 128 (1024 / 8) instrukcje. Od haswella w gore taka operacja mnozenia trwa 0.5cykla procesowa wiec 1024 mnozenia zajma tylko 64 cykle procesora. Jakis zysk jest ;) Instrukcje AVX generalnie dzialaja na liczbach zmiennoprzecinkowych + operacje odczyt zapis. Zestaw instrucji AVX2 rozszerza mozliwosci o operacje na liczbach calkowitych. Wraz z AVX2 pojawily sie takze instrukcje FMA dzialajace na 256bitowych rejestrach, czyli instrukcje wykonujace dzialanie typu D = A x B + C. ktore tez wykonywane sa w de facto 0.5cykla zegarowego (2 takie instrukcje na cykl).
Problem jest taki ze avx daje duzy zysk ale tylko w pewnych okreslonych miejscach. Jesli mamy duzo operacji podobych ale takich ze wynik danej operacji zalezy scisle od porzedniej avx nie daje rady. Jesli my nie pokazemy palcem ze tu nalezy uzyc takich instrukcji albo kompilator sie nie domysli ze to mozna cos z wektoryzowac instrukcje AVX nie zostana uzyte. Jesli np nasz program bedzie w duze mierze bazowal na np odczytach/zapisach pamieci znow, nawet jesli instrukcje zostana uzyte, nic nam nie dadza, bo bedziemy czekali na pamiec. Jesli kompilator / programista w pewych sytuacjach nie uwzgledni np jak cache ze wykorzystywany, jak uzyte sa rejestry procesora to znow pomimo uzycia AVX nie bedzie prawie zadnego zysku. Generalizujac jesli uzywa sie avx swiadomie ale bez glowy albo liczac ze kompilator automagicznie po wlaczeniu avx sprawi ze aplikacja bedzie kilka razy szybsza to mozna sie srogo zawiesc i potem stwierdzic ze to nie dziala i wiele halasu o nic.

basicdata (2018.05.18, 11:35)
Ocena: -1
#18

0%
zwiska @ 2018.05.18 07:12  Post: 1144360
A to podkręci wydajność w PEWNYCH aplikacjach o kilka kilkanaście procent.
Ale to tylko w pewnych zastosowaniach ...


do boinca to rewelacja bo zre malo pradu ;) i jest +50+100+200 nawet przy bonusowych probkach. ale maniakow na calej ziemi jest tylko 10mln :P
Amitoza (2018.05.18, 12:33)
Ocena: 4
#19

0%
Emler @ 2018.05.18 09:04  Post: 1144380
Borat1 @ 2018.05.17 15:53  Post: 1144246
A meltdown już załatali?


Oczywiście że nie załatali, bo nowa archi od intela wolna od tych dziur ma się pojawić dopiero w przyszłym roku, i nawet nie wiadomo czy to będzie jeszcze Ice Lake czy coś zupełnie innego. W końcu nie codziennie kupuje się legendę doliny krzemowej, który przepracował u konkurencyjnego AMD pół życia - Jima Kellera :)

Intel tak już się boi utraty rynku na korzyść AMD, że teraz będzie chciał kupić każdego kto nie zasili szeregów swojego czerwonego (a w zasadzie zielonego) konkurenta ;-) Tylko że takie zabiegi są już bezcelowe, ponieważ konsumenci nie wybacza intelowi tych luk bezpieczeństwa. A DAJ BÓG aby w końcu hakerzy uruchomili swoje exploity Meltdown oraz Spectre, to intel zniknie z rynku szybciej niż Nokia :D

Jim Keller u intela nie zajmuje się cpu, tylko SoC. Podobnie przy ryzenie tez nie zajmował się samym rdzeniem, tylko jego otoczką. Tak samo u apple przy A4 i A5.
Stanley (2018.05.18, 14:21)
Ocena: 1
#20

0%
Sleepy @ 2018.05.18 11:06  Post: 1144405
Czyli jesli chcesz wykonac te 1024 mnozenia procesor nie wykona 1024 a tylko 128 (1024 / 8) instrukcje. Od haswella w gore taka operacja mnozenia trwa 0.5cykla procesowa wiec 1024 mnozenia zajma tylko 64 cykle procesora. Jakis zysk jest ;)


Jakby nie istniał RAM i wszystko mieściło w rejestrach z czasem dostepu pół cykla to pewnie takie proste operacje mialy by mega przyspieszenie. Pobranie czegokolwiek z L1 to 4 cykle. Jedna linijka keszu 64B mieści 16 liczb 32bit, co wystarcza do załadowania po jednym składniku dla jednej operacji np. dodawania rejestrów w AVX 512 bitowej. Cztery cykle przygotowania operacji równoważnej 2 cyklom 256bit. W teorii zatem - 4 cykle pobranie, 1 wykonanie, 4 cykle zapis - dla AVX512 zyskujesz 10% w najlepszym wypadku(na chwile zapomnijmy o potoku). Rejstrów jest 16x8 = 256B zatem transfer z RAM w trybie burst(kolejna paczka) 4 kanałowemu! DDR4 3200MHz zajmuje 256/8bit*(16)x0.3ns dla dla jednej linijki keszu daje w sumie 40 cykli zeby załadować wszystkie dane do rejestrów AVX. W laptopie 80 cykli. Do tego potrzeba dodać ok 70 cykli zmarnowanych na poszukiwaniu w L2,3 oraz 10ns opóźnienia RAM. Czekać 100-200 cykli po to żeby zrobić 1 cykl zamiast 2 to nawet szkoda krzemu. Maksymalny uzysk przy jednej prostej operacji sumowania na danych z RAM uzysk max ~1% Transfer z 16 randomowych lokalizacji to by było jeszcze gorzej ok 16x10-15ns = 1000 cykli CPU zmarnowane na pobrania, żeby wykonać 1 cykl na raz na wszystkich rejestrach - to 1 promil boosta AVX512. Do tego kolejne 1000 cykli zapisu dla jednej instrukcj 512 zamiast dwóch 256bit - boost pół promla. Pożytek z AVX512 wzrasta dopiero jeśli wykonywać setki operacji na tych samych liczbach i jechać po nich ciurkiem. Oczywiście szacunkach nie licze pobrań z wyprzedzeniem itd.

Kolejna wada to masywna struktura XSAVE - przy każdej zmianie kontekstu zmusza OS do przerzucania ok 3kB dla samego faktu wspierania AVX. Dla FNSAVE x87, ST0-7 to bylo raptem ~100 bajtów. Do tego Meltdown, Spectre każde wyjście do ring0 zmusza OS do zapisu, wczytania swojego kontekstu, kasowan tablic itd. niwelowania zalet keszu. Czym jest 1 cykl vs 2 żeby wykonać wszystko kontra ram. Pobranie z L3 ok 30-40ns ok 100 cykli. Pobranie i zapis RAM w sumie to 200 cykli. 4kB to 16 cykli RAM 4-channel czyli w sumie ok 64-128 cykli dla CPU żeby te wszystkie rejestry zebrać do kupy i zachować dla jednego procesu i późneij przywrócić. Żeby istnienie AVX miało jakikolwiek sens musisz na nich przeprowadzać naprawde spore ilości obliczeń, na tych samych rejestrach wałkować dane. Zobacz jak mało przyspiesza w prostych operacjach: apex memmove albo xxhash albo lz4 na SSE/AVX - w sumie niewiele. Faktem że dla tekstów i malych paczek to jest bardzo ciekawe puki operujesz na rejestrach. Nawet SSE ma sporo funkcji przydatnych do szyfrowania. Przydatne do porównywania, budowania niewielkich tablic haszy, sortowania niewielkich tablic, ma potencjalnie same zalety masa operacji rejestry to jak małe szybkie teblice 128x128x8bit. AVX wprowadza zliczanie bitow itd itp. Klasyczne poszukiwanie wzorców w KMP chociaż znacznie przyspiesza w stosunku do brute-force ~10x wymaga dwóch przebiegów i allokowania conajmniej 256bajtow dodatkowej RAM. Dla niewielkich struktur lepsze optymalizacje brute-force jeśli użyć SSE/AVX. Wlaśnie z takiej potrzeby trafiłem na link z poprzednim poście. Jeśli dobrze uzyć daje bosta. Naprawne ciekawi mnie tego typu zastosowanie. Ale nie do prostych obliczeń, sumowań wektorów itd prostych transferów. Wprowadzone hardwarowe SHA i CRC32 przydatne było na krótko po nim wymyślono xxhash skuteczny algorytm kasuje potrzebe wbudowywania na stale w krzem. :)

PS Do jednego wektora + skalar wystarcza 256bit. Przejście z 128 bit na 256 to jak z pojedynczej precyzji 32 do podwójnej double 64bit- było ważne, daje pełen komfort.
Edytowane przez autora (2018.05.18, 17:40)
Zaloguj się, by móc komentować
Aktualności
Dla serwisu to ogromna strata. Twitch został zablokowany w Chinach. 18
Jeszcze pojemniej i jeszcze drożej. 11
Smutna informacja dla fanów przygodówek. 14
Zagłosuj i zgarnij jeden z czterech magazynów. 11
Capcom postarał się o dobrą optymalizację. 11
Marka In Win zapowiedziała swoją designerską obudowę 307 typu mid-tower już podczas targów Computex, jednak dziś kusi nas kolejnymi grafikami. 17
Grupa programistów zebrana wokół portalu Exploitee.rs odkryła poważną lukę w zabezpieczeniach Western Digital My Cloud, czyli urządzeniach będących magazynem danych z chmurą osobistą. 4
Firma w końcu zabiera się za toksycznych użytkowników. 8
Przynajmniej na zachodzie. 34
Dobra gra zawsze się obroni. Monster Hunter: World to jeden z największych hitów na PC w tym roku. 21
Dla serwisu to ogromna strata. Twitch został zablokowany w Chinach. 18
Firma w końcu zabiera się za toksycznych użytkowników. 8
Niestety na grę musimy poczekać jeszcze kilka miesięcy. 7
Niewielki sprzęt o całkiem dużych możliwościach. 10
Intel może mieć kolejnego poważnego konkurenta. 11
Przynajmniej na zachodzie. 34
Marka In Win zapowiedziała swoją designerską obudowę 307 typu mid-tower już podczas targów Computex, jednak dziś kusi nas kolejnymi grafikami. 17
Grupa programistów zebrana wokół portalu Exploitee.rs odkryła poważną lukę w zabezpieczeniach Western Digital My Cloud, czyli urządzeniach będących magazynem danych z chmurą osobistą. 4
Facebook
Ostatnio komentowane