亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
樓主: send_linux
打印 上一主題 下一主題

[其他] 華山論劍新解--軟件硬件誰在引領IT技術革命?(獲獎名單已公布-2014-6-5) [復制鏈接]

論壇徽章:
0
151 [報告]
發(fā)表于 2014-05-20 10:27 |只看該作者
回復 144# ssailing

Lossless 100G ethernet,硅光技術成熟了之后有可能。

我覺得長期看,硅光再有個5,6年也差不多了,有了這個強大的物理層做基礎,那么鏈路層用什么協(xié)議配合呢?
Lossless, 還是非lossless?
不同的業(yè)務有不同的需求,很多業(yè)務不需要lossless的, 而做lossless代價又比較大,所以統(tǒng)一成lossless就有很多浪費。怎么辦?


個人感覺iscsi這種,用TCP/IP這種 3/4層來傳輸看來是沒有什么前途的,畢竟多了一層就多了一層的各方面的overhead。大規(guī)模使用不劃算。但是她倒是解決了lossless 和非lossless業(yè)務需求并存的情況。
   

論壇徽章:
0
152 [報告]
發(fā)表于 2014-05-20 10:49 |只看該作者
回復 146# 冬瓜頭


冬瓜頭 發(fā)表于 2014-05-20 08:38
1. ToE網(wǎng)卡,看offload到什么程度。目前主流nic控制器對tcpip一些非核心狀態(tài)機相關的外圍模塊比如checksum,mtu分片,tss分片之類都可以offload。2. 將整個TCPIP全部offload到網(wǎng)卡的話,這種卡用起來就比較尷尬,如果要承載通用tcpip流量的話,就需要驅(qū)動向sokect高層去hook,這塊很少有人搞,不知道內(nèi)核會否有bug,windows不開源就更不可知了;另一種用法是直接將某個應用層和TCPIP一起offload到卡里去,比如iscsi initiator,這樣的話,就是一張iscsi卡,和sas、fc卡沒有區(qū)別,驅(qū)動直接向scsi mid layer掛接,但是這張卡也就只能跑iscsi流量了。
3. 個人不太看好FCoE。這個技術拖得太長了,而且預后也不佳,它的名字仿佛就決定了它的命運,F(xiàn)C的發(fā)展已經(jīng)幾近停滯,預后很差,一個新東西的命名基礎如果是想延續(xù)老事物的生命,往往不太好,需要破舊立新。網(wǎng)絡統(tǒng)一是好事情,但是很少有用戶真把現(xiàn)存的FC和以太網(wǎng)融合起來的,假設就算有不少這類需求,結(jié)果FCoE也并沒有用很簡單的方法來滿足,而是需要升級到CEE交換機,這一點用戶有抵觸,如果不升級,那就得買專用FCoE交換機,非常昂貴,F(xiàn)C和以太網(wǎng)都接到這臺交換機,那么就相當于為了融合本身而融合,這顯得沒意義,另外FCoE一開始不支持多交換機級聯(lián),還要搞出Multi hop FCoE的概念,本來是為了簡單、融合、便捷,結(jié)果成了復雜、封閉、昂貴,與初衷背道而馳。 ...


   
1)        ToE, 這些都是隔靴搔癢,不能從根本上解決問題. 即TCP協(xié)議的數(shù)據(jù)通道上必須有軟件的參與,而不能完全硬件化。這個要怪互聯(lián)網(wǎng)歷史上的兩大名人:
Van Jacobson, 設計了對硬件完全不友好的協(xié)議。
Linus Torvalds, 完全排斥硬件掌控TCP協(xié)議棧的可能。
當然這些高人的理念自有他們的道理,但結(jié)果是TCP 不能被硬件化。
2/3) 同意冬瓜頭的高見!

論壇徽章:
0
153 [報告]
發(fā)表于 2014-05-20 11:20 |只看該作者
回復 147# 冬瓜頭

冬瓜頭 發(fā)表于 2014-05-20 08:53
關于tcpip運行在host內(nèi)核還是運行在芯片firmware里更快的問題。個人膚淺理解,還請廖博指正,這也是一直以來 ...



看來還是逃不脫對這個問題展開討論。
我們看看Wikipedia 怎么說:
TCP is a complex protocol. However, while significant enhancements have been made and proposed over the years, its most basic operation has not changed significantly since its first specification RFC 675 in 1974, and the v4 specification RFC 793, published in September 1981. RFC 1122, Host Requirements for Internet Hosts, clarified a number of TCP protocol implementation requirements. RFC 2581, TCP Congestion Control, one of the most important TCP-related RFCs in recent years, describes updated algorithms that avoid undue congestion. In 2001, RFC 3168 was written to describe explicit congestion notification (ECN), a congestion avoidance signaling mechanism.
The original TCP congestion avoidance algorithm was known as "TCP Tahoe", but many alternative algorithms have since been proposed (including TCP Reno, TCP Vegas, FAST TCP, TCP New Reno, and TCP Hybla).
TCP Interactive (iTCP) [28] is a research effort into TCP extensions that allows applications to subscribe to TCP events and register handler components that can launch applications for various purposes, including application-assisted congestion control.
Multipath TCP (MPTCP) [29][30] is an ongoing effort within the IETF that aims at allowing a TCP connection to use multiple paths to maximise resource usage and increase redundancy. The redundancy offered by Multipath TCP in the context of wireless networks [31]enables statistical multiplexing of resources, and thus increases TCP throughput dramatically. Multipath TCP also brings performance benefits in datacenter environments.[32] The reference implementation[33] of Multipath TCP is being developed in the Linux kernel.[34][35]
TCP Cookie Transactions (TCPCT) is an extension proposed in December 2009 to secure servers against denial-of-service attacks. Unlike SYN cookies, TCPCT does not conflict with other TCP extensions such as window scaling. TCPCT was designed due to necessities of DNSSEC, where servers have to handle large numbers of short-lived TCP connections.
tcpcrypt is an extension proposed in July 2010 to provide transport-level encryption directly in TCP itself. It is designed to work transparently and not require any configuration. Unlike TLS (SSL), tcpcrypt itself does not provide authentication, but provides simple primitives down to the application to do that. As of 2010, the first tcpcrypt IETF draft has been published and implementations exist for several major platforms.
TCP Fast Open is an extension to speed up the opening of successive TCP connections between two endpoints. It works by skipping the three-way handshake using a cryptographic "cookie". It is similar to an earlier proposal called T/TCP, which was not widely adopted due to security issues.[36] As of July 2012, it is an IETF Internet draft.[37]
Hardware implementations[edit]
One way to overcome the processing power requirements of TCP is to build hardware implementations of it, widely known as TCP Offload Engines (TOE). The main problem of TOEs is that they are hard to integrate into computing systems, requiring extensive changes in the operating system of the computer or device. One company to develop such a device was Alacritech.

我發(fā)表些謬論供大家參考:
1)        TCP 沒有一個正則(formal)的單一規(guī)范(即以形式語言,或狀態(tài)機表述)。而是一系列的自然語言的描述文本,有些描述屬于需求性的描述而非行為性描述。因此最接近正則描述的就是廣為人接受的Linux Kernel中的源代碼。由于缺乏正則性描述,而又有諸多需求復雜性,因此,具體實現(xiàn)就成了規(guī)范,當然,也就帶來了依賴于具體實現(xiàn)的性能局限和開銷。比如,恐怕沒有人能回答這個問題:TCP單一連接,可否以1Tbps的速率傳送數(shù)據(jù)?因為相關的因素太多,連接的長度?網(wǎng)絡延遲, 每一步驟所需的跳變世界,包長?數(shù)據(jù)長度? ACK的到達時間,是否在不同階段丟包?
2)        TCP在協(xié)議棧中所處的核心地位,對上,對下,都耦合了大量其它協(xié)議,這些協(xié)議是不同的軟件模塊,因此很難把它單獨提取出來硬化。
3)        TCP的核心地位,直接影響系統(tǒng)穩(wěn)定性,兼容性,還直接影響網(wǎng)絡協(xié)議棧上層和下層的今后發(fā)展的耦合關系。因此, Linus要牢牢把握住Kernel 軟件對它的絕對掌控,是考慮到這些大局的長遠因素。
結(jié)論:TCP不能完全硬件化,單一線程TCP的通信速度是不能無限提速的,協(xié)議本身已經(jīng)成為性能瓶頸。想突破這個瓶頸,必須另辟蹊徑。




   

論壇徽章:
2
2015年迎新春徽章
日期:2015-03-04 09:49:45IT運維版塊每日發(fā)帖之星
日期:2016-07-29 06:20:00
154 [報告]
發(fā)表于 2014-05-20 21:02 |只看該作者
Heng_Liao 發(fā)表于 2014-05-20 10:24
回復 145# 冬瓜頭

明白了,那就是說,縱使有IOMMU,Guest OS里的驅(qū)動一樣要使用SGL。我理解成了IOMMU會把SGL做一層翻譯,硬件收到的是一段連續(xù)虛擬地址了。

論壇徽章:
2
2015年迎新春徽章
日期:2015-03-04 09:49:45IT運維版塊每日發(fā)帖之星
日期:2016-07-29 06:20:00
155 [報告]
發(fā)表于 2014-05-20 22:47 |只看該作者
本帖最后由 冬瓜頭 于 2014-05-20 23:13 編輯

廖博新博文:
http://blog.csdn.net/pmc/article/details/25198027

“這就是程序員所熟悉的文件外存的訪問方式。在內(nèi)存中自由覓食時,程序之數(shù)據(jù)結(jié)構(gòu)可以在內(nèi)存中任意擺放、自由訪問,但一旦要搬東西回家(數(shù)據(jù)要存放到安全可靠的不易失外存時),一切都要串行化(Serialization)地存放到一維的文件中去”  “我們來看看,在Scale-out的cluster中,即便對單機外存之訪問變成了“特殊不易失內(nèi)存”的方式,但結(jié)點之間要交換共享的數(shù)據(jù)結(jié)構(gòu),還是不能負除串行化之苦(數(shù)據(jù)結(jié)構(gòu)要串行化后打包成消息才能通過網(wǎng)絡接口傳送到另一結(jié)點),就好像人要出差到另一個城市要買機票、過**然后才能乘坐飛機一樣的不便利。”

深刻,有內(nèi)涵!

觀點:拿intel舉例,CPU之間通過QPI互相連接,然后同樣通過QPI連接到IO橋,IO橋與PCIE設備之間通過PCIE總線連接,PCIE網(wǎng)卡/SAS卡通過以太網(wǎng)/SAS網(wǎng)絡連接到系統(tǒng)外?v觀上述這4種總線,可以發(fā)現(xiàn)一個規(guī)律,在QPI之前,系統(tǒng)總線使用FSB,屬于數(shù)據(jù)并行、地址并行的純種共享總線;IO橋與外設之間的PCIx則也是數(shù)據(jù)、地址都并行的總線,但是卻有了犧牲,也就是地址和數(shù)據(jù)線復用,先地址周期后數(shù)據(jù)周期;出到系統(tǒng)外面的網(wǎng)絡比如以太網(wǎng),則沒有了任何系統(tǒng)總線的特征,以太網(wǎng)上傳的地址也不再是內(nèi)存地址(iWrap除外)。但是到了QPI時代,系統(tǒng)總線徹底變?yōu)榇谢,雖然串行了,但是頻率卻從FSB并行時代的MHz提升到了GHz,同樣,PCIE總線也串行化了,但是它們的串行與以太網(wǎng)的串行不同,前者數(shù)據(jù)包里封裝的依然是內(nèi)存地址,也就是在系統(tǒng)總線和PCIE總線范圍內(nèi),大家都是可以DMA的。所以可以得出一個結(jié)論,串行并行并不重要,重要的是是否可以DMA,緊耦合的DMA可以讓程序員自由馳騁,但是松耦合的DMA比如RDMA,則需要程序員調(diào)用一些庫(比如IB的Verb庫)來實現(xiàn)共享內(nèi)存,不能透明也不那么自由,但是目的依然可以達到?蒁MA的系統(tǒng)架構(gòu)上可分為SMP、NUMA、MPP,SMP和NUMA運行單一OS實例,而MPP運行多OS實例;不可DMA的集群則也屬于MPP,但是節(jié)點之間的交互就更加“禮貌”了,我們可以把DMA比喻成大腦之內(nèi)的數(shù)據(jù)交互,而松耦合系統(tǒng)之間的消息交互比如TCPIP則屬于將大腦的思維數(shù)據(jù)轉(zhuǎn)換成語言從而與別人溝通。典型的例子就是在Linux通用塊層之上,都是內(nèi)存里的私有數(shù)據(jù)結(jié)構(gòu),也正如廖博所說,自由馳騁無拘無束,但是從塊層往下,進入SCSI Middle Layer,SCSI語言中樞就必須要將這些上層傳遞的私有結(jié)構(gòu)轉(zhuǎn)化為正式的、標準的SCSI CDB,從而一層層向下傳遞并且最終傳出系統(tǒng)外。

請教廖博:您提到NVDIMM需要更改內(nèi)核頁表管理模塊,這一點我之前也是這么理解的,在與常規(guī)內(nèi)存混插的時候,如果是走PCIE接口的NVRAM,其內(nèi)存空間并不被納入Host虛存管理,可以使用驅(qū)動把PCIE內(nèi)存空間在Host空間的映射ioremap()到內(nèi)核虛擬空間,然后通過應用顯式調(diào)用mmap()來從這段虛擬空間汲取內(nèi)存并自行控制使用;DIMM接口的NVDIMM則因為必須被納入虛存管理,所以如果不hack內(nèi)核的話,應用就無法控制自己的數(shù)據(jù)到底是放在常規(guī)RAM還是NVDIMM里,所以還得有個驅(qū)動來hack內(nèi)核頁表管理模塊(這種野路子是不是就算沒bug,也沒人敢用吧)。但是這又與所上傳的這份文檔中13頁所描述的“no driver layer required”大相徑庭,煩請廖博指點一下,謝謝! Creating Storage Class Persistent Memory With NVDIMM.pdf (2.35 MB, 下載次數(shù): 33)

論壇徽章:
2
2015年迎新春徽章
日期:2015-03-04 09:49:45IT運維版塊每日發(fā)帖之星
日期:2016-07-29 06:20:00
156 [報告]
發(fā)表于 2014-05-20 23:10 |只看該作者
本帖最后由 冬瓜頭 于 2014-05-20 23:26 編輯

說道苦逼程序員,還一點可以談談的是NOR Flash和NAND Flash。程序員偏愛NOR Flash的原因也正是因為“自由馳騁”,可直接像讀寫內(nèi)存一樣讀寫NOR,但是NAND Flash就必須走塊IO,所以NOR可以直接運行代碼,NAND則只能存儲數(shù)據(jù)。

很多人只知道NAND Flash卻不知道NOR Flash,知道NAND Flash卻不知道“NAND”和“NOR”是什么意思,以及其底層機制。

當需要讀出某個Page時,F(xiàn)lash Controller控制Flash芯片將相應這個Page的字線,也就是串連(實際上屬于并聯(lián))同一個Page中所有Cell上的CG的那根導線,電勢置為0,也就是不加電壓,其他所有Page的字線的電勢則升高到一個值,也就是加一個電壓,而這個值又不至于把FG里的電子吸出來,之所以抬高電勢,是為了讓其他Page所有的Cell的S和D處于導通狀態(tài),而沒被加電壓的Cell(CG上的電勢為0V),也就是我們要讀取的那些Cell,其S和D的通斷,完全取決于其FG中是否存有電子。說白了,未被選中的所有Cell,均強制導通,被選中的Cell的FG里有電,那么串聯(lián)這一串Cell的位線就會被導通,這是一種AND也就是與的關系;被選中Cell的FG里如果沒電,那么其所處的Cell串的位線就不能導通(雖然串上的其他Cell均被強制導通),這也是AND的關系。也就是一串Cell,必須全導通,其位線才能導通,有一個不導通,整條位線就不通。這就是NAND Flash中的“AND”的意義。那“N”表示什么?N表示Not,也就是非,NAND就是“非與”的意思。為什么要加個非?很簡單,導通反而表示0,因為只有FG中有電才導通,上文也說了,F(xiàn)G中有電反而表示0,所以這就是“非”的意義所在。

還有一類NOR Flash,NOR就是“非或”的意思,大家自然會想到,位線一定不是串聯(lián)的,而是并聯(lián)的,才能夠產(chǎn)生“或”的邏輯。實際上,在NOR Flash里,同樣的一串Cell,但是這串Cell中的每個Cell均引出獨立的位線,然后并聯(lián)接到一根總位線上,另外一點很重要的是,每個Cell的S和D之間雖然物理上是串連,但是電路上不再是串聯(lián),而是各自有各自的接地端,也就是每個Cell的S和D之間的通斷不再取決于其他Cell里S和D的通斷了,只取決于自己。以上兩點共同組成了“或”的關系,同時每個Cell具有完全的獨立性,此時只要通過控制對應的地線端,將未被選中的Cell地線全部斷開,這樣它們的S和D極之間永遠無法導通(邏輯0狀態(tài)),由于每個Cell的位線并聯(lián)上聯(lián)到總位線,總位線的信號只取決于選中的Cell的導通與否,對于被選中的Cell,NOT {(“地線接通”AND“FG是否有電”)OR “未被選中Cell的輸出”} = “總位線的1/0值”,這就是NOR非或門的邏輯。

由于NOR Flash多了很多導線,包括獨立地線(通過地址譯碼器與Cell的地線相連)和多余的上聯(lián)位線,導致面積增大。其優(yōu)點是Cell獨立尋址,可以直接用地址線尋址,讀取效率比NAND要高,所以可以直接當做RAM用,但是寫入時由于擦除效率比NAND低,所以不利于寫頻繁的場景。

論壇徽章:
2
2015年迎新春徽章
日期:2015-03-04 09:49:45IT運維版塊每日發(fā)帖之星
日期:2016-07-29 06:20:00
157 [報告]
發(fā)表于 2014-05-21 08:48 |只看該作者
說道Flash。認為NAND不會長久,NAND為了節(jié)省布線,控制成本,簡化了設計,也只有這樣才能讓自己變得買得起用得起,但是軟件倒了霉了,F(xiàn)TL復雜度不是蓋的,這也是不得已之舉。硬件工藝是在不斷發(fā)展的,我相信很快NAND這種過度型設計必將淘汰,那么FTL也就會極度簡化甚至消失。目前基于NAND出現(xiàn)了不少特色產(chǎn)品(主要是FTL設計上的特色),能夠把NAND性能發(fā)揮到極致,切認為這些產(chǎn)品都會是曇花一現(xiàn)。比如最近某公司使用了類似NetApp WAFL的一些設計,WAFL的神奇之處就在于,其在20年前就已經(jīng)使用RoW寫重定向來增加寫性能,后臺孔洞回收(垃圾回收)的機制,但是它倒騰的是機械盤,再看今天,這種機制正是FTL的機制,也就是說,WAFL是個NAND友好的FS?上etApp在面對Flash的時候,表現(xiàn)出來的是迷茫,它并沒有用WAFL這種優(yōu)良的一體化框架徹底納入Flash。而如今卻有一家初創(chuàng)公司利用類似設計出來忽悠,并成功吸引了投資,也引來了官司,吸引了足夠眼球。可嘆,有些老技術,是很有潛力煥發(fā)青春的,可是有人把握了機會,有人喪失了機會。 有很多備選介質(zhì)會取代NAND,但是有一件事是肯定的,那就是給軟件帶來復雜度而不是讓軟件越來越簡化的硬件,都不會長久。

論壇徽章:
0
158 [報告]
發(fā)表于 2014-05-21 11:27 |只看該作者
回復 155# 冬瓜頭

閱讀了你附件中的Viking NVDIMM的材料。這類NVDIMM (哈哈,PMC也將會發(fā)表類似的產(chǎn)品哦)在存儲容量上DDR和NAND需要容量相同的兩份鏡像。因此性能達到DDR, 訪問也是以內(nèi)存方式直接訪問,而不采用block IO的存儲協(xié)議棧,因此性能高。不過成本也高,考慮到目前單位存儲的價格,DDR要比NAND高好幾倍哦。因此,可作為特殊的非易失的高價內(nèi)存使用。
當然,要用這個需要BIOS和Kernel的一系列小改動,包括文中提到的SAVE/RESTORE,還要特殊的nv_malloc等等,還得考慮這個特殊內(nèi)存是否影射成cacheable, 還是uncached。 如果追求性能把它影射成cachable, 就得小心在適當時機把它writeback才能確信數(shù)據(jù)到了DIMM里面。這些小改動,對軟件來說不是太大的問題。成本是個大問題。

我文中提到的NVDIMM當然包含了這類,但也考慮了更廣泛的情況,如果NVDIMM上的DDR, 或RAM空間為了低成本,只是它的NAND的很小一部分,比如1%, 那這個RAM就只能作為訪問整個NAND空間的一個小窗口,而且需要管理這個對換窗口的數(shù)據(jù)和NAND的對換/寫回,動態(tài)移動窗口位置,淘汰算法, 還要對NAND FTL的管理等復雜功能,這些設計到的MMU代碼的改動就比較可怕,而那部分功能適合在DIMM的內(nèi)部由硬件/固件來做,那部分由主機的內(nèi)核代碼作,還有很多講究需要研究。


   

論壇徽章:
0
159 [報告]
發(fā)表于 2014-05-21 11:29 |只看該作者
回復 155# 冬瓜頭

閱讀了你附件中的Viking NVDIMM的材料。這類NVDIMM (哈哈,PMC也將會發(fā)表類似的產(chǎn)品哦)在存儲容量上DDR和NAND需要容量相同的兩份鏡像。因此性能達到DDR, 訪問也是以內(nèi)存方式直接訪問,而不采用block IO的存儲協(xié)議棧,因此性能高。不過成本也高,考慮到目前單位存儲的價格,DDR要比NAND高好幾倍哦。因此,可作為特殊的非易失的高價內(nèi)存使用。
當然,要用這個需要BIOS和Kernel的一系列小改動,包括文中提到的SAVE/RESTORE,還要特殊的nv_malloc等等,還得考慮這個特殊內(nèi)存是否影射成cacheable, 還是uncached。 如果追求性能把它影射成cachable, 就得小心在適當時機把它writeback才能確信數(shù)據(jù)到了DIMM里面。這些小改動,對軟件來說不是太大的問題。成本是個大問題。

我文中提到的NVDIMM當然包含了這類,但也考慮了更廣泛的情況,如果NVDIMM上的DDR, 或RAM空間為了低成本,只是它的NAND的很小一部分,比如1%, 那這個RAM就只能作為訪問整個NAND空間的一個小窗口,而且需要管理這個對換窗口的數(shù)據(jù)和NAND的對換/寫回,動態(tài)移動窗口位置,淘汰算法, 還要對NAND FTL的管理等復雜功能,這些設計到的MMU代碼的改動就比較可怕,而那部分功能適合在DIMM的內(nèi)部由硬件/固件來做,那部分由主機的內(nèi)核代碼作,還有很多講究需要研究。


   

論壇徽章:
0
160 [報告]
發(fā)表于 2014-05-22 13:35 |只看該作者
回復 157# 冬瓜頭

同意,尤其是大規(guī)模上量的東西。
   
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP