亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
123下一頁
最近訪問板塊 發(fā)新帖
查看: 74843 | 回復(fù): 29
打印 上一主題 下一主題

[FastDFS] CU訪談錄:DTCC講師徐冬奇分享技術(shù)路上的挑戰(zhàn)、踩坑、痛苦、成長 [復(fù)制鏈接]

論壇徽章:
8
巨蟹座
日期:2013-08-12 09:41:40IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-12-09 06:20:00寅虎
日期:2013-12-25 14:59:40天秤座
日期:2013-12-06 14:04:55酉雞
日期:2013-11-28 10:22:22水瓶座
日期:2013-08-26 15:40:54巨蟹座
日期:2013-08-12 09:42:01每日論壇發(fā)貼之星
日期:2015-12-09 06:20:00
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2014-01-13 09:55 |只看該作者 |倒序瀏覽
大家好,今天我們采訪的嘉賓是本次DTCC中國數(shù)據(jù)庫技術(shù)大會的講師徐東奇,他是來自百度基礎(chǔ)架構(gòu)部大數(shù)據(jù)團(tuán)隊架構(gòu)師,擅大數(shù)據(jù)平臺(OLAP分析、用戶屬性挖掘)、分布式存儲等技術(shù),目前關(guān)注廣告平臺。


arron劉:首先請徐冬奇老師簡單介紹一下自己的經(jīng)歷以及從事的工作?
徐冬奇:從北大計算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)實驗室畢業(yè)后,我就直接來百度了,一直在百度做,現(xiàn)在已經(jīng)是第五年了,百度是家非常好的公司,技術(shù)氛圍非常濃厚,工程師非常踏實,簡單可依賴的企業(yè)文化深入人心。在百度我主要focus在大數(shù)據(jù)平臺和廣告領(lǐng)域,先后負(fù)責(zé)過分布式key-value系統(tǒng)、分布式消息中間件、OLAP報表分析系統(tǒng)、用戶屬性平臺等等。我所在團(tuán)隊為大數(shù)據(jù)團(tuán)隊,這是一個非常有活力的團(tuán)隊,公司所有日志數(shù)據(jù)全部集于一起管理和治理,這些數(shù)據(jù)經(jīng)過OLAP分析助力百度各種各樣的產(chǎn)品決策、經(jīng)過挖掘助力百度商業(yè)變現(xiàn)能力的提升以及產(chǎn)品的不斷優(yōu)化。隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,未來是大數(shù)據(jù)時代。為什么這樣說呢,各種各樣的手持設(shè)備,用戶上網(wǎng)時間越來越多,碎片化也越來越厲害,這時候會產(chǎn)生大量的數(shù)據(jù),如何利用這些數(shù)據(jù)掌握產(chǎn)品發(fā)展趨勢做出快速迭代的決策,如何從這些數(shù)據(jù)挖掘出重大價值就成為非常關(guān)鍵的了。百度大數(shù)據(jù)團(tuán)隊,技術(shù)實力雄厚,業(yè)務(wù)廣泛,基本上目前業(yè)界很火的元素都在其中,如數(shù)據(jù)倉庫、Hadoop分布式系統(tǒng)、數(shù)據(jù)挖掘、Deep Learning深度學(xué)習(xí)、用戶行為分析、OLAP分析、報表系統(tǒng)、廣告變現(xiàn)、移動互聯(lián)網(wǎng)等等。


arron劉:您在百度中是從事大數(shù)據(jù)工作的,您目前使用的數(shù)據(jù)庫是什么?目前對于逐漸熱門的hadoop等產(chǎn)品,你有什么看法以及一些相關(guān)采用建議?
徐冬奇:我目前使用的數(shù)據(jù)庫是MySQL,雖然大數(shù)據(jù)時代大家都在提NoSQL,認(rèn)為SQL在大數(shù)據(jù)時代已經(jīng)不重要,實際并非如此,MySQL在BI報表系統(tǒng)中扮演了很重要的角色。與此同時,大數(shù)據(jù)平臺也引入了SQL,從而使得大量的分析人員、工程師使用SQL從海量數(shù)據(jù)中快速查詢內(nèi)容。
Hadoop體系是個非常了不起的,圍繞它業(yè)界建立并不斷豐富了它的EcoSystem,從最傳統(tǒng)的HDFS、MapReduce,到諸如Hive、Scribe、Zookeeper、HBase等等。我們的大數(shù)據(jù)工作實際上已經(jīng)很難離開Hadoop了,在百度你經(jīng)常會聽到工程師說今天要跑個任務(wù),百度的Hadoop集群已經(jīng)是萬級別的規(guī)模了,存儲、計算、調(diào)度百度都研發(fā)了新一代的系統(tǒng),盡管如此,其本源仍然是Hadoop體系。中小規(guī)模的公司,如果用到大數(shù)據(jù),我建議義無反顧地去加入到Hadoop生態(tài)體系的懷抱,搭建一個Hadoop系統(tǒng)并不困難,從學(xué)習(xí)到配置各類參數(shù)搭建好兩三天就夠了,想要從大數(shù)據(jù)中查詢用Hive;想要出天級報表,最簡單的方法就是每天跑個Mapreduce任務(wù)或者寫個HQL任務(wù)灌入到Mysql即可。


arron劉:您這次在DTCC大會中分享的主題是“百度OLAP報表分析系統(tǒng)”,從你所經(jīng)歷的來看,你印象中OLAP和OLTP系統(tǒng)這兩類系統(tǒng)最大的技術(shù)差別在哪?談?wù)勀愕慕?jīng)驗、心得、感受?
徐冬奇:數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。由于兩大系統(tǒng)應(yīng)用領(lǐng)域有區(qū)別,側(cè)重點自然也有區(qū)別,OLTP更多地側(cè)重于ACID事務(wù)處理,ACID是指在可靠數(shù)據(jù)庫管理系統(tǒng)中,事務(wù)(transaction)所應(yīng)該具有的四個特性:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability),要做到這些,技術(shù)難度是很大的。而OLAP技術(shù)難點在于如何在海量歷史數(shù)據(jù)中給定各個維度毫秒級別快速查詢出想要的結(jié)果,技術(shù)往往涉及預(yù)聚集、物化視圖、列存儲、壓縮、查詢優(yōu)化、謂詞下推等等,對于OLAP來說,根據(jù)應(yīng)用場景還可再細(xì)分,一個是報表系統(tǒng),它的特點是查詢QPS非常高、 7*24小時不停服務(wù)、查詢往往通過web界面固化,一般面向數(shù)十萬廣告主、網(wǎng)站主的報表就是此類別;另一個就是OLAP分析系統(tǒng),它的特點是查詢QPS并不高,一天幾千個查詢,也不要求7*24小時服務(wù),主要面向決策分析人員,查詢時各個維度可隨意組合,上卷、下鉆隨意進(jìn)行。一個公司里會用OLAP做分析的分析師并不多,大部分人所使用的報表都是提前設(shè)計好的,針對所關(guān)注的點提前做了物化視圖的優(yōu)化。
      當(dāng)然,OLAP與OLTP也有技術(shù)共通之處,很多時候我們在優(yōu)化OLAP時,第一時間就會想OLTP類數(shù)據(jù)庫系統(tǒng)他們怎么做的,是不是可以借鑒,例如謂詞下推、索引選擇、Partial Aggregation等等。在我們的系統(tǒng)中,我們專門針對OLAP開發(fā)了存儲引擎,作為Mysql引擎,這樣可在Mysql中寫SQL來做毫秒級OLAP分析,這也可以看作OLAP與OLTP的碰撞和互補(bǔ)所長。


arron劉:許多大的互聯(lián)網(wǎng)公司都會采用key-value分布式存儲系統(tǒng),您能不能給我們描述一下您工作中的key-value分布式存儲系統(tǒng)特點,以及是如何實現(xiàn)的?
徐冬奇:百度的Key-value分布式存儲系統(tǒng)應(yīng)用很廣泛,各個集群加起來萬臺機(jī)器規(guī)模毫不夸張,系統(tǒng)具備高可靠性、高可用性、易運(yùn)維等特點。存儲系統(tǒng)還像Mysql一樣,可掛載不同的存儲引擎,有的引擎擅長于Scan順序讀,有的引擎擅長于單個Key的查詢。系統(tǒng)由存儲節(jié)點、元信息模塊、單點切換模塊、API以及相關(guān)配套軟件組成。


arron劉:現(xiàn)在數(shù)據(jù)挖掘是很多公司都在做的事情,您能不能給我們介紹數(shù)據(jù)挖掘需要注意的點?
徐冬奇:做數(shù)據(jù)挖掘,前提是數(shù)據(jù)倉庫要建設(shè)好,數(shù)據(jù)源質(zhì)量要保證,由此各類ETL工作非常繁雜。隨著移動互聯(lián)網(wǎng)多屏?xí)r代已經(jīng)到來,操作電腦、玩各種各樣的手機(jī)app,看智能電視,那么如何將這些數(shù)據(jù)貫通起來成為非常關(guān)鍵。數(shù)據(jù)挖掘往往需要涉及數(shù)據(jù)清洗、特征提取、訓(xùn)練樣本、模型訓(xùn)練,這里面其實各類算法差別不會太大,重點在于選取哪些數(shù)據(jù),提取哪些特征,樣本如何弄準(zhǔn)確。 行為數(shù)據(jù)精準(zhǔn)性是個大的工程,首先日志打印得對不對都是問號,各種各樣的垃圾充斥其中,日志處理時各種各樣的異常都需要去處理,再比如那么多服務(wù)器上的日志如何快速準(zhǔn)確得收集。


arron劉:商業(yè)智能是大數(shù)據(jù)時代技術(shù)發(fā)展的一個主要方向,您能不能給我們簡單介紹一下您用過那些BI工具,以及各大主流BI工具多維分析的技術(shù)差異性?
徐冬奇:我們采用了商用的BIEE,有專門的數(shù)據(jù)分析師開發(fā)出各種各樣漂亮的BIEE報表,BIEE后方對接Mysql,Mysql對接我們自研的OLAP系統(tǒng)。BI工具本身并無多大技術(shù)差異性,都是將用戶在界面上的各類操作轉(zhuǎn)化為SQL或者M(jìn)DX,發(fā)送到后端去查詢。難點在于后端如何優(yōu)化,如何能在毫秒級將SQL結(jié)果返回。


arron劉:BI項目實施,是技術(shù)架構(gòu)和業(yè)務(wù)架構(gòu)誰先確定?誰主誰輔呢? BI的實施面臨著哪些挑戰(zhàn)呢?
徐冬奇:BI項目的實施,業(yè)務(wù)梳理和指標(biāo)抽象很重要,先確定要建立什么樣的主題,之后才是看如何建立OLAP后端,例如物化視圖該如何設(shè)置,SQL該如何改寫和優(yōu)化。業(yè)務(wù)和技術(shù)有時候需要不斷PK和合作,例如業(yè)務(wù)上提取要對一個非常細(xì)粒度的數(shù)據(jù)進(jìn)行任意時間段的查詢,那技術(shù)上則會有很大代價,保存大量數(shù)據(jù)耗費(fèi)大量的磁盤,但事實上這類查詢需求往往只會針對近段時間的例如最近一周,而不需要去查過去半年非常細(xì)粒度數(shù)據(jù)。這就是業(yè)務(wù)和技術(shù)不斷PK、不斷平衡得到的合理架構(gòu)。
        

arron劉:您對這次DTCC大會有什么比較期待的地方?
徐冬奇:大家在一起碰撞出一些火花,對大數(shù)據(jù)在中國的應(yīng)用進(jìn)一步推動,不斷提升中國工程師技術(shù)水平和視野。


arron劉:您對剛從事數(shù)據(jù)庫行業(yè)的新人以及想從事這行的人有什么建議?
徐冬奇:我的建議是加入大公司大團(tuán)隊,只有在大數(shù)據(jù)中浸淫才能不斷提升自身大數(shù)據(jù)知識和技能。之前也面試過人,說對Hadoop熟悉,在學(xué)校里跑過兩個任務(wù),但離真正的Hadoop工程師還很遠(yuǎn),原因就在于沒有有挑戰(zhàn)的任務(wù)需要去解決,很多坑都沒有踩過。具備良好素養(yǎng)的工程師都是通過不斷踩坑成長起來的。


PS:大家也可以根據(jù)自己平時工作中遇見的一些相關(guān)問題進(jìn)行提問,我們將會在第五屆中國數(shù)據(jù)庫技術(shù)大會上給大家進(jìn)行一個更加詳細(xì)的專家解讀!
PS2:第五屆中國數(shù)據(jù)庫技術(shù)大會(DTCC2014)又將與大家見面了!屆時將會有更多技術(shù)話題與大家溝通,歡迎大家參與!!  

專題地址:http://dtcc.it168.com/

論壇徽章:
1
天蝎座
日期:2013-10-23 21:11:03
2 [報告]
發(fā)表于 2014-01-13 10:14 |只看該作者
突然發(fā)現(xiàn)自己畢業(yè)也是第5年了
差距啊~

論壇徽章:
49
15-16賽季CBA聯(lián)賽之福建
日期:2016-06-22 16:22:002015年亞洲杯之中國
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36雙魚座
日期:2015-01-02 22:04:33午馬
日期:2014-11-25 09:58:35辰龍
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龍
日期:2014-08-21 10:47:58
3 [報告]
發(fā)表于 2014-01-13 10:34 |只看該作者
openspace 發(fā)表于 2014-01-13 10:14
突然發(fā)現(xiàn)自己畢業(yè)也是第5年了
差距啊~


你可以的,只要你現(xiàn)在發(fā)現(xiàn),并行動起來

論壇徽章:
1
天蝎座
日期:2013-10-23 21:11:03
4 [報告]
發(fā)表于 2014-01-13 11:01 |只看該作者
send_linux 發(fā)表于 2014-01-13 10:34
你可以的,只要你現(xiàn)在發(fā)現(xiàn),并行動起來


已經(jīng)發(fā)現(xiàn)了,就是身體還在伸懶腰

論壇徽章:
49
15-16賽季CBA聯(lián)賽之福建
日期:2016-06-22 16:22:002015年亞洲杯之中國
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36雙魚座
日期:2015-01-02 22:04:33午馬
日期:2014-11-25 09:58:35辰龍
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龍
日期:2014-08-21 10:47:58
5 [報告]
發(fā)表于 2014-01-13 12:43 |只看該作者
openspace 發(fā)表于 2014-01-13 11:01
已經(jīng)發(fā)現(xiàn)了,就是身體還在伸懶腰


道理大家都懂,我還躺著呢...

論壇徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辭舊歲徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亞洲杯之卡塔爾
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08處女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技術(shù)圖書徽章
日期:2014-03-25 09:00:29
6 [報告]
發(fā)表于 2014-01-13 16:43 |只看該作者
路過,支持,領(lǐng)域不同,對這方面有著強(qiáng)烈的好奇心,就是沒時間

論壇徽章:
224
2022北京冬奧會紀(jì)念版徽章
日期:2015-08-10 16:30:32操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-02-18 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-03-01 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-03-02 06:20:0015-16賽季CBA聯(lián)賽之上海
日期:2019-09-20 12:29:3219周年集字徽章-周
日期:2019-10-01 20:47:4815-16賽季CBA聯(lián)賽之八一
日期:2020-10-23 18:30:5320周年集字徽章-20	
日期:2020-10-28 14:14:2615-16賽季CBA聯(lián)賽之廣夏
日期:2023-02-25 16:26:26CU十四周年紀(jì)念徽章
日期:2023-04-13 12:23:1015-16賽季CBA聯(lián)賽之四川
日期:2023-07-25 16:53:45操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-05-10 19:22:58
7 [報告]
發(fā)表于 2014-01-14 10:09 |只看該作者
對于很多新人來說,入行難,
有一個行業(yè)的成長環(huán)境,整體學(xué)習(xí)進(jìn)度會有個質(zhì)的飛躍

論壇徽章:
6
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大;照
日期:2013-03-13 15:26:47戌狗
日期:2013-10-17 09:48:53CU十二周年紀(jì)念徽章
日期:2013-10-24 15:41:34丑牛
日期:2014-09-19 14:58:11
8 [報告]
發(fā)表于 2014-01-14 10:35 |只看該作者
5年是一個坎吧

論壇徽章:
220
未羊
日期:2015-01-30 17:38:21未羊
日期:2015-01-30 17:38:26未羊
日期:2015-01-30 17:38:32未羊
日期:2015-01-30 17:38:38未羊
日期:2015-01-30 17:43:55白羊座
日期:2015-02-10 09:25:23白羊座
日期:2015-02-10 09:25:23白羊座
日期:2015-02-10 09:25:23白羊座
日期:2015-02-10 09:25:23白羊座
日期:2015-02-10 09:25:23羊年新春福章
日期:2015-03-04 15:12:552015年迎新春徽章
日期:2015-03-04 15:13:09
9 [報告]
發(fā)表于 2014-01-15 14:27 |只看該作者
菜鳥路過            

論壇徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午馬
日期:2014-08-06 03:56:58
10 [報告]
發(fā)表于 2014-01-16 21:53 |只看該作者
談?wù)勀愕慕?jīng)驗、心得、感受?{:2_172:}
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP