亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
1234下一頁(yè)
最近訪問(wèn)板塊 發(fā)新帖
查看: 22108 | 回復(fù): 35
打印 上一主題 下一主題

[其他] 大數(shù)據(jù)崛起時(shí)代,命令行技術(shù)的價(jià)值在哪里? [復(fù)制鏈接]

求職 : 機(jī)器學(xué)習(xí)
論壇徽章:
79
2015年亞洲杯紀(jì)念徽章
日期:2015-05-06 19:18:572015七夕節(jié)徽章
日期:2015-08-21 11:06:172015亞冠之阿爾納斯?fàn)?日期:2015-09-07 09:30:232015亞冠之薩濟(jì)拖拉機(jī)
日期:2015-10-21 08:26:3915-16賽季CBA聯(lián)賽之浙江
日期:2015-12-30 09:59:1815-16賽季CBA聯(lián)賽之浙江
日期:2016-01-10 12:35:21技術(shù)圖書徽章
日期:2016-01-15 11:07:2015-16賽季CBA聯(lián)賽之新疆
日期:2016-02-24 13:46:0215-16賽季CBA聯(lián)賽之吉林
日期:2016-06-26 01:07:172015-2016NBA季后賽紀(jì)念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16賽季CBA聯(lián)賽之浙江
日期:2017-07-18 13:41:54
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2015-07-09 14:32 |只看該作者 |倒序?yàn)g覽
獲獎(jiǎng)名單已公布:http://72891.cn/thread-4186620-1-1.html

話題背景

“大數(shù)據(jù)”技術(shù)風(fēng)靡IT互聯(lián)網(wǎng),可謂炙手可熱。很多人相信“大數(shù)據(jù)”浪潮正在或者將要深刻變革我們的時(shí)代,同時(shí)伴隨著這股潮流涌現(xiàn)了很多新的技術(shù),Hadoop、Spark、Hive等等就是其中的杰出代表。與這些時(shí)髦的技術(shù)相比,命令行好像應(yīng)該被放進(jìn)博物館被人參觀的古董。命令行的歷史可以追溯到幾十年前,而大數(shù)據(jù)的崛起才短短幾年,命令行技術(shù)在數(shù)據(jù)科學(xué)這樣新的應(yīng)用領(lǐng)域是否還發(fā)揮作用,彰顯其獨(dú)有的魅力呢?




討論話題
本期話題讓我們暢想一下命令行技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用(可任選下面的一個(gè)或者幾個(gè)問(wèn)題談?wù)勛约旱挠^點(diǎn)和看法)。
1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?br /> 4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。




討論時(shí)間
2015年07月10日--2015年08月03日



活動(dòng)獎(jiǎng)勵(lì)
活動(dòng)結(jié)束后將選取4名討論精彩的童鞋,每人贈(zèng)送圖書《命令行中的數(shù)據(jù)科學(xué)》一本作為獎(jiǎng)勵(lì)



獎(jiǎng)品簡(jiǎn)介

作者: (荷)Jeroen Janssens   
譯者: 王曉偉 劉峰
叢書名: 圖靈程序設(shè)計(jì)叢書
出版社:人民郵電出版社
出版日期:2015 年6月
開本:16開
版次:1-1



內(nèi)容簡(jiǎn)介

本書集實(shí)用性和先進(jìn)性于一身,為數(shù)據(jù)分析人員使用命令行這個(gè)靈活的工具提供了重要參考。作者講解了眾多實(shí)用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數(shù)據(jù)。無(wú)論你使用Windows、OS X,還是Linux,都可以安裝包含80多個(gè)命令行工具的“數(shù)據(jù)科學(xué)工具箱”,迅速建立自己的數(shù)據(jù)分析環(huán)境。無(wú)論你是否已經(jīng)習(xí)慣于使用Python或R語(yǔ)言,都能夠通過(guò)本書體會(huì)到使用命令行的快捷、靈活與伸縮自如。




樣章試讀
第一章:簡(jiǎn)介.docx (25.38 KB, 下載次數(shù): 88)

第一章:簡(jiǎn)介.docx

25.38 KB, 下載次數(shù): 43

論壇徽章:
13
CU大牛徽章
日期:2013-04-17 11:20:3615-16賽季CBA聯(lián)賽之吉林
日期:2017-05-25 16:45:4715-16賽季CBA聯(lián)賽之福建
日期:2017-03-13 11:33:442017金雞報(bào)曉
日期:2017-02-08 10:39:422017金雞報(bào)曉
日期:2017-01-10 15:13:29IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-03-15 06:20:01IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-02 06:20:00CU十二周年紀(jì)念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-09-18 15:15:45CU大;照
日期:2013-09-18 15:15:15CU大;照
日期:2013-04-17 11:46:39CU大;照
日期:2013-04-17 11:46:28
10 [報(bào)告]
發(fā)表于 2015-07-12 14:38 |只看該作者
1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
命令行工具以簡(jiǎn)單高效的處理完成其提供的操作。在很多工作中發(fā)揮著巨大的作用。許多強(qiáng)大的工具還可以組合在一起,產(chǎn)生出乎想象的能力
命令行工具或者技術(shù)其實(shí)是基于這樣的理論構(gòu)建的,即當(dāng)個(gè)命令專心的干好一件事,而且盡可能的支持管道以使得多個(gè)命令行可以組合在一起,產(chǎn)生巨大作用。由此可能你會(huì)覺(jué)得單個(gè)命令行可能不如一些程序有那么多復(fù)合的功能,而是很簡(jiǎn)單的,但正是這些簡(jiǎn)單讓它們有了自由組合起來(lái)的魔力。
所以 我喜歡命令行,因?yàn)榇蠖鄶?shù)時(shí)候這是解決問(wèn)題的唯一辦法(可以通過(guò)多個(gè)命令組合完成一個(gè)任務(wù),而對(duì)應(yīng)可能解決問(wèn)題的圖形程序還沒(méi)有人開發(fā)——因?yàn)楹芏嗳蝿?wù)是個(gè)性化強(qiáng)的,不是十分必要,則不需要專門開發(fā)程序)

以上就是命令行的魅力之所在。當(dāng)然其不足還是很特出,就是對(duì)大多數(shù)人來(lái)說(shuō),太復(fù)雜了,形式各異的參數(shù)、冗長(zhǎng)的命令輸入等等,這造成學(xué)習(xí)成本相對(duì)較高。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
個(gè)人用的比較多的是bash環(huán)境,以及其上的各類命令行工具,主要有直接bash內(nèi)置命令行結(jié)合系統(tǒng)命令進(jìn)行系統(tǒng)管理
此外還有就是利用媒體編碼工具,如果ffmpeg或者mplayer中的mencoder等進(jìn)行編碼視音頻文件等等。

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?/strong>
其實(shí)任何數(shù)據(jù)處理都是涉及這樣一些方面的;\統(tǒng)的說(shuō)
a)數(shù)據(jù)獲取————就是解決數(shù)據(jù)的來(lái)源,可以是文件輸入,也可以來(lái)自命令行,可以是非實(shí)時(shí)的,也可以是實(shí)時(shí)的,總之?dāng)?shù)據(jù)科學(xué)離不開數(shù)據(jù),要有數(shù)據(jù)就必須有數(shù)據(jù)的獲;

b)數(shù)據(jù)清洗————來(lái)源的數(shù)據(jù)不一定是符合預(yù)期的,或者說(shuō)混雜的,必須有這樣的一個(gè)步驟來(lái)保證送入下一階段處理的數(shù)據(jù)在一定程度上符合要求(類型的、格式的、數(shù)量的......),否則對(duì)下一階段的處理來(lái)說(shuō)數(shù)據(jù)沒(méi)有意義,只是干擾;

c)數(shù)據(jù)探索————對(duì)數(shù)據(jù)進(jìn)行分析,通過(guò)遍歷數(shù)據(jù)來(lái)了解它們;

d)數(shù)據(jù)建!獢(shù)據(jù)本身不是處理的目的,或者說(shuō)大多數(shù)時(shí)候并不是處理的核心目的。數(shù)據(jù)處理的核心目的是對(duì)客觀事物進(jìn)行描述,建立起客觀事物的數(shù)據(jù)(特征)反映來(lái)表達(dá)客觀事物的運(yùn)動(dòng)、變化,這就是數(shù)據(jù)建模。好的模型能更大程度上反映出事物的變化,從而讓人們更了解客觀事物,進(jìn)而能夠更好的控制(影響)客觀事物,或者及早的根據(jù)客觀事物變化(不可控)進(jìn)行反映(例如天氣預(yù)報(bào)的作用);

e)數(shù)據(jù)解釋————數(shù)據(jù)解釋其實(shí)包括多種層次,從方向來(lái)說(shuō)主要有兩種,其一是根據(jù)數(shù)據(jù)反映客觀事物的變化(結(jié)合數(shù)據(jù)建模),其二根據(jù)分析,讓數(shù)據(jù)變化從而影響客觀事物的運(yùn)行。拿前段時(shí)間很熱的汽車自動(dòng)駕駛來(lái)說(shuō),自動(dòng)駕駛汽車根據(jù)各類傳感器了解外界環(huán)境是第一種數(shù)據(jù)解釋(因?yàn)閭鞲衅鹘o運(yùn)算核心的都是各類數(shù)據(jù),它要根據(jù)這些數(shù)據(jù)和預(yù)設(shè)——生成的處理算法計(jì)算得出進(jìn)一步操作相關(guān)的各類數(shù)據(jù)——如減速、加速或轉(zhuǎn)彎等等),而由產(chǎn)生的數(shù)據(jù)控制自動(dòng)駕駛汽車完成動(dòng)作則是第二類數(shù)據(jù)解釋。

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
在解決3中各類問(wèn)題中,命令行肯定沒(méi)有過(guò)時(shí),命令行工具和技術(shù)也發(fā)揮著自己的作用,只是可能調(diào)用/處理流程上會(huì)發(fā)生變化,比如以往更多的是直接在環(huán)境中輸入各類命令來(lái)完成工作,現(xiàn)在可能很多命令行命令(組/集)因?yàn)樾枰貜?fù)使用,而為了減低工作強(qiáng)度,會(huì)通過(guò)配置、預(yù)處理等等手段來(lái)減少正式命令行輸入,但本質(zhì)還是命令行工具,也就是還里不會(huì)

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。

個(gè)人在這方面用涉及比較少,不過(guò)應(yīng)該還是有一些專門有針對(duì)性的工具來(lái)方便其中數(shù)據(jù)的提取或者生成。比如php或者python的命令行模式也可以提供一些處理。

論壇徽章:
10
數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2015-06-14 22:20:00數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2016-03-10 06:20:00數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2015-12-01 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-09 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-02 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-07-13 22:59:28IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-06-23 22:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-06-21 22:20:00每日論壇發(fā)貼之星
日期:2015-06-14 22:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-08-02 06:20:00
22 [報(bào)告]
發(fā)表于 2015-07-15 14:06 |只看該作者
本帖最后由 hiyachen 于 2015-07-15 14:07 編輯

討論話題
本期話題讓我們暢想一下命令行技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用(可任選下面的一個(gè)或者幾個(gè)問(wèn)題談?wù)勛约旱挠^點(diǎn)和看法)。
1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
-- 喜歡的。從最初的dos命令行,truboC的命令行編譯及執(zhí)行,到unix和linux時(shí)代命令行的普遍應(yīng)用。他是一個(gè)系統(tǒng)工程師的普遍技能。
但命令行是結(jié)構(gòu)化編程變成的產(chǎn)物,在面向?qū)ο缶幊痰慕裉欤非髮?duì)象的引用、類的實(shí)例化、RPC的時(shí)候。命令行就其不能應(yīng)對(duì)復(fù)雜的
調(diào)用關(guān)系和形象的編程。尤其對(duì)于UE用戶體驗(yàn)要求較高的場(chǎng)合,命令行基本用不上。所以命令行與圖形界面基本是這樣分布的:
    命令行堅(jiān)守的領(lǐng)域:
    服務(wù)器端的對(duì)硬件資源(cpu、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ))的控制(內(nèi)存配額、進(jìn)程監(jiān)控等)、服務(wù)的啟動(dòng)停止(service的操作)、單一的操作(上傳、grep文字查找、計(jì)劃任務(wù))、
底層的安裝與配置,運(yùn)維人員、系統(tǒng)拓?fù)淙藛T、集成工程師。
   以下場(chǎng)合對(duì)于命令行是沒(méi)有需求的:
   軟件的復(fù)雜應(yīng)用、前端工程師、軟件設(shè)計(jì)師。甚至數(shù)據(jù)庫(kù)管理員(較低的要求,簡(jiǎn)單的shell語(yǔ)法)等。APP程序員,敏捷開發(fā)的面向終端用戶的
程序員。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
  編輯配置文檔我是從vi,vim起步的,emacs,sed,markdown(用在git中)。
  shell腳本,存儲(chǔ)過(guò)程的編寫。
  資源(cpu、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ))監(jiān)控時(shí)也用各種命令行工具。
  安裝和配置應(yīng)用環(huán)境。如云平臺(tái)的安裝、tomcat、tomcat等webserver的安裝配置、
數(shù)據(jù)庫(kù)的安裝配,數(shù)據(jù)庫(kù)的計(jì)劃任務(wù)、備份、同步、數(shù)據(jù)分析等。

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?br /> -- 數(shù)據(jù)獲。
  定義:數(shù)據(jù)獲取是指利用一種裝置,將來(lái)自各種數(shù)據(jù)源的數(shù)據(jù)自動(dòng)收集到一個(gè)裝置中。被采集數(shù)據(jù)是已被轉(zhuǎn)換為電訊號(hào)的各種物理量,如溫度、水位、風(fēng)速、壓力等,可以是模擬量,也可以是數(shù)字量。采集一般是采樣方式,即隔一定時(shí)間(稱采樣周期)對(duì)同一點(diǎn)數(shù)據(jù)重復(fù)采集。采集的數(shù)據(jù)大多是瞬時(shí)值,也可是某段時(shí)間內(nèi)的一個(gè)特征值。準(zhǔn)確的數(shù)據(jù)量測(cè)是數(shù)據(jù)采集的基礎(chǔ)。數(shù)據(jù)量測(cè)方法有接觸式和非接觸式,檢測(cè)元件多種多樣。不論哪種方法和元件,均以不影響被測(cè)對(duì)象狀態(tài)和測(cè)量環(huán)境為前提,以保證數(shù)據(jù)的正確性。數(shù)據(jù)獲取含義很廣,包抱對(duì)面狀連續(xù)物理量的采集。在計(jì)算機(jī)輔助制圖、測(cè)圖、設(shè)計(jì)中,對(duì)圖形或圖像數(shù)字化過(guò)程也可稱為數(shù)據(jù)獲取,此時(shí)被采集的是幾何量(或包括物理量,如灰度)數(shù)據(jù)。
  數(shù)據(jù)的獲取關(guān)鍵在于:
1:采用的“裝置”、騰訊的QQ是她們的一個(gè)裝置。裝置決定了數(shù)據(jù)的普遍程度。
2:數(shù)據(jù)源:多樣性的數(shù)據(jù)源。按年齡段、按操作行為(手機(jī)端、PC端等)、其他入口方式。
3:數(shù)據(jù)周期: 即采樣周期。
  只有數(shù)據(jù)獲取的各個(gè)方面做好,才會(huì)產(chǎn)生有效的、可分析的、結(jié)果真實(shí)的數(shù)據(jù)集合。
利于后面的數(shù)據(jù)清洗、數(shù)據(jù)探索、數(shù)據(jù)建模、數(shù)據(jù)解釋的工作。

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
-- 前面已經(jīng)說(shuō)過(guò),命令行在特定的場(chǎng)景和特定人員會(huì)大量存在。不會(huì)過(guò)時(shí)。
命令行工具和技術(shù)永遠(yuǎn)在發(fā)揮著它的更接近于底層,一個(gè)個(gè)對(duì)資源(cpu、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ))的有效利用。
對(duì)文本的簡(jiǎn)單編輯和迅速執(zhí)行。不需要太多的外部環(huán)境(運(yùn)行環(huán)境相對(duì)簡(jiǎn)單)。

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。
-- 除了grep、sed、awk等通用的工具。下載工具gwet,sftp,smaba,rsync和畫面交互的curl等。
   以及眾多的restAPI應(yīng)用工具。

論壇徽章:
2
射手座
日期:2014-10-10 15:59:4715-16賽季CBA聯(lián)賽之上海
日期:2016-03-03 10:27:14
26 [報(bào)告]
發(fā)表于 2015-07-17 23:19 |只看該作者

本期話題讓我們暢想一下命令行技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用(可任選下面的一個(gè)或者幾個(gè)問(wèn)題談?wù)勛约旱挠^點(diǎn)和看法)。
1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
非常喜歡用命令行,linux環(huán)境下的各種工具,離不開命令行。我的學(xué)習(xí)之路,有80%的代碼都是在命令行學(xué)習(xí)和運(yùn)行的。很喜歡這種“溝通”方式,以至于在學(xué)習(xí)python/R的時(shí)候,很不習(xí)慣IDE模式了,覺(jué)得不夠直接。
優(yōu)點(diǎn),比如用awk/sed/grep等處理文本,命令行里操作無(wú)疑是高效的。經(jīng)常是一段代碼從頭寫到尾,不換行,一氣呵成,感覺(jué)只有這種方式不會(huì)把在腦子里形成的偽代碼思路隔斷。
另外,命令行的管道用法也是極好的。
不足之處,我覺(jué)得是命令行畢竟是依賴于終端,history的記錄數(shù)有限,對(duì)于新手或不熟悉linux環(huán)境的童鞋們,一旦終端關(guān)閉,再想找回之前的代碼記錄并不是一件容易的事。當(dāng)然,高手們不會(huì)為此感到煩惱。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。

到目前為止,用過(guò)awk/sed/perl/grep等,主要解決是文本問(wèn)題,比如格式轉(zhuǎn)換,文本統(tǒng)計(jì),簡(jiǎn)單的數(shù)學(xué)計(jì)算,信息篩選等等。

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫。這個(gè)

數(shù)據(jù)獲取,這是從事數(shù)據(jù)科學(xué)的源頭,如同做飯要用食材一樣,當(dāng)然數(shù)據(jù)的獲取,最好是能本人參與,這樣才能更好的理解數(shù)據(jù)所要反應(yīng)的事實(shí)。
數(shù)據(jù)清洗,應(yīng)該算是淘米和洗菜的步驟吧,非常重要,經(jīng)過(guò)篩選處理,去偽存真,得到高可信度,高保真的數(shù)據(jù),才能給后面的進(jìn)一步分析提供準(zhǔn)確的信息。
數(shù)據(jù)探索,不明覺(jué)厲。
數(shù)據(jù)建模,高大上的求知過(guò)程,利用數(shù)學(xué)/物理等知識(shí),對(duì)數(shù)據(jù)歸類,模擬,挖掘本質(zhì),算是機(jī)器學(xué)習(xí)的范疇。最近,機(jī)器學(xué)習(xí)的火焰算是真的燒起來(lái)了,google的大牛們把各種神經(jīng)網(wǎng)絡(luò)算法的研究,將對(duì)人工智能開發(fā),信息預(yù)測(cè),精準(zhǔn)醫(yī)藥等領(lǐng)域帶來(lái)新的變革。對(duì)此只有膜拜了!

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?

一直用命令行處理文本問(wèn)題,而對(duì)于數(shù)據(jù)科學(xué)在命令行的操作,沒(méi)有實(shí)際經(jīng)驗(yàn),無(wú)從評(píng)述。不過(guò),總感覺(jué),數(shù)據(jù)科學(xué)這種高大上的研究,命令行會(huì)不會(huì)略顯單薄。

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。
有個(gè)xml_grep的perl模塊推薦一下。
另外,perl在命令行的表現(xiàn)也是非常贊的,尤其是它的強(qiáng)大的正則。

@zsszss0000C大神,非常想得到這本書



評(píng)分

參與人數(shù) 1信譽(yù)積分 +5 收起 理由
zsszss0000 + 5 很給力!

查看全部評(píng)分

論壇徽章:
32
CU大;照
日期:2013-05-20 10:45:13每日論壇發(fā)貼之星
日期:2015-09-07 06:20:00每日論壇發(fā)貼之星
日期:2015-09-07 06:20:00數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2015-12-13 06:20:0015-16賽季CBA聯(lián)賽之江蘇
日期:2016-03-03 11:56:13IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-07-23 06:20:0015-16賽季CBA聯(lián)賽之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金雞報(bào)曉
日期:2017-01-10 15:13:292017金雞報(bào)曉
日期:2017-02-08 10:33:21
27 [報(bào)告]
發(fā)表于 2015-07-28 10:15 |只看該作者
1、您是否喜歡用命令行?
使用命令行是很有趣的,記住各種命令,學(xué)會(huì)腳本的編寫,用命令行是非常高效的。
即使是使用Windows Server,我們也可以使用PowerShell,繼續(xù)享受命令行的樂(lè)趣。
對(duì)于初學(xué)者來(lái)說(shuō),命令行需要學(xué)習(xí)并記住很多命令及用法,顯得頗有難度。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
Linux Shell,Python的Shell、Ruby的Shell等。
Linux Shell我用于解決服務(wù)器維護(hù)、搭建生產(chǎn)環(huán)境、部署業(yè)務(wù)、測(cè)試等等。
Python Shell、Ruby Shell通常用于開發(fā)及調(diào)試代碼。

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?br /> 數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。
數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái)而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù),將過(guò)濾的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
命令行不會(huì)過(guò)時(shí)的,它是Linux愛好者(程序員、運(yùn)維工程師……)的至愛。
命令行的高效性是圖形界面工具所沒(méi)有的。

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。
1)可以考慮Perl語(yǔ)言
Perl借取了C、sed、awk、shell scripting以及很多其他程序語(yǔ)言的特性。其中最重要的特性是它內(nèi)部集成了正則表達(dá)式的功能,以及巨大的第三方代碼庫(kù)CPAN。簡(jiǎn)而言之,Perl像C一樣強(qiáng)大,像awk、sed等腳本描述語(yǔ)言一樣方便,被稱之為“一種擁有各種語(yǔ)言功能的夢(mèng)幻腳本語(yǔ)言”、“Unix 中的王牌工具”。
2)可以考慮Lua語(yǔ)言
Lua是一個(gè)小巧的腳本語(yǔ)言。Lua由標(biāo)準(zhǔn)C編寫而成,幾乎在所有操作系統(tǒng)和平臺(tái)上都可以編譯,運(yùn)行。一個(gè)完整的Lua解釋器不過(guò)200k,在目前所有腳本引擎中,Lua的速度是最快的。
3)一些命令行工具包
csvstat:Prints descriptive statistics for all columns in a CSV file. Will intelligently determine the type of each column and then print analysis relevant to that type (ranges for dates, mean and median for integers, etc.)
http://csvkit.readthedocs.org/en/latest/scripts/csvstat.html
……

評(píng)分

參與人數(shù) 1信譽(yù)積分 +5 收起 理由
zsszss0000 + 5 很給力!

查看全部評(píng)分

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2015-07-10 15:49 |只看該作者
現(xiàn)有的各種大數(shù)據(jù)平臺(tái)安裝部署開發(fā)過(guò)程幾乎都是用的命令行。∵@有什么好討論的?

求職 : 機(jī)器學(xué)習(xí)
論壇徽章:
79
2015年亞洲杯紀(jì)念徽章
日期:2015-05-06 19:18:572015七夕節(jié)徽章
日期:2015-08-21 11:06:172015亞冠之阿爾納斯?fàn)?日期:2015-09-07 09:30:232015亞冠之薩濟(jì)拖拉機(jī)
日期:2015-10-21 08:26:3915-16賽季CBA聯(lián)賽之浙江
日期:2015-12-30 09:59:1815-16賽季CBA聯(lián)賽之浙江
日期:2016-01-10 12:35:21技術(shù)圖書徽章
日期:2016-01-15 11:07:2015-16賽季CBA聯(lián)賽之新疆
日期:2016-02-24 13:46:0215-16賽季CBA聯(lián)賽之吉林
日期:2016-06-26 01:07:172015-2016NBA季后賽紀(jì)念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16賽季CBA聯(lián)賽之浙江
日期:2017-07-18 13:41:54
3 [報(bào)告]
發(fā)表于 2015-07-10 15:52 |只看該作者
那么對(duì)于數(shù)據(jù)本身的處理呢?回復(fù) 2# snhanwei


   

論壇徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辭舊歲徽章
日期:2015-03-03 16:54:152015年亞洲杯之烏茲別克斯坦
日期:2015-03-27 14:01:172015年亞洲杯之約旦
日期:2015-03-31 15:06:442015亞冠之首爾
日期:2015-06-16 23:24:37IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-07-01 22:20:002015亞冠之德黑蘭石油
日期:2015-07-08 09:32:07IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-29 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-29 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-10 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-11 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00
4 [報(bào)告]
發(fā)表于 2015-07-10 17:02 |只看該作者
CLI模式不可能不用

論壇徽章:
59
2015七夕節(jié)徽章
日期:2015-08-24 11:17:25ChinaUnix專家徽章
日期:2015-07-20 09:19:30每周論壇發(fā)貼之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38榮譽(yù)版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年紀(jì)念徽章
日期:2015-07-20 11:05:27IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-07-20 11:05:34操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-07-20 11:05:36程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-07-20 11:05:40數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2015-07-20 11:05:432015年辭舊歲徽章
日期:2015-07-20 11:05:44
5 [報(bào)告]
發(fā)表于 2015-07-10 17:04 |只看該作者
支持一下版版的活動(dòng)。

論壇徽章:
10
CU大;照
日期:2013-05-20 10:44:54數(shù)據(jù)庫(kù)技術(shù)版塊每日發(fā)帖之星
日期:2015-06-09 22:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-06-05 22:20:00亥豬
日期:2014-08-23 14:52:27摩羯座
日期:2013-11-29 18:02:31CU十二周年紀(jì)念徽章
日期:2013-10-24 15:41:34CU大;照
日期:2013-05-20 10:45:31CU大;照
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:13綜合交流區(qū)版塊每日發(fā)帖之星
日期:2016-02-12 06:20:00
6 [報(bào)告]
發(fā)表于 2015-07-10 18:37 |只看該作者
回復(fù) 1# zsszss0000
好書,好活動(dòng)力頂一下~
命令行給系統(tǒng)管理員及開發(fā)人員帶來(lái)的靈活性和快感不是圖形界面所能夠替代的了得~我相信無(wú)論技術(shù)怎樣發(fā)展命令行這種方式會(huì)歷久彌新,永遠(yuǎn)會(huì)散發(fā)出勃勃生機(jī)~這就是我的態(tài)度

論壇徽章:
93
2015年辭舊歲徽章
日期:2019-10-10 10:51:15CU大;照
日期:2014-02-21 14:21:56CU十二周年紀(jì)念徽章
日期:2020-10-15 16:55:55CU大;照
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大;照
日期:2019-10-10 10:55:38季節(jié)之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季節(jié)之章:冬
日期:2019-10-10 10:57:17CU大;照
日期:2014-02-21 14:22:52CU大;照
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
7 [報(bào)告]
發(fā)表于 2015-07-12 01:41 |只看該作者
討論話題
本期話題讓我們暢想一下命令行技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用(可任選下面的一個(gè)或者幾個(gè)問(wèn)題談?wù)勛约旱挠^點(diǎn)和看法)。
1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
-- 喜歡命令行啊,不用鼠標(biāo)操作減少鼠標(biāo)手的煩惱呀 命令行的魅力在于靈活、容易實(shí)現(xiàn)自動(dòng)化批量化、系統(tǒng)要求低、不同平臺(tái)的同樣命令行工具下的操作相同。不足就是不夠直觀,上手比GUI慢一些。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
-- bash shell 寫腳本
-- mysql、mysqldump 數(shù)據(jù)庫(kù)操作
-- grep awk sed 文件處理三劍客,當(dāng)然還有 sort cut uniq 等等太多了……

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?br /> -- 個(gè)人理解的話,感覺(jué)這個(gè)就像做菜,a 先要有原材料,有菜;b 洗菜,過(guò)濾無(wú)用數(shù)據(jù);c 探索菜譜,能做啥菜;d 建模->實(shí)際做菜;e 解釋->吃菜,吸收營(yíng)養(yǎng)

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
-- 要說(shuō)命令行工具的話,和數(shù)據(jù)打交道多的就是 mysql 了,對(duì)于數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)說(shuō)可以用 mysql 或 mysqldump 獲取數(shù)據(jù),可以在 mysql 里做數(shù)據(jù)過(guò)濾,也可以用 awk sed grep 等過(guò)濾,剩下的好像就是比較專業(yè)的部門搞的了,用啥 R 語(yǔ)言什么的不大懂,反正能分析出一些數(shù)據(jù)背后揭示的意義來(lái),很了不起。好像也有用命令行的 R matlab gnuplot 等做分析的,這方面太專業(yè),會(huì)用工具也還得有專業(yè)知識(shí)才能會(huì),所以都沒(méi)去深究

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。
-- 除了 csv 用通用工具還能比較方便的處理外,其它的格式還真是很吃力,忘記了論壇里有人推薦專門的工具是什么了,用不上,都沒(méi)記下來(lái)

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2015-07-12 02:57 |只看該作者
本帖最后由 lyx791009 于 2015-07-12 03:09 編輯

1、您是否喜歡用命令行?請(qǐng)談?wù)勀阊壑忻钚泄ぞ呋蛘呒夹g(shù)的魅力所在或者不足之處。
喜歡,命令行工具最大的好處是可以很輕松的集成各種途徑獲得的計(jì)算分析和繪圖工具,唯一的不足是入門需要的時(shí)間稍長(zhǎng)一點(diǎn)。

2、您接觸過(guò)哪些命令行工具,解決什么類型的問(wèn)題。
讀取各種科學(xué)數(shù)據(jù)格式的工具,netcdf,hdf,hdf5等庫(kù)自帶的工具,nco包。
繪圖工具,gnuplot,ncl
天氣預(yù)報(bào)程序,wrf
氣象指數(shù)程序包,cdo
地理信息系統(tǒng)的工具箱,arcgis,grass

3、有種觀點(diǎn)認(rèn)為數(shù)據(jù)科學(xué)可以分為如下五個(gè)部分: a)數(shù)據(jù)獲取 b)數(shù)據(jù)清洗 c)數(shù)據(jù)探索 d)數(shù)據(jù)建模 e)數(shù)據(jù)解釋?煞裉暨x上面的一個(gè)方面或者幾個(gè)方面談?wù)勀愕睦斫狻?br /> 數(shù)據(jù)清洗我理解為對(duì)數(shù)據(jù)的質(zhì)量控制,根據(jù)相應(yīng)的規(guī)則去掉錯(cuò)誤和異常的數(shù)據(jù),越精密的數(shù)學(xué)模型對(duì)輸入數(shù)據(jù)的要求就越高,就像好的發(fā)動(dòng)機(jī)需要高標(biāo)號(hào)的汽油一樣。
數(shù)據(jù)解釋是最關(guān)鍵的一步,僅僅根據(jù)數(shù)據(jù)找出相關(guān)性,但缺乏相關(guān)領(lǐng)域的理解和解釋,是很危險(xiǎn)的。經(jīng)典例子,一個(gè)嬰兒和一棵樹苗,在發(fā)育期的時(shí)間交集區(qū)間內(nèi)都會(huì)長(zhǎng)高,如果看數(shù)據(jù),相關(guān)性是非常好的,但是這兩組數(shù)據(jù)是沒(méi)有關(guān)系的,如果不能用合理的行業(yè)知識(shí)解釋數(shù)據(jù)的結(jié)果,就很容易犯這種錯(cuò)誤。

4、您認(rèn)為對(duì)于解決3中各類問(wèn)題,命令行過(guò)時(shí)了嗎?命令行工具和技術(shù)是否仍然能夠發(fā)揮自己的作用呢?
命令行在實(shí)施數(shù)據(jù)計(jì)算分析處理方面,是跨行業(yè)、跨學(xué)科的人進(jìn)行有效協(xié)作,最簡(jiǎn)單直接的方式。數(shù)據(jù)分析處理光靠學(xué)計(jì)算機(jī)的專業(yè)程序員是不夠的,更多的是依靠各個(gè)學(xué)科領(lǐng)域的專業(yè)人士編寫的程序包。在很多情況下,R,matlab,F(xiàn)ortran是這些人僅會(huì)的語(yǔ)言,他們最后的成果匯集起來(lái)可能就是一個(gè)個(gè)命令行程序;诠艿篮湍_本語(yǔ)言粘合的系統(tǒng)是很常見的并且簡(jiǎn)單有效的方式。原型系統(tǒng)需要靠這種合作方式來(lái)產(chǎn)生,以后根據(jù)實(shí)際需要再來(lái)改寫優(yōu)化性能。

5、在處理html、xml、json,csv這里數(shù)據(jù)的時(shí)候,除了grep、sed、awk等通用的工具以為,是否還有其他使用起來(lái)更加簡(jiǎn)單易學(xué)的命令行技術(shù)或者工具大家分享一下。
我覺(jué)得替代shell工具集最好的選擇是python,不過(guò)好像也談不上簡(jiǎn)單易學(xué)。

論壇徽章:
154
2022北京冬奧會(huì)紀(jì)念版徽章
日期:2015-08-07 17:10:5720周年集字徽章-年
日期:2022-10-26 16:44:2015-16賽季CBA聯(lián)賽之深圳
日期:2022-11-02 14:02:4515-16賽季CBA聯(lián)賽之八一
日期:2022-11-28 12:07:4820周年集字徽章-20	
日期:2023-07-19 08:49:4515-16賽季CBA聯(lián)賽之八一
日期:2023-11-04 19:23:5115-16賽季CBA聯(lián)賽之廣夏
日期:2023-12-13 18:09:34
9 [報(bào)告]
發(fā)表于 2015-07-12 08:34 來(lái)自手機(jī) |只看該作者
支持一下活動(dòng),不過(guò)現(xiàn)在基本不用命令行了
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP